Approches jointes texte/image pour la compréhension multimodale de documents

Les mécanismes de compréhension chez l'être humain sont par essence multimodaux. Comprendre le monde qui l'entoure revient chez l'être humain à fusionner l'information issue de l'ensemble de ses récepteurs sensoriels. La plupart des documents utilisés en traitement automatiq...

Full description

Bibliographic Details
Main Author:	Delecraz, Sébastien
Other Authors:	Aix-Marseille
Language:	fr
Published:	2018
Subjects:	Compréhension multimodale Apprentissage automatique multimodal Réseaux de neurones profonds Traitement automatique des langues Traitement automatique de l'image Multimodal understanding Multimodal machine learning Deep neural networks Natural language processing Image processing 004
Online Access:	http://www.theses.fr/2018AIXM0634/document

id	ndltd-theses.fr-2018AIXM0634
record_format	oai_dc
spelling	ndltd-theses.fr-2018AIXM06342019-07-04T05:08:43Z Approches jointes texte/image pour la compréhension multimodale de documents Text/image joint approaches for multimodal understanding of documents Compréhension multimodale Apprentissage automatique multimodal Réseaux de neurones profonds Traitement automatique des langues Traitement automatique de l'image Multimodal understanding Multimodal machine learning Deep neural networks Natural language processing Image processing 004 Les mécanismes de compréhension chez l'être humain sont par essence multimodaux. Comprendre le monde qui l'entoure revient chez l'être humain à fusionner l'information issue de l'ensemble de ses récepteurs sensoriels. La plupart des documents utilisés en traitement automatique de l'information sont multimodaux. Par exemple, du texte et des images dans des documents textuels ou des images et du son dans des documents vidéo. Cependant, les traitements qui leurs sont appliqués sont le plus souvent monomodaux. Le but de cette thèse est de proposer des traitements joints s'appliquant principalement au texte et à l'image pour le traitement de documents multimodaux à travers deux études : l'une portant sur la fusion multimodale pour la reconnaissance du rôle du locuteur dans des émissions télévisuelles, l'autre portant sur la complémentarité des modalités pour une tâche d'analyse linguistique sur des corpus d'images avec légendes. Pour la première étude nous nous intéressons à l'analyse de documents audiovisuels provenant de chaînes d'information télévisuelle. Nous proposons une approche utilisant des réseaux de neurones profonds pour la création d'une représentation jointe multimodale pour les représentations et la fusion des modalités. Dans la seconde partie de cette thèse nous nous intéressons aux approches permettant d'utiliser plusieurs sources d'informations multimodales pour une tâche monomodale de traitement automatique du langage, afin d'étudier leur complémentarité. Nous proposons un système complet de correction de rattachements prépositionnels utilisant de l'information visuelle, entraîné sur un corpus multimodal d'images avec légendes. The human faculties of understanding are essentially multimodal. To understand the world around them, human beings fuse the information coming from all of their sensory receptors. Most of the documents used in automatic information processing contain multimodal information, for example text and image in textual documents or image and sound in video documents, however the processings used are most often monomodal. The aim of this thesis is to propose joint processes applying mainly to text and image for the processing of multimodal documents through two studies: one on multimodal fusion for the speaker role recognition in television broadcasts, the other on the complementarity of modalities for a task of linguistic analysis on corpora of images with captions. In the first part of this study, we interested in audiovisual documents analysis from news television channels. We propose an approach that uses in particular deep neural networks for representation and fusion of modalities. In the second part of this thesis, we are interested in approaches allowing to use several sources of multimodal information for a monomodal task of natural language processing in order to study their complementarity. We propose a complete system of correction of prepositional attachments using visual information, trained on a multimodal corpus of images with captions. Electronic Thesis or Dissertation Text fr http://www.theses.fr/2018AIXM0634/document Delecraz, Sébastien 2018-12-10 Aix-Marseille Béchet, Frédéric Favre, Benoît
collection	NDLTD
language	fr
sources	NDLTD
topic	Compréhension multimodale Apprentissage automatique multimodal Réseaux de neurones profonds Traitement automatique des langues Traitement automatique de l'image Multimodal understanding Multimodal machine learning Deep neural networks Natural language processing Image processing 004
spellingShingle	Compréhension multimodale Apprentissage automatique multimodal Réseaux de neurones profonds Traitement automatique des langues Traitement automatique de l'image Multimodal understanding Multimodal machine learning Deep neural networks Natural language processing Image processing 004 Delecraz, Sébastien Approches jointes texte/image pour la compréhension multimodale de documents
description	Les mécanismes de compréhension chez l'être humain sont par essence multimodaux. Comprendre le monde qui l'entoure revient chez l'être humain à fusionner l'information issue de l'ensemble de ses récepteurs sensoriels. La plupart des documents utilisés en traitement automatique de l'information sont multimodaux. Par exemple, du texte et des images dans des documents textuels ou des images et du son dans des documents vidéo. Cependant, les traitements qui leurs sont appliqués sont le plus souvent monomodaux. Le but de cette thèse est de proposer des traitements joints s'appliquant principalement au texte et à l'image pour le traitement de documents multimodaux à travers deux études : l'une portant sur la fusion multimodale pour la reconnaissance du rôle du locuteur dans des émissions télévisuelles, l'autre portant sur la complémentarité des modalités pour une tâche d'analyse linguistique sur des corpus d'images avec légendes. Pour la première étude nous nous intéressons à l'analyse de documents audiovisuels provenant de chaînes d'information télévisuelle. Nous proposons une approche utilisant des réseaux de neurones profonds pour la création d'une représentation jointe multimodale pour les représentations et la fusion des modalités. Dans la seconde partie de cette thèse nous nous intéressons aux approches permettant d'utiliser plusieurs sources d'informations multimodales pour une tâche monomodale de traitement automatique du langage, afin d'étudier leur complémentarité. Nous proposons un système complet de correction de rattachements prépositionnels utilisant de l'information visuelle, entraîné sur un corpus multimodal d'images avec légendes. === The human faculties of understanding are essentially multimodal. To understand the world around them, human beings fuse the information coming from all of their sensory receptors. Most of the documents used in automatic information processing contain multimodal information, for example text and image in textual documents or image and sound in video documents, however the processings used are most often monomodal. The aim of this thesis is to propose joint processes applying mainly to text and image for the processing of multimodal documents through two studies: one on multimodal fusion for the speaker role recognition in television broadcasts, the other on the complementarity of modalities for a task of linguistic analysis on corpora of images with captions. In the first part of this study, we interested in audiovisual documents analysis from news television channels. We propose an approach that uses in particular deep neural networks for representation and fusion of modalities. In the second part of this thesis, we are interested in approaches allowing to use several sources of multimodal information for a monomodal task of natural language processing in order to study their complementarity. We propose a complete system of correction of prepositional attachments using visual information, trained on a multimodal corpus of images with captions.
author2	Aix-Marseille
author_facet	Aix-Marseille Delecraz, Sébastien
author	Delecraz, Sébastien
author_sort	Delecraz, Sébastien
title	Approches jointes texte/image pour la compréhension multimodale de documents
title_short	Approches jointes texte/image pour la compréhension multimodale de documents
title_full	Approches jointes texte/image pour la compréhension multimodale de documents
title_fullStr	Approches jointes texte/image pour la compréhension multimodale de documents
title_full_unstemmed	Approches jointes texte/image pour la compréhension multimodale de documents
title_sort	approches jointes texte/image pour la compréhension multimodale de documents
publishDate	2018
url	http://www.theses.fr/2018AIXM0634/document
work_keys_str_mv	AT delecrazsebastien approchesjointestexteimagepourlacomprehensionmultimodalededocuments AT delecrazsebastien textimagejointapproachesformultimodalunderstandingofdocuments
_version_	1719219918488993792

Approches jointes texte/image pour la compréhension multimodale de documents

Similar Items