Approches jointes texte/image pour la compréhension multimodale de documents

Les mécanismes de compréhension chez l'être humain sont par essence multimodaux. Comprendre le monde qui l'entoure revient chez l'être humain à fusionner l'information issue de l'ensemble de ses récepteurs sensoriels. La plupart des documents utilisés en traitement automatiq...

Full description

Bibliographic Details
Main Author: Delecraz, Sébastien
Other Authors: Aix-Marseille
Language:fr
Published: 2018
Subjects:
004
Online Access:http://www.theses.fr/2018AIXM0634/document
id ndltd-theses.fr-2018AIXM0634
record_format oai_dc
spelling ndltd-theses.fr-2018AIXM06342019-07-04T05:08:43Z Approches jointes texte/image pour la compréhension multimodale de documents Text/image joint approaches for multimodal understanding of documents Compréhension multimodale Apprentissage automatique multimodal Réseaux de neurones profonds Traitement automatique des langues Traitement automatique de l'image Multimodal understanding Multimodal machine learning Deep neural networks Natural language processing Image processing 004 Les mécanismes de compréhension chez l'être humain sont par essence multimodaux. Comprendre le monde qui l'entoure revient chez l'être humain à fusionner l'information issue de l'ensemble de ses récepteurs sensoriels. La plupart des documents utilisés en traitement automatique de l'information sont multimodaux. Par exemple, du texte et des images dans des documents textuels ou des images et du son dans des documents vidéo. Cependant, les traitements qui leurs sont appliqués sont le plus souvent monomodaux. Le but de cette thèse est de proposer des traitements joints s'appliquant principalement au texte et à l'image pour le traitement de documents multimodaux à travers deux études : l'une portant sur la fusion multimodale pour la reconnaissance du rôle du locuteur dans des émissions télévisuelles, l'autre portant sur la complémentarité des modalités pour une tâche d'analyse linguistique sur des corpus d'images avec légendes. Pour la première étude nous nous intéressons à l'analyse de documents audiovisuels provenant de chaînes d'information télévisuelle. Nous proposons une approche utilisant des réseaux de neurones profonds pour la création d'une représentation jointe multimodale pour les représentations et la fusion des modalités. Dans la seconde partie de cette thèse nous nous intéressons aux approches permettant d'utiliser plusieurs sources d'informations multimodales pour une tâche monomodale de traitement automatique du langage, afin d'étudier leur complémentarité. Nous proposons un système complet de correction de rattachements prépositionnels utilisant de l'information visuelle, entraîné sur un corpus multimodal d'images avec légendes. The human faculties of understanding are essentially multimodal. To understand the world around them, human beings fuse the information coming from all of their sensory receptors. Most of the documents used in automatic information processing contain multimodal information, for example text and image in textual documents or image and sound in video documents, however the processings used are most often monomodal. The aim of this thesis is to propose joint processes applying mainly to text and image for the processing of multimodal documents through two studies: one on multimodal fusion for the speaker role recognition in television broadcasts, the other on the complementarity of modalities for a task of linguistic analysis on corpora of images with captions. In the first part of this study, we interested in audiovisual documents analysis from news television channels. We propose an approach that uses in particular deep neural networks for representation and fusion of modalities. In the second part of this thesis, we are interested in approaches allowing to use several sources of multimodal information for a monomodal task of natural language processing in order to study their complementarity. We propose a complete system of correction of prepositional attachments using visual information, trained on a multimodal corpus of images with captions. Electronic Thesis or Dissertation Text fr http://www.theses.fr/2018AIXM0634/document Delecraz, Sébastien 2018-12-10 Aix-Marseille Béchet, Frédéric Favre, Benoît
collection NDLTD
language fr
sources NDLTD
topic Compréhension multimodale
Apprentissage automatique multimodal
Réseaux de neurones profonds
Traitement automatique des langues
Traitement automatique de l'image
Multimodal understanding
Multimodal machine learning
Deep neural networks
Natural language processing
Image processing
004
spellingShingle Compréhension multimodale
Apprentissage automatique multimodal
Réseaux de neurones profonds
Traitement automatique des langues
Traitement automatique de l'image
Multimodal understanding
Multimodal machine learning
Deep neural networks
Natural language processing
Image processing
004
Delecraz, Sébastien
Approches jointes texte/image pour la compréhension multimodale de documents
description Les mécanismes de compréhension chez l'être humain sont par essence multimodaux. Comprendre le monde qui l'entoure revient chez l'être humain à fusionner l'information issue de l'ensemble de ses récepteurs sensoriels. La plupart des documents utilisés en traitement automatique de l'information sont multimodaux. Par exemple, du texte et des images dans des documents textuels ou des images et du son dans des documents vidéo. Cependant, les traitements qui leurs sont appliqués sont le plus souvent monomodaux. Le but de cette thèse est de proposer des traitements joints s'appliquant principalement au texte et à l'image pour le traitement de documents multimodaux à travers deux études : l'une portant sur la fusion multimodale pour la reconnaissance du rôle du locuteur dans des émissions télévisuelles, l'autre portant sur la complémentarité des modalités pour une tâche d'analyse linguistique sur des corpus d'images avec légendes. Pour la première étude nous nous intéressons à l'analyse de documents audiovisuels provenant de chaînes d'information télévisuelle. Nous proposons une approche utilisant des réseaux de neurones profonds pour la création d'une représentation jointe multimodale pour les représentations et la fusion des modalités. Dans la seconde partie de cette thèse nous nous intéressons aux approches permettant d'utiliser plusieurs sources d'informations multimodales pour une tâche monomodale de traitement automatique du langage, afin d'étudier leur complémentarité. Nous proposons un système complet de correction de rattachements prépositionnels utilisant de l'information visuelle, entraîné sur un corpus multimodal d'images avec légendes. === The human faculties of understanding are essentially multimodal. To understand the world around them, human beings fuse the information coming from all of their sensory receptors. Most of the documents used in automatic information processing contain multimodal information, for example text and image in textual documents or image and sound in video documents, however the processings used are most often monomodal. The aim of this thesis is to propose joint processes applying mainly to text and image for the processing of multimodal documents through two studies: one on multimodal fusion for the speaker role recognition in television broadcasts, the other on the complementarity of modalities for a task of linguistic analysis on corpora of images with captions. In the first part of this study, we interested in audiovisual documents analysis from news television channels. We propose an approach that uses in particular deep neural networks for representation and fusion of modalities. In the second part of this thesis, we are interested in approaches allowing to use several sources of multimodal information for a monomodal task of natural language processing in order to study their complementarity. We propose a complete system of correction of prepositional attachments using visual information, trained on a multimodal corpus of images with captions.
author2 Aix-Marseille
author_facet Aix-Marseille
Delecraz, Sébastien
author Delecraz, Sébastien
author_sort Delecraz, Sébastien
title Approches jointes texte/image pour la compréhension multimodale de documents
title_short Approches jointes texte/image pour la compréhension multimodale de documents
title_full Approches jointes texte/image pour la compréhension multimodale de documents
title_fullStr Approches jointes texte/image pour la compréhension multimodale de documents
title_full_unstemmed Approches jointes texte/image pour la compréhension multimodale de documents
title_sort approches jointes texte/image pour la compréhension multimodale de documents
publishDate 2018
url http://www.theses.fr/2018AIXM0634/document
work_keys_str_mv AT delecrazsebastien approchesjointestexteimagepourlacomprehensionmultimodalededocuments
AT delecrazsebastien textimagejointapproachesformultimodalunderstandingofdocuments
_version_ 1719219918488993792