Apprentissage de co-similarités pour la classification automatique de données monovues et multivues

L'apprentissage automatique consiste à concevoir des programmes informatiques capables d'apprendre à partir de leurs environnement, ou bien à partir de données. Il existe différents types d'apprentissage, selon que l'on cherche à faire apprendre au programme, et également selon l...

Full description

Bibliographic Details
Main Author: Grimal, Clement
Language:fra
Published: Université de Grenoble 2012
Subjects:
Online Access:http://tel.archives-ouvertes.fr/tel-00819840
http://tel.archives-ouvertes.fr/docs/00/81/98/40/PDF/32661_GRIMAL_2012_archivage1.pdf
id ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00819840
record_format oai_dc
spelling ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-008198402014-10-14T03:24:30Z http://tel.archives-ouvertes.fr/tel-00819840 2012GRENM092 http://tel.archives-ouvertes.fr/docs/00/81/98/40/PDF/32661_GRIMAL_2012_archivage1.pdf Apprentissage de co-similarités pour la classification automatique de données monovues et multivues Grimal, Clement [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Apprentissage automatique Classification Similarité Données multivue L'apprentissage automatique consiste à concevoir des programmes informatiques capables d'apprendre à partir de leurs environnement, ou bien à partir de données. Il existe différents types d'apprentissage, selon que l'on cherche à faire apprendre au programme, et également selon le cadre dans lequel il doit apprendre, ce qui constitue différentes tâches. Les mesures de similarité jouent un rôle prépondérant dans la plupart de ces tâches, c'est pourquoi les travaux de cette thèse se concentrent sur leur étude. Plus particulièrement, nous nous intéressons à la classification de données, qui est une tâche d'apprentissage dit non supervisé, dans lequel le programme doit organiser un ensemble d'objets en plusieurs classes distinctes, de façon à regrouper les objets similaires ensemble. Dans de nombreuses applications, ces objets (des documents par exemple) sont décrits à l'aide de leurs liens à d'autres types d'objets (des mots par exemple), qui peuvent eux-même être classifiés. On parle alors de co-classification, et nous étudions et proposons dans cette thèse des améliorations de l'algorithme de calcul de co-similarités XSim. Nous montrons que ces améliorations permettent d'obtenir de meilleurs résultats que les méthodes de l'état de l'art. De plus, il est fréquent que ces objets soient liés à plus d'un autre type d'objets, les données qui décrivent ces multiples relations entre différents types d'objets sont dites multivues. Les méthodes classiques ne sont généralement pas capables de prendre en compte toutes les informations contenues dans ces données. C'est pourquoi nous présentons dans cette thèse l'algorithme de calcul multivue de similarités MVSim, qui peut être vu comme une extension aux données multivues de l'algorithme XSim. Nous montrons que cette méthode obtient de meilleures performances que les méthodes multivues de l'état de l'art, ainsi que les méthodes monovues, validant ainsi l'apport de l'aspect multivue. Finalement, nous proposons également d'utiliser l'algorithme MVSim pour classifier des données classiques monovues de grandes tailles, en les découpant en différents ensembles. Nous montrons que cette approche permet de gagner en temps de calcul ainsi qu'en taille mémoire nécessaire, tout en dégradant relativement peu la classification par rapport à une approche directe sans découpage. 2012-10-11 fra PhD thesis Université de Grenoble
collection NDLTD
language fra
sources NDLTD
topic [INFO:INFO_OH] Computer Science/Other
[INFO:INFO_OH] Informatique/Autre
Apprentissage automatique
Classification
Similarité
Données multivue
spellingShingle [INFO:INFO_OH] Computer Science/Other
[INFO:INFO_OH] Informatique/Autre
Apprentissage automatique
Classification
Similarité
Données multivue
Grimal, Clement
Apprentissage de co-similarités pour la classification automatique de données monovues et multivues
description L'apprentissage automatique consiste à concevoir des programmes informatiques capables d'apprendre à partir de leurs environnement, ou bien à partir de données. Il existe différents types d'apprentissage, selon que l'on cherche à faire apprendre au programme, et également selon le cadre dans lequel il doit apprendre, ce qui constitue différentes tâches. Les mesures de similarité jouent un rôle prépondérant dans la plupart de ces tâches, c'est pourquoi les travaux de cette thèse se concentrent sur leur étude. Plus particulièrement, nous nous intéressons à la classification de données, qui est une tâche d'apprentissage dit non supervisé, dans lequel le programme doit organiser un ensemble d'objets en plusieurs classes distinctes, de façon à regrouper les objets similaires ensemble. Dans de nombreuses applications, ces objets (des documents par exemple) sont décrits à l'aide de leurs liens à d'autres types d'objets (des mots par exemple), qui peuvent eux-même être classifiés. On parle alors de co-classification, et nous étudions et proposons dans cette thèse des améliorations de l'algorithme de calcul de co-similarités XSim. Nous montrons que ces améliorations permettent d'obtenir de meilleurs résultats que les méthodes de l'état de l'art. De plus, il est fréquent que ces objets soient liés à plus d'un autre type d'objets, les données qui décrivent ces multiples relations entre différents types d'objets sont dites multivues. Les méthodes classiques ne sont généralement pas capables de prendre en compte toutes les informations contenues dans ces données. C'est pourquoi nous présentons dans cette thèse l'algorithme de calcul multivue de similarités MVSim, qui peut être vu comme une extension aux données multivues de l'algorithme XSim. Nous montrons que cette méthode obtient de meilleures performances que les méthodes multivues de l'état de l'art, ainsi que les méthodes monovues, validant ainsi l'apport de l'aspect multivue. Finalement, nous proposons également d'utiliser l'algorithme MVSim pour classifier des données classiques monovues de grandes tailles, en les découpant en différents ensembles. Nous montrons que cette approche permet de gagner en temps de calcul ainsi qu'en taille mémoire nécessaire, tout en dégradant relativement peu la classification par rapport à une approche directe sans découpage.
author Grimal, Clement
author_facet Grimal, Clement
author_sort Grimal, Clement
title Apprentissage de co-similarités pour la classification automatique de données monovues et multivues
title_short Apprentissage de co-similarités pour la classification automatique de données monovues et multivues
title_full Apprentissage de co-similarités pour la classification automatique de données monovues et multivues
title_fullStr Apprentissage de co-similarités pour la classification automatique de données monovues et multivues
title_full_unstemmed Apprentissage de co-similarités pour la classification automatique de données monovues et multivues
title_sort apprentissage de co-similarités pour la classification automatique de données monovues et multivues
publisher Université de Grenoble
publishDate 2012
url http://tel.archives-ouvertes.fr/tel-00819840
http://tel.archives-ouvertes.fr/docs/00/81/98/40/PDF/32661_GRIMAL_2012_archivage1.pdf
work_keys_str_mv AT grimalclement apprentissagedecosimilaritespourlaclassificationautomatiquededonneesmonovuesetmultivues
_version_ 1716716679074938880