Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique

La classification de données (ou apprentissage non-supervisé) vise à regrouper un ensemble d'observations sous la forme de classes homogènes et contrastées. Lorsque les données sont caractérisées par un grand nombre de variables, il devient nécessaire d'adapter les méthodes classiques, not...

Full description

Bibliographic Details
Main Author: Hussain, Syed Fawad
Language:English
Published: 2010
Subjects:
Online Access:http://tel.archives-ouvertes.fr/tel-00525366
http://tel.archives-ouvertes.fr/docs/00/52/53/66/PDF/Fawad_thesis.pdf
http://tel.archives-ouvertes.fr/docs/00/52/53/66/ANNEX/Soutenance_Hussain_Fawad.pdf
id ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00525366
record_format oai_dc
spelling ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-005253662014-10-14T03:51:59Z http://tel.archives-ouvertes.fr/tel-00525366 http://tel.archives-ouvertes.fr/docs/00/52/53/66/PDF/Fawad_thesis.pdf http://tel.archives-ouvertes.fr/docs/00/52/53/66/ANNEX/Soutenance_Hussain_Fawad.pdf Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique Hussain, Syed Fawad [INFO] Computer Science [INFO] Informatique Co-similarité co-classification systeme d'apprentissage fouille de texts expression génique co-clustering La classification de données (ou apprentissage non-supervisé) vise à regrouper un ensemble d'observations sous la forme de classes homogènes et contrastées. Lorsque les données sont caractérisées par un grand nombre de variables, il devient nécessaire d'adapter les méthodes classiques, notamment au niveau des métriques, afin de maintenir des classes pertinentes ; ce phénomène est connu sous le nom de "malédiction de la dimension". Dans cette thèse, nous proposons une mesure de co-similarité basée sur la notion de co-occurrences d'ordre supérieur, directement extraites à partir des données. Dans le cas de l'analyse de texte, par exemple, les similarités entre documents sont calculées en prenant en compte les similarités entre mots, qui simultanément prennent en compte les similarités entre documents. Par cette approche " circulaire ", nous parvenons à mettre en correspondance des documents sans mots communs mais ayant juste des mots similaires. Cette approche s'effectue de manière purement numérique sans nécessiter de thesaurus externe. En outre, notre méthode peut également être étendue pour tirer parti de connaissances "a priori" afin de réaliser des tâches de catégorisation de textes : l'étiquette des documents est utilisée pour influencer les mesures de similarité entre les mots afin de classer de nouvelles données. Ainsi, le même cadre conceptuel, exprimable en terme de théorie des graphes, peut être utilisé à la fois pour les tâches de classification et de catégorisation en fonction de la quantité d'information initiale. Nos résultats montrent une amélioration significative de la précision, par rapport à l'état de l'art, à la fois pour le co-clustering et la catégorisation sur les jeux de données qui ont été testés. 2010-09-28 eng PhD thesis
collection NDLTD
language English
sources NDLTD
topic [INFO] Computer Science
[INFO] Informatique
Co-similarité
co-classification
systeme d'apprentissage
fouille de texts
expression génique
co-clustering
spellingShingle [INFO] Computer Science
[INFO] Informatique
Co-similarité
co-classification
systeme d'apprentissage
fouille de texts
expression génique
co-clustering
Hussain, Syed Fawad
Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique
description La classification de données (ou apprentissage non-supervisé) vise à regrouper un ensemble d'observations sous la forme de classes homogènes et contrastées. Lorsque les données sont caractérisées par un grand nombre de variables, il devient nécessaire d'adapter les méthodes classiques, notamment au niveau des métriques, afin de maintenir des classes pertinentes ; ce phénomène est connu sous le nom de "malédiction de la dimension". Dans cette thèse, nous proposons une mesure de co-similarité basée sur la notion de co-occurrences d'ordre supérieur, directement extraites à partir des données. Dans le cas de l'analyse de texte, par exemple, les similarités entre documents sont calculées en prenant en compte les similarités entre mots, qui simultanément prennent en compte les similarités entre documents. Par cette approche " circulaire ", nous parvenons à mettre en correspondance des documents sans mots communs mais ayant juste des mots similaires. Cette approche s'effectue de manière purement numérique sans nécessiter de thesaurus externe. En outre, notre méthode peut également être étendue pour tirer parti de connaissances "a priori" afin de réaliser des tâches de catégorisation de textes : l'étiquette des documents est utilisée pour influencer les mesures de similarité entre les mots afin de classer de nouvelles données. Ainsi, le même cadre conceptuel, exprimable en terme de théorie des graphes, peut être utilisé à la fois pour les tâches de classification et de catégorisation en fonction de la quantité d'information initiale. Nos résultats montrent une amélioration significative de la précision, par rapport à l'état de l'art, à la fois pour le co-clustering et la catégorisation sur les jeux de données qui ont été testés.
author Hussain, Syed Fawad
author_facet Hussain, Syed Fawad
author_sort Hussain, Syed Fawad
title Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique
title_short Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique
title_full Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique
title_fullStr Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique
title_full_unstemmed Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique
title_sort une nouvelle mesure de co-similarité : applications aux données textuelles et génomique
publishDate 2010
url http://tel.archives-ouvertes.fr/tel-00525366
http://tel.archives-ouvertes.fr/docs/00/52/53/66/PDF/Fawad_thesis.pdf
http://tel.archives-ouvertes.fr/docs/00/52/53/66/ANNEX/Soutenance_Hussain_Fawad.pdf
work_keys_str_mv AT hussainsyedfawad unenouvellemesuredecosimilariteapplicationsauxdonneestextuellesetgenomique
_version_ 1716718257490100224