Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique
La classification de données (ou apprentissage non-supervisé) vise à regrouper un ensemble d'observations sous la forme de classes homogènes et contrastées. Lorsque les données sont caractérisées par un grand nombre de variables, il devient nécessaire d'adapter les méthodes classiques, not...
Main Author: | |
---|---|
Language: | English |
Published: |
2010
|
Subjects: | |
Online Access: | http://tel.archives-ouvertes.fr/tel-00525366 http://tel.archives-ouvertes.fr/docs/00/52/53/66/PDF/Fawad_thesis.pdf http://tel.archives-ouvertes.fr/docs/00/52/53/66/ANNEX/Soutenance_Hussain_Fawad.pdf |
id |
ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00525366 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-005253662014-10-14T03:51:59Z http://tel.archives-ouvertes.fr/tel-00525366 http://tel.archives-ouvertes.fr/docs/00/52/53/66/PDF/Fawad_thesis.pdf http://tel.archives-ouvertes.fr/docs/00/52/53/66/ANNEX/Soutenance_Hussain_Fawad.pdf Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique Hussain, Syed Fawad [INFO] Computer Science [INFO] Informatique Co-similarité co-classification systeme d'apprentissage fouille de texts expression génique co-clustering La classification de données (ou apprentissage non-supervisé) vise à regrouper un ensemble d'observations sous la forme de classes homogènes et contrastées. Lorsque les données sont caractérisées par un grand nombre de variables, il devient nécessaire d'adapter les méthodes classiques, notamment au niveau des métriques, afin de maintenir des classes pertinentes ; ce phénomène est connu sous le nom de "malédiction de la dimension". Dans cette thèse, nous proposons une mesure de co-similarité basée sur la notion de co-occurrences d'ordre supérieur, directement extraites à partir des données. Dans le cas de l'analyse de texte, par exemple, les similarités entre documents sont calculées en prenant en compte les similarités entre mots, qui simultanément prennent en compte les similarités entre documents. Par cette approche " circulaire ", nous parvenons à mettre en correspondance des documents sans mots communs mais ayant juste des mots similaires. Cette approche s'effectue de manière purement numérique sans nécessiter de thesaurus externe. En outre, notre méthode peut également être étendue pour tirer parti de connaissances "a priori" afin de réaliser des tâches de catégorisation de textes : l'étiquette des documents est utilisée pour influencer les mesures de similarité entre les mots afin de classer de nouvelles données. Ainsi, le même cadre conceptuel, exprimable en terme de théorie des graphes, peut être utilisé à la fois pour les tâches de classification et de catégorisation en fonction de la quantité d'information initiale. Nos résultats montrent une amélioration significative de la précision, par rapport à l'état de l'art, à la fois pour le co-clustering et la catégorisation sur les jeux de données qui ont été testés. 2010-09-28 eng PhD thesis |
collection |
NDLTD |
language |
English |
sources |
NDLTD |
topic |
[INFO] Computer Science [INFO] Informatique Co-similarité co-classification systeme d'apprentissage fouille de texts expression génique co-clustering |
spellingShingle |
[INFO] Computer Science [INFO] Informatique Co-similarité co-classification systeme d'apprentissage fouille de texts expression génique co-clustering Hussain, Syed Fawad Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique |
description |
La classification de données (ou apprentissage non-supervisé) vise à regrouper un ensemble d'observations sous la forme de classes homogènes et contrastées. Lorsque les données sont caractérisées par un grand nombre de variables, il devient nécessaire d'adapter les méthodes classiques, notamment au niveau des métriques, afin de maintenir des classes pertinentes ; ce phénomène est connu sous le nom de "malédiction de la dimension". Dans cette thèse, nous proposons une mesure de co-similarité basée sur la notion de co-occurrences d'ordre supérieur, directement extraites à partir des données. Dans le cas de l'analyse de texte, par exemple, les similarités entre documents sont calculées en prenant en compte les similarités entre mots, qui simultanément prennent en compte les similarités entre documents. Par cette approche " circulaire ", nous parvenons à mettre en correspondance des documents sans mots communs mais ayant juste des mots similaires. Cette approche s'effectue de manière purement numérique sans nécessiter de thesaurus externe. En outre, notre méthode peut également être étendue pour tirer parti de connaissances "a priori" afin de réaliser des tâches de catégorisation de textes : l'étiquette des documents est utilisée pour influencer les mesures de similarité entre les mots afin de classer de nouvelles données. Ainsi, le même cadre conceptuel, exprimable en terme de théorie des graphes, peut être utilisé à la fois pour les tâches de classification et de catégorisation en fonction de la quantité d'information initiale. Nos résultats montrent une amélioration significative de la précision, par rapport à l'état de l'art, à la fois pour le co-clustering et la catégorisation sur les jeux de données qui ont été testés. |
author |
Hussain, Syed Fawad |
author_facet |
Hussain, Syed Fawad |
author_sort |
Hussain, Syed Fawad |
title |
Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique |
title_short |
Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique |
title_full |
Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique |
title_fullStr |
Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique |
title_full_unstemmed |
Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique |
title_sort |
une nouvelle mesure de co-similarité : applications aux données textuelles et génomique |
publishDate |
2010 |
url |
http://tel.archives-ouvertes.fr/tel-00525366 http://tel.archives-ouvertes.fr/docs/00/52/53/66/PDF/Fawad_thesis.pdf http://tel.archives-ouvertes.fr/docs/00/52/53/66/ANNEX/Soutenance_Hussain_Fawad.pdf |
work_keys_str_mv |
AT hussainsyedfawad unenouvellemesuredecosimilariteapplicationsauxdonneestextuellesetgenomique |
_version_ |
1716718257490100224 |