Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique

La classification de données (ou apprentissage non-supervisé) vise à regrouper un ensemble d'observations sous la forme de classes homogènes et contrastées. Lorsque les données sont caractérisées par un grand nombre de variables, il devient nécessaire d'adapter les méthodes classiques, not...

Full description

Bibliographic Details
Main Author:	Hussain, Syed Fawad
Language:	English
Published:	2010
Subjects:	[INFO] Computer Science [INFO] Informatique Co-similarité co-classification systeme d'apprentissage fouille de texts expression génique co-clustering
Online Access:	http://tel.archives-ouvertes.fr/tel-00525366 http://tel.archives-ouvertes.fr/docs/00/52/53/66/PDF/Fawad_thesis.pdf http://tel.archives-ouvertes.fr/docs/00/52/53/66/ANNEX/Soutenance_Hussain_Fawad.pdf

id	ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00525366
record_format	oai_dc
spelling	ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-005253662014-10-14T03:51:59Z http://tel.archives-ouvertes.fr/tel-00525366 http://tel.archives-ouvertes.fr/docs/00/52/53/66/PDF/Fawad_thesis.pdf http://tel.archives-ouvertes.fr/docs/00/52/53/66/ANNEX/Soutenance_Hussain_Fawad.pdf Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique Hussain, Syed Fawad [INFO] Computer Science [INFO] Informatique Co-similarité co-classification systeme d'apprentissage fouille de texts expression génique co-clustering La classification de données (ou apprentissage non-supervisé) vise à regrouper un ensemble d'observations sous la forme de classes homogènes et contrastées. Lorsque les données sont caractérisées par un grand nombre de variables, il devient nécessaire d'adapter les méthodes classiques, notamment au niveau des métriques, afin de maintenir des classes pertinentes ; ce phénomène est connu sous le nom de "malédiction de la dimension". Dans cette thèse, nous proposons une mesure de co-similarité basée sur la notion de co-occurrences d'ordre supérieur, directement extraites à partir des données. Dans le cas de l'analyse de texte, par exemple, les similarités entre documents sont calculées en prenant en compte les similarités entre mots, qui simultanément prennent en compte les similarités entre documents. Par cette approche " circulaire ", nous parvenons à mettre en correspondance des documents sans mots communs mais ayant juste des mots similaires. Cette approche s'effectue de manière purement numérique sans nécessiter de thesaurus externe. En outre, notre méthode peut également être étendue pour tirer parti de connaissances "a priori" afin de réaliser des tâches de catégorisation de textes : l'étiquette des documents est utilisée pour influencer les mesures de similarité entre les mots afin de classer de nouvelles données. Ainsi, le même cadre conceptuel, exprimable en terme de théorie des graphes, peut être utilisé à la fois pour les tâches de classification et de catégorisation en fonction de la quantité d'information initiale. Nos résultats montrent une amélioration significative de la précision, par rapport à l'état de l'art, à la fois pour le co-clustering et la catégorisation sur les jeux de données qui ont été testés. 2010-09-28 eng PhD thesis
collection	NDLTD
language	English
sources	NDLTD
topic	[INFO] Computer Science [INFO] Informatique Co-similarité co-classification systeme d'apprentissage fouille de texts expression génique co-clustering
spellingShingle	[INFO] Computer Science [INFO] Informatique Co-similarité co-classification systeme d'apprentissage fouille de texts expression génique co-clustering Hussain, Syed Fawad Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique
description	La classification de données (ou apprentissage non-supervisé) vise à regrouper un ensemble d'observations sous la forme de classes homogènes et contrastées. Lorsque les données sont caractérisées par un grand nombre de variables, il devient nécessaire d'adapter les méthodes classiques, notamment au niveau des métriques, afin de maintenir des classes pertinentes ; ce phénomène est connu sous le nom de "malédiction de la dimension". Dans cette thèse, nous proposons une mesure de co-similarité basée sur la notion de co-occurrences d'ordre supérieur, directement extraites à partir des données. Dans le cas de l'analyse de texte, par exemple, les similarités entre documents sont calculées en prenant en compte les similarités entre mots, qui simultanément prennent en compte les similarités entre documents. Par cette approche " circulaire ", nous parvenons à mettre en correspondance des documents sans mots communs mais ayant juste des mots similaires. Cette approche s'effectue de manière purement numérique sans nécessiter de thesaurus externe. En outre, notre méthode peut également être étendue pour tirer parti de connaissances "a priori" afin de réaliser des tâches de catégorisation de textes : l'étiquette des documents est utilisée pour influencer les mesures de similarité entre les mots afin de classer de nouvelles données. Ainsi, le même cadre conceptuel, exprimable en terme de théorie des graphes, peut être utilisé à la fois pour les tâches de classification et de catégorisation en fonction de la quantité d'information initiale. Nos résultats montrent une amélioration significative de la précision, par rapport à l'état de l'art, à la fois pour le co-clustering et la catégorisation sur les jeux de données qui ont été testés.
author	Hussain, Syed Fawad
author_facet	Hussain, Syed Fawad
author_sort	Hussain, Syed Fawad
title	Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique
title_short	Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique
title_full	Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique
title_fullStr	Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique
title_full_unstemmed	Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique
title_sort	une nouvelle mesure de co-similarité : applications aux données textuelles et génomique
publishDate	2010
url	http://tel.archives-ouvertes.fr/tel-00525366 http://tel.archives-ouvertes.fr/docs/00/52/53/66/PDF/Fawad_thesis.pdf http://tel.archives-ouvertes.fr/docs/00/52/53/66/ANNEX/Soutenance_Hussain_Fawad.pdf
work_keys_str_mv	AT hussainsyedfawad unenouvellemesuredecosimilariteapplicationsauxdonneestextuellesetgenomique
_version_	1716718257490100224

Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique

Similar Items