Combining Granularity-based Topic-Dependent and Topic-Independent Evidences for Opinion Detection

Fouille des opinion, une sous-discipline dans la recherche d'information (IR) et la linguistique computationnelle, fait référence aux techniques de calcul pour l'extraction, la classification, la compréhension et l'évaluation des opinions exprimées par diverses sources de nouvelles en...

Full description

Bibliographic Details
Main Authors: Missen, Malik Muhammad Saad, Boughanem, Mohand, Cabanac, Guillaume
Language:ENG
Published: Université Paul Sabatier - Toulouse III 2011
Subjects:
Online Access:http://tel.archives-ouvertes.fr/tel-00600439
http://tel.archives-ouvertes.fr/docs/00/60/04/39/PDF/Thesis5.0.pdf
id ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00600439
record_format oai_dc
collection NDLTD
language ENG
sources NDLTD
topic [INFO:INFO_HC] Computer Science/Human-Computer Interaction
Opinion Detection
Sentiment Detection
Opinion Mining
TREC blog Track
Entity Ranking
spellingShingle [INFO:INFO_HC] Computer Science/Human-Computer Interaction
Opinion Detection
Sentiment Detection
Opinion Mining
TREC blog Track
Entity Ranking
Missen, Malik Muhammad Saad
Boughanem, Mohand
Cabanac, Guillaume
Combining Granularity-based Topic-Dependent and Topic-Independent Evidences for Opinion Detection
description Fouille des opinion, une sous-discipline dans la recherche d'information (IR) et la linguistique computationnelle, fait référence aux techniques de calcul pour l'extraction, la classification, la compréhension et l'évaluation des opinions exprimées par diverses sources de nouvelles en ligne, social commentaires des médias, et tout autre contenu généré par l'utilisateur. Il est également connu par de nombreux autres termes comme trouver l'opinion, la détection d'opinion, l'analyse des sentiments, la classification sentiment, de détection de polarité, etc. Définition dans le contexte plus spécifique et plus simple, fouille des opinion est la tâche de récupération des opinions contre son besoin aussi exprimé par l'utilisateur sous la forme d'une requête. Il ya de nombreux problèmes et défis liés à l'activité fouille des opinion. Dans cette thèse, nous nous concentrons sur quelques problèmes d'analyse d'opinion. L'un des défis majeurs de fouille des opinion est de trouver des opinions concernant spécifiquement le sujet donné (requête). Un document peut contenir des informations sur de nombreux sujets à la fois et il est possible qu'elle contienne opiniâtre texte sur chacun des sujet ou sur seulement quelques-uns. Par conséquent, il devient très important de choisir les segments du document pertinentes à sujet avec leurs opinions correspondantes. Nous abordons ce problème sur deux niveaux de granularité, des phrases et des passages. Dans notre première approche de niveau de phrase, nous utilisons des relations sémantiques de WordNet pour trouver cette association entre sujet et opinion. Dans notre deuxième approche pour le niveau de passage, nous utilisons plus robuste modèle de RI i.e. la language modèle de se concentrer sur ce problème. L'idée de base derrière les deux contributions pour l'association d'opinion-sujet est que si un document contient plus segments textuels (phrases ou passages) opiniâtre et pertinentes à sujet, il est plus opiniâtre qu'un document avec moins segments textuels opiniâtre et pertinentes. La plupart des approches d'apprentissage-machine basée à fouille des opinion sont dépendants du domaine i.e. leurs performances varient d'un domaine à d'autre. D'autre part, une approche indépendant de domaine ou un sujet est plus généralisée et peut maintenir son efficacité dans différents domaines. Cependant, les approches indépendant de domaine souffrent de mauvaises performances en général. C'est un grand défi dans le domaine de fouille des opinion à développer une approche qui est plus efficace et généralisé. Nos contributions de cette thèse incluent le développement d'une approche qui utilise de simples fonctions heuristiques pour trouver des documents opiniâtre. Fouille des opinion basée entité devient très populaire parmi les chercheurs de la communauté IR. Il vise à identifier les entités pertinentes pour un sujet donné et d'en extraire les opinions qui leur sont associées à partir d'un ensemble de documents textuels. Toutefois, l'identification et la détermination de la pertinence des entités est déjà une tâche difficile. Nous proposons un système qui prend en compte à la fois l'information de l'article de nouvelles en cours ainsi que des articles antérieurs pertinents afin de détecter les entités les plus importantes dans les nouvelles actuelles. En plus de cela, nous présentons également notre cadre d'analyse d'opinion et tâches relieés. Ce cadre est basée sur les évidences contents et les évidences sociales de la blogosphère pour les tâches de trouver des opinions, de prévision et d'avis de classement multidimensionnel. Cette contribution d'prématurée pose les bases pour nos travaux futurs. L'évaluation de nos méthodes comprennent l'utilisation de TREC 2006 Blog collection et de TREC Novelty track 2004 collection. La plupart des évaluations ont été réalisées dans le cadre de TREC Blog track.
author Missen, Malik Muhammad Saad
Boughanem, Mohand
Cabanac, Guillaume
author_facet Missen, Malik Muhammad Saad
Boughanem, Mohand
Cabanac, Guillaume
author_sort Missen, Malik Muhammad Saad
title Combining Granularity-based Topic-Dependent and Topic-Independent Evidences for Opinion Detection
title_short Combining Granularity-based Topic-Dependent and Topic-Independent Evidences for Opinion Detection
title_full Combining Granularity-based Topic-Dependent and Topic-Independent Evidences for Opinion Detection
title_fullStr Combining Granularity-based Topic-Dependent and Topic-Independent Evidences for Opinion Detection
title_full_unstemmed Combining Granularity-based Topic-Dependent and Topic-Independent Evidences for Opinion Detection
title_sort combining granularity-based topic-dependent and topic-independent evidences for opinion detection
publisher Université Paul Sabatier - Toulouse III
publishDate 2011
url http://tel.archives-ouvertes.fr/tel-00600439
http://tel.archives-ouvertes.fr/docs/00/60/04/39/PDF/Thesis5.0.pdf
work_keys_str_mv AT missenmalikmuhammadsaad combininggranularitybasedtopicdependentandtopicindependentevidencesforopiniondetection
AT boughanemmohand combininggranularitybasedtopicdependentandtopicindependentevidencesforopiniondetection
AT cabanacguillaume combininggranularitybasedtopicdependentandtopicindependentevidencesforopiniondetection
_version_ 1716396146859966464
spelling ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-006004392013-01-07T17:38:53Z http://tel.archives-ouvertes.fr/tel-00600439 http://tel.archives-ouvertes.fr/docs/00/60/04/39/PDF/Thesis5.0.pdf Combining Granularity-based Topic-Dependent and Topic-Independent Evidences for Opinion Detection Missen, Malik Muhammad Saad Boughanem, Mohand Cabanac, Guillaume [INFO:INFO_HC] Computer Science/Human-Computer Interaction Opinion Detection Sentiment Detection Opinion Mining TREC blog Track Entity Ranking Fouille des opinion, une sous-discipline dans la recherche d'information (IR) et la linguistique computationnelle, fait référence aux techniques de calcul pour l'extraction, la classification, la compréhension et l'évaluation des opinions exprimées par diverses sources de nouvelles en ligne, social commentaires des médias, et tout autre contenu généré par l'utilisateur. Il est également connu par de nombreux autres termes comme trouver l'opinion, la détection d'opinion, l'analyse des sentiments, la classification sentiment, de détection de polarité, etc. Définition dans le contexte plus spécifique et plus simple, fouille des opinion est la tâche de récupération des opinions contre son besoin aussi exprimé par l'utilisateur sous la forme d'une requête. Il ya de nombreux problèmes et défis liés à l'activité fouille des opinion. Dans cette thèse, nous nous concentrons sur quelques problèmes d'analyse d'opinion. L'un des défis majeurs de fouille des opinion est de trouver des opinions concernant spécifiquement le sujet donné (requête). Un document peut contenir des informations sur de nombreux sujets à la fois et il est possible qu'elle contienne opiniâtre texte sur chacun des sujet ou sur seulement quelques-uns. Par conséquent, il devient très important de choisir les segments du document pertinentes à sujet avec leurs opinions correspondantes. Nous abordons ce problème sur deux niveaux de granularité, des phrases et des passages. Dans notre première approche de niveau de phrase, nous utilisons des relations sémantiques de WordNet pour trouver cette association entre sujet et opinion. Dans notre deuxième approche pour le niveau de passage, nous utilisons plus robuste modèle de RI i.e. la language modèle de se concentrer sur ce problème. L'idée de base derrière les deux contributions pour l'association d'opinion-sujet est que si un document contient plus segments textuels (phrases ou passages) opiniâtre et pertinentes à sujet, il est plus opiniâtre qu'un document avec moins segments textuels opiniâtre et pertinentes. La plupart des approches d'apprentissage-machine basée à fouille des opinion sont dépendants du domaine i.e. leurs performances varient d'un domaine à d'autre. D'autre part, une approche indépendant de domaine ou un sujet est plus généralisée et peut maintenir son efficacité dans différents domaines. Cependant, les approches indépendant de domaine souffrent de mauvaises performances en général. C'est un grand défi dans le domaine de fouille des opinion à développer une approche qui est plus efficace et généralisé. Nos contributions de cette thèse incluent le développement d'une approche qui utilise de simples fonctions heuristiques pour trouver des documents opiniâtre. Fouille des opinion basée entité devient très populaire parmi les chercheurs de la communauté IR. Il vise à identifier les entités pertinentes pour un sujet donné et d'en extraire les opinions qui leur sont associées à partir d'un ensemble de documents textuels. Toutefois, l'identification et la détermination de la pertinence des entités est déjà une tâche difficile. Nous proposons un système qui prend en compte à la fois l'information de l'article de nouvelles en cours ainsi que des articles antérieurs pertinents afin de détecter les entités les plus importantes dans les nouvelles actuelles. En plus de cela, nous présentons également notre cadre d'analyse d'opinion et tâches relieés. Ce cadre est basée sur les évidences contents et les évidences sociales de la blogosphère pour les tâches de trouver des opinions, de prévision et d'avis de classement multidimensionnel. Cette contribution d'prématurée pose les bases pour nos travaux futurs. L'évaluation de nos méthodes comprennent l'utilisation de TREC 2006 Blog collection et de TREC Novelty track 2004 collection. La plupart des évaluations ont été réalisées dans le cadre de TREC Blog track. 2011-06-07 ENG PhD thesis Université Paul Sabatier - Toulouse III