Summary: | La quantité de contenu généré par l'utilisateur sur le Web croît à un rythme rapide.Une grande partie de ce contenu est constituée des opinions et avis sur des produits et services. Vu leur impact, ces avis sont un facteur important dans les décisions concernant l'achat de ces produits ou services. Les utilisateurs ont tendance à faire confiance aux autres utilisateurs, surtout s'ils peuvent se comparer à ceux qui ont écrit les avis, ou, en d'autres termes, ils sont confiants de partager certaines caractéristiques. Par exemple, les familles préféreront voyager dans les endroits qui ont été recommandés par d'autres familles. Nous supposons que les avis qui contiennent des expériences vécues sont plus précieuses, puisque les expériences donnent aux avis un aspect plus subjective, permettant aux lecteurs de se projeter dans le contexte de l'écrivain.En prenant en compte cette hypothèse, dans cette thèse, nous visons à identifier, extraire et représenter les expériences vécues rapportées dans les avis des utilisateurs en hybridant les techniques d'extraction des connaissances et de traitement du langage naturel,afin d'accélérer le processus décisionnel. Pour cela, nous avons défini opérationnellement une expérience vécue d'un utilisateur comme un événement mentionné dans un avis, où l'auteur est présent parmi les participants. Cette définition considère que les événements mentionnés dans le texte sont les éléments les plus importants dans les expériences vécues: toutes les expériences vécues sont basées sur des événements, qui sont clairement définis dans le temps et l'espace. Par conséquent, nous proposons une approche permettant d'extraire les événements à partir des avis des utilisateurs, qui constituent la base d'un système permettant d'identifier et extraire les expériences vécues.Pour l'approche d'extraction d'événements, nous avons transformé les avis des utilisateur sen leurs représentations sémantiques en utilisant des techniques de machine reading.Nous avons effectué une analyse sémantique profonde des avis et détecté les cadres linguistiques les plus appropriés capturant des relations complexes exprimées dans les avis. Le système d'extraction des expériences vécues repose sur trois étapes. La première étape opère un filtrage des avis, basé sur les événements, permettant d'identifier les avis qui peuvent contenir des expériences vécues. La deuxième étape consiste à extraire les événements pertinents avec leurs participants. La dernière étape consiste à représenter les expériences vécues extraites de chaque avis comme un sous-graphe d'événements contenant les événements pertinents et leurs participants.Afin de tester notre hypothèse, nous avons effectué quelques expériences pour vérifier si les expériences vécues peuvent être considérées comme des motivations pour les notes attribuées par les utilisateurs dans le système de notation. Par conséquent, nous avons utilisé les expériences vécues comme des caractéristiques dans un système de classification, en comparant avec les notes associées avec des avis dans un ensemble de données extraites et annotées manuellement de Tripadvisor. Les résultats montrent que les expériences vécues sont corrélées avec les notes. Cette thèse fournit des contributions intéressantes dans le domaine de l'analyse d'opinion. Tout d'abord, l'application avec succès de machine reading afin d'identifier les expériences vécues. Ensuite, La confirmation que les expériences vécues sont liées aux notations. Enfin, l'ensemble de données produit pour tester notre hypothèse constitue également une contribution importante de la thèse. === The quantity of user-generated content on the Web is constantly growing at a fast pace.A great share of this content is made of opinions and reviews on products and services.This electronic word-of-mouth is also an important factor in decisions about purchasing these products or services. Users tend to trust other users, especially if they can compare themselves to those who wrote the reviews, or, in other words, they are confident to share some characteristics. For instance, families will prefer to travel in places that have been recommended by other families. We assume that reviews that contain lived experiences are more valuable, since experiences give to the reviews a more subjective cut, allowing readers to project themselves into the context of the writer. With this hypothesis in mind, in this thesis we aim to identify, extract, and represent reported lived experiences in customer reviews by hybridizing Knowledge Extraction and Natural Language Processing techniques in order to accelerate the decision process. Forthis, we define a lived user experience as an event mentioned in a review, where the authoris among the participants. This definition considers that mentioned events in the text are the most important elements in lived experiences : all lived experiences are based on events,which on turn are clearly defined in time and space. There fore, we propose an approach to extract events from user reviews, which constitute the basis of an event-based system to identify and extract lived experiences. For the event extraction approach, we transform user reviews into their semantic representations using machine reading techniques. We perform a deep semantic parsing of reviews, detecting the linguistic frames that capture complex relations expressed in there views. The event-based lived experience system is carried out in three steps. The first step operates an event-based review filtering, which identifies reviews that may contain lived experiences. The second step consists of extracting relevant events together with their participants. The last step focuses on representing extracted lived experiences in each review as an event sub-graph.In order to test our hypothesis, we carried out some experiments to verify whether lived experiences can be considered as triggers for the ratings expressed by users. Therefore, we used lived experiences as features in a classification system, comparing with the ratings of the reviews in a dataset extracted and manually annotated from Tripadvisor. The results show that lived experiences are actually correlated with the ratings.In conclusion, this thesis provides some interesting contributions in the field of opinionmining. First of all, the successful application of machine reading to identify lived experiences. Second, the confirmation that lived experiences are correlated to ratings. Finally,the dataset produced to test our hypothesis constitutes also an important contribution of the thesis.
|