Information sources selection methodology for recommender systems based on intrinsic characteristics and trust measure

El treball desenvolupat en aquesta tesi presenta un profund estudi i proveïx solucions innovadores en el camp dels sistemes recomanadors. Els mètodes que usen aquests sistemes per a realitzar les recomanacions, mètodes com el Filtrat Basat en Continguts (FBC), el Filtrat Col·laboratiu (FC) i el Filt...

Full description

Bibliographic Details
Main Author: Aciar, Silvana Vanesa
Other Authors: López Herrera, Josefina
Format: Doctoral Thesis
Language:English
Published: Universitat de Girona 2007
Subjects:
68
Online Access:http://hdl.handle.net/10803/7738
http://nbn-resolving.de/urn:isbn:9788469080184
Description
Summary:El treball desenvolupat en aquesta tesi presenta un profund estudi i proveïx solucions innovadores en el camp dels sistemes recomanadors. Els mètodes que usen aquests sistemes per a realitzar les recomanacions, mètodes com el Filtrat Basat en Continguts (FBC), el Filtrat Col·laboratiu (FC) i el Filtrat Basat en Coneixement (FBC), requereixen informació dels usuaris per a predir les preferències per certs productes. Aquesta informació pot ser demogràfica (Gènere, edat, adreça, etc), o avaluacions donades sobre algun producte que van comprar en el passat o informació sobre els seus interessos. Existeixen dues formes d'obtenir aquesta informació: els usuaris ofereixen explícitament aquesta informació o el sistema pot adquirir la informació implícita disponible en les transaccions o historial de recerca dels usuaris. Per exemple, el sistema recomanador de pel·lícules MovieLens (http://movielens.umn.edu/login) demana als usuaris que avaluïn almenys 15 pel·lícules dintre d'una escala de * a * * * * * (horrible, ...., ha de ser vista). El sistema genera recomanacions sobre la base d'aquestes avaluacions. Quan els usuaris no estan registrat en el sistema i aquest no té informació d'ells, alguns sistemes realitzen les recomanacions tenint en compte l'historial de navegació. Amazon.com (http://www.amazon.com) realitza les recomanacions tenint en compte les recerques que un usuari a fet o recomana el producte més venut. No obstant això, aquests sistemes pateixen de certa falta d'informació. Aquest problema és generalment resolt amb l'adquisició d'informació addicional, se li pregunta als usuaris sobre els seus interessos o es cerca aquesta informació en fonts addicionals. La solució proposada en aquesta tesi és buscar aquesta informació en diverses fonts, específicament aquelles que contenen informació implícita sobre les preferències dels usuaris. Aquestes fonts poden ser estructurades com les bases de dades amb informació de compres o poden ser no estructurades com les pàgines web on els usuaris deixen la seva opinió sobre algun producte que van comprar o posseïxen.Nosaltres trobem tres problemes fonamentals per a aconseguir aquest objectiu: 1 . La identificació de fonts amb informació idònia per als sistemes recomanadors.2 . La definició de criteris que permetin la comparança i selecció de les fonts més idònies. 3 . La recuperació d'informació de fonts no estructurades. En aquest sentit, en la tesi proposada s'ha desenvolupat: 1 . Una metodologia que permet la identificació i selecció de les fonts més idònies. Criteris basats en les característiques de les fonts i una mesura de confiança han estat utilitzats per a resoldre el problema de la identificació i selecció de les fonts. 2 . Un mecanisme per a recuperar la informació no estructurada dels usuaris disponible en la web. Tècniques de Text Mining i ontologies s'han utilitzat per a extreure informació i estructurar-la apropiadament perquè la utilitzin els recomanadors. Les contribucions del treball desenvolupat en aquesta tesi doctoral són: 1. Definició d'un conjunt de característiques per a classificar fonts rellevants per als sistemes recomanadors2. Desenvolupament d'una mesura de rellevància de les fonts calculada sobre la base de les característiques definides3. Aplicació d'una mesura de confiança per a obtenir les fonts més fiables. La confiança es definida des de la perspectiva de millora de la recomanació, una font fiable és aquella que permet millorar les recomanacions. 4. Desenvolupament d'un algorisme per a seleccionar, des d'un conjunt de fonts possibles, les més rellevants i fiable utilitzant les mitjanes esmentades en els punts previs. 5. Definició d'una ontologia per a estructurar la informació sobre les preferències dels usuaris que estan disponibles en Internet. 6. Creació d'un procés de mapatge que extreu automàticament informació de les preferències dels usuaris disponibles en la web i posa aquesta informació dintre de l'ontologia. Aquestes contribucions permeten aconseguir dos objectius importants: 1 . Millorament de les recomanacions usant fonts d'informació alternatives que sigui rellevants i fiables.2 . Obtenir informació implícita dels usuaris disponible en Internet. === The work developed in this thesis presents an in-depth study and provides innovative solutions in the field of recommender systems. The methods used by these systems to carry out recommendations, such as Content-Based Filtering (CBF), Collaborative Filtering (CF) and Knowledge-Based Filtering (KBF), require information from users to predict preferences for certain products. This may be demographic information (genre, age and address), evaluations given to certain products in the past or information about their interests. There are two ways of obtaining this information: users offer it explicitly or the system can retrieve the implicit information available in the purchase and search history. For example, the movie recommender system MovieLens (http://movielens.umn.edu/login) asks users to rate at least 15 movies on a scale of * to * * * * * (awful, ... , must be seen). The system generates recommendations based on these evaluations. When users are not registered into the site and it has no information about them, recommender systems make recommendations according to the site search history. Amazon.com (http://www.amazon.com) make recommendations according to the site search history or recommend the best selling products. Nevertheless, these systems suffer from a certain lack of information. This problem is generally solved with the acquisition of additional information; users are asked about their interests or that information is searched for in additional available sources. The solution proposed in this thesis is to look for that information in various sources, specifically those that contain implicit information about user preferences. These sources can be structured like databases with purchasing information or they can be unstructured sources like review pages where users write their experiences and opinions about a product they buy or possess.We have found three fundamental problems to achieve this objective: 1. The identification of sources with suitable information for recommender systems.2. The definition of criteria that allows the comparison and selection of the most suitable sources.3. Retrieving the information from unstructured sources.In this sense, the proposed thesis has developed:1. A methodology that allows the identification and selection of the most suitable sources. Criteria based on the characteristics of sources and a trust measure have been used to solve the problem of identifying and selecting sources.2. A mechanism to retrieve unstructured information from users available on the Web. Text mining techniques and ontologies have been used to extract information and structure it appropriately for use by the recommenders.The contributions of the work developed in this doctoral thesis are:1. Definition of a set of characteristics to classify relevant sources of information for recommender systems.2. Development of a measure of relevance of sources according to characteristics defined in previous point.3. Application of a trust measure to obtain the most reliable sources. Confidence is measured from the perspective of improving the recommendation; a reliable source is one that leads to improved recommendations.4. Development of an algorithm to select, from a set of possible sources, the most relevant and reliable ones according to measures defined in previous points.5. Definition of an ontology to structure information about user preferences that are available on the Internet.6. The creation of a mapping process that automatically extracts information about user preferences available on the web and put in the ontology.These contributions allow us the achievement of two important objectives:1. Improving recommendations using alternative sources of information that are relevant and trustworthy.2. Obtaining implicit information about user available on the Internet.