Uma abordagem de componentes combinados para geração de funções de ordenação usando programação genética

=== Due to the advent of the Web and other textual repositories, such as digital libraries, the information retrieval task has become a very complex and challenging problem. In this context, search engines became valuable tools for the information retrieval task in document collections. These tools...

Full description

Bibliographic Details
Main Author: Humberto Mossri de Almeida
Other Authors: Marcos Andre Goncalves
Format: Others
Language:Portuguese
Published: Universidade Federal de Minas Gerais 2007
Online Access:http://hdl.handle.net/1843/RVMR-795PD3
id ndltd-IBICT-oai-bibliotecadigital.ufmg.br-MTD2BR-RVMR-795PD3
record_format oai_dc
spelling ndltd-IBICT-oai-bibliotecadigital.ufmg.br-MTD2BR-RVMR-795PD32019-01-21T17:53:15Z Uma abordagem de componentes combinados para geração de funções de ordenação usando programação genética Humberto Mossri de Almeida Marcos Andre Goncalves Marcos Andre Goncalves André Carlos Ponce de L.F. de Carvalho Alberto Henrique Frade Laender Nivio Ziviani Due to the advent of the Web and other textual repositories, such as digital libraries, the information retrieval task has become a very complex and challenging problem. In this context, search engines became valuable tools for the information retrieval task in document collections. These tools are based on information retrieval models whose main goal is to produce, given a query, a set of documents ranked by relevance as an answer. For doing so, the so-called ranking functions are employed. Several ranking functions have been investigated throughout the years. However, most of them attempt to be very general in nature, i.e., they were designed to be effective in any type of collection. In this work, we propose a new method to discover collection-adapted ranking functions based on Genetic Programming (GP). The evolution process of our Combined Component Approach (CCA), differently from other approaches based on GP, uses several components extracted from effective and well-known ranking functions. Our assumption is that these components are representative and meaningful and can be combined for generating a more effective and specific new ranking function for a given document collection. Experimental results show that our approach was able to outperform in more than 40% standard TF-IDF, BM25 and other GP-based approach (named FAN-GP) in two different collections. The CCA evolution process also was able to reduce the overtraining, commonly found in machine learning methods, especially genetic programming. Com o advento da Web e de outros repositórios de informação, como Bibliotecas Digitais, a tarefa de recuperação de informação transformou-se em um problema extremamente complexo e desafiador. Neste contexto, as máquinas de busca surgiram como ferramentas fundamentais para a tarefa de recuperação de informação em uma coleção de documentos. Estas ferramentas são baseadas em modelos de recuperação de informação, cujo principal objetivo é definir a ordem na qual os documentos são retornados para os usuários em resposta a uma consulta, através de uma função de ordenação. Diversas funções de ordenação têm sido investigadas ao longo dos anos. No entanto, a maioria delas tem um caráter geral, isto é, são projetadas para serem efetivas em qualquer coleção.Neste trabalho é proposto um novo método para descobrir funções de ordenação adaptadas a uma coleção baseado em Programação Genética (GP). O processo evolutivo da Abordagem de Componentes Combinados (CCA), proposta por este trabalho, diferentemente de outras abordagens baseadas em GP, utiliza componentes de diferentes funções de ordenação comprovadamente eficazes e conhecidas da literatura de recuperação de informação. Parte-se da hipótese de que estes componentes são individualmente representativos e ricos de significado e podem ser combinados para a geração de uma nova função de ordenação mais efetiva e específica para uma determinada coleção.Os resultados experimentais mostram que a abordagem CCA foi capaz de superar em até 40% as abordagens clássicas da literatura tais como tf-idf, BM25 e outra abordagem baseada em GP (denominada FAN-GP) em duas coleções diferentes. O processo evolutivo CCA também foi capaz de reduzir o problema do 'treinamento exagerado', geralmente encontrado em métodos de aprendizado de máquina, especialmente programação genética. 2007-06-15 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://hdl.handle.net/1843/RVMR-795PD3 por info:eu-repo/semantics/openAccess text/html Universidade Federal de Minas Gerais 32001010004P6 - CIÊNCIA DA COMPUTAÇÃO UFMG BR reponame:Biblioteca Digital de Teses e Dissertações da UFMG instname:Universidade Federal de Minas Gerais instacron:UFMG
collection NDLTD
language Portuguese
format Others
sources NDLTD
description === Due to the advent of the Web and other textual repositories, such as digital libraries, the information retrieval task has become a very complex and challenging problem. In this context, search engines became valuable tools for the information retrieval task in document collections. These tools are based on information retrieval models whose main goal is to produce, given a query, a set of documents ranked by relevance as an answer. For doing so, the so-called ranking functions are employed. Several ranking functions have been investigated throughout the years. However, most of them attempt to be very general in nature, i.e., they were designed to be effective in any type of collection. In this work, we propose a new method to discover collection-adapted ranking functions based on Genetic Programming (GP). The evolution process of our Combined Component Approach (CCA), differently from other approaches based on GP, uses several components extracted from effective and well-known ranking functions. Our assumption is that these components are representative and meaningful and can be combined for generating a more effective and specific new ranking function for a given document collection. Experimental results show that our approach was able to outperform in more than 40% standard TF-IDF, BM25 and other GP-based approach (named FAN-GP) in two different collections. The CCA evolution process also was able to reduce the overtraining, commonly found in machine learning methods, especially genetic programming. === Com o advento da Web e de outros repositórios de informação, como Bibliotecas Digitais, a tarefa de recuperação de informação transformou-se em um problema extremamente complexo e desafiador. Neste contexto, as máquinas de busca surgiram como ferramentas fundamentais para a tarefa de recuperação de informação em uma coleção de documentos. Estas ferramentas são baseadas em modelos de recuperação de informação, cujo principal objetivo é definir a ordem na qual os documentos são retornados para os usuários em resposta a uma consulta, através de uma função de ordenação. Diversas funções de ordenação têm sido investigadas ao longo dos anos. No entanto, a maioria delas tem um caráter geral, isto é, são projetadas para serem efetivas em qualquer coleção.Neste trabalho é proposto um novo método para descobrir funções de ordenação adaptadas a uma coleção baseado em Programação Genética (GP). O processo evolutivo da Abordagem de Componentes Combinados (CCA), proposta por este trabalho, diferentemente de outras abordagens baseadas em GP, utiliza componentes de diferentes funções de ordenação comprovadamente eficazes e conhecidas da literatura de recuperação de informação. Parte-se da hipótese de que estes componentes são individualmente representativos e ricos de significado e podem ser combinados para a geração de uma nova função de ordenação mais efetiva e específica para uma determinada coleção.Os resultados experimentais mostram que a abordagem CCA foi capaz de superar em até 40% as abordagens clássicas da literatura tais como tf-idf, BM25 e outra abordagem baseada em GP (denominada FAN-GP) em duas coleções diferentes. O processo evolutivo CCA também foi capaz de reduzir o problema do 'treinamento exagerado', geralmente encontrado em métodos de aprendizado de máquina, especialmente programação genética.
author2 Marcos Andre Goncalves
author_facet Marcos Andre Goncalves
Humberto Mossri de Almeida
author Humberto Mossri de Almeida
spellingShingle Humberto Mossri de Almeida
Uma abordagem de componentes combinados para geração de funções de ordenação usando programação genética
author_sort Humberto Mossri de Almeida
title Uma abordagem de componentes combinados para geração de funções de ordenação usando programação genética
title_short Uma abordagem de componentes combinados para geração de funções de ordenação usando programação genética
title_full Uma abordagem de componentes combinados para geração de funções de ordenação usando programação genética
title_fullStr Uma abordagem de componentes combinados para geração de funções de ordenação usando programação genética
title_full_unstemmed Uma abordagem de componentes combinados para geração de funções de ordenação usando programação genética
title_sort uma abordagem de componentes combinados para geração de funções de ordenação usando programação genética
publisher Universidade Federal de Minas Gerais
publishDate 2007
url http://hdl.handle.net/1843/RVMR-795PD3
work_keys_str_mv AT humbertomossridealmeida umaabordagemdecomponentescombinadosparageracaodefuncoesdeordenacaousandoprogramacaogenetica
_version_ 1718843730499207168