Processos de constru??o autom?tica de tesauro
Made available in DSpace on 2015-04-14T14:49:42Z (GMT). No. of bitstreams: 1 437178.pdf: 938995 bytes, checksum: 7f4e4a024eb9af218b4ff88670a9ca88 (MD5) Previous issue date: 2011-03-29 === The advances in technology have made the amount of information available in digital format increase rapidly. T...
Main Author: | |
---|---|
Other Authors: | |
Format: | Others |
Language: | Portuguese |
Published: |
Pontif?cia Universidade Cat?lica do Rio Grande do Sul
2015
|
Subjects: | |
Online Access: | http://tede2.pucrs.br/tede2/handle/tede/5158 |
id |
ndltd-IBICT-oai-tede2.pucrs.br-tede-5158 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
Portuguese |
format |
Others
|
sources |
NDLTD |
topic |
INFORM?TICA TESAUROS - ELABORA??O INDEXA??O DE ASSUNTOS CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
spellingShingle |
INFORM?TICA TESAUROS - ELABORA??O INDEXA??O DE ASSUNTOS CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Granada, Roger Leitzke Processos de constru??o autom?tica de tesauro |
description |
Made available in DSpace on 2015-04-14T14:49:42Z (GMT). No. of bitstreams: 1
437178.pdf: 938995 bytes, checksum: 7f4e4a024eb9af218b4ff88670a9ca88 (MD5)
Previous issue date: 2011-03-29 === The advances in technology have made the amount of information available in digital format increase rapidly. This increase reflects on the importance of efficient systems to Information Retrieval (IR), getting the right information when it's requested by users. Thesauri can be associated with IR systems, allowing the system to query not only by the key term, but also by related terms, obtaining related documents that were not retrieved. The manual construction, long and costly process that gave rise to the first thesaurus, shall be performed automatically, using different methods and processes available today. With this motivation, this dissertation proposes to study three cases of automatic thesauri construction. One method uses statistical techniques to identify the best related terms. Another method uses syntactic knowledge, being necessary to extract, besides the grammatical categories of each term, the relations that a verb have with its subject or object. The latter method makes use of syntactic knowledge and semantic knowledge of the terms, identifying non apparent relations. For this, this latter method uses an adaptation of the Latent Semantic Analysis technique. We developed three methods for automatic thesaurus construction using documents from the field of data privacy. The results were applied to an IR system, allowing the evaluation by domain experts. In conclusion, we observed that, in certain cases, it's better to apply techniques that do not use semantic knowledge of the terms, obtaining better results with methods that use only the syntactic knowledge of them. === Com o progresso da tecnologia, a quantidade de informa??o dispon?vel em formato digital tem aumentado rapidamente. Esse aumento se reflete na crescente import?ncia de sistemas de Recupera??o de Informa??es (RI) eficientes, obtendo as informa??es corretas quando requisitadas pelos usu?rios. Tesauros podem ser associados a sistemas de RI, permitindo que o sistema realize consultas n?o apenas pelo termo-chave, mas tamb?m por termos relacionados, obtendo documentos relacionados, que antes n?o eram recuperados. A cria??o manual, processo longo e oneroso que dava origem aos primeiros tesauros, passa a ser realizada automaticamente, atrav?s de diferentes m?todos e processos dispon?veis atualmente. Com esta motiva??o, este trabalho prop?e estudar tr?s processos de constru??o autom?tica de tesauros. Um m?todo utiliza t?cnicas estat?sticas para a identifica??o dos melhores termos relacionados. Outro m?todo utiliza conhecimento sint?tico, sendo necess?rio extrair, al?m das categorias gramaticais de cada termo, as rela??es que um verbo tem com seu sujeito ou objeto. O ?ltimo m?todo faz a utiliza??o de conhecimento sint?tico e de conhecimento sem?ntico dos termos, identificando rela??es que n?o s?o aparentes. Para isso, esse ?ltimo m?todo utiliza uma adapta??o da t?cnica de An?lise Sem?ntica Latente. Foram desenvolvidos estes tr?s m?todos de gera??o tesauros a partir de documentos do dom?nio de privacidade de dados. Os resultados foram aplicados a um sistema de RI, permitindo a avalia??o por especialistas do dom?nio. Como conclus?o, observamos que, em determinados casos, ? melhor a aplica??o de t?cnicas que n?o utilizem conhecimento sem?ntico dos termos, obtendo melhores resultados com m?todos que utilizam apenas o conhecimento sint?tico dos mesmos. |
author2 |
Lima, Vera L?cia Strube de |
author_facet |
Lima, Vera L?cia Strube de Granada, Roger Leitzke |
author |
Granada, Roger Leitzke |
author_sort |
Granada, Roger Leitzke |
title |
Processos de constru??o autom?tica de tesauro |
title_short |
Processos de constru??o autom?tica de tesauro |
title_full |
Processos de constru??o autom?tica de tesauro |
title_fullStr |
Processos de constru??o autom?tica de tesauro |
title_full_unstemmed |
Processos de constru??o autom?tica de tesauro |
title_sort |
processos de constru??o autom?tica de tesauro |
publisher |
Pontif?cia Universidade Cat?lica do Rio Grande do Sul |
publishDate |
2015 |
url |
http://tede2.pucrs.br/tede2/handle/tede/5158 |
work_keys_str_mv |
AT granadarogerleitzke processosdeconstruoautomticadetesauro |
_version_ |
1718953455197880320 |
spelling |
ndltd-IBICT-oai-tede2.pucrs.br-tede-51582019-01-22T02:38:10Z Processos de constru??o autom?tica de tesauro Granada, Roger Leitzke Lima, Vera L?cia Strube de INFORM?TICA TESAUROS - ELABORA??O INDEXA??O DE ASSUNTOS CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Made available in DSpace on 2015-04-14T14:49:42Z (GMT). No. of bitstreams: 1 437178.pdf: 938995 bytes, checksum: 7f4e4a024eb9af218b4ff88670a9ca88 (MD5) Previous issue date: 2011-03-29 The advances in technology have made the amount of information available in digital format increase rapidly. This increase reflects on the importance of efficient systems to Information Retrieval (IR), getting the right information when it's requested by users. Thesauri can be associated with IR systems, allowing the system to query not only by the key term, but also by related terms, obtaining related documents that were not retrieved. The manual construction, long and costly process that gave rise to the first thesaurus, shall be performed automatically, using different methods and processes available today. With this motivation, this dissertation proposes to study three cases of automatic thesauri construction. One method uses statistical techniques to identify the best related terms. Another method uses syntactic knowledge, being necessary to extract, besides the grammatical categories of each term, the relations that a verb have with its subject or object. The latter method makes use of syntactic knowledge and semantic knowledge of the terms, identifying non apparent relations. For this, this latter method uses an adaptation of the Latent Semantic Analysis technique. We developed three methods for automatic thesaurus construction using documents from the field of data privacy. The results were applied to an IR system, allowing the evaluation by domain experts. In conclusion, we observed that, in certain cases, it's better to apply techniques that do not use semantic knowledge of the terms, obtaining better results with methods that use only the syntactic knowledge of them. Com o progresso da tecnologia, a quantidade de informa??o dispon?vel em formato digital tem aumentado rapidamente. Esse aumento se reflete na crescente import?ncia de sistemas de Recupera??o de Informa??es (RI) eficientes, obtendo as informa??es corretas quando requisitadas pelos usu?rios. Tesauros podem ser associados a sistemas de RI, permitindo que o sistema realize consultas n?o apenas pelo termo-chave, mas tamb?m por termos relacionados, obtendo documentos relacionados, que antes n?o eram recuperados. A cria??o manual, processo longo e oneroso que dava origem aos primeiros tesauros, passa a ser realizada automaticamente, atrav?s de diferentes m?todos e processos dispon?veis atualmente. Com esta motiva??o, este trabalho prop?e estudar tr?s processos de constru??o autom?tica de tesauros. Um m?todo utiliza t?cnicas estat?sticas para a identifica??o dos melhores termos relacionados. Outro m?todo utiliza conhecimento sint?tico, sendo necess?rio extrair, al?m das categorias gramaticais de cada termo, as rela??es que um verbo tem com seu sujeito ou objeto. O ?ltimo m?todo faz a utiliza??o de conhecimento sint?tico e de conhecimento sem?ntico dos termos, identificando rela??es que n?o s?o aparentes. Para isso, esse ?ltimo m?todo utiliza uma adapta??o da t?cnica de An?lise Sem?ntica Latente. Foram desenvolvidos estes tr?s m?todos de gera??o tesauros a partir de documentos do dom?nio de privacidade de dados. Os resultados foram aplicados a um sistema de RI, permitindo a avalia??o por especialistas do dom?nio. Como conclus?o, observamos que, em determinados casos, ? melhor a aplica??o de t?cnicas que n?o utilizem conhecimento sem?ntico dos termos, obtendo melhores resultados com m?todos que utilizam apenas o conhecimento sint?tico dos mesmos. 2015-04-14T14:49:42Z 2012-03-07 2011-03-29 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis GRANADA, Roger Leitzke. Processos de constru??o autom?tica de tesauro. 2011. 114 f. Disserta??o (Mestrado em Ci?ncia da Computa??o) - Pontif?cia Universidade Cat?lica do Rio Grande do Sul, Porto Alegre, 2011. http://tede2.pucrs.br/tede2/handle/tede/5158 por 1974996533081274470 500 600 1946639708616176246 info:eu-repo/semantics/openAccess application/pdf Pontif?cia Universidade Cat?lica do Rio Grande do Sul Programa de P?s-Gradua??o em Ci?ncia da Computa??o PUCRS BR Faculdade de Inform?ca reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul instacron:PUC_RS |