Classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente.

A análise da semântica latente é uma técnica de processamento de linguagem natural, que busca simplificar a tarefa de encontrar palavras e sentenças por similaridade. Através da representação de texto em um espaço multidimensional, selecionam-se os valores mais significativos para sua reconstruç...

Full description

Bibliographic Details
Main Author:	Fabricio Shigueru Catae
Other Authors:	Ricardo Luis de Azevedo da Rocha
Language:	Portuguese
Published:	Universidade de São Paulo 2013
Subjects:	Algoritmos Classificação automática de texto Reconhecimento de padrões Algorithms Automatic text classification Pattern recognition
Online Access:	http://www.teses.usp.br/teses/disponiveis/3/3141/tde-06072014-225124/

id	ndltd-IBICT-oai-teses.usp.br-tde-06072014-225124
record_format	oai_dc
spelling	ndltd-IBICT-oai-teses.usp.br-tde-06072014-2251242019-01-22T00:29:05Z Classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente. Automatic text classification using word similarities: a more efficient algorithm. Fabricio Shigueru Catae Ricardo Luis de Azevedo da Rocha Jorge Kinoshita Flávio Soares Corrêa da Silva Algoritmos Classificação automática de texto Reconhecimento de padrões Algorithms Automatic text classification Pattern recognition A análise da semântica latente é uma técnica de processamento de linguagem natural, que busca simplificar a tarefa de encontrar palavras e sentenças por similaridade. Através da representação de texto em um espaço multidimensional, selecionam-se os valores mais significativos para sua reconstrução em uma dimensão reduzida. Essa simplificação lhe confere a capacidade de generalizar modelos, movendo as palavras e os textos para uma representação semântica. Dessa forma, essa técnica identifica um conjunto de significados ou conceitos ocultos sem a necessidade do conhecimento prévio da gramática. O objetivo desse trabalho foi determinar a dimensionalidade ideal do espaço semântico em uma tarefa de classificação de texto. A solução proposta corresponde a um algoritmo semi-supervisionado que, a partir de exemplos conhecidos, aplica o método de classificação pelo vizinho mais próximo e determina uma curva estimada da taxa de acerto. Como esse processamento é demorado, os vetores são projetados em um espaço no qual o cálculo se torna incremental. Devido à isometria dos espaços, a similaridade entre documentos se mantém equivalente. Esta proposta permite determinar a dimensão ideal do espaço semântico com pouco esforço além do tempo requerido pela análise da semântica latente tradicional. Os resultados mostraram ganhos significativos em adotar o número correto de dimensões. The latent semantic analysis is a technique in natural language processing, which aims to simplify the task of finding words and sentences similarity. Using a vector space model for the text representation, it selects the most significant values for the space reconstruction into a smaller dimension. This simplification allows it to generalize models, moving words and texts towards a semantic representation. Thus, it identifies a set of underlying meanings or hidden concepts without prior knowledge of grammar. The goal of this study was to determine the optimal dimensionality of the semantic space in a text classification task. The proposed solution corresponds to a semi-supervised algorithm that applies the method of the nearest neighbor classification on known examples, and plots the estimated accuracy on a graph. Because it is a very time consuming process, the vectors are projected on a space in such a way the calculation becomes incremental. Since the spaces are isometric, the similarity between documents remains equivalent. This proposal determines the optimal dimension of the semantic space with little effort, not much beyond the time required by traditional latent semantic analysis. The results showed significant gains in adopting the correct number of dimensions. 2013-01-08 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://www.teses.usp.br/teses/disponiveis/3/3141/tde-06072014-225124/ por info:eu-repo/semantics/openAccess Universidade de São Paulo Engenharia Elétrica USP BR reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo instacron:USP
collection	NDLTD
language	Portuguese
sources	NDLTD
topic	Algoritmos Classificação automática de texto Reconhecimento de padrões Algorithms Automatic text classification Pattern recognition
spellingShingle	Algoritmos Classificação automática de texto Reconhecimento de padrões Algorithms Automatic text classification Pattern recognition Fabricio Shigueru Catae Classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente.
description	A análise da semântica latente é uma técnica de processamento de linguagem natural, que busca simplificar a tarefa de encontrar palavras e sentenças por similaridade. Através da representação de texto em um espaço multidimensional, selecionam-se os valores mais significativos para sua reconstrução em uma dimensão reduzida. Essa simplificação lhe confere a capacidade de generalizar modelos, movendo as palavras e os textos para uma representação semântica. Dessa forma, essa técnica identifica um conjunto de significados ou conceitos ocultos sem a necessidade do conhecimento prévio da gramática. O objetivo desse trabalho foi determinar a dimensionalidade ideal do espaço semântico em uma tarefa de classificação de texto. A solução proposta corresponde a um algoritmo semi-supervisionado que, a partir de exemplos conhecidos, aplica o método de classificação pelo vizinho mais próximo e determina uma curva estimada da taxa de acerto. Como esse processamento é demorado, os vetores são projetados em um espaço no qual o cálculo se torna incremental. Devido à isometria dos espaços, a similaridade entre documentos se mantém equivalente. Esta proposta permite determinar a dimensão ideal do espaço semântico com pouco esforço além do tempo requerido pela análise da semântica latente tradicional. Os resultados mostraram ganhos significativos em adotar o número correto de dimensões. === The latent semantic analysis is a technique in natural language processing, which aims to simplify the task of finding words and sentences similarity. Using a vector space model for the text representation, it selects the most significant values for the space reconstruction into a smaller dimension. This simplification allows it to generalize models, moving words and texts towards a semantic representation. Thus, it identifies a set of underlying meanings or hidden concepts without prior knowledge of grammar. The goal of this study was to determine the optimal dimensionality of the semantic space in a text classification task. The proposed solution corresponds to a semi-supervised algorithm that applies the method of the nearest neighbor classification on known examples, and plots the estimated accuracy on a graph. Because it is a very time consuming process, the vectors are projected on a space in such a way the calculation becomes incremental. Since the spaces are isometric, the similarity between documents remains equivalent. This proposal determines the optimal dimension of the semantic space with little effort, not much beyond the time required by traditional latent semantic analysis. The results showed significant gains in adopting the correct number of dimensions.
author2	Ricardo Luis de Azevedo da Rocha
author_facet	Ricardo Luis de Azevedo da Rocha Fabricio Shigueru Catae
author	Fabricio Shigueru Catae
author_sort	Fabricio Shigueru Catae
title	Classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente.
title_short	Classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente.
title_full	Classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente.
title_fullStr	Classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente.
title_full_unstemmed	Classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente.
title_sort	classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente.
publisher	Universidade de São Paulo
publishDate	2013
url	http://www.teses.usp.br/teses/disponiveis/3/3141/tde-06072014-225124/
work_keys_str_mv	AT fabricioshiguerucatae classificacaoautomaticadetextopormeiodesimilaridadedepalavrasumalgoritmomaiseficiente AT fabricioshiguerucatae automatictextclassificationusingwordsimilaritiesamoreefficientalgorithm
_version_	1718921989471600640

Classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente.

Similar Items