Uma investigação de aspectos da classificação de tópicos para textos curtos

Submitted by Clebson Anjos (clebson.leandro54@gmail.com) on 2016-02-15T17:35:03Z No. of bitstreams: 1 arquivototal.pdf: 1768771 bytes, checksum: 5e8df60284fb114853ef61923cb2ec0d (MD5) === Made available in DSpace on 2016-02-15T17:35:03Z (GMT). No. of bitstreams: 1 arquivototal.pdf: 1768771 bytes,...

Full description

Bibliographic Details
Main Author:	Oliveira, Ewerton Lopes Silva de
Other Authors:	Formiga, Andrei de Araujo
Format:	Others
Language:	Portuguese
Published:	Universidade Federal da Paraíba 2016
Subjects:	Aprendizagem de máquina Classificação de texto Mensagens sociais Text classification Social messages Machine learning CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Online Access:	http://tede.biblioteca.ufpb.br:8080/handle/tede/7842

id	ndltd-IBICT-oai-tede.biblioteca.ufpb.br-tede-7842
record_format	oai_dc
collection	NDLTD
language	Portuguese
format	Others
sources	NDLTD
topic	Aprendizagem de máquina Classificação de texto Mensagens sociais Text classification Social messages Machine learning CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
spellingShingle	Aprendizagem de máquina Classificação de texto Mensagens sociais Text classification Social messages Machine learning CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Oliveira, Ewerton Lopes Silva de Uma investigação de aspectos da classificação de tópicos para textos curtos
description	Submitted by Clebson Anjos (clebson.leandro54@gmail.com) on 2016-02-15T17:35:03Z No. of bitstreams: 1 arquivototal.pdf: 1768771 bytes, checksum: 5e8df60284fb114853ef61923cb2ec0d (MD5) === Made available in DSpace on 2016-02-15T17:35:03Z (GMT). No. of bitstreams: 1 arquivototal.pdf: 1768771 bytes, checksum: 5e8df60284fb114853ef61923cb2ec0d (MD5) Previous issue date: 2015-02-23 === Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES === In recent years a large number of scientific research has stimulated the use of web data as inputs for the epidemiological surveillance and knowledge discovery/mining related to public health in general. In order to make use of social media content, especially tweets, some approaches proposed before transform a content identification problem to a text classification problem, following the supervised learning scenario. However, during this process, some limitations attributed to the representation of messages as well as the extraction of attributes arise. From this, the present research is aimed to investigate the performance impact in the short social messages classification task using a continuous expansion of the training set approach with support of a measure of confidence in the predictions made. At the same time, the survey also aimed to evaluate alternatives for consideration and extraction of terms used for the classification in order to reduce dependencies on term-frequency based metrics. Restricted to the binary classification of tweets related to health events and written in English, the results showed a 9% improvement in F1, compared to the baseline used, showing that the action of expanding the classifier increases the performance, even in the case of short message classification task for health concerns. For the term weighting objective, the main contribution obtained is the ability to automatically indentify high discriminative terms in the dataset, without suffering limitations regarding term-frequency. This may, for example, be able to help build more robust and dynamic classification processes which make use of lists of specific terms for indexing contents on external database ( textit background knowledge). Overall, the results can benefit, by the improvement of the discussed hypotheses, the emergence of more robust applications in the field of surveillance, control and decision making to real health events (epidemiology, health campaigns, etc.), through the task of classifying short social messages. === Nos últimos anos um grande número de pesquisas científicas fomentou o uso de informações da web como insumos para a vigilância epidemiológica e descoberta/mineração de conhecimentos relacionados a saúde pública em geral. Ao fazerem uso de conteúdo das mídias sociais, principalmente tweets, as abordagens propostas transformam o problema de identificação de conteúdo em um problema de classificação de texto, seguindo o cenário de aprendizagem supervisionada. Neste processo, algumas limitações atribuídas à representação das mensagens, atualização de modelo assim como a extração de atributos discriminativos, surgem. Partido disso, a presente pesquisa propõe investigar o impacto no desempenho de classificação de mensagens sociais curtas através da expansão contínua do conjunto de treinamento tendo como referência a medida de confiança nas predições realizadas. Paralelamente, a pesquisa também teve como objetivo avaliar alternativas para ponderação e extração de termos utilizados para a classificação, de modo a reduzir a dependência em métricas baseadas em frequência de termos. Restringindo-se à classificação binária de tweets relacionados a eventos de saúde e escritos em língua inglesa, os resultados obtidos revelaram uma melhoria de F1 de 9%, em relação a linha de base utilizada, evidenciando que a ação de expandir o classificador eleva o desempenho de classificação, também para o caso da classificação de mensagens curtas em domínio de saúde. Sobre a ponderação de termos, tem-se que a principal contribuição obtida, está na capacidade de levantar termos característicos do conjunto de dados e suas classes de interesse automaticamente, sem sofrer com limitações de frequência de termos, o que pode, por exemplo, ser capaz de ajudar a construir processos de classificação mais robustos e dinâmicos ao qual façam uso de listas de termos específicos para indexação em consultas à bancos de dados externos (background knowledge). No geral, os resultados apresentados podem beneficiar, pelo aprimoramento das hipóteses levantadas, o surgimento de aplicações mais robustas no campo da vigilância, controle e contrapartida à eventos reais de saúde (epidemiologia, campanhas de saúde, etc.), por meio da tarefa de classificação de mensagens sociais curtas.
author2	Formiga, Andrei de Araujo
author_facet	Formiga, Andrei de Araujo Oliveira, Ewerton Lopes Silva de
author	Oliveira, Ewerton Lopes Silva de
author_sort	Oliveira, Ewerton Lopes Silva de
title	Uma investigação de aspectos da classificação de tópicos para textos curtos
title_short	Uma investigação de aspectos da classificação de tópicos para textos curtos
title_full	Uma investigação de aspectos da classificação de tópicos para textos curtos
title_fullStr	Uma investigação de aspectos da classificação de tópicos para textos curtos
title_full_unstemmed	Uma investigação de aspectos da classificação de tópicos para textos curtos
title_sort	uma investigação de aspectos da classificação de tópicos para textos curtos
publisher	Universidade Federal da Paraíba
publishDate	2016
url	http://tede.biblioteca.ufpb.br:8080/handle/tede/7842
work_keys_str_mv	AT oliveiraewertonlopessilvade umainvestigacaodeaspectosdaclassificacaodetopicosparatextoscurtos
_version_	1718668177154506752
spelling	ndltd-IBICT-oai-tede.biblioteca.ufpb.br-tede-78422018-05-23T22:40:15Z Uma investigação de aspectos da classificação de tópicos para textos curtos Oliveira, Ewerton Lopes Silva de Formiga, Andrei de Araujo Aprendizagem de máquina Classificação de texto Mensagens sociais Text classification Social messages Machine learning CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Submitted by Clebson Anjos (clebson.leandro54@gmail.com) on 2016-02-15T17:35:03Z No. of bitstreams: 1 arquivototal.pdf: 1768771 bytes, checksum: 5e8df60284fb114853ef61923cb2ec0d (MD5) Made available in DSpace on 2016-02-15T17:35:03Z (GMT). No. of bitstreams: 1 arquivototal.pdf: 1768771 bytes, checksum: 5e8df60284fb114853ef61923cb2ec0d (MD5) Previous issue date: 2015-02-23 Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES In recent years a large number of scientific research has stimulated the use of web data as inputs for the epidemiological surveillance and knowledge discovery/mining related to public health in general. In order to make use of social media content, especially tweets, some approaches proposed before transform a content identification problem to a text classification problem, following the supervised learning scenario. However, during this process, some limitations attributed to the representation of messages as well as the extraction of attributes arise. From this, the present research is aimed to investigate the performance impact in the short social messages classification task using a continuous expansion of the training set approach with support of a measure of confidence in the predictions made. At the same time, the survey also aimed to evaluate alternatives for consideration and extraction of terms used for the classification in order to reduce dependencies on term-frequency based metrics. Restricted to the binary classification of tweets related to health events and written in English, the results showed a 9% improvement in F1, compared to the baseline used, showing that the action of expanding the classifier increases the performance, even in the case of short message classification task for health concerns. For the term weighting objective, the main contribution obtained is the ability to automatically indentify high discriminative terms in the dataset, without suffering limitations regarding term-frequency. This may, for example, be able to help build more robust and dynamic classification processes which make use of lists of specific terms for indexing contents on external database ( textit background knowledge). Overall, the results can benefit, by the improvement of the discussed hypotheses, the emergence of more robust applications in the field of surveillance, control and decision making to real health events (epidemiology, health campaigns, etc.), through the task of classifying short social messages. Nos últimos anos um grande número de pesquisas científicas fomentou o uso de informações da web como insumos para a vigilância epidemiológica e descoberta/mineração de conhecimentos relacionados a saúde pública em geral. Ao fazerem uso de conteúdo das mídias sociais, principalmente tweets, as abordagens propostas transformam o problema de identificação de conteúdo em um problema de classificação de texto, seguindo o cenário de aprendizagem supervisionada. Neste processo, algumas limitações atribuídas à representação das mensagens, atualização de modelo assim como a extração de atributos discriminativos, surgem. Partido disso, a presente pesquisa propõe investigar o impacto no desempenho de classificação de mensagens sociais curtas através da expansão contínua do conjunto de treinamento tendo como referência a medida de confiança nas predições realizadas. Paralelamente, a pesquisa também teve como objetivo avaliar alternativas para ponderação e extração de termos utilizados para a classificação, de modo a reduzir a dependência em métricas baseadas em frequência de termos. Restringindo-se à classificação binária de tweets relacionados a eventos de saúde e escritos em língua inglesa, os resultados obtidos revelaram uma melhoria de F1 de 9%, em relação a linha de base utilizada, evidenciando que a ação de expandir o classificador eleva o desempenho de classificação, também para o caso da classificação de mensagens curtas em domínio de saúde. Sobre a ponderação de termos, tem-se que a principal contribuição obtida, está na capacidade de levantar termos característicos do conjunto de dados e suas classes de interesse automaticamente, sem sofrer com limitações de frequência de termos, o que pode, por exemplo, ser capaz de ajudar a construir processos de classificação mais robustos e dinâmicos ao qual façam uso de listas de termos específicos para indexação em consultas à bancos de dados externos (background knowledge). No geral, os resultados apresentados podem beneficiar, pelo aprimoramento das hipóteses levantadas, o surgimento de aplicações mais robustas no campo da vigilância, controle e contrapartida à eventos reais de saúde (epidemiologia, campanhas de saúde, etc.), por meio da tarefa de classificação de mensagens sociais curtas. 2016-02-15T17:35:03Z 2015-02-23 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis OLIVEIRA, Ewerton Lopes Silva de. Uma investigação de aspectos da classificação de tópicos para textos curtos. 2015. 82 f. Dissertação (Mestrado em Informática) - Universidade Federal da Paraíba, João Pessoa, 2015. http://tede.biblioteca.ufpb.br:8080/handle/tede/7842 por 4679641312648529202 600 600 600 600 7879657947546587587 3671711205811204509 2075167498588264571 info:eu-repo/semantics/openAccess application/pdf Universidade Federal da Paraíba Programa de Pós-Graduação em Informática UFPB Brasil Informática reponame:Biblioteca Digital de Teses e Dissertações da UFPB instname:Universidade Federal da Paraíba instacron:UFPB

Uma investigação de aspectos da classificação de tópicos para textos curtos

Similar Items