Uma investigação de aspectos da classificação de tópicos para textos curtos
Submitted by Clebson Anjos (clebson.leandro54@gmail.com) on 2016-02-15T17:35:03Z No. of bitstreams: 1 arquivototal.pdf: 1768771 bytes, checksum: 5e8df60284fb114853ef61923cb2ec0d (MD5) === Made available in DSpace on 2016-02-15T17:35:03Z (GMT). No. of bitstreams: 1 arquivototal.pdf: 1768771 bytes,...
Main Author: | |
---|---|
Other Authors: | |
Format: | Others |
Language: | Portuguese |
Published: |
Universidade Federal da Paraíba
2016
|
Subjects: | |
Online Access: | http://tede.biblioteca.ufpb.br:8080/handle/tede/7842 |
id |
ndltd-IBICT-oai-tede.biblioteca.ufpb.br-tede-7842 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
Portuguese |
format |
Others
|
sources |
NDLTD |
topic |
Aprendizagem de máquina Classificação de texto Mensagens sociais Text classification Social messages Machine learning CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
spellingShingle |
Aprendizagem de máquina Classificação de texto Mensagens sociais Text classification Social messages Machine learning CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Oliveira, Ewerton Lopes Silva de Uma investigação de aspectos da classificação de tópicos para textos curtos |
description |
Submitted by Clebson Anjos (clebson.leandro54@gmail.com) on 2016-02-15T17:35:03Z
No. of bitstreams: 1
arquivototal.pdf: 1768771 bytes, checksum: 5e8df60284fb114853ef61923cb2ec0d (MD5) === Made available in DSpace on 2016-02-15T17:35:03Z (GMT). No. of bitstreams: 1
arquivototal.pdf: 1768771 bytes, checksum: 5e8df60284fb114853ef61923cb2ec0d (MD5)
Previous issue date: 2015-02-23 === Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES === In recent years a large number of scientific research has stimulated the use of web data
as inputs for the epidemiological surveillance and knowledge discovery/mining related
to public health in general. In order to make use of social media content, especially
tweets, some approaches proposed before transform a content identification problem to a
text classification problem, following the supervised learning scenario. However, during
this process, some limitations attributed to the representation of messages as well as the
extraction of attributes arise. From this, the present research is aimed to investigate the
performance impact in the short social messages classification task using a continuous
expansion of the training set approach with support of a measure of confidence in the
predictions made. At the same time, the survey also aimed to evaluate alternatives for
consideration and extraction of terms used for the classification in order to reduce dependencies on term-frequency based metrics. Restricted to the binary classification of tweets related to health events and written in English, the results showed a 9% improvement in F1, compared to the baseline used, showing that the action of expanding the classifier increases the performance, even in the case of short message classification task for health concerns. For the term weighting objective, the main contribution obtained is the ability to automatically indentify high discriminative terms in the dataset, without suffering limitations regarding term-frequency. This may, for example, be able to help build more robust and dynamic classification processes which make use of lists of specific terms for indexing contents on external database ( textit background knowledge). Overall, the results can benefit, by the improvement of the discussed hypotheses, the emergence of more robust applications in the field of surveillance, control and decision making to real health events (epidemiology, health campaigns, etc.), through the task of classifying short social messages. === Nos últimos anos um grande número de pesquisas científicas fomentou o uso de informações da web como insumos para a vigilância epidemiológica e descoberta/mineração de conhecimentos relacionados a saúde pública em geral. Ao fazerem uso de conteúdo das mídias sociais, principalmente tweets, as abordagens propostas transformam o problema de identificação de conteúdo em um problema de classificação de texto, seguindo o cenário de aprendizagem supervisionada. Neste processo, algumas limitações atribuídas à representação das mensagens, atualização de modelo assim como a extração de atributos discriminativos, surgem. Partido disso, a presente pesquisa propõe investigar o impacto no desempenho de classificação
de mensagens sociais curtas através da expansão contínua do conjunto de treinamento tendo como referência a medida de confiança nas predições realizadas. Paralelamente, a pesquisa também teve como objetivo avaliar alternativas para ponderação e extração de termos utilizados para a classificação, de modo a reduzir a dependência em métricas baseadas em frequência de termos. Restringindo-se à classificação binária de tweets relacionados a eventos de saúde e escritos em língua inglesa, os resultados obtidos revelaram uma melhoria de F1 de 9%, em relação a linha de base utilizada, evidenciando que a ação de expandir o classificador eleva o desempenho de classificação, também para o caso da classificação
de mensagens curtas em domínio de saúde. Sobre a ponderação de termos, tem-se que a principal contribuição obtida, está na capacidade de levantar termos característicos do conjunto de dados e suas classes de interesse automaticamente, sem sofrer com limitações de frequência de termos, o que pode, por exemplo, ser capaz de ajudar a construir processos de classificação mais robustos e dinâmicos ao qual façam uso de listas de termos específicos para indexação em consultas à bancos de dados externos (background knowledge). No geral, os resultados apresentados podem beneficiar, pelo aprimoramento das hipóteses levantadas, o surgimento de aplicações mais robustas no campo da vigilância, controle e contrapartida à eventos reais de saúde (epidemiologia, campanhas de saúde, etc.), por meio da tarefa de
classificação de mensagens sociais curtas. |
author2 |
Formiga, Andrei de Araujo |
author_facet |
Formiga, Andrei de Araujo Oliveira, Ewerton Lopes Silva de |
author |
Oliveira, Ewerton Lopes Silva de |
author_sort |
Oliveira, Ewerton Lopes Silva de |
title |
Uma investigação de aspectos da classificação de tópicos para textos curtos |
title_short |
Uma investigação de aspectos da classificação de tópicos para textos curtos |
title_full |
Uma investigação de aspectos da classificação de tópicos para textos curtos |
title_fullStr |
Uma investigação de aspectos da classificação de tópicos para textos curtos |
title_full_unstemmed |
Uma investigação de aspectos da classificação de tópicos para textos curtos |
title_sort |
uma investigação de aspectos da classificação de tópicos para textos curtos |
publisher |
Universidade Federal da Paraíba |
publishDate |
2016 |
url |
http://tede.biblioteca.ufpb.br:8080/handle/tede/7842 |
work_keys_str_mv |
AT oliveiraewertonlopessilvade umainvestigacaodeaspectosdaclassificacaodetopicosparatextoscurtos |
_version_ |
1718668177154506752 |
spelling |
ndltd-IBICT-oai-tede.biblioteca.ufpb.br-tede-78422018-05-23T22:40:15Z Uma investigação de aspectos da classificação de tópicos para textos curtos Oliveira, Ewerton Lopes Silva de Formiga, Andrei de Araujo Aprendizagem de máquina Classificação de texto Mensagens sociais Text classification Social messages Machine learning CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Submitted by Clebson Anjos (clebson.leandro54@gmail.com) on 2016-02-15T17:35:03Z No. of bitstreams: 1 arquivototal.pdf: 1768771 bytes, checksum: 5e8df60284fb114853ef61923cb2ec0d (MD5) Made available in DSpace on 2016-02-15T17:35:03Z (GMT). No. of bitstreams: 1 arquivototal.pdf: 1768771 bytes, checksum: 5e8df60284fb114853ef61923cb2ec0d (MD5) Previous issue date: 2015-02-23 Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES In recent years a large number of scientific research has stimulated the use of web data as inputs for the epidemiological surveillance and knowledge discovery/mining related to public health in general. In order to make use of social media content, especially tweets, some approaches proposed before transform a content identification problem to a text classification problem, following the supervised learning scenario. However, during this process, some limitations attributed to the representation of messages as well as the extraction of attributes arise. From this, the present research is aimed to investigate the performance impact in the short social messages classification task using a continuous expansion of the training set approach with support of a measure of confidence in the predictions made. At the same time, the survey also aimed to evaluate alternatives for consideration and extraction of terms used for the classification in order to reduce dependencies on term-frequency based metrics. Restricted to the binary classification of tweets related to health events and written in English, the results showed a 9% improvement in F1, compared to the baseline used, showing that the action of expanding the classifier increases the performance, even in the case of short message classification task for health concerns. For the term weighting objective, the main contribution obtained is the ability to automatically indentify high discriminative terms in the dataset, without suffering limitations regarding term-frequency. This may, for example, be able to help build more robust and dynamic classification processes which make use of lists of specific terms for indexing contents on external database ( textit background knowledge). Overall, the results can benefit, by the improvement of the discussed hypotheses, the emergence of more robust applications in the field of surveillance, control and decision making to real health events (epidemiology, health campaigns, etc.), through the task of classifying short social messages. Nos últimos anos um grande número de pesquisas científicas fomentou o uso de informações da web como insumos para a vigilância epidemiológica e descoberta/mineração de conhecimentos relacionados a saúde pública em geral. Ao fazerem uso de conteúdo das mídias sociais, principalmente tweets, as abordagens propostas transformam o problema de identificação de conteúdo em um problema de classificação de texto, seguindo o cenário de aprendizagem supervisionada. Neste processo, algumas limitações atribuídas à representação das mensagens, atualização de modelo assim como a extração de atributos discriminativos, surgem. Partido disso, a presente pesquisa propõe investigar o impacto no desempenho de classificação de mensagens sociais curtas através da expansão contínua do conjunto de treinamento tendo como referência a medida de confiança nas predições realizadas. Paralelamente, a pesquisa também teve como objetivo avaliar alternativas para ponderação e extração de termos utilizados para a classificação, de modo a reduzir a dependência em métricas baseadas em frequência de termos. Restringindo-se à classificação binária de tweets relacionados a eventos de saúde e escritos em língua inglesa, os resultados obtidos revelaram uma melhoria de F1 de 9%, em relação a linha de base utilizada, evidenciando que a ação de expandir o classificador eleva o desempenho de classificação, também para o caso da classificação de mensagens curtas em domínio de saúde. Sobre a ponderação de termos, tem-se que a principal contribuição obtida, está na capacidade de levantar termos característicos do conjunto de dados e suas classes de interesse automaticamente, sem sofrer com limitações de frequência de termos, o que pode, por exemplo, ser capaz de ajudar a construir processos de classificação mais robustos e dinâmicos ao qual façam uso de listas de termos específicos para indexação em consultas à bancos de dados externos (background knowledge). No geral, os resultados apresentados podem beneficiar, pelo aprimoramento das hipóteses levantadas, o surgimento de aplicações mais robustas no campo da vigilância, controle e contrapartida à eventos reais de saúde (epidemiologia, campanhas de saúde, etc.), por meio da tarefa de classificação de mensagens sociais curtas. 2016-02-15T17:35:03Z 2015-02-23 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis OLIVEIRA, Ewerton Lopes Silva de. Uma investigação de aspectos da classificação de tópicos para textos curtos. 2015. 82 f. Dissertação (Mestrado em Informática) - Universidade Federal da Paraíba, João Pessoa, 2015. http://tede.biblioteca.ufpb.br:8080/handle/tede/7842 por 4679641312648529202 600 600 600 600 7879657947546587587 3671711205811204509 2075167498588264571 info:eu-repo/semantics/openAccess application/pdf Universidade Federal da Paraíba Programa de Pós-Graduação em Informática UFPB Brasil Informática reponame:Biblioteca Digital de Teses e Dissertações da UFPB instname:Universidade Federal da Paraíba instacron:UFPB |