Uma arquitetura de pré-processamento para análise de sentimento em mídias sociais em português brasileiro

Submitted by Luciclea Silva (luci@ufpa.br) on 2018-10-31T16:22:50Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_Arquiteturapreprocessamentoanalise.pdf: 2201314 bytes, checksum: b0a349ed6a153c4ed20626b65076c0ad (MD5) === Approved for entry...

Full description

Bibliographic Details
Main Author: CIRQUEIRA, Douglas da Rocha
Other Authors: SANTANA, Ádamo Lima de
Language:Portuguese
Published: Universidade Federal do Pará 2018
Subjects:
Online Access:CERQUEIRA, Douglas da Rocha. ,Uma arquitetura de pré-processamento para análise de sentimento em mídias sociais em português. 2018. 106 f.Dissertação (Mestrado) - Universidade Federal do Pará, Instituto de Tecnologia, Belém, 2018. Programa de Pós-Graduação em Engenharia Elétrica. Disponível em: <http://repositorio.ufpa.br/jspui/handle/2011/10338>. Acesso em:.
http://repositorio.ufpa.br/jspui/handle/2011/10338
Description
Summary:Submitted by Luciclea Silva (luci@ufpa.br) on 2018-10-31T16:22:50Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_Arquiteturapreprocessamentoanalise.pdf: 2201314 bytes, checksum: b0a349ed6a153c4ed20626b65076c0ad (MD5) === Approved for entry into archive by Luciclea Silva (luci@ufpa.br) on 2018-10-31T16:23:19Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_Arquiteturapreprocessamentoanalise.pdf: 2201314 bytes, checksum: b0a349ed6a153c4ed20626b65076c0ad (MD5) === Made available in DSpace on 2018-10-31T16:23:20Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_Arquiteturapreprocessamentoanalise.pdf: 2201314 bytes, checksum: b0a349ed6a153c4ed20626b65076c0ad (MD5) Previous issue date: 2018-08-23 === CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior === A Web 2.0 e a evolução nas Tecnologias da Informação e Comunicação, têm impulsionado novos meios de interação e relacionamento. Neste contexto, as Redes Sociais Online (RSO) são um exemplo, como plataformas que permitem a interação e o compartilhamento de informações entre pessoas. Além disso, é possível observar que RSO passaram a ser adotadas como canal de desabafo de consumidores, por meio de opiniões sobre produtos e experiências. Este cenário apresenta uma ótima oportunidade para que empresas possam melhorar produtos, serviços e estratégias de mercado, já que as RSO são poderosas fontes massivas de dados não-estruturados gerados pelo consumidor (do inglês, User- Generated Content - UGC), com opiniões e avaliações sobre ofertas em plataformas tais como Facebook, Twitter e Instagram. O Brasil é um grande exemplo onde esse fenômeno pode ser observado e apresenta potencial oportunidade de exploração de mercado, dado que a população brasileira é uma das nações que mais utiliza RSO no mundo. Neste âmbito, técnicas computacionais de Mineração de Opinião (MO) ou Análise de Sentimento (AS) são aplicadas com o intuito de inferir a polaridade dominante (positivo, negativo, neutro) quanto ao sentimento associado a textos, e, podem ser aplicadas em dados de RSO a fim de avaliar o feedback do público-alvo. Apesar das diversas estratégias de AS reportadas na literatura, ainda há vários desafios enfrentados na aplicação de AS em textos oriundos de RSO, devido às características da linguagem utilizada em tais plataformas. O estado da arte de AS é voltado para a língua inglesa e as propostas existentes para Português Brasileiro (PT_Br) não apresentam uma metodologia padronizada nas tarefas de pré-processamento. Neste âmbito, esta pesquisa investiga uma metodologia sem tradução e propõe uma nova arquitetura expandida de pré-processamento de AS voltada para o PT_Br, a fim de prover atributos enriquecidos para os algoritmos de AS. A proposta foi comparada com modelos bem estabelecidos na literatura, e resultados obtidos indicam que esta pode superar o estado da arte em até 3% de revocação, para 6 de 7 bases de dados avaliadas. === The Web 2.0 and the evolution of Information Technologies have brought novel interaction and relationship channels. In this context, the Online Social Networks (OSN) are an example as platforms which allow interactions and sharing of information between people. In this scenario, it is possible to observe the adoption of OSN as a channel for posting opinions regarding products and experience. This scene presents an excellent opportunity for companies that aim to improve products, services and marketing strategies, given OSNs are powerful sources of massive unstructured data generated by consumers (UGC), with opinions and reviews concerning offers, in platforms such as Facebook, Twitter and Instagram. Brazil is a highlight in this scenario, where this phenomenon can be observed, as the Brazilian population is one of the most active in social media platforms in the world. This makes it a country full of opportunities to market exploitation. In this context, computational techniques of Opinion Mining and Sentiment Analysis (SA) are applied aiming to infer the polarity (positive, negative, neutral) regarding a sentiment associated to texts, and can also be applied in data from OSN to evaluate the feedback from a target audience. Although the existing diversity of SA strategies reported in the literature, there are still challenges faced in the application of SA in text data from OSN, given the characteristics of the language adopted in such platforms. The state of art is focused on SA towards the English language, and the existing proposals for Brazilian Portuguese do not have a standardized methodology for preprocessing steps. In this context, this research investigates an approach with no translation, and proposes a novel preprocessing architecture for SA towards Brazilian Portuguese, aiming to provide enriched features to SA algorithms. The proposal was compared with well-established baselines from the literature, and the obtained results indicate that this architecture can overcome the state of art recall in at least 3% , for 6 out of 7 datasets evaluated.