Redução de características baseada em grupos semânticos aplicados à classificação de textos
Submitted by Mario BC (mario@bc.ufrpe.br) on 2018-11-08T12:02:13Z No. of bitstreams: 1 Elaine Cristina Moreira Marques.pdf: 4610553 bytes, checksum: 274979b8aee4b03c56f9c68296eeb073 (MD5) === Made available in DSpace on 2018-11-08T12:02:13Z (GMT). No. of bitstreams: 1 Elaine Cristina Moreira Marques...
Main Author: | |
---|---|
Other Authors: | |
Format: | Others |
Language: | Portuguese |
Published: |
Universidade Federal Rural de Pernambuco
2018
|
Subjects: | |
Online Access: | http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/7680 |
id |
ndltd-IBICT-oai-tede2-tede2-7680 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
Portuguese |
format |
Others
|
sources |
NDLTD |
topic |
Agrupamento de texto Classificação de texto Redução de dimensionalidade Algoritmos de agrupamento CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA |
spellingShingle |
Agrupamento de texto Classificação de texto Redução de dimensionalidade Algoritmos de agrupamento CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA MARQUES, Elaine Cristina Moreira Redução de características baseada em grupos semânticos aplicados à classificação de textos |
description |
Submitted by Mario BC (mario@bc.ufrpe.br) on 2018-11-08T12:02:13Z
No. of bitstreams: 1
Elaine Cristina Moreira Marques.pdf: 4610553 bytes, checksum: 274979b8aee4b03c56f9c68296eeb073 (MD5) === Made available in DSpace on 2018-11-08T12:02:13Z (GMT). No. of bitstreams: 1
Elaine Cristina Moreira Marques.pdf: 4610553 bytes, checksum: 274979b8aee4b03c56f9c68296eeb073 (MD5)
Previous issue date: 2018-07-17 === Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES === The classification of texts is a technique that aims to organize and categorize information,
from textual documents present on digital platforms. Usually each of the words that constitute the documents are considered as a characteristic. This approach to simple textual representations is called Bag of Words. Although these characteristics are important for classifying documents, most of them are irrelevant and/or redundant, which causes problems such as high dimensionality, making categorization costly in terms of memory and execution. In order to reduce the large demand for computational resources, dimensionality reduction techniques are applied, such as the selection and transformation of characteristics.
Characteristic selection is widely used in the literature because it has a lower computational
cost compared to other techniques . In this technique, characteristics are selected without
presenting modifications in the original characteristics, that is, the selection of a subset that contains only the most relevant characteristics of the original set occurs. In the transformation of characteristics occurs the formation of a new set of characteristics, this new set being smaller than the original set, containing new words caused by the combination or transformation of the original words. It is important to stress that both methods have some kind of loss of information. The objective of this work is to propose a new dimensionality reduction method that minimizes the loss of characteristic information from the creation of semantically related groups of words using clustering algorithms and Word Embeddings. With this, it is possible to reduce the amount of characteristics maintaining the semantics of each word. In this work the reduction occurred through the creation of semantic groups. Initially, the words in the databases were vectorized using Word2Vec and Glove methods. After the words were vectorized, the clustering algorithms were applied, creating smaller groups of characteristics in relation to the original groups. The method was applied in widely used databases in the literature, reaching good results, especially in more unstructured data, such as Web pages, news, Twitter posts, among others. === A classificação de textos é uma técnica que tem como objetivo organizar e categorizar informações, a partir de documentos textuais presentes nas plataformas digitais. Usualmente cada uma das palavras que constituem os documentos são consideradas como uma característica. Esta abordagem para representações textuais simples é chamada Bag of Words. Embora estas características sejam importantes para classificar documentos, a maioria delas são irrelevantes e/ou redundantes o que provoca problemas como alta dimensionalidade, tornando a categorização custosa em termos de memória e execução. Para reduzir a
grande demanda de recursos computacionais, técnicas de redução de dimensionalidade são aplicadas, como a seleção e a transformação de características. A seleção de características é bastante utilizada na literatura, pelo fato desta possuir um custo computacional mais baixo em relação as outras técnicas. Nesta técnica, características são selecionadas sem apresentar modificações nas características originais, ou seja, ocorre a seleção de um subconjunto que contém apenas as características mais relevantes do conjunto original. Na transformação de características ocorre a formação de um novo conjunto de características, sendo este novo
conjunto menor que o conjunto original, contendo novas palavras ocasionadas por meio da combinação ou transformação das palavras originais. É importante frisar que ambos os métodos possuem algum tipo de perda de informação. O objetivo deste trabalho é propor um novo método de redução de dimensionalidade que minimize a perda de informação das características a partir da criação de grupos de palavras semanticamente relacionadas utilizando algoritmos de agrupamento e Word Embeddings. Com isso, é possível reduzir a quantidade de características mantendo a semântica de cada palavra. Neste trabalho a redução ocorreu por meio da criação de grupos semânticos. Inicialmente as palavras das bases de dados passaram por uma vetorização, utilizando os métodos Word2Vec e o Glove. Após a vetorização das palavras, foram aplicados os algoritmos de agrupamento, criando grupos menores de características em relação aos grupos originais. O método foi aplicado em bases de dados bastante utilizadas na literatura, alcançando bons resultados,
principalmente em dados mais desestruturados, como páginas da Web, notícias, postagens feitas em Twitter, entre outras. |
author2 |
MELLO, Rafael Ferreira Leite de |
author_facet |
MELLO, Rafael Ferreira Leite de MARQUES, Elaine Cristina Moreira |
author |
MARQUES, Elaine Cristina Moreira |
author_sort |
MARQUES, Elaine Cristina Moreira |
title |
Redução de características baseada em grupos semânticos aplicados à classificação de textos |
title_short |
Redução de características baseada em grupos semânticos aplicados à classificação de textos |
title_full |
Redução de características baseada em grupos semânticos aplicados à classificação de textos |
title_fullStr |
Redução de características baseada em grupos semânticos aplicados à classificação de textos |
title_full_unstemmed |
Redução de características baseada em grupos semânticos aplicados à classificação de textos |
title_sort |
redução de características baseada em grupos semânticos aplicados à classificação de textos |
publisher |
Universidade Federal Rural de Pernambuco |
publishDate |
2018 |
url |
http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/7680 |
work_keys_str_mv |
AT marqueselainecristinamoreira reducaodecaracteristicasbaseadaemgrupossemanticosaplicadosaclassificacaodetextos |
_version_ |
1718868057822068736 |
spelling |
ndltd-IBICT-oai-tede2-tede2-76802019-01-21T19:55:49Z Redução de características baseada em grupos semânticos aplicados à classificação de textos MARQUES, Elaine Cristina Moreira MELLO, Rafael Ferreira Leite de OLIVEIRA JUNIOR, Wilson Rosa de OLIVEIRA JUNIOR, Wilson Rosa de SILVA, Adenilton José da COSTA, Evandro de Barros Agrupamento de texto Classificação de texto Redução de dimensionalidade Algoritmos de agrupamento CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA Submitted by Mario BC (mario@bc.ufrpe.br) on 2018-11-08T12:02:13Z No. of bitstreams: 1 Elaine Cristina Moreira Marques.pdf: 4610553 bytes, checksum: 274979b8aee4b03c56f9c68296eeb073 (MD5) Made available in DSpace on 2018-11-08T12:02:13Z (GMT). No. of bitstreams: 1 Elaine Cristina Moreira Marques.pdf: 4610553 bytes, checksum: 274979b8aee4b03c56f9c68296eeb073 (MD5) Previous issue date: 2018-07-17 Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES The classification of texts is a technique that aims to organize and categorize information, from textual documents present on digital platforms. Usually each of the words that constitute the documents are considered as a characteristic. This approach to simple textual representations is called Bag of Words. Although these characteristics are important for classifying documents, most of them are irrelevant and/or redundant, which causes problems such as high dimensionality, making categorization costly in terms of memory and execution. In order to reduce the large demand for computational resources, dimensionality reduction techniques are applied, such as the selection and transformation of characteristics. Characteristic selection is widely used in the literature because it has a lower computational cost compared to other techniques . In this technique, characteristics are selected without presenting modifications in the original characteristics, that is, the selection of a subset that contains only the most relevant characteristics of the original set occurs. In the transformation of characteristics occurs the formation of a new set of characteristics, this new set being smaller than the original set, containing new words caused by the combination or transformation of the original words. It is important to stress that both methods have some kind of loss of information. The objective of this work is to propose a new dimensionality reduction method that minimizes the loss of characteristic information from the creation of semantically related groups of words using clustering algorithms and Word Embeddings. With this, it is possible to reduce the amount of characteristics maintaining the semantics of each word. In this work the reduction occurred through the creation of semantic groups. Initially, the words in the databases were vectorized using Word2Vec and Glove methods. After the words were vectorized, the clustering algorithms were applied, creating smaller groups of characteristics in relation to the original groups. The method was applied in widely used databases in the literature, reaching good results, especially in more unstructured data, such as Web pages, news, Twitter posts, among others. A classificação de textos é uma técnica que tem como objetivo organizar e categorizar informações, a partir de documentos textuais presentes nas plataformas digitais. Usualmente cada uma das palavras que constituem os documentos são consideradas como uma característica. Esta abordagem para representações textuais simples é chamada Bag of Words. Embora estas características sejam importantes para classificar documentos, a maioria delas são irrelevantes e/ou redundantes o que provoca problemas como alta dimensionalidade, tornando a categorização custosa em termos de memória e execução. Para reduzir a grande demanda de recursos computacionais, técnicas de redução de dimensionalidade são aplicadas, como a seleção e a transformação de características. A seleção de características é bastante utilizada na literatura, pelo fato desta possuir um custo computacional mais baixo em relação as outras técnicas. Nesta técnica, características são selecionadas sem apresentar modificações nas características originais, ou seja, ocorre a seleção de um subconjunto que contém apenas as características mais relevantes do conjunto original. Na transformação de características ocorre a formação de um novo conjunto de características, sendo este novo conjunto menor que o conjunto original, contendo novas palavras ocasionadas por meio da combinação ou transformação das palavras originais. É importante frisar que ambos os métodos possuem algum tipo de perda de informação. O objetivo deste trabalho é propor um novo método de redução de dimensionalidade que minimize a perda de informação das características a partir da criação de grupos de palavras semanticamente relacionadas utilizando algoritmos de agrupamento e Word Embeddings. Com isso, é possível reduzir a quantidade de características mantendo a semântica de cada palavra. Neste trabalho a redução ocorreu por meio da criação de grupos semânticos. Inicialmente as palavras das bases de dados passaram por uma vetorização, utilizando os métodos Word2Vec e o Glove. Após a vetorização das palavras, foram aplicados os algoritmos de agrupamento, criando grupos menores de características em relação aos grupos originais. O método foi aplicado em bases de dados bastante utilizadas na literatura, alcançando bons resultados, principalmente em dados mais desestruturados, como páginas da Web, notícias, postagens feitas em Twitter, entre outras. 2018-11-08T12:02:13Z 2018-07-17 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis MARQUES, Elaine Cristina Moreira. Redução de características baseada em grupos semânticos aplicados à classificação de textos. 2018. 101 f. Dissertação (Programa de Pós-Graduação em Biometria e Estatística Aplicada) - Universidade Federal Rural de Pernambuco, Recife. http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/7680 por 768382242446187918 600 600 600 600 -6774555140396120501 -5836407828185143517 2075167498588264571 info:eu-repo/semantics/openAccess application/pdf Universidade Federal Rural de Pernambuco Programa de Pós-Graduação em Biometria e Estatística Aplicada UFRPE Brasil Departamento de Estatística e Informática reponame:Biblioteca Digital de Teses e Dissertações da UFRPE instname:Universidade Federal Rural de Pernambuco instacron:UFRPE |