TubeSpam: Filtragem Automática de Comentários Indesejados Postados no YouTube
Submitted by Milena Rubi (milenarubi@ufscar.br) on 2017-10-03T19:06:58Z No. of bitstreams: 1 ALBERTO_Tulio_2017.pdf: 2422402 bytes, checksum: 127bff2089f3d274b1abaa58c3d32578 (MD5) === Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-10-03T19:07:11Z (GMT) No. of bitstr...
Main Author: | |
---|---|
Other Authors: | |
Language: | Portuguese |
Published: |
Universidade Federal de São Carlos
2017
|
Subjects: | |
Online Access: | https://repositorio.ufscar.br/handle/ufscar/9137 |
id |
ndltd-IBICT-oai-repositorio.ufscar.br-ufscar-9137 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
Portuguese |
sources |
NDLTD |
topic |
Youtube (Recurso eletrônico) Aprendizado do computador Spam (Mensagens eletrônicas) Youtube (Recurso eletrônico) Comentários indesejados Spam (Electronic mail) Machine learning Undesired comments CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
spellingShingle |
Youtube (Recurso eletrônico) Aprendizado do computador Spam (Mensagens eletrônicas) Youtube (Recurso eletrônico) Comentários indesejados Spam (Electronic mail) Machine learning Undesired comments CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Alberto, Túlio Casagrande TubeSpam: Filtragem Automática de Comentários Indesejados Postados no YouTube |
description |
Submitted by Milena Rubi (milenarubi@ufscar.br) on 2017-10-03T19:06:58Z
No. of bitstreams: 1
ALBERTO_Tulio_2017.pdf: 2422402 bytes, checksum: 127bff2089f3d274b1abaa58c3d32578 (MD5) === Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-10-03T19:07:11Z (GMT) No. of bitstreams: 1
ALBERTO_Tulio_2017.pdf: 2422402 bytes, checksum: 127bff2089f3d274b1abaa58c3d32578 (MD5) === Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-10-03T19:07:27Z (GMT) No. of bitstreams: 1
ALBERTO_Tulio_2017.pdf: 2422402 bytes, checksum: 127bff2089f3d274b1abaa58c3d32578 (MD5) === Made available in DSpace on 2017-10-03T19:07:37Z (GMT). No. of bitstreams: 1
ALBERTO_Tulio_2017.pdf: 2422402 bytes, checksum: 127bff2089f3d274b1abaa58c3d32578 (MD5)
Previous issue date: 2017-02-03 === Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) === YouTube has become an important video sharing platform. Several users regularly produce video content and make this task their main livelihood. However, such success is also drawing the attention of malicious users propagating undesired comments and videos, looking for self-promotion or disseminating malicious links which may have malwares and viruses. Since YouTube offers limited tools for blocking spam, the volume of such messages is shockingly increasing and harming users and channels owners. In addition to the problem being naturally online, comment spam filtering on YouTube is different than the traditional email spam filtering, since the messages are very short and often rife with spelling errors, slangs, symbols and abbreviations. This manuscript presents a performance evaluation of traditional online classification methods, aided by lexical normalization and semantic indexing techniques when applied to automatic filter YouTube comment spam. It was also evaluated the performance of MDLText, a promising text classification method based on the minimum description length principle. The statistical analysis of the results indicates that MDLText, Passive-Aggressive, Naïve Bayes, MDL and Online Gradient Descent obtained statistically equivalent performances. The results also indicate that the lexical normalization and semantic indexing techniques are effective to be applied to the problem. Based on the results, it is proposed and designed TubeSpam, an online tool to automatic filter undesired comments posted on YouTube. === O YouTube tem se tornado uma importante plataforma de compartilhamento de vídeos. Muitos usuários produzem regularmente conteúdo em vídeo e fazem desta tarefa seu principal meio de vida. Contudo, esse sucesso também vem despertando a atenção de usuários mal-intencionados, que propagam comentários e vídeos indesejados para se autopromoverem ou para disseminar links maliciosos que podem conter vírus e malwares. Visto que o YouTube atualmente oferece recursos limitados para bloquear spam, o volume dessas mensagens está impactando muitos usuários e proprietários de canais. Além da característica inerentemente online do problema, filtrar spam nos comentários do YouTube é uma tarefa que difere-se da tradicional filtragem de spam em emails, pois as mensagens costumam ser muito mais curtas e repletas de erros de digitação, gírias, símbolos e abreviações que podem dificultar a tarefa de classificação. Assim, nesta dissertação é apresentada a avaliação de desempenho obtido por métodos tradicionais de classificação online auxiliados por técnicas de normalização léxica e indexação semântica, quando aplicados na filtragem automática de comentários indesejados postados no YouTube. Foi avaliado também o desempenho do MDLText, um promissor método de classificação de texto baseado no princípio da descrição mais simples. A análise estatística dos resultados indica que os métodos MDLText, Passivo-Agressivo, Naïve Bayes, MDL e Gradiente Descendente Online obtiveram desempenhos equivalentes. Além disso, os resultados também indicam que o uso de técnicas de normalização léxica e indexação semântica são eficazes para atenuar os problemas de representação de texto e, consequentemente, aumentar o poder de predição dos métodos de classificação. Baseado nos resultados dos experimentos, foi proposto e desenvolvido o TubeSpam, uma ferramenta online para filtrar automaticamente comentários indesejados postados no YouTube. |
author2 |
Almeida, Tiago Agostinho de |
author_facet |
Almeida, Tiago Agostinho de Alberto, Túlio Casagrande |
author |
Alberto, Túlio Casagrande |
author_sort |
Alberto, Túlio Casagrande |
title |
TubeSpam: Filtragem Automática de Comentários Indesejados Postados no YouTube |
title_short |
TubeSpam: Filtragem Automática de Comentários Indesejados Postados no YouTube |
title_full |
TubeSpam: Filtragem Automática de Comentários Indesejados Postados no YouTube |
title_fullStr |
TubeSpam: Filtragem Automática de Comentários Indesejados Postados no YouTube |
title_full_unstemmed |
TubeSpam: Filtragem Automática de Comentários Indesejados Postados no YouTube |
title_sort |
tubespam: filtragem automática de comentários indesejados postados no youtube |
publisher |
Universidade Federal de São Carlos |
publishDate |
2017 |
url |
https://repositorio.ufscar.br/handle/ufscar/9137 |
work_keys_str_mv |
AT albertotuliocasagrande tubespamfiltragemautomaticadecomentariosindesejadospostadosnoyoutube AT albertotuliocasagrande tubespamautomaticundesiredcommentsfilteringonyoutube |
_version_ |
1718651588751392768 |
spelling |
ndltd-IBICT-oai-repositorio.ufscar.br-ufscar-91372018-05-23T20:13:23Z TubeSpam: Filtragem Automática de Comentários Indesejados Postados no YouTube TubeSpam: automatic undesired comments filtering on YouTube Alberto, Túlio Casagrande Almeida, Tiago Agostinho de Youtube (Recurso eletrônico) Aprendizado do computador Spam (Mensagens eletrônicas) Youtube (Recurso eletrônico) Comentários indesejados Spam (Electronic mail) Machine learning Undesired comments CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Submitted by Milena Rubi (milenarubi@ufscar.br) on 2017-10-03T19:06:58Z No. of bitstreams: 1 ALBERTO_Tulio_2017.pdf: 2422402 bytes, checksum: 127bff2089f3d274b1abaa58c3d32578 (MD5) Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-10-03T19:07:11Z (GMT) No. of bitstreams: 1 ALBERTO_Tulio_2017.pdf: 2422402 bytes, checksum: 127bff2089f3d274b1abaa58c3d32578 (MD5) Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-10-03T19:07:27Z (GMT) No. of bitstreams: 1 ALBERTO_Tulio_2017.pdf: 2422402 bytes, checksum: 127bff2089f3d274b1abaa58c3d32578 (MD5) Made available in DSpace on 2017-10-03T19:07:37Z (GMT). No. of bitstreams: 1 ALBERTO_Tulio_2017.pdf: 2422402 bytes, checksum: 127bff2089f3d274b1abaa58c3d32578 (MD5) Previous issue date: 2017-02-03 Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) YouTube has become an important video sharing platform. Several users regularly produce video content and make this task their main livelihood. However, such success is also drawing the attention of malicious users propagating undesired comments and videos, looking for self-promotion or disseminating malicious links which may have malwares and viruses. Since YouTube offers limited tools for blocking spam, the volume of such messages is shockingly increasing and harming users and channels owners. In addition to the problem being naturally online, comment spam filtering on YouTube is different than the traditional email spam filtering, since the messages are very short and often rife with spelling errors, slangs, symbols and abbreviations. This manuscript presents a performance evaluation of traditional online classification methods, aided by lexical normalization and semantic indexing techniques when applied to automatic filter YouTube comment spam. It was also evaluated the performance of MDLText, a promising text classification method based on the minimum description length principle. The statistical analysis of the results indicates that MDLText, Passive-Aggressive, Naïve Bayes, MDL and Online Gradient Descent obtained statistically equivalent performances. The results also indicate that the lexical normalization and semantic indexing techniques are effective to be applied to the problem. Based on the results, it is proposed and designed TubeSpam, an online tool to automatic filter undesired comments posted on YouTube. O YouTube tem se tornado uma importante plataforma de compartilhamento de vídeos. Muitos usuários produzem regularmente conteúdo em vídeo e fazem desta tarefa seu principal meio de vida. Contudo, esse sucesso também vem despertando a atenção de usuários mal-intencionados, que propagam comentários e vídeos indesejados para se autopromoverem ou para disseminar links maliciosos que podem conter vírus e malwares. Visto que o YouTube atualmente oferece recursos limitados para bloquear spam, o volume dessas mensagens está impactando muitos usuários e proprietários de canais. Além da característica inerentemente online do problema, filtrar spam nos comentários do YouTube é uma tarefa que difere-se da tradicional filtragem de spam em emails, pois as mensagens costumam ser muito mais curtas e repletas de erros de digitação, gírias, símbolos e abreviações que podem dificultar a tarefa de classificação. Assim, nesta dissertação é apresentada a avaliação de desempenho obtido por métodos tradicionais de classificação online auxiliados por técnicas de normalização léxica e indexação semântica, quando aplicados na filtragem automática de comentários indesejados postados no YouTube. Foi avaliado também o desempenho do MDLText, um promissor método de classificação de texto baseado no princípio da descrição mais simples. A análise estatística dos resultados indica que os métodos MDLText, Passivo-Agressivo, Naïve Bayes, MDL e Gradiente Descendente Online obtiveram desempenhos equivalentes. Além disso, os resultados também indicam que o uso de técnicas de normalização léxica e indexação semântica são eficazes para atenuar os problemas de representação de texto e, consequentemente, aumentar o poder de predição dos métodos de classificação. Baseado nos resultados dos experimentos, foi proposto e desenvolvido o TubeSpam, uma ferramenta online para filtrar automaticamente comentários indesejados postados no YouTube. 2017-10-03T19:07:37Z 2017-10-03T19:07:37Z 2017-02-03 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis https://repositorio.ufscar.br/handle/ufscar/9137 por info:eu-repo/semantics/openAccess Universidade Federal de São Carlos Câmpus Sorocaba Programa de Pós-graduação em Ciência da Computação (Campus SOROCABA) UFSCar reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos instacron:UFSCAR |