Summary: | Submitted by repositorio repositorio (repositorio@unifei.edu.br) on 2018-05-17T19:54:14Z
No. of bitstreams: 1
dissertacao_0039064.pdf: 8608903 bytes, checksum: df8ea5917118aed87bb568c4b1e1c4a6 (MD5) === Made available in DSpace on 2018-05-17T19:54:14Z (GMT). No. of bitstreams: 1
dissertacao_0039064.pdf: 8608903 bytes, checksum: df8ea5917118aed87bb568c4b1e1c4a6 (MD5)
Previous issue date: 2011-10 === Desde sua concepção, no final dos anos 80, a rede Internet vem consolidando-se como um dos mais eficientes meios para troca de informação. O correio eletrônico, ou email, tornou-se a principal ferramenta da Internet para troca de informações. Infelizmente, porém, o correio eletrônico tornou-se alvo de oportunistas, que se valem da praticidade e do baixo custo da ferramenta para disseminar conteúdo indesejado pela rede. Emails spam ou spams são informações recebidas sem o consentimento prévio dos destinatários. Os spams, na maioria das vezes, possuem conteúdo publicitário, visando a promoção de serviços, produtos ou eventos. Acabam gerando problemas, tais como o desperdício de largura de banda da rede e perda de tempo e produtividade por parte dos servidores de emails e dos próprios usuários. Este trabalho propõe um sistema antispam de três estágios. O primeiro, o pré-processamento, analisa o conteúdo do email em busca de padrões conhecidos e realiza eliminações e/ou substituições de conteúdo para simplifica-los e uniformiza-los. O segundo estágio, a seleção de características, determina as características mais relevantes do email, segundo duas classes de e-mails - Ham e Spam. O terceiro estágio, a classificação, classifica o email. O sistema antispam é exaustivamente testado sobre três bases de dados públicas, disponíveis na Internet - SpamAssassin, LingSpam e Trec. O desempenho do sistema é avaliado segundo o percentual de classificações corretas nas duas classes - Ham e Spam. São avaliados também os tempos gastos no treinamento e teste do classificador neural, bem como os aspectos relacionados à manipulação dos emails presentes nas bases de dados. Os resultados obtidos mostram-se bastante promissores. O sistema antispam apresenta ótimo desempenho nas três bases de dados empregadas.
|