Classificação de conteúdo malicioso baseado em floresta de caminhos ótimos /

Orientador: João Paulo Papa === Coorientador: Kelton Augusto Pontara da Costa === Banca: Aparecido Nilceu Marana === Banca: Jurandy Gomes Almeida Jr. === Resumo: O advento da Internet trouxe amplos benefícios nas áreas de comunicação, entretenimento, compras, relações sociais, entre outras. Entretan...

Full description

Bibliographic Details
Main Author: Fernandes, Dheny.
Other Authors: Universidade Estadual Paulista "Júlio de Mesquita Filho" Instituto de Biociências, Letras e Ciências Exatas.
Format: Others
Language:Portuguese
Portuguese
Texto em português; resumos em português e inglês
Published: São José do Rio Preto, 2016
Subjects:
Online Access:http://hdl.handle.net/11449/139495
id ndltd-UNESP-oai-www.athena.biblioteca.unesp.br-UEP01-000872759
record_format oai_dc
collection NDLTD
language Portuguese
Portuguese
Texto em português; resumos em português e inglês
format Others
sources NDLTD
topic Ciência da computação - Matemática.
Redes de computadores - Medidas de segurança.
Sistemas de detecção de intrusão (Medidas de segurança)
Floresta de caminhos ótimos.
Aprendizado do computador.
Spam (Mensagens eletrônicas)
Computer science
spellingShingle Ciência da computação - Matemática.
Redes de computadores - Medidas de segurança.
Sistemas de detecção de intrusão (Medidas de segurança)
Floresta de caminhos ótimos.
Aprendizado do computador.
Spam (Mensagens eletrônicas)
Computer science
Fernandes, Dheny.
Classificação de conteúdo malicioso baseado em floresta de caminhos ótimos /
description Orientador: João Paulo Papa === Coorientador: Kelton Augusto Pontara da Costa === Banca: Aparecido Nilceu Marana === Banca: Jurandy Gomes Almeida Jr. === Resumo: O advento da Internet trouxe amplos benefícios nas áreas de comunicação, entretenimento, compras, relações sociais, entre outras. Entretanto, várias ameaças começaram a surgir nesse cenário, levando pesquisadores a criar ferramentas para lidar com elas. Spam, malwares, conteúdos maliciosos, pishing, fraudes e falsas URLs são exemplos de ameaças. Em contrapartida, sistemas antivírus, firewalls e sistemas de detecção e prevenção de intrusão são exemplos de ferramentas de combate às tais ameaças. Principalmente a partir de 2010, encabeçado pelo malware Stuxnet, as ameaças tornaram-se muito mais complexas e persistentes, fazendo com que as ferramentas até então utilizadas se tornassem obsoletas. O motivo é que tais ferramentas, baseadas em assinaturas e anomalias, não conseguem acompanhar tanto a velocidade de desenvolvimento das ameaças quanto sua complexidade. Desde então, pesquisadores têm voltado suas atenções a métodos mais eficazes para se combater ciberameaças. Nesse contexto, algoritmos de aprendizagem de máquina estão sendo explorados na busca por soluções que analisem em tempo real ameaças provenientes da internet. Assim sendo, este trabalho tem como objetivo analisar o desempenho dos classificadores baseados em Floresta de Caminhos Ótimos, do inglês Optimum-path Forest (OPF), comparando-os com os demais classificadores do estado-da-arte. Para tanto, serão analisados dois métodos de extração de características: um baseado em tokens e o outro baseado em Ngrams, sendo N igual a 3. De maneira geral, o OPF mais se destacou no não bloqueio de mensagens legítimas e no tempo de treinamento. Em algumas bases a quantidade de spam corretamente classificada também foi alta. A versão do OPF que utiliza grafo completo foi melhor, apesar de que em alguns casos a versão com grafo knn se sobressaiu. Devido às exigências atuais em questões de segurança, o OPF, pelo seu rápido tempo de treinamento,... === Abstract: The advent of Internet has brought widespread benefits in the areas of communication, entertainment, shopping, social relations, among others. However, several threats began to emerge in this scenario, leading researchers to create tools to deal with them. Spam, malware, malicious content, phishing, fraud and false URLs are some examples of these threats. In contrast, anti-virus systems, firewalls and intrusion detection and prevention systems are examples of tools to combat such threats. Especially since 2010, headed by the Stuxnet malware, threats have become more complex and persistent, making the tools previously used became obsolete. The reason is that such tools based on signatures and anomalies can not follow both the speed of development of the threats and their complexity. Since then, researchers have turned their attention to more effective methods to combat cyber threats. In this context, machine learning algorithms are being exploited in the search for solutions to analyze real-time threats from the internet. Therefore, this study aims to analyze the performance of classifiers based on Optimum-path Forest, OPF, comparing them with the other state-of-the-art classifiers. To do so, two features extraction methods will be analyzed: one based on tokens and other based on Ngrams, considering N equal 3. Overall, OPF stood out in not blocking legitimate messages and training time. In some bases the amount of spam classified correctly was high as well. The version that uses complete graph was better, although in some cases the version that makes use of knn graph outperformed it. Due to the current demands on security issues, OPF, considering its fast training time, can be improved in its effectiveness aiming at a real application. In relation to feature extraction methods, 3gram was better, improving OPF's results === Mestre
author2 Universidade Estadual Paulista "Júlio de Mesquita Filho" Instituto de Biociências, Letras e Ciências Exatas.
author_facet Universidade Estadual Paulista "Júlio de Mesquita Filho" Instituto de Biociências, Letras e Ciências Exatas.
Fernandes, Dheny.
author Fernandes, Dheny.
author_sort Fernandes, Dheny.
title Classificação de conteúdo malicioso baseado em floresta de caminhos ótimos /
title_short Classificação de conteúdo malicioso baseado em floresta de caminhos ótimos /
title_full Classificação de conteúdo malicioso baseado em floresta de caminhos ótimos /
title_fullStr Classificação de conteúdo malicioso baseado em floresta de caminhos ótimos /
title_full_unstemmed Classificação de conteúdo malicioso baseado em floresta de caminhos ótimos /
title_sort classificação de conteúdo malicioso baseado em floresta de caminhos ótimos /
publisher São José do Rio Preto,
publishDate 2016
url http://hdl.handle.net/11449/139495
work_keys_str_mv AT fernandesdheny classificacaodeconteudomaliciosobaseadoemflorestadecaminhosotimos
_version_ 1718687569552605184
spelling ndltd-UNESP-oai-www.athena.biblioteca.unesp.br-UEP01-0008727592018-06-01T05:42:43ZtextporporTL/UNESPFernandes, Dheny.Classificação de conteúdo malicioso baseado em floresta de caminhos ótimos /São José do Rio Preto,201656 f. :Orientador: João Paulo PapaCoorientador: Kelton Augusto Pontara da CostaBanca: Aparecido Nilceu MaranaBanca: Jurandy Gomes Almeida Jr.Resumo: O advento da Internet trouxe amplos benefícios nas áreas de comunicação, entretenimento, compras, relações sociais, entre outras. Entretanto, várias ameaças começaram a surgir nesse cenário, levando pesquisadores a criar ferramentas para lidar com elas. Spam, malwares, conteúdos maliciosos, pishing, fraudes e falsas URLs são exemplos de ameaças. Em contrapartida, sistemas antivírus, firewalls e sistemas de detecção e prevenção de intrusão são exemplos de ferramentas de combate às tais ameaças. Principalmente a partir de 2010, encabeçado pelo malware Stuxnet, as ameaças tornaram-se muito mais complexas e persistentes, fazendo com que as ferramentas até então utilizadas se tornassem obsoletas. O motivo é que tais ferramentas, baseadas em assinaturas e anomalias, não conseguem acompanhar tanto a velocidade de desenvolvimento das ameaças quanto sua complexidade. Desde então, pesquisadores têm voltado suas atenções a métodos mais eficazes para se combater ciberameaças. Nesse contexto, algoritmos de aprendizagem de máquina estão sendo explorados na busca por soluções que analisem em tempo real ameaças provenientes da internet. Assim sendo, este trabalho tem como objetivo analisar o desempenho dos classificadores baseados em Floresta de Caminhos Ótimos, do inglês Optimum-path Forest (OPF), comparando-os com os demais classificadores do estado-da-arte. Para tanto, serão analisados dois métodos de extração de características: um baseado em tokens e o outro baseado em Ngrams, sendo N igual a 3. De maneira geral, o OPF mais se destacou no não bloqueio de mensagens legítimas e no tempo de treinamento. Em algumas bases a quantidade de spam corretamente classificada também foi alta. A versão do OPF que utiliza grafo completo foi melhor, apesar de que em alguns casos a versão com grafo knn se sobressaiu. Devido às exigências atuais em questões de segurança, o OPF, pelo seu rápido tempo de treinamento,...Abstract: The advent of Internet has brought widespread benefits in the areas of communication, entertainment, shopping, social relations, among others. However, several threats began to emerge in this scenario, leading researchers to create tools to deal with them. Spam, malware, malicious content, phishing, fraud and false URLs are some examples of these threats. In contrast, anti-virus systems, firewalls and intrusion detection and prevention systems are examples of tools to combat such threats. Especially since 2010, headed by the Stuxnet malware, threats have become more complex and persistent, making the tools previously used became obsolete. The reason is that such tools based on signatures and anomalies can not follow both the speed of development of the threats and their complexity. Since then, researchers have turned their attention to more effective methods to combat cyber threats. In this context, machine learning algorithms are being exploited in the search for solutions to analyze real-time threats from the internet. Therefore, this study aims to analyze the performance of classifiers based on Optimum-path Forest, OPF, comparing them with the other state-of-the-art classifiers. To do so, two features extraction methods will be analyzed: one based on tokens and other based on Ngrams, considering N equal 3. Overall, OPF stood out in not blocking legitimate messages and training time. In some bases the amount of spam classified correctly was high as well. The version that uses complete graph was better, although in some cases the version that makes use of knn graph outperformed it. Due to the current demands on security issues, OPF, considering its fast training time, can be improved in its effectiveness aiming at a real application. In relation to feature extraction methods, 3gram was better, improving OPF's resultsSistema requerido: Adobe Acrobat ReaderTexto em português; resumos em português e inglêsCiência da computação - Matemática.Redes de computadores - Medidas de segurança.Sistemas de detecção de intrusão (Medidas de segurança)Floresta de caminhos ótimos.Aprendizado do computador.Spam (Mensagens eletrônicas)Computer scienceMestreUniversidade Estadual Paulista "Júlio de Mesquita Filho" Instituto de Biociências, Letras e Ciências Exatas.http://hdl.handle.net/11449/139495