Summary: | Com a popularização da Internet nos últimos anos, a variedade de serviços providos através de redes de computadores aumentou consideravelmente. Ao mesmo tempo surgiram novas formas de crimes usando estes serviços, muitos através da tentativa de invasão ou comprometimento de redes. O registro das atividades de redes e aplicações através da coleta e armazenamento de registros de auditoria (logs) é muito importante para que se possa analisar eventos e descobrir erros, anomalias ou até mesmo caracterizar ataques ou intrusões. Ainda hoje, a área de análise de logs carece de ferramentas que façam uma separação adequada dos logs interessantes para serem analisados por um humano. Isto torna a tarefa de análise muitas vezes impossível de ser cumprida, podendo levar ao comprometimento da rede de uma instituição sem que contra-medidas sejam tomadas em tempo hábil. Neste trabalho tem-se por objetivo expor o problema da análise de logs, discutir as abordagens para filtragem, tratamento de logs e detecção de intrusão por técnicas de mineração de dados, avaliar alguns algoritmos de mineração de dados para aplicá-los em separação de logs do tráfego de rede e construir um protótipo para realizar a redução de logs com uma taxa aceitável de falsos-positivos. Os testes feitos com os algoritmos dos vizinhos mais próximos, perceptrons de múltiplas camadas e árvores de decisão permitiram a implementação de um protótipo modular que utiliza árvores de decisão para automatizar a classificação de logs e reduzí-los para um pequeno conjunto de sessoes suspeitas. É mostrado um estudo de caso com a aplicação deste protótipo, onde apresentam-se os resultados obtidos de mais de 90% de redução nos conjuntos de logs disponíveis. === Since the popularization of the Internet in recent years, the amount and variety of computer network services has greatly increased. At the same time new methods to commit crimes using these services appeared, mostly by attempting intrusion or compromising networks. Logging network and application activities through collection and storing of network logs is a very important step to allow further event analysis in order to discover errors, anomalies or even to characterize attacks and intrusion. In spite of the importance of this task, even today log analysts suer from a lack of tools to classify correctly interesting logs, making the analysis task impossible to be accomplished timely. This fact can lead to the compromise of an institutions network without counter measures being taken in time. In this work we aim to present the log analysis problems, to discuss log filtering, handling and intrusion detection approaches through data mining techniques, to evaluate some data mining algorithms to apply them on network trac logs separation and to build a prototype to perform log reduction with an acceptable rate of false positives. Tests were done with some algorithms such as nearest neighbors, multilayer perceptrons and decision trees, which allowed the deployment of a modular prototype using decision trees to automatize log classification and reduce logs to a small set of suspicious sessions. A case study containing the prototype application and the results obtained with reduction rates in the log sets greater than 90% are also presented.
|