Summary: | La variedad de incidentes de seguridad que aparecen en las redes cada día hace que los investigadores deban renovar constantemente sus propuestas de solución. La detección de intrusiones es un problema de seguridad que evidencia esta problemática. Dentro de esta área la detección de anomalías modela el comportamiento normal de la red e identifica las anomalías como desviaciones de dicho modelo. Aunque existen numerosas investigaciones sobre este tema, aún queda mucho por hacer para elevar los niveles de detección y disminuir el nivel de falsos positivos. Uno de los mayores retos para lograr un sistema de detección de anomalías eficaz y eficiente reside en la elección de un conjunto de datos exhaustivo y realista que permita su evaluación. El conjunto de datos que se escoja debe reflejar los escenarios actuales del tráfico de red, proveer información estructurada del mismo y poseer variedad de intrusiones. El conjunto de datos más utilizado por la comunidad científica ha sido KDDCUP99 y sus distintas versiones. Sin embargo, existen numerosos argumentos por los que han ido surgiendo otros conjuntos de datos para sustituirlo. Con la intención de lograr el conjunto de datos más representativo se han desarrollado propuestas como ISCX2012, UNSW-NB15 y CICIDS2017, entre muchas otras. El presente trabajo pretende proporcionar un análisis y caracterización de los conjuntos de datos más utilizados, de manera que pueda emplearse como punto de partida para elegir aquel que mejor se ajuste a las necesidades de cada investigación y que refleje el comportamiento actual del tráfico de las redes.
|