Un estudio realizado por dos investigadores de la Universidad de León (ULE) ha propuesto una solución innovadora para mejorar la detección de amenazas cibernéticas en entornos volátiles donde los datos cambian constantemente, un fenómeno conocido como 'concept drift' o 'deriva de concepto'.
El trabajo, que acaba de ser publicado en la revista 'Journal of Information Security and Applications', ha sido desarrollado por David Escudero García y Noemí De Castro García, miembros del grupo CAFE (Ciberseguridad, Aplicaciones, Fundamentos y Educación) de la ULE.
La investigación aborda uno de los principales desafíos en la aplicación de modelos de aprendizaje automático en ciberseguridad: la variabilidad de los datos a lo largo del tiempo. En contextos reales, como la detección de malware o ataques en redes, los patrones de comportamiento malicioso evolucionan, lo que puede hacer que los modelos pierdan precisión si no se actualizan adecuadamente.
Los modelos online, que se actualizan de forma dinámica, son una solución habitual frente a este problema. Sin embargo, requieren datos etiquetados para su actualización, algo que en ciberseguridad es escaso, costoso y no siempre disponible de forma inmediata.
Para paliar esta limitación, los investigadores de la ULE han aplicado una técnica estadística llamada predicción conforme, que permite generar etiquetas 'pseudo-fiables' con garantías matemáticas sobre su precisión.
“La predicción conforme no hace suposiciones sobre el modelo ni sobre la distribución de los datos, lo que la convierte en una herramienta muy útil en entornos cambiantes como la ciberseguridad”, han explicado. El método permite seleccionar aquellas predicciones del modelo que tienen una alta confianza y credibilidad, y utilizarlas como si fueran etiquetas reales para actualizar el sistema.
El estudio se ha probado en tres conjuntos de datos públicos: Kronodroid (detección de malware en Android), CICIDS 2018 (ataques en redes simuladas) y un conjunto de eventos maliciosos de direcciones IP proporcionado por el Instituto Nacional de Ciberseguridad (Incibe), cuya sede está también en León. En todos los casos, se han simulado escenarios con diferentes niveles de desequilibrio entre datos benignos y maliciosos, así como distintas proporciones de datos etiquetados.
Uso de pseudo-etiquetas conformes
Los resultados muestran que el uso de pseudo-etiquetas conformes mejora significativamente el rendimiento de los modelos en situaciones con pocos datos etiquetados y alta variabilidad. En particular, los modelos 'Adaptive Hoeffding Tree' y 'Adaptive Random Forest' se beneficiaron más de esta técnica, especialmente en entornos con alta desproporción entre clases. En cambio, el modelo de regresión logística mostró mejoras más notables en el conjunto CICIDS, donde su rendimiento base era inferior.
No obstante, los autores han advertido que las mejoras no son uniformes: “La efectividad de las pseudo-etiquetas conformes depende del tipo de modelo, del equilibrio del conjunto de datos y de la magnitud de la deriva de concepto”. En algunos casos, el uso de pseudo-etiquetas puede incluso empeorar el rendimiento si no se ajustan adecuadamente los criterios de selección.
El estudio concluye que, aunque la predicción conforme ofrece una vía prometedora para reducir la dependencia de datos etiquetados en ciberseguridad, su aplicación requiere ajustes específicos según el contexto.
Los investigadores han propuesto como línea futura de trabajo el desarrollo de mecanismos que permitan controlar mejor los falsos positivos y negativos, así como adaptar dinámicamente los umbrales de confianza y credibilidad.
Este trabajo forma parte del proyecto estratégico 'Data Science for an Artificial Intelligence Model in Cybersecurity', fruto de la colaboración entre el Instituto Nacional de Ciberseguridad (Incibe) y la Universidad de León, en el marco del Plan de Recuperación, Transformación y Resiliencia financiado por la Unión Europea (NextGenerationEU).