Autores

Guzmán Santafé
Departamento de Estadística e Investigación Operativa
Universidad Pública de Navarra
Iñaki Inza
Intelligent Systems Group
University of the Basque Country

Resumen

La clasificación supervisada es una parte de la minería de datos en la cual se ha centrado un gran interés en los últimos años. En la literatura podemos encontrar múltiples propuestas para paradigmas de clasificación supervisada (árboles de decisión, redes neuronales, redes Bayesianas, etc.) y una gran variedad de algoritmos que podemos utilizar para el aprendizaje de los modelos. Por tanto, la evaluación honesta de los clasificadores y la comparación de forma justa de los mismos es algo fundamental para obtener las conclusiones adecuadas. Sin embargo, hay muchos investigadores que centran su trabajo en proponer nuevos modelos de clasificación o nuevos algoritmos de aprendizaje descuidando la correcta validación de los resultados obtenidos.

El tutorial está orientado a estudiantes o investigadores en el área de minería de datos que trabajen o utilicen modelos de clasificación supervisada para la resolución de problemas específicos, ofreciendo una revisión de la metodología para la evaluación honesta de clasificadores. De esta forma, el tutorial proporciona información útil para elegir la mejor alternativa en los procesos de validación cuando se trata de resolver un problema concreto. Dado que los aspectos fundamentales de la validación honesta de modelos se reparten entre una larga lista de referencias bibliográficas, pensamos que este tutorial puede ser de utilidad para condensar los aspectos fundamentales y proporcionar información suficiente para guiar sobre qué alternativa puede ser mejor a la hora de resolver diferentes problemas del mundo real.

El contenido está estructurado en cuatro grandes bloques. El tutorial comienza con una introducción al problema de la clasificación supervisada y a la importancia en la validación honesta de modelos así como en la comparación de los mismos. El segundo bloque está dedicado a los scores propuestos en la literatura y que pueden ser utilizados como medida de bondad para medir la calidad de un clasificador, las principales características de los mismos y el uso que se les da. El tercer bloque presenta el problema de la estimación del valor de los scores utilizando conjuntos de datos finitos, los métodos de estimación más utilizados y sus propiedades así como posibles mejoras a los métodos de estimación clásicos. Finalmente, la última parte del tutorial presenta el test de hipótesis como herramienta para comparar clasificadores en diferentes situaciones, planteando las mejores alternativas dependiendo de las condiciones del problema a resolver.