METODOS MATEMATICOS EN CIENCIAS DE LA COMPUTACION 05-06
UNIVERSIDAD DEL PAIS VASCO - EUSKAL HERRIKO UNIBERTSITATEA, UPV-EHU

PRACTICA II: RECONOCIMIENTO DE PATRONES CON WEKA

Tareas a realizar para el Tema 12 (Selección de variables, FSS="feature subset selection"):

  1. Has podido ver en la teoría de este tema que en un problema de clasificación la relevancia de todas las variables predictoras de la base de datos no es la misma. Variables predictoras redundantes y/o irrelevantes pueden degradar la capacidad predictora de los clasificadores. WEKA permite, mediante su funcionalidad-pestaña Select Attributes, realizar numerosas tareas de selección de variables.

    Como has visto en la teoría, una manera sencilla e intuitiva de abordar realizar la selección de variables consiste en realizar un rankeo-ordenación de las variables predictoras del problema tratado, el cuál refleja, de mayor a menor, el nivel de correlación de cada una de ellas con la clase del problema (transparencia 7 de la teoría). Hay numerosas métricas (conocidas como aproximaciones "filter") para calcular ese nivel de correlación. De entre las métricas que ofrece WEKA, hay tres de ellas que están relacionadas con la Teoría de la Información y los conceptos de entropía, etc. que has ido viendo (las mismas o pequeñas variantes) en distintas fases del curso (teoría de la información, árboles y reglas de decisión, etc.).

    Realiza dicho rankeo para tu problema mediante una de estas tres métricas, y muestra la expresión-formula que utiliza para realizar dicho rankeo: entiende dicha fórmula. ¿Tiene el orden propuesto coincidencias con las variables que has detectado como relevantes para el clasificador naive Bayes? Comprueba si las variables que aparecen en la parte alta del rankeo tienen un papel relevante en el árbol de clasificación construido. ¿Y en las reglas inducidas por JRip? Comenta brevemente estas cuestiones-coincidencias.

     
  2. Variables predictoras redundantes y/o irrelevantes pueden degradar la capacidad predictora de los clasificadores. Ya que WEKA te permite en su primera ventana de trabajo ("Preprocess") eliminar variables del análisis, prueba a quedarte con una porción de las variables mejor rankeadas por tu métrica anterior: tú mismo decide si un tercio, la mitad...
    Y mediante un test estadístico no-paramétrico realiza una comparativa de los porcentajes de acierto estimados en base a 5 ejecuciones del método H (2/3 del fichero para entrenar, 1/3 para testear), entre:
  3. Has visto que en la teoría se ha comentado la forma "wrapper" de realizar la selección de variables. A partir indagar por la ventana Select Attributes de WEKA, trata de responder brevemente a preguntas de este estilo: