METODOS MATEMATICOS EN CIENCIAS DE LA COMPUTACION 05-06
UNIVERSIDAD DEL PAIS VASCO - EUSKAL HERRIKO UNIBERTSITATEA, UPV-EHU

PRACTICA II: RECONOCIMIENTO DE PATRONES CON WEKA

Tareas a realizar para el Tema 10 (Árboles de clasificación):

  1. Para tu base de datos en formato WEKA habitual de trabajo, construye con este software los árboles del algoritmo C4.5 (en WEKA lo implementa el procedimiento J48) :

    Muestra la versión gráfica (fíjate en las propiedades de la ejecución realizada) de ambos árboles (no la versión en formato ASCII del "Classifier output" de WEKA): si es demasiado grande, muestra únicamente los niveles que consideres necesario.

  2. WEKA ofrece un algoritmo denominado "NBTree". Encuentra en Internet el trabajo de R. Kohavi ("Scaling up the accuracy of naive-Bayes classifiers: a decision tree hybrid", 1996) en el que se presenta dicho algoritmo, y en base a su "abstract", indica la línea principal de dicho algoritmo.
    Construye dicho clasificador para tu base de datos habitual de formato WEKA, y comenta la salida relacionando los distintos conceptos del algoritmo:  dibuja el modelo gráfico del árbol si no es demasiado grande y relaciona sus hojas con la salida en ASCII ("Classifier output"). NO COPIES Y PEGUES EN LA DOCUMENTACION INFORMACION QUE NO APORTE Y SEA DEMASIADO EXTENSA.

     
  3. [ESTA TAREA ES OPCIONAL HACERLA: SOLO PUNTUA PARA MEJORAR LA EVALUACION] El clasificador "UserClassifier" tiene muchas opciones, no sencillas de usar de primeras, pero está plenamente basado en la intuición y en que tú vayas construyendo sobre gráficas de 2-D tu propio árbol de decisión. Fíjate primeramente en la gráfica de 2-D que muestra y las regiones que se pueden delimitar sobre él mediante rectángulos, y en el árbol binario que se va construyendo en base a las regiones por ti delimitadas. Trata de descubrir las principales líneas de este clasificador, y coméntalas, utilizando para ello una base de datos sencilla como "Iris". Trata de descubrir qué enlace hay entre las ventanas "Tree Visualizer" y "Data Visualizer", así como las acciones que producen sobre el árbol las fronteras-regiones que delimitas en el "Data Visualizer". Comenta (en general) qué te ha parecido este clasificador.

     
  4. [ESTA TAREA ES OPCIONAL HACERLA: SOLO PUNTUA PARA MEJORAR LA EVALUACION] En los ordenadores de la Facultad tenemos otro software de la casa SPSS, conocido como AnswerTree, y que trabaja con árboles de decisión. Carga sobre él un árbol que tiene ya construido en el formato de dicho software sobre la base de datos "Iris".
    Poda el árbol hasta llegar al nodo raíz y pide a AnswerTree que lo desarrolle y lo pode. ¿Es muy distinto el árbol al construido por el algoritmo C4.5 de WEKA?
    Comprueba cómo puedes ir desarrollando el árbol nivel a nivel, eligiendo tú mismo la variable predictora en cada nodo y definiendo el punto de corte-división específico (partición) para ella, viendo los niveles de las medidas de división de cada variable en cada nodo para escoger la variable más informativa...
    Descubre tú mismo algunas potencialidades de este software, y la sencillez de manejo del árbol que se está construyendo. Comenta (en general) algunas cuestiones de este software que te hayan llamado la atención.