METODOS MATEMATICOS EN CIENCIAS DE LA COMPUTACION 05-06
UNIVERSIDAD DEL PAIS VASCO - EUSKAL HERRIKO UNIBERTSITATEA, UPV-EHU

PRACTICA II: RECONOCIMIENTO DE PATRONES CON WEKA

Tareas a realizar para el Tema 9 (Clasificadores k-NN - vecino más próximo):

  1. Aunque no se haya visto en las clases teóricas, la discretización es una cuestión relevante en el Reconocimiento de Patrones. Muchos clasificadores no puedes trabajar con variables con valores continuos, y deben categorizarse-discretizarse sus valores. Los clasificadores k-NN son capaces de trabajar con ambos tipos de variables:

    Escoge una base de datos en formato arff de WEKA que tenga todas (o algunas) variables predictoras con valores continuos.
    Estudia y comenta las funciones que realiza la técnica de filtrado-preprocesado ("Filter")  "Discretize", que se ubica en el primer planel de trabajo ("Preprocess") del interfaz de WEKA, dentro de las técnicas de filtrado-"Filter" no-supervisadas respecto a las variables ("attributes") del problema: explica la función de sus parámetros "bins" y "useEqualFrequency". Se considera una técnica "no-supervisada" porque no hace uso de la clase del problema.

     ¿Qué efecto se ha producido en los valores de las variables (indaga en los valores de las variables discretizadas)? ¿El porcentaje de acierto es el mismo discretizando o no? Indaga en cuestiones de este estilo, y coméntalas. Comprueba que el funcionamiento del clasificador k-NN al discretizar sus valores continuos y al no hacerlo, no es el mismo.

     

  2. Otra función de preprocesado-filtrado no-supervisado de WEKA respecto a las variables del dominio es "Normalize". Escoge una base de datos que tenga todas (o algunas) variables predictoras con valores continuos, y estudia el efecto que produce sobre los valores de dichas variables continuas aplicar esta función. Comenta este efecto sobre los valores de las variables "normalizadas". ¿Tiene efecto su aplicación sobre los porcentajes de acierto de un clasificador k-NN?

     
  3. ¿Por qué crees que WEKA engloba dentro de la familia llamada "Lazy" los clasificadores referentes al algoritmo del vecino más próximo? ¿Qué significa "Lazy" en inglés?
     
  4. Explica los siguientes parámetros del clasificador "IBK": KNN, distanceWeighting (explica cada uno de sus posibles valores), noNormalization.
    ¿Qué método de clasificación implementa el clasificador "IB1"?
     
  5. Con la base de datos de trabajo que decidas, realiza las siguientes comparativas estadísticas como en las tareas de temas anteriores, comentando y analizando los resultados de dicha comparativa, y viendo si se puede hablar de alguna configuración ganadora/perdedora: