METODOS MATEMATICOS EN CIENCIAS DE LA COMPUTACION
07-08
UNIVERSIDAD DEL PAIS VASCO - EUSKAL HERRIKO
UNIBERTSITATEA, UPV-EHU
SEGUNDA ENTREGA --- PRACTICA II : RECONOCIMIENTO DE PATRONES CON WEKA
Plazo de entrega (para todos los grupos y
desdobles): 16 de mayo (viernes)
Tareas a realizar para los siguientes Temas:
===== Forma de entrega ===== No copiéis las preguntas: únicamente numerarlas y decir a qué tema pertenecen (lo indico entre corchetes). Sólo voy a puntuar lo que vosotros escribáis. Sólo copiar de la salida de Weka lo imprescindible: no copiéis nada que no entendáis o sea demasiado extenso (resumirlo).
Realizaré entrevistas personalizadas
sobre el trabajo que habéis realizado con la mayor parte de la clase que
pueda.
Os citaré por e-mail.
Hojas grapadas impresas con vuestro nombre, e-mail de
contacto y grupo en la parte alta de la primera hoja.
==== Enlace a las bases de datos en formato WEKA con las que puedes trabajar para toda la práctica ====
Saca tus propias conclusiones y coméntalas. ¿Se
puede hablar de ganadores/perdedores (entre construir el modelo con menos
variables o no) con una base estadística?
o fíjate en la información acerca de los centroides de cada ‘cluster’: en base a lo anterior, no debería aparecer la variable clase en dichos centroides, en su creación...
o ya que no ha tomado parte en la
construcción de los ‘clusters’, observa la
distribución de la variable clase a lo largo de éstos.
Teniendo esta información en cuenta, sugiere cuál es el número de ‘clusters’
('k')
que
induce una distribución más ‘pura’-‘idónea’ de las clases de las instancias,
el que se "acerca más" a las clases verdaderas (ya conocidas) del
problema, ya que querríamos que en un ‘cluster’ concreto
haya el mayor número posible de instancias de una única clase, y el menor número
posible de casos de las demás clases.
Informalmente: ¿cómo-cuánto se
“acoplan” las clases reales del problema a los clusters descubiertos? De
esta manera parecería que estaríamos "descubriendo" las clases verdaderas del
problema...
Las salidas que obtendrás serán del estilo que escribo más abajo (lo he hecho para el
problema "Iris", con dos "clusters"). Personalmente no me parece "correcto" que
muestre la última línea: no creo que haya nada, en un proceso de "clustering",
que "bienclasificar" o "malclasificar". Date cuenta que en el "clustering" no
existen conceptos como validación cruzada, método H, estimación del porcentaje
de bien clasificados... La primera matriz no es una matriz de confusión, pero sí
que nos indica la distribución de las clases verdaderas del problema a lo largo
de los "clusters" construidos:
0 1 <-- assigned to cluster
2
48 | Iris-setosa
45 5 | Iris-versicolor
50 0 |
Iris-virginica
Incorrectly clustered instances : 52.0 34.6666
%
Cluster 0 <-- Iris-versicolor
Cluster 1<-- Iris-virginica
Y WEKA a su cuenta y riesgo decide finalmente en su salida "asignar" los
clusters a algunas clases concretas: a mí tampoco me parece esto "correcto".
Clustering es una cosa, otra bien distinta la clasificación supervisada... pero
bueno... entiendo que sí tiene su parte de intuición, pero nada más.
Escucharía encantado VUESTRAS OPINIONES PERSONALES sobre las prácticas, con el fin de poder mejorar para cursos venideros: plazos, conocimientos adquiridos, amenos/aburrido, ¿tareas repetitivas?, ¿motivante?, aplicación en la práctica, los artículos y lecturas en inglés... lo que creáis. Gracias.
ESTUDIA PRIMERAMENTE LAS PREGUNTAS OPCIONALES QUE OS OFREZCO PARA MEJORAR NOTA
Accede al algoritmo de Perceptron Multicapa
disponible en WEKA. Fíjate en especial en su parámetro "HiddenLayers": puedes definir el
número de capas ocultas de la red, así como el número de nodos en cada una
de ellas. Prueba a darle por ejemplo el valor "2,4,2" (o cualquier
otro)... entiende qué implican estos números a nivel de número de capas y
número de nodos por capa.
Date cuenta cómo, por medio del interfaz gráfico (activar la opción "GUI":
!ojo! No realices una 10-fold cross-validation, que te vas a pasar un rato,
luego verás porqué), realizas el "training-entrenamiento" de la red neuronal y puedes
"modelar tú mismo" la estructura de la red. Analiza y responde
brevemente (escoge una base de datos con no muchas variables predictoras):