KONPUTAZIO ZIENTZIETAN
METODO MATEMATIKOAK 09-10
UNIVERSIDAD DEL PAIS VASCO - EUSKAL HERRIKO
UNIBERTSITATEA, UPV-EHU
PRAKTIKA I: IKASKETA
AUTOMATIKOARI HURBILKETA
Entregatze epea:
martxoak 3, asteazkena,
laborategia baino lehen (martxoak 3-ko laborategia beste eginkizunetarako
erabiliko da)
===== Entregatzeko forma ===== Iñaki Inzari (bere bulegoan edo
laborategietan), inprimatuta, letra tamaina 12pt,
txukuntasuna, izena eta e-maila lehen orriaren goiko partean.
Plastikozko funda
batetan, mesedez: hor ere sartuko ditut zuen hurrengo praktikak
Kurtso guztian zehar behin eta
berriz ikusiko dugunez, 80 eta 90-ko hamarkadetan
"Data Warehouse"
izeneko disziplinaren izugarrizko gorakada ikusi genuen, ordenagailuen kalkulu
potentzi eta datu bilketaren hobekuntzaren parean: datu baseak, datuak gorde,
kalkulu orrietan, SQL-n, flash memoriak, etc.
Baina 90. hamarkadaren bukaeran beste galdera ausartago bat
plazaratu zen: datuak soilik gorde eta zer gehiago? zer egin datu horiekin?
zertarako gorde datuak? kolekzionismo hutsa? datu horietatik zerbait atera-ikasi
daiteke, gure begi-bistak esan ezin diguna? Problemaren konozimendu gehiago,
pista gehiago atera al daitezke ("Knowledge discovery"). Horren inguruan, sekulako
indarrarekin agertu da "Data
Mining" disziplina.
Disziplina honen inguruan, El Pais egunkariak orain dela gutxi ondoko artikulua publikatu zuen, "Data Mining"-aren laburpen polita eginez, eta "Numerati" liburuaren aurkezpena eginez.
[Galdera 1 -- Irakurketak -- Ikasketa Automatikoaren aplikazio errealak] - Hurrengo loturetan nere atentzioa deitu duten hainbat artikulu dibulgatibo daude, era errazean idatziak, "Data Mining-aren" hainbat aplikazio ulerkor aipatzen dituztenak:
Banan banan irakurri eta bakoitzarentzat hurrengo galderei erantzun:
- zein da ebatzi nahi duten problema (predizitu nahi duten gertaera-aldagaia)?
- ba al dute erabilitako aldagai prediktoreek informazio nahikoa predikzio zihurrak egiteko? uste al duzu kasu-exenplu nahiko izango al ditugu modelo zihurrak-solidoak eraikitzeko?
- antzematen al duzu "non dauden" datuak, hau da, "nondik ateratzen-sortzen" diren datuak?
- iruditzen al zaizu mundu errealean aplikazio honek erabilgarritasunik duenik?
- zergatik da beharrezkoa "data mining" egitea, datu analisia? ez al dago gizaki jakitunik non zihurtasun osoz klasifika ditzaken kasu berriak?
- eta abar...
[Galdera 2 -- Data Mining-eko problema baten proposamena] - Aurreko irakurketak egin eta gero, praktika honen bigarren galdera bezala eskatzen dizut proposatzeko, zure intuizioan oinarrituta, problema bat non bere gainean "Data Warehouse -- Data mining -- Knowledge discovery" katea egitea zentzua izango zuen:
- zein utilidadea izango zuen? gizakiek begiz ikus ezin dezakegun zer nolako jakinduri mota egon daiteke datuetan?...
- nondik jasotzen dituzu datuak? (web-a, formularioak, inkestak...)
- zergatik da beharrezkoa "data mining" egitea, datu analisia? ez al dago gizaki jakitunik non zihurtasun osoz klasifika ditzaken kasu berriak?
- eman itzazu zure intuizioa oinarritzen duten eta bisitatu dituzun Internet-eko helbideak
[Galdera 3 -- Data mining-aren ingelesezko definizio eta
oinarrizko
kontzeptuak] --
Stanford-eko
Unibertsitateko web orri honetan ikasketa automatikoko ("machine
learning") hainbat oinarrizko terminoen definizioak agertzen dira. Hauetako
askok kurtso guztian zehar behin eta berriz erabiliko ditugu.
Laburki, euskaraz defini itzazu ondoko terminoak,
kontutan izanda klase teorikoetan jasotako informazioa, eta ere eman ezazu
euskaraz klasetan erabiltzen dugu terminoaren izena (diferentea izan ezkeroz):
accuracy, attribute-feature, aldagai motak (categorical,
continuous), classifier, confusion matrix, true positive rate, false
positive rate, cross-validation, data cleaning, data mining, instance,
knowledge discovery, machine learning, missing value, model, supervised
learning.