UPV-EHU - Docencia - Irakaskuntza

===== Joan zaitezte laborategietan nik esandago galderak egiten OpenOffice edo Word dokumentu batetan. Zein galdera entregatu behar diren moodle bidez eta noiz, aipatuko dut webgune honen edo moodle bitartez: esan bezala, epe hauek zuen inplikazioaren arabera jarriko ditut

[Galdera 16 -- Sailkapen gainbegiratua -- Klaserik gabeko kasu berrien klasea iragarri -- "Class prediction"]

Nere ustez, egitera goazen ariketa hau, sailkapenaren oinarrietako bat da: hau da, klasea ezaguna dugun kasu etiketatuekin sailkatzaile bat eraiki, eta ikasitako sailkatzaile honen bidez, klase ezezaguna duten kasu berrien klasea iragarri, predizitu, "class prediction". Honi ere, ingelesez, "categorize" ere deitzen zaio.

Lehenik, ulertu, iragarpen hau, klasea ezezaguna den kasuen gainean, "apostu" bat dela, "bet": hau da, sailkatzaileak ez daki asmatu duen ala ez iragarritakoarekin. Hala ere, hor ditugu estimatutako asmatze tasak eta errore matrizea ausnartzeko zenbateko doitasuna izan dezaken gure sailkapenak: gogoratu asmatze tasa hori etiketatutako kasuekin estimatu dela. Noski, ezin ditugu erabili klasea ezezaguna duten kasuak asmatze tasarik estimatzeko, ez bait dakigu ondo iragarri dugun edo ez...

Goazen WEKA-n egoera hau simulatzea bi sailkatzaile desberdinekin. Hautatu lan egiteko WEKA formatoko datubase bat (zuk nahi duzuna: pasatako asteko ariketan bi datubase "fitxatu" zenituen: horietako bat), non orain arte bezala, kasu guztiak etiketatutak dituen (hau da, klase ezagunekoak diren).
"Preprocess" leihoan kargatuta izan: hauekin eraikiko da sailkatzailea. Eta etiketatutako kasu hauekin ikasten den modeloa erabiliko da, gerora datozten kasu berrien (eta klase ezezaguna duten) klasea iragartzeko.

Sortu ezazu WEKA-ren *.arff fitxategi berri bat ZUK ASMATUTAKO 5 etiketatu gabeko kasuekin, non '?' balioa jartzen duzun klasean (WEKA-k hau eskatzen du, "zerbait" jarri klase aldagaian, nahiz balio galdua izan): "unlabeled, unseen samples". Kontutan izan sortzen duzun fitxategi berriak entrenamendukoaren formato bera jarraitu behar duela: inkluso bere "WEKA cabeceran", aldagaien definizio berbera jarraituz: aprobetxatu entrenamendukoaren "cabecera", kopiatuz zuk asmatutako 5 klase gabeko instantzien fitxategian.

Bigarren fitxategi hau, etiketatu gabekoa, "Classify" leihoko "test-options"-eko bigarren aukeraren bidez ("supplied test-set") kargatu. Eta ikusi zein klase predizitzen duten naive-Bayes eta 5-NN (5 bizilagun hurbilenak) sailkatzaileek, zuk asmatutako 5 kasuko bakoitzarentzat. Baina kontutan izan sailkatzaileak ez direla eraiki zure 5 instantziekin (klase gabekoak, hauekin ezin da gainbegiratutako sailkatzailerik ikasi), baizik eta zure entrenamendu fitxategiko guztiekin (hau da, "Preprocess" leihoan kargatu dituzun, eta etiketatutak dauden kasu guztiekin...).

Ikusteko zein klase iragartzen den etiketarik ez duen kasu bakoitzarentzat, "More options"-en, desaktibatuta dagoen "Output Predictions" aukera aktibatu.

Erakutsi zein den zure bi sailkatzaileek iragartzen duten klasea zure 5 kasuko bakoitzarentzat. Ez diozu begiratu behar "confusion matrix"-i, non ez den desberdintzen zer iragartzen den kasu indibidual bakoitzarentzat.
WEKA-ren irteeran hainbat kontzeptu agertzen dira klase gabeko 5 kasu horietako bakoitzarentzat, eta hor informazio asko dugu iragarritako klasearen inguruan 5 kasu hauetako bakoitzarentzat: "actual", "predicted", "error" (honek ez du zentzurik), "probability distribution": laburki argitu eta komentatu zer den hauetako bakoitza, bereziki "probability distribution" (zenbat zutabe ditu "probability distribution"-ek? Klase aldagaiaren balio adina, ez da?).
Ausnartzeko: 5-NN sailkatzailearen kasuan, nola atera ditu klasearen balio bakoitzeko "probability" horiek?

Kurtsoa jadanik aurrera doa, eta hasieran sorpresa bat izan ziteken disziplina ("data analisiaren" rol-a gure gizartean), jadanik ez da.
Gustatuko litzaidake jakitea irakasgaiarekin hasi eta asteak aurrera joan ahala, zure inguran antzeman izan dituzula non dauden, non egon daitezken datu analisiaren hainbat aplikazio.

Horrela, Internet-en topatu duzun eta datu analisiarekin zerikusi hestua duen webgune bat erakutsidazu, eta komentatu eta deskribatu:

[Galdera 15 -- Galdera hau apirilak 25-ko laborategian burutu behar da -- Algoritmo genetikoak]

Beharbada salto handia somatu dugu ikasketa automatikoko gaietatik, algoritmo genetikoen gaira pasatzerakoan. Jadanik ez gaude datu analisia egiten, baizik eta "optimizazioa": baina algoritmo genetikoak adimen artifizialeko teknikarik erabilienetakoa da gaur egun industrian eta akademian. Eta horregatik erakutsi nahi dizkizuegu.

Algoritmo genetikoak, adimen artifizialeko beste bilaketa heuristikoak bezala (adibidez, branch and bound, aurrerako edo atzerako bileketak, txingurri koloniak...), optimizazio problemak era suboptimo batetan ebazteko algoritmo efizienteak dira.
"Optimizazioa" edo "Ikerkuntza Eragilea" irakasgaiaetan erakusten den "Simplex" algoritmoak ebatzi ezin ditzakeen problemetarako, hor daude adibidez algoritmo genetikoak.

Hauetako problema bat, ikasketa automatikoko problema batean aldagai iragarleen azpimultzo optimoa aukeratzea da. Beste problema klasiko bat, bidaiariaren problema (TSP, Traveling Salesman Problem) da: "n" hiri behin bisitatzeko distantzia minimizatu.
Problema hau on-line ebazten duen aplikazio grafikoa hemen ikus dezakezu: hiriak 2-D batetan zuk kokatu ditzakezu, gurutzaketa eta mutazio eragiketa motak ere bai; printzipioz, populazioko 16 soluzio-indibiduo guztiak ikus ditzakezu nola eboluzionatzen duten, eta "Change view" klikatuz unerarteko soluziorik onena ikus dezakezu.

Bestetik, diseinu-optimizazio problema anitz algoritmo genetikoen bidez ebazten dira: goazen laborategia ondoko "hegazkin baten diseinua optimizatzeko" algoritmo genetikoak erabiltzen dituen lana ikuskatzea, gainetik ikusiz zeintzuk diren optimizatu nahi diren aldagaiak eta diseinu-problema: azkenean, string batetan errepresentatu nahi dira hegazkin baten diseinuko aldagai eta arlo guztiak. Eta string horren balio optimoa bilatu nahi dugu, gure kasuan algoritmo genetikoen bidez optimizatuz.

Era honetako diseinu problemetan, arazoa dago askotan proposatzen den diseinu-soluzio baten egokitzapen funtzioa kalkulatzen: hau da, zein ona edo txarra den proposatutako soluzio hori (hau da, bilaketan zehar topatutako soluzio hori). Bidaiariaren probleman analitikoki kalkulatu daiteke (hiri pareen arteko distantziak batutzen, hauek bait dakizkigu): baina diseinu problema askotan, "simulazioaren" bidez egiten da egokitzapen funtzioaren kalkuloa. Ikus adibidez 2 gurpil-urdin eta bi goi-borobil-gorri dituen kotxe honen diseinuaren simulazioa: algoritmo genetikoen bidez sortzen eta optimizatzen ditu soluzioak, ondo fijatu. Proposatzen duen kotxe-diseinu baten egokitzapen funtzioa: ibiltzen duen distantzia, goi-borobil-gorriak bolkatu eta zorua ikutu gabe.

Ondoko beste hiru adibideak ikusi, eta ulertu optimizatu nahi den diseinu-problema:

SOFTWARE BATEKIN PROBAK ETA TESTAK:
Ariketa honetan goazen bilaketarako heuristikoentzako LiO ( "Librería de Investigación Operativa") izeneko libreriara hurbiltzea. Software libreri hau Castilla - La Manchako "Sistemas Inteligentes y Minería de Datos" ikerkuntza taldean garatu da, eta askok deitzen diote "bilaketarako heuristikoen WEKA". Libreria polita da ikusteko bilaketarako heuristikoek ere "funtzionatzen dutela", eta praktikara pasatzeko teoriatik. WEKA bezala, soilik Java runtime behar da zuen ordenagailuan exekutatzeko (fakultateko C:\LiO\deploy karpetan dago, edo ondoko loturan jetsi nahi izanez gero):

optimizatu eta ebatzi nahi den problema ("task");
problema ebazteko erabili nahi den algoritmo edo heuristikoa ("search algorithm");
algoritmoa gelditzeko kriterio edo irizpidea ("stop condition");
bilaketaren exekuzioaren emaitzari buruz jaso nahi dugun informazio kopurua ("search output": aktibatu ezazu defektuz desaktibatuta dagoen "showBestIndividual" aukera).

Laborategia ilustratzeko eta zuei LiO softwareari sarrera egiteko, ondoko problemarekin jolastuko dugu: OneMax problem (LiO-n: Task-->bitchain), hau da, bere balioak bitarrak (1 edo 0) izan daiteken string baten balioak batu, hau da, "tonteria bat", "Bit Counting" ere deitzen zaio: optimoa (1,1,1,...1,1) string-a (soluzioa) da, baina optimizatzen gaudenean hori algoritmoak ez daki. Funtzio hau optimizatzeko ez genuke inoiz algoritmo genetiko bat erabiliko: bere funtzio zehatza dakigunez, bere soluzio optimoa ezaguna da aldez aurretik. Ordea, erabiltzen dira era honetako funtzioak testatzeko ea zenbateko doitasuna duten algoritmo genetikoek, eta beste bilaketa heuristikoek, beraien optimora hurbiltzeko.

Eskubiko "Results" leihoan ikusi algoritmoaren exekuzioaren emaitzen informazio nagusia.
Emaitzaren balio nagusia, "Best fitness" da; hau da, egindako bilaketan topatutako Egokitzapen Funtzio oneneko soluzioaren egokitzapen balioa.
"Search output" --> "Show best individual": aktibatu ezazu defektuz desaktibatuta dagoen aukera hau , bilaketa guztian topatutako "fitness" oneneko soluzioa erakusteko, [X₁, X_2...X_size], bere aldagai guztien balioa: "OneMax"-en ikus dezakezu non ez duen 1-ekoa topatu...
"Search Algorithm": ikusi zenbat bilaketa heuristiko dauden... honegatik deitzen zaio "bilaketa heuristikoen WEKA".
"Search Algortihm"--> "Configure": aukeratutako algoritmoaren parametroak ikusi. Aukeratu ere "genetic--> StandardGeneticAlgorithm", eta hori egin eta gero "Configure" botoia sakatuz, ikusi nola alda ditzakezun algoritmo genetikoaren parametroen balioak: gurutzaketa eta mutazio probabilitateak, populazio tamaina...
"Task"--> "Configure"--> "Size": aldagai kopurua, problemaren X_i kopurua, dimentsioa. OneMax funtzioaren kasuan, string-aren tamaina, aldagai bitar kopurua. Defektuz, "OneMax"-entzat, 100 bit-aldagai.
MAX / MIN: kontutan izan LiO-k beti "maximizatze forman" lan egiten duela. Horrela, TSP minimizatze forman denez, kontutan izan LiO-k max(z) ≈ min(-z) aplikatzen duela eta TSP helburu funtzioaren (egindako kilometro kopurua) negatiboarekin lan egiten duela. Kontutan izan maximizatzea funtzio bat (max(z)) edo minimizatzea bere negatiboa (min(-z)) soluzio berbera dutela (x*). Kontuz, maximizatzen denean, -21 da -27 baino hobea...
"Stop condition": LiO-k, bilaketa geratzeko 5 irizpide ditu, uler itzazu: horietako bakar bat betetzearekin, algoritmoa gelditzen da. Nere gomendioa da irizpide hauekin "jolastea" eta luzatzea ("0 gehiago jarri eskubian irizpide bakoitzari...")
Behin "Run" zanpatu eta gero eta gelditu arte, bilaketaren martxari buruzko informazioa ikus daiteke "Show Progress" botoiaz (horretarako, motz ez geratzeko, lehenengo .
Algoritmo genetiko baten bi exekuzio desberdinek emaitza berdina eman behar al dute?

Orain, zuretzako: bidaiariaren problemarekin arituko zara, TSP problemaren "Berlin52" (LiO-ren panelean: Task-->permutation--> SymmetricTSP) bezala ezagutzen den problema, non Berlin inguruko 52 puntu (koordenatuak ikusi hemen) ahalik eta distantzia minimoa erabilita behin bisitatu nahi diren. Beheko irudiak puntu horiek adierazten ditu.

Problema honetarako ondokoa egin, laburbildu ikusitakoa eta jasotako emaitzak:

Gurutzaketa probabilitate altua (1-tik hurbil) edo baxua (0.5.tik hurbil). Zein hobe? Exekuzio bat baino gehiago egin beharko duzu algoritmo eta parametroen balio berberekin, ez da...? Gutxienez 3 exekuzioetan oinarritu, "Best fitness" balioaren batazbestekoa kalkulatuz eta batazbesteko honekin ondorioak ateraz.
Mutazio probabilitate altua (0.8-tik hurbil) edo baxua (0-tik hurbil). Zein hobe?..
Populazio tamaina altua edo baxua. Zein hobe?
Zein hiru parametroen (gurutzaketa eta mutazio probabilitateak, populazio tamaina) konbinaketa-balioa gomendatuko zenuke? Probatu ere konbinaketa balio hori.

[Galdera 14 -- Galdera hau apirilak 8-ko laborategian burutu behar da -- Sailkapen ez-gainbegiratua, "clustering", "class discovery"]

Laborategia hasteko, klase teorikoetako "clustering - sailkapen ez gainbegiratu" gaiko gardenkiak errepasatu, 10 minutu erabiliz, gai interesgarria da: clustering banatzailea eta clustering hierarkikoa, bereziki.

Ondoko fitxategia ("food.arff") clustering (sailkapen ez gainbegiratua) egiteko aproposa da.
Bertan, hainbat jaki-janari ("kasuak", datu analisiaren ikuspegitik) agertzen ditu, non bakoitza karakterizatzen den hainbat aldagaiengatik: proteina kopurua, kaltzioa... Fitxategiaren testua ikusiz gero, ilara-kasu bakoitzean, lehenik janari bakoitzaren izena agertzen da ("name"), eta gero bera deskribatzen duten 5 aldagai (ulerterrazak, ez da?).
Haragia oinarritzat duten janari plater-janari batzuk daude; besteak, arraia oinarritzat dutenak.
Datubase aproposa da ingelesa praktikatzeko, jakien inguruan.

Kasuek ez dute "klase aldagairik" (ez dago WEKA-n kolorerik...), hau da:

Goazen "ariketa hau simulatzea" proposatu dizuedan "food.arff" datubasearekin, clustering banatzailearen bidez:

[Galdera 12 -- Galdera hau martxoaren 18-ko laborategian burutu behar da -- Aldagai aukeraketa]

Gai honi dagokion teorian ikusi ahal izan duzu sailkapen gainbegiratuko problema batetan aldagai iragarle guztien "garrantzia" berdina ez dela. Aldagai iragarle "redundanteak" (beraien artean oso antzekoak direnean) edo klasearekin garrantzi-gabekoak (erlaziorik ez dutenak iragarri nahi dugun klasearekin), sailkatzailearen asmatze tasa murriztu dezakete. WEKA-k, bere "Select Attributes" pestañaren bidez, aldagai aukeraketako eragiketak egiten ditu: gure azkeneko sailkatzailea aldagai gutxiagorekin eraikitzeko, jakiteko zeintzuk diren aldagai interesgarrienak problema batetan, asmatze tasak hobetzeko, eta abar.

Teorian ikusi izan duzun bezala, aldagai aukeraketaren problema hau ebazteko forma erraza bat “filter” tekniken bidezkoa da, non aldagai iragarleen ranking-ordenaketa bat egiten dute "filter" teknika hauek: ordenaketa honek isladatzen du, handienetik txikienera, aldagai iragarle bakoitzak iragarri nahi dugun klasearekin duen korrelazio maila.

"Filter" metrika desberdin asko daude ("Select Attributes" pestañan, "Attribute Evaluator"-en barruan), korrelazio maila hau kalkulatzeko. WEKA-k eskaintzen dituenen artean, hauetako 3 Informazio Teoriarekin erlazio estua dute: hau da "entropiaren" kontzeptuarekin ("H" deitzen dio ere WEKA-k) (sailkapen zuhaitzetan ere ikusi izan duguna): "Gain Ratio", "Info Gain" eta "Symmetrical Uncertainty". Aukeratu hauetako bakoitza, eta "More" botoian sakatu ikusten erabiltzen duten formula aldagai iragarle bakoitzaren korrelazioa kalkulatzeko klasearekiko: uler ezazu bakoitza, erraza dela uste dut. Chi-karratu metrika ere badago lan berbera egiteko (beharbada Estatistikatik gogoratuko duzu).

[Galdera 13 -- Galdera hau martxoaren 18-ko laborategian burutu behar da -- Data mining-en aplikazioak]

Hurrengo loturetan nere atentzioa deitu duten bi artikulu dibulgatibo batzuk daude, "Data Mining-aren" hainbat aplikazio ulerkor aipatuz:

Gainetik eman begirada bat bi artikulu-multzoei. Gero, horietako bat aukeratu. Aukeratutakoarentzat, rakurri eta hurrengo galderei erantzun, laburki (bi artikulu-sortentzako egin ezkeroz lana, kontutan hartuko dut notan):

[Galdera 10 -- Galdera hau martxoaren 11-ko laborategian burutu behar da -- Sailkatzaile Bayestarrak, "naive Bayes"-etik aurrera, k-db erako estruktura Bayestarrak sortzen WEKA-rekin, eta ulertzen probabilitate kondizionatu taulak]

Goazen hastea errepasatzen naive Bayes, TAN ("Tree Augmented Network") eta "k-db" erako sailkatzaileak teorian.

WEKA-n ez dago zehatz-mehatz Sahami-ren "k-db" teknika berdin berdina inplementatuta, hau da, klase teorikoetan ikusi dugun berbera.
Ordea, "Bayes" sailkatzaile gainbegiratuen familiaren barruan ("Classify" pestañan), "BayesNet" sailkatzaileak aukera asko ematen dizkigu. Bere parametroak ikus itzazu klikatuz negritaz dagoen bere izenaren gainean. Parametro horietako bat "search algorithm" da: honen bidez, era eta konplexutasun desberdin askotako estruktura Bayestarrak "bilatu" ("search") daitezke, TAN eta k-db egituretara hurbilduz.

"Search" parametro honen aukeratako bat "K2" teknika da (Himalaya-ko mendi tontor ezagunari omenaldia eginez, hau da, pausuz pausu sortuko bait du soluzioa, "greedy" eran, erlazioak-geziak aldagaien artean banan banan gehituz). K2 teknika honek sare Bayestar eta sailkatzaile Bayestar mota desberdinetakoak eraiki ditzake.
Horretarako, K2-ren parametroak ikus itzazu bere izenaren gainean klikatuz. Horietako bat "maximum number of parents" da. Ikusi parametro honen explikazioa:

Hau da, beti dependentzi gezi bat jartzen du klasea eta aldagai iragarle guztien artean.
Hortik aurrera, "maximum number of parents" parametroari 2-ko balioa emanez, "zuhaitzera zabaldutako naive Bayes" ("tree augmented naive Bayes") estrukturak sor daitezke. Eta parametro honi 3 edo balio altuagoak emanez, k-db (k-menpekotasuneko sailkatzaile Bayesiarra) erako estrukturak.

Hurrengo lanak egiteko "Hepatitis.arff" datubasea aukeratu.

K2 algoritmoa aukeratuta, "Maximum number of parents" parametroari 2-ko balioa emanez, "TAN - zuhaitzera zabaldutako naive Bayes" ("tree augmented naive Bayes") estruktura sor ezazu.
Aukeratu eta eraiki ezazu dagokion sailkatzailea. Eraikitako estruktura grafikoa (hau da"zuhaitz" estruktura) ikus ezazu "Result list"-en propiedadetan ikusiz bere "Visualize graph". Ohartu zaitez eraikitako grafo-estrukturaz, non, klase aldagaiak kondizionatzen ditu aldagai iragarle guztien balioak: eta gero zuhaitz erako estruktura eraikitzen duen aldagai iragarleen artean (hau da, aldagai iragarle bakoitzak beste aldagai iragarle bat du gehienez guraso bezala estrukturan -- klaseaz aparte).

"Malaise" ("ezinegona") aldagaiaren (sintomaren) gainean klikatuz gero, ondoko pantalla atera beharko zaigu:

Atera zaigun taula, "Probability Distribution Table for MALAISE", ezinbestekoa da ulertzea.
Taula horretan, geroago k-db sailkatzaileak sailkapena egiteko, "p(klasea | kasu_berria)" kalkulatzeko, ezinbestekoak diren hainbat probabilitate daude: naive Bayes-ek erabiltzen zituenaren antzekoak, baina pixka bat konplexuagoak.

"Malaise" aldagai iragarlearen probabilitate banaketaren "argazkia" da, estrukturan dituen bi gurasoen kondizio-pean ("Class"-klasea eta "Fatigue": ikusi taularen ezkerreko parteko bi zutabeak).
"Malaise" aldagaiaren probabilitate banaketa agertzen da, bere gurasoen balio konbinaketa guztietarako: horregatik, lau probabilitate banaketa daude (ohartu ilara bakoitzean bi probabilitateen batura 1 dela), guraso bakoitzak bi balio posible dituelako. Horrela, adibidez:
p(Malaise=no | Class=die , Fatigue=yes) = 0,242 p(Malaise=yes | Class=die , Fatigue=yes) = 0,758

Erantzun, laburki:

"Maximum number of parents" parametroari 3-ko balioa emanez, "3-db" (3-mendekotasuneko sailkatzaile Bayestarra) estruktura sor ezazu, non aldagai iragarle batek gehienez 3 aldagai guraso (klasea derrigorrez, eta beste bi iragarle algoritmoak aukeratuta) izan ditzake estrukturan, bere balioak kondizionatzen dituztenak. "Result list"-en propietatetatik bere estruktura ikus ezazu ("Visualize graph").

Ohartu zaitez "Bilirubin" aldagai iragarleak 3 guraso dituela: "Class", "Anorexia" eta "Varices" (gibelean barizeak izan edo ez). Bilirubinaren balio altua izatea ez da izaten sintoma ona medikutzan... "Bilirubin" nodoan (aldagaian) klikatu eta bere "Probability Distribution Table" erakutsi. Lehenengo, taula ikusiz (zutabetako balioak), ohartu zaitez WEKA-k erabaki duela bi balio diskretotan diskretizatzea (sare Bayesiar hauek soilik aldagai diskretoekin eraikitzen ditu WEKA-k) "Bilirubin"-en balio jarraiak (-infinitotik 1'65-ra; eta 1'65-tik infinitora).
Erantzun ondorengo galderei, "Probability Distribution Table for BILIRUBIN"-en inguruan:

[Galdera 11 -- Galdera hau martxoaren 11-ko laborategian burutu behar da -- Data mining orokorrean]

Horrela, Internet-en topatu duzun eta datu analisiarekin zerikusi hestua duen webgune bat erakutsidazu, eta komentatu eta deskribatu:

[Galdera 8 -- Galdera hau martxoaren 4-ko laborategian burutu behar da -- Sailkatzaile Bayestarrak, "naive Bayes"]

Errepasatu Sailkatzaile Bayestarren gaiko gardenkiak.
Bereziki ariketa egiteko: 6-tik 10-erako gardenkiak erakusten dute naive Bayes sailkatzailearen funtzionamendua, Bayes-en Teoremaren sinplifikazio gisa.

Ulertu bere teoria: ikusi bere asuntzio nagusia dela aldagai iragarleak (Xi), klasea ezagututa (C=c), beraien artean independienteak direla.
Suposa dezagun etiketatu gabeko kasu berri dugula, "kasu_berria=(X1=x1, X2=x2, ..., Xn=xn)". Zein izango da bere "C" klasearen balioa?
Gogoratu apunteetan nolakoa den p(C=c|X1=x1, X2=x2, ..., Xn=xn) kalkulatzeko formula. Hortaz erabiltzen dituen estatistikoak, p(Xi=xi|C=c) eta p(C=c): p(C=c|X1=x1, X2=x2, ..., Xn=xn) kalkulatzeko.
Hau da, asuntzio hau erabiltzen du kasu berri batentzat, (X1=x1, X2=x2, ..., Xn=xn), klasearen balio posible bakoitzarentzat kalkulatzeko bere "a-posteriori" probabilitatea,

eta C-ren balio guztietarako aurrekoa kalkulatuz, "p(C=c|kasu_berria)" handienarekin geratuko gara, C=c*, klasea iragartzeko kasu honentzat.

Goazen ariketa bat egitea "Hepatitis.arff" datubasearekin: lehenengo hau ireki textu editorearekin eta laburki, ulertu problemaren natura (klasearen balio posibleak, aldagai iragarle batzuk...). Problemak, hepatitis-a duten gaixoen pronostikoa iragarri nahi dute ("pronostiko txarra badute"--"die" edo "pronostiko ona"--"live").
Goazen bakarrik bere ondoko aldagaiekin lan egitea (uler ezazu beraien esanahia): "fatigue" (nekea), "malaise" (ezinegona, "malestar"), "anorexia", "liver_big" (gibela haundituta); eta noski, klasea - gaixoaren pronostikoa ("die" edo "live" balioak ditu, hau da, gaixo hil edo bizirik irauteko pronostikoa egiten den). Beste aldagai guztiak ezaba itzazu (preprocess leioa WEKAn -- aukeratu eta remove). Geratu den aldagai bakoitzaren gainean klikatuz, ulertu itzazu histogramak eta bere koloreak ("Preprocess" leihoan, behe eskubi partean).

Orain, 4 aldagai iragarle horiek erabiliko ditugu "Klasea (die / live)" iragartzen saiatuko den naive Bayes sailkatzaile bat sortzeko.
Aukeratu WEKA-n: "Classifier -- Bayes -- NaiveBayesSimple". Sailkatzailea eraiki eta saiatuko gara ulertzen "Classifer output" eskubiko partean agertzen zaigun textua, hau da, naive Bayes sailkatzaileak erabiltzen dituen estatistikoak "p(C=c|kasu_berria)" kalkulatzeko.
Output horren parte bat hartuko dut eta esplikatuko dut (ikusi beheko irudiko ezkerreko partea), eta honen antzekoa izango da (eskubiko parteko irudia naive Bayes-en beste problema batentzako irudia da soilik, besterik ez, ez egin kasurik, baina problema erreal batekoa da):

Lehenengo, klase bakoitzaren "argazki" bat ateratzen digu (lehenengo "die" klasekoentzat, gero "live" klasekoentzat) datubaseko kasu guztientzat.
Lehenengo, "Die" klasearen a-priorizko proportzioa (hau da, zenbat "die" klaseko kasuen proportzioa) datubasean (output-ean beherago dago "Live" klasearen output-a).
Gero, Xi aldagai iragarle bakoitzarentzat, "p(Xi=xi|C=c)" estatistikoen balioak erakusten dizkigu: adibidez, "Class=Die" kasuentzako (klasearen balio honen proportzioa datu basean p(Class=die)=0.2101), "nekea" ("Fatigue") somatu duten probabilitatea 0.911 da, p(Fatigue=yes | Class=Die) = 0.911; eta "nekea" somatu ez dutenen proportzioa p(Fatigue=no | Class=Die) = 0.0882 da (bien batura 1 izatea, ez da?).
Estatistiko eta proportzio guzti hauek datubasetik kalkulatuak izan dira!! Hepatitis.arff-ren 155 kasuetan!! Ez ditu asmatu!! Eta hauek erabiltzen ditu kasu berri bat sailkatzeko eta p(C=c|X1=x1, X2=x2, ..., Xn=xn) kalkulatzeko.

Zuretzako: ateratako "Classifier output"-aren gainean, markatu ezazu zein den "p(Xi=xi|C=c)" bakoitza, aldagai iragarle oro (Xi) eta klasearen balio guztietarako.

Saiatu guzti hau ulertzen, eta demagun kasu berri bat etortzen zaigula (156. kasua: zergatik diot hau??), non medikuak ez dakien zein den bere klasea (ez dago ziur pronostikoa egiterako orduan), eta erabakitzen da ikasitako "NaiveBayesSimple" sailkatzailea erabiltzen dugula kasu hau sailkatzeko (pronostikoa egiteko). Kasu berria demagun ondokoa dela:

Egin eskuz naive Bayes-en lana, eta kalkulatu klase bakoitzaren "p(C=c|kasu_berria)" (hau da, bai C=Die eta bai C=live- rentzako). Zein da naive Bayes-ek egiten duen apostua, iragartzen duen klasea? Gogoratu klaseko apunteak eta teoria. Ulertzen al da naive Bayes-en logika eta funtzionatzeko forma?

Egin berbera ondoko beste kasu honentzat, kalkulatuz naive Bayes-en formula erabiliz, kasu berriaren "p(C=Die|kasu_berria)" eta "p(C=Live|kasu_berria)":

Zure iritziz, nolakoak izango ziren klasearen bi balioen artean indarrez desberdintzen-diskriminatzen lagunduko digun Xi aldagai baten "p(Xi=xi|C=c)" probabilitate balioak?
Hau da, Xi-ren balio zehatz batentzako (adibidez, bere lehenengoa): nolakoak izan beharko ziren beraien artean "p(Xi=lehen_balioa | C=Die)" eta "p(Xi=lehen_balioa | C=Live)" probabilitateak? Antzekoak, oso desberdinak? Sailkatzailea eraikitzeko erabili ditugun lau aldagaietatik, erakutsi aldagai bat (eta bere balio bat) non aurrekoa indarrez gertatzen den.
Eta nolakoak izango ziren beraien artean "p(Xi=lehen_balioa | C=Die)" eta "p(Xi=lehen_balioa | C=Live)" baldin eta EZ bagaituzte laguntzen problemaren bi klaseen artean desberdintzen-diskriminatzen?

Naive Bayes sailkatzaileak, etiketatutako kasu guztiekin eraikitzen duen modeloan zentratu gara ariketa guztian zehar: ez zaigu axola ariketan zehar bere asmatze tasa altua edo baxua den (ez diogu erreparatuko galderan WEKA-ren "Test options"-en aukeratutako asmatze-tasa estimatzeko metodoan: hold-out, balidazio gurutzatua...). Erabili dugun datubasea txikia izango da (kasu gutxitakoa), baino handiagoa balitz ondokoa "kritikoa" izango zen, konputazio denborak handitzeko arriskuarekin: hau da, asmatze tasa estimatzea axola ez bazait, WEKA-ren exekuzio azkarrago izateko:

[Galdera 9 -- Galdera hau martxoak 4-ko laborategian burutu behar da -- Irakurketak -- Ikasketa Automatikoaren aplikazio errealak]
Hurrengo loturetan nere atentzioa deitu duten bi artikulu dibulgatibo batzuk daude, "Data Mining-aren" hainbat aplikazio ulerkor aipatuz:

[Galdera 6 -- Galdera hau otsailak 25-ko laborategian burutu behar da -- Laugarren gaia: Sailkapen zuhaitzak, inausi ("pruning") edo ez]

Errepasatu sailkapen zuhaitzetako gaiko ondoko kontzeptuak gardenkietan:

"Breast-cancer.arff" datubasea hautatuz, lehenengo ulertu laburki tratatzen ari den problema (bereziki, iragarri beharreko klasearen balioak, eta hau iragartzeko aldagai-iragarleak).
WEKA-ren C4.5 metodoarekin (WEKA-n J48 izena du, "trees" familiaren barruan) bi sailkapen zuhaitz eraiki:

J48-ren "unpruned" parametroak inausketa aktibatu edo desaktibatzen du. Kasu guztiekin eraikitako bi arbolen bertsio grafikoak ikusiz ("Result list"-en propiedadeak, arratoiaren eskubiko botoiaz), erantzun:

[Galdera 7 -- Galdera hau otsailak 25-ko laborategian burutu behar da -- Ikasketa automatikoaren aplikazioak -- K-NN sailkatzailea -- Recommender systems]

Web 2.0-ren adibide onenetakoak bezala, "Collaborative filtering", "social bookmarking" edo "Recommender systems" izeneko teknikak orain dela urte gutxi agertu dira sekulako indarrez Adimen Artifiziala eta Data Analisian.
Ikus ezazu "Recommender systems"-en definizioa Wikipedian. "Recommender systems" oso ezagunak ditugu gure inguruan hainbat webgunetan: Amazon, last.fm, allposters.com, StumbleUpon, GoodReads, eta abar.
Nere gustorako, "recommender" landuenetako bat, benetan fina, last.fm-rena da.

"Recommender systems"-en lan egiteko forma K-NN (auzokide hurbilena) sailkatzailearen lan egiteko eratik ("algoritmkatik") oso hurbil dago, erabiltzaileen arteko "distantziak" kalkulatzeko eran. "Recommender systems"-ak saiatzen dira gure gusto eta preferentzi antzekoak dituzten erabiltzaileak topatzen ("auzokideak"... hor dago K-NN-ren itzala), guri proposatzeko hauei gustatu zaizkien (eta guk oraindik probatu ez dugun) "aktibidade"-"adibideen" artetik, guk oraindik probatu-erosi ez ditugunak. Hau da, ingelesezko "collaborative filtering", esanez, "denon arteko jakinduriarekin egiten dugu aukeraketa"...

Orain dela urte batzuk lehen plazaratu zen "recommender" adibidea pelikulena izan zen.
Pentsa dezagun erabiltzaile talde bat gaudela, eta hauetako bakoitzak ikusi dituen pelikulei puntuazio-balorazio bat ematen dio. Noski, denek ez dituzte ikusi pelikula guztiak. Eta denak gogoz daude jakiteko ea ikusi ez dituzten pelikuletatik, zein izan daiteken gustatzea litekeena. Eta "recommender system"-ek, erabiltzaileok karteleratik ikusi ditugun pelikuleei emandako puntuazioetan oinarrituta, saiatzen dira "gure gustu antzekoak dituzten erabiltzaileak topatzen bere erabiltzaileen datu base handi horretan". Eta horrela, oraindik ikusi ez ditugun eta gure "gustoetan antzeko diren erabiltzailei" gustatu zaizkien pelikulak gomendatuko dizkigu sistemak automatikoki. Pelikulen "recommender systems" ezagunena mundu mailan netflix.com da, non urtero txapelketa bat antolatzen dute non, beraien datuetan oinarrituta, nork proposatuko dien "recommender systems"-eko algoritmorik onena: http://www.netflixprize.com/, with a $1 M award.

Ikusi ere 2011 urtean, datu analisiko KDD konferentzian ("Knowledge Discovery from Datasets") proposatutako datuen gaineko konpetizioa. KDD-Cup'2011 from Yahoo! Music.

[Galdera 4 -- Galdera hau otsailak 18-ko laborategian burutu behar da -- 3. gaia, sailkatzaileen ebaluazioa]

Errepasatu klase teorikoetako gardenkietan, 3. gaian, sailkatzaileen asmatze tasa estimatzeko metodoak: estimazio ez-zintzoa, Hold-out metodoaren hainbat exekuzio, k-geruzako balidazio gurutzatua.
Ondoko azpidirektorioko datubase baterako, estimatu 5-NN (5 bizilagun hurbilenen sailkatzailea, zuk nahi duzun bizilagunen boto-pisaketa erarekin) sailkatzailearen asmatze tasa:

Zergatik ez dira emaitzak berdinak (izan beharko al ziren...?)? 5 estimazio formetatik, zeinetaz fidatzen zara gehiago (intuizioa erabili, soilik, erantzuteko)?

[Galdera 5 -- Galdera hau otsailak 18-ko laborategian burutu behar da -- "Data Preprocessing" -- "Discretizing attributes"]
K-NN sailkatzaileek bi motako aldagaiekin lan egin dezakete auzokideen (bi kasuen) arteko distantziak kalkulatzeko (errepasatu K-NN-ren 13. gardenkian, non aipatzen den nola egiten den bi kasuen arteko distantziaren kalkulua), aldagaiz-aldagaiko kenketa-distantzia kalkulatzerakoan:

Gure datuetako balio numerikoak-ordinalak dituzten aldagaiak diskretizatzea ezinbestekoa da ikasketa automatiko eta data mining-eko aplikazio eta egoera askotan. Sailkatzaile mota askok ere ezin dezakete balio numerikoekin lan egin, eta horrelakoak diren aldagaiak diskretizatu behar dira. Ikertzaile eta aditu batzuk ere diote aldagai bat hobeto "ulertu eta interpretatzen" dela bere balio diskretoekin. Iritziak, anitzak, koloreak bezala.
Diskretizazioko adibide bat ondokoa izan daiteke, "adina" aldagaiarentzat: bere zenbakizko balioekin lan egin beharrean (adibidez, 20 urte, 7 urte...), "adina" diskretizatu hainbat (4) tarte-eremu-"range"-"bin"-etan: adibidez [0-tik,14 artekoak]→ "umeak"; [15-tik, 30-ra]→ "gazteak"; [31-tik, 70-ra] → "helduak"; [70-tik aurrera] → "zaharrak". Eta hemendik aurrera, adina aldagaiarentzat: "umea", "gaztea", "heldua" eta "zaharra" balioekin lan egin (4 kolore izango balira bezala).
Zenbakizko aldagai bat diskretizatu eta gero, bere bi balioen arteko distantzia ezin daiteke jadanik era Euklidestarrean kalkulatu, eta "overlap" erako distantzi batera jo beharko dugu. Zenbat izango zen ("zaharra" ken "gaztea")...?!?!?

Ondoko azpidirektorioko "cars.arff" fitxategia kargatu WEKA-n. Lehenago, textu bezala ireki-irakurri fitxategia, eta irakurri zein den problemaren explikazioa, eta natura, ebatzi nahi duen problema eta dituen aldagai iragarleak: fitxategiaren textuaren goiko partean dituzu azalpen hauek (iragarri nahi den aldagaia, klasea, azkena, "origin of the car"). Fitxategi honek aldagai ordinal eta nominalak ditu, bi motatakoak.
"Discretize" preprozesuko teknikarekin lan egingo dugu: Preprocess → unsupervised → attributes. "Unsupervised" bezala ezagutzen da, klase (sailkatu-predizitu nahi den) aldagaia erabiltzen ez duelako.

Diskretizazioa aplikatzeko: "Filter" → "Choose" eta behin aukeratu eta gero, beltzez dagoen "Discretize" funtzioaren izenaren gainean sakatuz gero: funtzio honen parametroak ikus daitezke eta aldatu ("tune"). Informazio gehiago lor daiteke parametro bakoitzaren inguruan "More" sakatuz. Behin parametroak "tuneatu" eta gero, "Apply" sakatu funtzioa aplikatu izateko datuen gainean (pantallaren eskubiko partean). Diskretizazioa aplikatu eta gero eta bere eragina aldagaien balioen gainean ikusi eta gero, erantzun:

[Galdera 2 -- Galdera hau otsailak 11-ko laborategian burutu behar da -- Bigarren Gaia: K-NN, "K-nearest neighbour", "k-bizilagun hurbilenen sailkatzailea" -- 3. gaia: Sailkatzaileen ebaluazioa]

WEKA softwarearen IB1 ("instance-based 1") sailkatzaileak bizilagun hurbilena soilik erabiltzen du sailkapenarako (1-NN): klase ezezaguneko kasu berri bat etortzerakoan sailkatua izateko, sailkatzen dugu entrenamenduko fitxategiko kasu "hurbilenaren" klasearekin. Ikusi gardenki teorikoen bostgarrena.
K-NN erako sailkatzaileen familia atzitzeko WEKA-n, begiratu "Lazy" karpetaren barruan, WEKA-ren "Classify" moduluan. (Ez erantzun orain, baina zer esan nahi du "lazy" ingelesez? Kurtsoa aurrera joan ahal ikusiko dugu sailkatzaile familia honen izenaren zergatia).
IBk sailkatzaileak ordea, etiketatu gabeko kasu berriaren klasea predizitzeko, kasu honen entrenamendu fitxategian dauden "k" bizilagun hurbilenak konputatzen-bilatzen ditu lehenago. Hori egin eta gero, klase teorikoetan ikusi duzu bariante asko daudela, IBk-ren parametroen balioen arabera eta K bizilagunekin egiten ditugun "jokoen" arabera: ikusi teoriako gardenkiak.
Probak egiteko, ondoko azpidirektorioko eta bi klase-balio dituen zuk nahi duzun datubase batekin probak egin eta kargatuta izan WEKA-n.

IBk sailkatzailearen ondoko parametroak esplika itzazu: "KNN", "distanceWeighting".
Nahiz eta klase teorikoetan ikusi, WEKA-k ez du ematen IBk sailkatzailean aldagai iragarleak desberdinki "pixatzeko" aukera: bai ordea bozka eman behar duen bizilagun bakoitzaren pixua.
WEKA-n, sailkatzaile baten parametroak ikusteko eta esplikazio laburra ikusteko, klikatu metodoaren negritaz dagoen izenean, eta gero "More" botoia.

IBk sailkatzailearekin informalki probak egin, "KNN" eta "distanceWeighting" parametroen balioak aldatuz: bizilagun kopurua aldatuz, bizilagunen-pisaketa forma aldatuz:

[Galdera 3 -- Galdera hau otsailak 11-ko laborategian burutu behar da -- Sarrera -- Irakurketak -- Ikasketa Automatikoaren aplikazio errealak]

[Galdera 1 -- Galdera hau otsailak 4-ko laborategian burutu behar da -- Sarrera, problemen aukeraketa]

Kurtsoa aurrera joan ahala, sakonago aztertuko dugu ikasketa automatikoan erabiltzen den "UCI Machine Learning Repository": ikasketa automatikoko teknika berriak testatzeko erabiltzen den datubase multzo zabala: "view all datasets"-en klikatu. Datu base bakoitzarentzat normalean bi fitxategi daude: bata "*.data"extensioduna non kasu matrizea dugun, eta "*.names" extensiodunean aldagaien eta deskripzioarekin.Gehienak, problema errealak, ikertzaile eta enpresetako jendeak igotakoak.

Orain, ondoko loturan, kurtsoan zehar erabiliko dugun WEKA softwarearen *.arff formatoan eta atentzioa deitu didaten hainbat datubase daude, gainbegiratutako problema errealetan oinarritutak guztiak. Fitxategiak textu editore sinple (e.g. Wordpad) batekin irekiz gero, bere goiko partean, problemaren natura isladatzen du, bere ezaugarri nagusienak. Kurtsoan zehar egingo ditugun ariketetan bai datubasea zuk aukeratu, edo nik proposatuko dizuet: normalean, azpidirektorio honetako batekin. Asko laguntzen du ulertzea tratatzen ari garen problemaren izaera.
Begirada bat eman gainetik fitxategiei: laborategian agertuko dizuedan bezala, "%" sinboloaz hasitako lerroa komentarioa da, eta hauetan problemari buruzko informazioa duzute ("relevant information", "past usage", "number of instances", "class distribution", "attribute information"...) ("attribute", edo guretzako "aldagai iragarlea"); komentarioak eta gero, lerro bakoitzean kasu bat, komen bidez aldagai iragarleak eta klasea banatuz.

Gero, bi datubase aukeratu eta beraientzat hurrengo puntuak agertu: