Data mining Izdvajanje informacije iz skupa podataka i

  • Slides: 27
Download presentation
Data mining • Izdvajanje informacije iz skupa podataka i transformacija u jasnu strukturu za

Data mining • Izdvajanje informacije iz skupa podataka i transformacija u jasnu strukturu za buduće korišćenje • Data Mining koristi/prati isti opšti pristup – Neke probleme je teško formalizovati, tako da je potreban posebni tretman • Primer: Nađi sve mačke na datim slikama – šta je matematička definicija mačke? • Ideja: Formalizacija pomoću pozitivnih i negativnih primera – naš skup podataka

Data mining • Problem 1: skupljanje i preprocesiranje podataka – slike sa tegom “mačka”

Data mining • Problem 1: skupljanje i preprocesiranje podataka – slike sa tegom “mačka” na internetu • Problem 2: Nejasno kakvo znanje naši podaci tačno sadrže, mogu biti zajedno mačke i psi MORAMO DA “ISKOPAVAMO” PODATKE I ZNANJE KOJE JE U NJIMA

Data mining • Interdisciplinarna oblast – Računarstvo – Statistika – Specifične oblasti primene •

Data mining • Interdisciplinarna oblast – Računarstvo – Statistika – Specifične oblasti primene • Nama interesantne implementacije i algoritmi

Data mining • Problemi Data Mininga • Teorijski metod za rešavanje problema • Teorijski

Data mining • Problemi Data Mininga • Teorijski metod za rešavanje problema • Teorijski aloritam za implementaciju metoda • Implementacija

Data mining • Fokus je klasifikacija • Dato – Skup mogućih klasa na primer

Data mining • Fokus je klasifikacija • Dato – Skup mogućih klasa na primer – Skup primera/podataka za treniranje – Model sa parametrom • Naći tako da predviđa klasu za dato

Data mining • Ako je binarna klasifikacija • Ako je regresija • U fokusu

Data mining • Ako je binarna klasifikacija • Ako je regresija • U fokusu binarna klasifikacija ili

 • Notacija Data mining – Ulazni prostor može biti gotovo bilo šta –

• Notacija Data mining – Ulazni prostor može biti gotovo bilo šta – Posmatraju se d-dimenzionalni vektori – Kratak zapis

Data mining • Klasifikacija • Teorijski metod za rešavanje problema • Teorijski aloritam za

Data mining • Klasifikacija • Teorijski metod za rešavanje problema • Teorijski aloritam za implementaciju metoda • Implementacija

Data mining • Metod K najbližih suseda K-NN – Želimo metod za predviđanje –

Data mining • Metod K najbližih suseda K-NN – Želimo metod za predviđanje – Slični odbirci i verovatno imaju istu oznaku (labelu), tj. pripadaju istoj klasi – Ideja • Prvo pojavljivanje odbirka – funkcija udaljenosti – Računanje za Ako S ima jednak broj pozitivnih i negativnih primera, – k najbližih suseda uzima se slučajna klasa – Predviđanje najčešće oznake u S

Data mining • Metod K najbližih suseda K-NN – U stvari ne postoji model

Data mining • Metod K najbližih suseda K-NN – U stvari ne postoji model već se podaci direktno koriste – Dva parametra • opisuje udaljenost između podataka, recimo Euklidovo rastojanje • K modeluje broj suseda koji se posmatraju – Može da se koristi i za regresiju

Data mining • Metod K najbližih suseda K-NN

Data mining • Metod K najbližih suseda K-NN

Data mining • Metod K najbližih suseda K-NN

Data mining • Metod K najbližih suseda K-NN

Data mining • Metod K najbližih suseda K-NN

Data mining • Metod K najbližih suseda K-NN

Data mining • Klasifikacija • K-NN • Teorijski algoritam za implementaciju metoda • Implementacija

Data mining • Klasifikacija • K-NN • Teorijski algoritam za implementaciju metoda • Implementacija

Data mining • Metod K najbližih suseda K-NN – Naivni algoritam • novi podatak,

Data mining • Metod K najbližih suseda K-NN – Naivni algoritam • novi podatak, pojavljuje se po prvi put Računanje O(d) Pretraga O(K) Najgori slučaj za svaki novi podatak

Data mining • Metod K najbližih suseda K-NN – Inteligentiji algoritam • Izdvajanje modela

Data mining • Metod K najbližih suseda K-NN – Inteligentiji algoritam • Izdvajanje modela jednom, pa korišćenje • Izdvajanje možda sporo, ali primena brza – Često • Naivni K-NN algoritam ne računa model, već radi sa podacima direktno – model se računa vrlo brzo • Primena zato jako spora, računa se sa svim podacima – Ali je dovoljno gledati samo podatke “blizu” – Ideja predobrada da se dobiju strukture podataka, što treniranja omogućava Vreme raste, brzo ali sudohvatanje upiti brži suseda. Brza pretraga za najbližim susedom

Data mining • Metod K najbližih suseda K-NN – Postoje mnogi algoritmi koji koriste

Data mining • Metod K najbližih suseda K-NN – Postoje mnogi algoritmi koji koriste ovaj pristup • U proseku – Vreme izvršavanja ne zavisi samo od metoda, već i od algoritma

Data mining • Klasifikacija • K-NN • Stabla korišćenjem grube sile, hešovanje • Implementacija

Data mining • Klasifikacija • K-NN • Stabla korišćenjem grube sile, hešovanje • Implementacija

Data mining • Metod K najbližih suseda K-NN – Implementacija takođe utiče na vreme

Data mining • Metod K najbližih suseda K-NN – Implementacija takođe utiče na vreme izvršavanja – U obzir se mora uzeti platforma – Obično koristimo platformu/jezik koji poznajemo – Ali, pojedine platforme/hardveri su bolji za pojedine poslove (GPU za matrična/vektorska množenja) – Zato se metod i algoritam biraju u zavisnosti od sistema

Data mining • Klasifikacija • K-NN • Stabla korišćenjem grube sile, hešovanje • Sistem

Data mining • Klasifikacija • K-NN • Stabla korišćenjem grube sile, hešovanje • Sistem i jezik

Data mining • Merenje kvaliteta modela – Kvalitet predviđanja zavisi i od algoritma, implementacije

Data mining • Merenje kvaliteta modela – Kvalitet predviđanja zavisi i od algoritma, implementacije i podataka • Celobrojne operacije su brze, ali manje tačnosti od operacija u sistemu sa pokretnom tačkom – Postoji mnogo različitih modela, još više algoritama, i još više implementacija • K-NN grubom silom, indeksiranje, približni K-NN – Poređenje specifičnih metoda je teško • Poređenje performansi izračunatih modela

Data mining • Merenje kvaliteta modela – Kvalitet predviđanja zavisi i od algoritma, implementacije

Data mining • Merenje kvaliteta modela – Kvalitet predviđanja zavisi i od algoritma, implementacije i podataka • Celobrojne operacije su brze, ali manje tačnosti od operacija u sistemu sa pokretnom tačkom – Postoji mnogo različitih modela, još više algoritama, i još više implementacija • K-NN grubom silom, indeksiranje, približni K-NN metodi rade dobro za neke probleme, ali ne –Neki Poređenje specifičnih metoda je teško postoji metod koji radi dobro za sve probleme! • Poređenje performansi izračunatih modela

Data mining • Merenje kvaliteta modela – Kvalitet modela • Koliko dobro predstavlja podatke

Data mining • Merenje kvaliteta modela – Kvalitet modela • Koliko dobro predstavlja podatke za treniranje? • Mogu li se garantovati nova predviđanja? • Kako model upštava nove podatke? – K-NN uopšte ne objašnjava podatke, samo ih čuva • Pretpostavlja sličnost na osnovu funkcije udaljenosti – nema garancije, posebno ako funkcija udaljenosti nije odgovarajuća – U binarnoj klasifikaciji postoje dve mogućnosti, 0 ili 1 – po dva moguća tačna i pogrešna predviđanja nam važi samo za podatke koje već – Tačnost Matrica konfuzije znamo, ništa ne garantuje za nove podatke! – Tačnost

Data mining • Merenje kvaliteta modela – Najbolji model ima Acc = 1, najgori

Data mining • Merenje kvaliteta modela – Najbolji model ima Acc = 1, najgori Acc = 0 – Ako se uzme k=1, Acc = 1, savršeno • Ali to je samo pamćenje, nema učenja – Kako se naš model snalazi sa novim, neviđenim podacima? – Ideja – Podeliti podatke na podatke za učenje testiranje – Tako su novi podaci za model – Kako podeliti podatke ? i podatke za

Data mining • Podela podataka • Test/Train – Na primer 80% za treniranje i

Data mining • Podela podataka • Test/Train – Na primer 80% za treniranje i 20% za testiranje – Brzo i lako za računanje, ali osetljivo na “loše” podele – Kvalitet modela može biti precenjen ili potcenjen • Leave-One-Out – Svaki podatak se koristi jednom za testiranje, dok se treniranje vrši sa preostalim podacima. Usrednjavanje rezultata. – Računa se N modela, ali je zato neosetljiv na “loše” podele – Obično nepraktično

Data mining • Podela podataka • K-fold Cross Validation – Podela podataka na k

Data mining • Podela podataka • K-fold Cross Validation – Podela podataka na k grupa. Svaka grupa se koristi po jednom za testiranje, a preostali podaci za treniranje. Usrednjavanje rezultata – Neosetljiv na “loše” podele. Obično k=10.

Data mining • Rezime, koncepti • Klasifikacija je jedan zadatak data mining-a • Podaci

Data mining • Rezime, koncepti • Klasifikacija je jedan zadatak data mining-a • Podaci za treniranje se koriste za definisanje i rešavanje zadatka Vreme izvršavanja i kvalitet modela zavise od • Metod je opšti pristup/ideja kako rešiti zadatak metoda, algoritma i implementacije K-NN je jedan od metoda za rešavanje problema • Algoritam je način za realizaciju metoda klasifikacije, sa mnogo različitih algoritama i • Model formira znanje izdvojeno iz podataka implementacija • Tačnost meri kvalitet modela u odnosu na date podatke