Data mining Izdvajanje informacije iz skupa podataka i
- Slides: 27
Data mining • Izdvajanje informacije iz skupa podataka i transformacija u jasnu strukturu za buduće korišćenje • Data Mining koristi/prati isti opšti pristup – Neke probleme je teško formalizovati, tako da je potreban posebni tretman • Primer: Nađi sve mačke na datim slikama – šta je matematička definicija mačke? • Ideja: Formalizacija pomoću pozitivnih i negativnih primera – naš skup podataka
Data mining • Problem 1: skupljanje i preprocesiranje podataka – slike sa tegom “mačka” na internetu • Problem 2: Nejasno kakvo znanje naši podaci tačno sadrže, mogu biti zajedno mačke i psi MORAMO DA “ISKOPAVAMO” PODATKE I ZNANJE KOJE JE U NJIMA
Data mining • Interdisciplinarna oblast – Računarstvo – Statistika – Specifične oblasti primene • Nama interesantne implementacije i algoritmi
Data mining • Problemi Data Mininga • Teorijski metod za rešavanje problema • Teorijski aloritam za implementaciju metoda • Implementacija
Data mining • Fokus je klasifikacija • Dato – Skup mogućih klasa na primer – Skup primera/podataka za treniranje – Model sa parametrom • Naći tako da predviđa klasu za dato
Data mining • Ako je binarna klasifikacija • Ako je regresija • U fokusu binarna klasifikacija ili
• Notacija Data mining – Ulazni prostor može biti gotovo bilo šta – Posmatraju se d-dimenzionalni vektori – Kratak zapis
Data mining • Klasifikacija • Teorijski metod za rešavanje problema • Teorijski aloritam za implementaciju metoda • Implementacija
Data mining • Metod K najbližih suseda K-NN – Želimo metod za predviđanje – Slični odbirci i verovatno imaju istu oznaku (labelu), tj. pripadaju istoj klasi – Ideja • Prvo pojavljivanje odbirka – funkcija udaljenosti – Računanje za Ako S ima jednak broj pozitivnih i negativnih primera, – k najbližih suseda uzima se slučajna klasa – Predviđanje najčešće oznake u S
Data mining • Metod K najbližih suseda K-NN – U stvari ne postoji model već se podaci direktno koriste – Dva parametra • opisuje udaljenost između podataka, recimo Euklidovo rastojanje • K modeluje broj suseda koji se posmatraju – Može da se koristi i za regresiju
Data mining • Metod K najbližih suseda K-NN
Data mining • Metod K najbližih suseda K-NN
Data mining • Metod K najbližih suseda K-NN
Data mining • Klasifikacija • K-NN • Teorijski algoritam za implementaciju metoda • Implementacija
Data mining • Metod K najbližih suseda K-NN – Naivni algoritam • novi podatak, pojavljuje se po prvi put Računanje O(d) Pretraga O(K) Najgori slučaj za svaki novi podatak
Data mining • Metod K najbližih suseda K-NN – Inteligentiji algoritam • Izdvajanje modela jednom, pa korišćenje • Izdvajanje možda sporo, ali primena brza – Često • Naivni K-NN algoritam ne računa model, već radi sa podacima direktno – model se računa vrlo brzo • Primena zato jako spora, računa se sa svim podacima – Ali je dovoljno gledati samo podatke “blizu” – Ideja predobrada da se dobiju strukture podataka, što treniranja omogućava Vreme raste, brzo ali sudohvatanje upiti brži suseda. Brza pretraga za najbližim susedom
Data mining • Metod K najbližih suseda K-NN – Postoje mnogi algoritmi koji koriste ovaj pristup • U proseku – Vreme izvršavanja ne zavisi samo od metoda, već i od algoritma
Data mining • Klasifikacija • K-NN • Stabla korišćenjem grube sile, hešovanje • Implementacija
Data mining • Metod K najbližih suseda K-NN – Implementacija takođe utiče na vreme izvršavanja – U obzir se mora uzeti platforma – Obično koristimo platformu/jezik koji poznajemo – Ali, pojedine platforme/hardveri su bolji za pojedine poslove (GPU za matrična/vektorska množenja) – Zato se metod i algoritam biraju u zavisnosti od sistema
Data mining • Klasifikacija • K-NN • Stabla korišćenjem grube sile, hešovanje • Sistem i jezik
Data mining • Merenje kvaliteta modela – Kvalitet predviđanja zavisi i od algoritma, implementacije i podataka • Celobrojne operacije su brze, ali manje tačnosti od operacija u sistemu sa pokretnom tačkom – Postoji mnogo različitih modela, još više algoritama, i još više implementacija • K-NN grubom silom, indeksiranje, približni K-NN – Poređenje specifičnih metoda je teško • Poređenje performansi izračunatih modela
Data mining • Merenje kvaliteta modela – Kvalitet predviđanja zavisi i od algoritma, implementacije i podataka • Celobrojne operacije su brze, ali manje tačnosti od operacija u sistemu sa pokretnom tačkom – Postoji mnogo različitih modela, još više algoritama, i još više implementacija • K-NN grubom silom, indeksiranje, približni K-NN metodi rade dobro za neke probleme, ali ne –Neki Poređenje specifičnih metoda je teško postoji metod koji radi dobro za sve probleme! • Poređenje performansi izračunatih modela
Data mining • Merenje kvaliteta modela – Kvalitet modela • Koliko dobro predstavlja podatke za treniranje? • Mogu li se garantovati nova predviđanja? • Kako model upštava nove podatke? – K-NN uopšte ne objašnjava podatke, samo ih čuva • Pretpostavlja sličnost na osnovu funkcije udaljenosti – nema garancije, posebno ako funkcija udaljenosti nije odgovarajuća – U binarnoj klasifikaciji postoje dve mogućnosti, 0 ili 1 – po dva moguća tačna i pogrešna predviđanja nam važi samo za podatke koje već – Tačnost Matrica konfuzije znamo, ništa ne garantuje za nove podatke! – Tačnost
Data mining • Merenje kvaliteta modela – Najbolji model ima Acc = 1, najgori Acc = 0 – Ako se uzme k=1, Acc = 1, savršeno • Ali to je samo pamćenje, nema učenja – Kako se naš model snalazi sa novim, neviđenim podacima? – Ideja – Podeliti podatke na podatke za učenje testiranje – Tako su novi podaci za model – Kako podeliti podatke ? i podatke za
Data mining • Podela podataka • Test/Train – Na primer 80% za treniranje i 20% za testiranje – Brzo i lako za računanje, ali osetljivo na “loše” podele – Kvalitet modela može biti precenjen ili potcenjen • Leave-One-Out – Svaki podatak se koristi jednom za testiranje, dok se treniranje vrši sa preostalim podacima. Usrednjavanje rezultata. – Računa se N modela, ali je zato neosetljiv na “loše” podele – Obično nepraktično
Data mining • Podela podataka • K-fold Cross Validation – Podela podataka na k grupa. Svaka grupa se koristi po jednom za testiranje, a preostali podaci za treniranje. Usrednjavanje rezultata – Neosetljiv na “loše” podele. Obično k=10.
Data mining • Rezime, koncepti • Klasifikacija je jedan zadatak data mining-a • Podaci za treniranje se koriste za definisanje i rešavanje zadatka Vreme izvršavanja i kvalitet modela zavise od • Metod je opšti pristup/ideja kako rešiti zadatak metoda, algoritma i implementacije K-NN je jedan od metoda za rešavanje problema • Algoritam je način za realizaciju metoda klasifikacije, sa mnogo različitih algoritama i • Model formira znanje izdvojeno iz podataka implementacija • Tačnost meri kvalitet modela u odnosu na date podatke
- Izdvajanje iz zaostavštine
- Eck
- Koja su podrucja primene savremenih racunara
- Tisuću zrnaca skupa
- Pojam skupa i osnovne operacije sa skupovima
- Skupa metallbau
- Elektriki skupa
- Mining multimedia databases
- Strip mining vs open pit mining
- Strip mining vs open pit mining
- Difference between strip mining and open pit mining
- Text and web mining
- Data reduction in data mining
- What is kdd process in data mining
- What is missing data in data mining
- Concept hierarchy generation for nominal data
- Data reduction in data mining
- Data reduction in data mining
- Shell cube in data mining
- Data reduction in data mining
- Perbedaan data warehouse dan data mining
- Perbedaan data warehouse dan data mining
- Datamart olap
- Mining complex data objects
- Data warehousing olap and data mining
- Noisy data in data mining
- 3-tier data warehouse architecture
- Markku roiha