TRETMAN NEDOSTAJUIH PODATAKA Prof dr Jasna SoldiAleksi Ekonomski

TRETMAN NEDOSTAJUĆIH PODATAKA Prof. dr Jasna Soldić-Aleksić Ekonomski fakultet, Beograd

PROBLEM NEDOSTAJUĆIH PODATAKA • Tretira se u pret-procesiranju podataka (preliminarna analiza podataka) • U

MEHANIZMI GENERISANJA NEDOSTAJUĆIH PODATAKA 1. Nedostajući podaci koji se javljaju u potpunosti na slučajan

KAKO PROVERITI KOJI JE MEHANIZAM NEDOSTAJUĆIH PODATAKA PRISUTAN? • Postoji nekoliko procedura pomoću kojih

ZNAČAJNE METODE ZA TRETIRANJE NEDOSTAJUĆIH PODATAKA Brisanje opservacija - brisanje opservacije sa nedostajućim podacima

Statistički najprihvatljivije metode: • Metoda “maksimizacije očekivanja” (Expectation Maximization - EM method) • Metoda

Algoritmi mašinskog učenja Inputacije K najbljižih suseda - K-Nearest Neighbor Imputation (KNN), koja koristi

Slides: 7

Download presentation

TRETMAN NEDOSTAJUĆIH PODATAKA Prof. dr Jasna Soldić-Aleksić Ekonomski fakultet, Beograd

PROBLEM NEDOSTAJUĆIH PODATAKA • Tretira se u pret-procesiranju podataka (preliminarna analiza podataka) • U literaturi preovlađuje sledeći stav: • ako je procenat nedostajućih podataka manji od 1% smatra se da to generalno nije veliki problem; • 1 -5% nedostajućih podataka može se rešiti primenom uobičajenih tradicionalnih tehnika, • 5 -15% zahteva sofisticirane tehnike, • a preko 15% može ozbiljno da utiče na interpretaciju rezultata. 2

MEHANIZMI GENERISANJA NEDOSTAJUĆIH PODATAKA 1. Nedostajući podaci koji se javljaju u potpunosti na slučajan način (Missing completely at random - MCAR). Ovo je najviši nivo slučajnosti pojavljivanja nedostajućih podataka. Kod ovog mehanizma, verovatnoća nedostajućeg podatka za bilo koji atribut ne zavisi od same vrednosti koja nedostaje i ne zavisi od bilo koje druge promenljive, kao ni od razloga za nedostajanje, koji je u potpunosti slučajan. U ovom slučaju bilo koja metoda koja se bavi nedostajućim podacima može biti primenjena bez bojazni od unošenja pristrasnosti u analizu. Međutim, ovaj mehanizam se relativno retko javlja u praktičnim istraživanjima, i obično se tretira u statističkoj teoriji. 2. Slučajan način pojavljivanja nedostajućih podataka - (Missing at random - MAR). Kod ovog mehanizma verovatnoća nedostajućeg podatka za jedan atribut ne zavisi od same vrednosti atributa, ali zavisi od poznatih vrednosti drugih atributa. Ovaj mehanizam se često sreće u praksi i, obično kada se govori o nedostajućim podacima, podrazumeva se da je reč o njemu. 3. Mehanizam generisanja nedostajućih podataka nije slučajan – (Not missing at random - NMAR). U ovom slučaju nedostajući podatak zavisi od same vrednosti koja nedostaje. 3

KAKO PROVERITI KOJI JE MEHANIZAM NEDOSTAJUĆIH PODATAKA PRISUTAN? • Postoji nekoliko procedura pomoću kojih se može odrediti koji je mehanizam nedostajućih podataka prisutan. • Naime, za svaku promenljivu, može se izvršiti provera da li postoji značajna razlika u podacima između pojedinaca (u opštem slučaju opservacija) koji su, na primer, odgovorili na neko pitanje (pitanja) i pojedinaca koji nisu odgovorili na to pitanje (ili pitanja). • U tom smislu može se primeniti niz statističkih testova – t-testova ili nekih neparametarskih testova, kao i nešto složenija analiza, kao što je na primer, logistička regresiona analiza. U okviru ove analize može se oceniti da li postoje značajne razlike u vrednosti više promenljivih, između ispitanika koji su odgovorili na neko pitanje i ispitanika koji nisu odgovorili na pitanje. Ako se dobiju rezultati koji nisu statistički značajni, radi se o slučajno nedostajućim podacima. U suprotnom, može se zaključiti da postoji statistički značajna razlika u vrednostima neke promenljive za opservacije sa nedostajućim podacima i opservacije koje imaju kompletne podatke. • • Takođe može se primeniti Little-ov MCAR test, koji se zasniva na χ2 statistici i kod koga je nulta hipoteza da se radi o MCAR mehanizmu nedostajućih podataka. Ovaj test je uključen u standardne statističke računarske pakete. U IBM SPSS paketu pojavljuje se u okviru MVA (Missing Value Analysis) procedure. 4

ZNAČAJNE METODE ZA TRETIRANJE NEDOSTAJUĆIH PODATAKA Brisanje opservacija - brisanje opservacije sa nedostajućim podacima od analize do analize (casewise deletion, pairwise deletion), - ili brisanje opservacije koja ima bilo koju nedostajuću vrednost (listwise deletion). Metode supstitucije nedostajućih podataka jednom vrednošću (single imputation) 1. Zamena nedostajućih vrednosti sa prosečnom vrednošću (modusom) 2. Hot (cold) deck imputation (HDI) - ima samo istorijski značaj 3. Regresiona metoda, stohastička regresija (uključen stohastički član) Radi se o relativno jednostavnim metodama. Glavni nedostatak: pristrasno ocenjivanje nepoznatih parametara 5

Statistički najprihvatljivije metode: • Metoda “maksimizacije očekivanja” (Expectation Maximization - EM method) • Metoda Višestrukog unošenja podataka – • Multiple Imputation (MI) - Rubin (1987), • • Mnoge studije su pokazale da MI metoda daje veoma dobre rezultate (Wayman, C. J, 2003). Prednosti ove metode su: nepristrasne ocene parametara, robusnost metode na odstupanje od normalne raspodele podataka, neosetljivost na veličinu uzorka, a takođe i otpornost na visok procenat prisustva nedostajućih podataka. Dalje, ova metoda je računarski jednostavnija u odnosu na druge statistički zasnovane metode, kao što je metoda ocenjivanja pomoću maksimalne verodostojnosti. Rubin, D. B. , (1976) Inference and Missing Data. Biometrika 63 581 -592 Rubin, D. B. (1987) Multiple Imputation for Nonresponse in Surveys. New York: John Wiley & Sons. Little, R. J. A. and Rubin, D. B. (2002) Statistical Analysis with Missing Data, 2 nd Edition, John Wiley and Sons, New York. Wayman, C. Jeffrey, Multiple Imputation For Missing Data: What Is It And How Can I Use It? , 2003. http: //coedpages. uncc. edu/cpflower/wayman_multimp_aera 2003. pdf. 6

Algoritmi mašinskog učenja Inputacije K najbljižih suseda - K-Nearest Neighbor Imputation (KNN), koja koristi algoritam K najbližih suseda za ocenjivanje i zamenu nedostajućih vrednosti. Glavna prednost ove metode ogleda se u tome što se ne mora pripremati prediktivni model za svaki atribut sa nedostajućim podacima, a takođe, ovaj algoritam se može primeniti za ocenjivanje i kvantitativnih i kvalitativnih atributa: za kvantitativne atribute koristi se prosećna vrednost atributa za K najbližih suseda, a za kvalitativni atribut koristi se vrednost sa najvećim učešćem kod K najbližih suseda. Glavni nedostatak ove metode ogleda se u tome što algoritam u potrazi za najsličnijim opservacijama, pretražuje ceo prostor podataka, što može da bude veoma zahtevno. Takođe, postavlja se pitanje određivanja broja susednih opservacija, tj. broja K i izbora mere sličnosti. Iz oblasti metoda neuronskih mreža, poznati algoritam veštačkih neuronskih mreža Self-Organizing Mapping (SOM), koji se koristi za vuzualizaciju i grupisanje podataka, takođe ima ugrađeni mehanizam za tretiranje nedostajućih podataka. Kod drugog algoritma neuronskih mreža – Support Vector Machines - SVM tretman nedostajućih podataka je takođe relativno jednostavan. SVM je algoritam za nelinearni regresiju i klasifikaciju. Kako se radi o neparametarskom regresionom pristupu, faktički se predviđene vrednosti pomoću ovog modela uzimaju za imputaciju nedostajućih podataka. Slična je situacija kod jednog od najčešće korišćenog algoritma veštačkih neuronskih mreža Milti-Layer Perceptron – MLP, kod koga se mreža koristi da generiše predviđanja za slogove sa nedostajućim vrednostima. 7