Anonimizlsi s adathozzfrsi eljrsok a hivatalos statisztika gyakorlatban
Anonimizálási és adathozzáférési eljárások a hivatalos statisztika gyakorlatában Szép Katalin – Gadácsi Katalin KSH Fényes Elek Műhely 2010. május 26. 1
Vázlat 1. 2. 3. 4. 5. 6. Alapok: statisztikai cél Adatkiadás, kockázatok, csatornák Alapelvek Dilemmák Eurostat gyakorlat, fejlesztési irányok Záró gondolatok 2
Milyen adatok vannak? „ 2008 -ban XYZ Kft. nettó árbevétele 345678 ezer Ft ” • Adóbevallás – adminisztratív adat • KSH kérdőív – statisztikai adat • … 3
Mitől függ? Minden esetben adott egységre vonatkozik, de a cél különbözik: • Igazgatási/adminisztratív –felhasználása közvetlenül az adott egységet érinti, adott egységre vonatkozó intézkedések alapja • Statisztikai – sokaságot akarjuk jellemezni. 4
Adatgyűjtés – feldolgozás - használat Adminisztratív cél Adatgyűjtés Ellenőrzés, nyilvántartás Egységet érintő intézkedés Statisztikai cél Adatgyűjtés Adatellenőrzés, öszszesítés, becslés Sokaságot jellemző adat 5
Adatgyűjtés – feldolgozás - használat Adminisztratív cél Adatgyűjtés Ellenőrzés, nyilvántartás Egységet érintő intézkedés Statisztikai cél Adatgyűjtés Adatellenőrzés, öszszesítés, becslés Sokaságot jellemző adat 6
Egy speciális kérdés: adatösszekapcsolás • Célok – Költségcsökkentés – Adatszolgáltatói terheket ne növeljük – Meglévő adatokból max információ kinyerése • Megoldás: adatösszekapcsolás – Kapcsolás a lehető legpontosabb adatokból – Összekapcsolt állomány gondos anonimizálása (kapcsolás előtti anonimizálás rontja a kapcsolás minőségét, és nem biztos, hogy anonim kapcsolt állományt eredményez) 7
EU Statisztikai Rendszer jövőképe Cél: adatszolgáltatói terhek mérséklése, minőség javítása Statisztikai elemzések Feldolgozás Különböző adatforrások 8 Forrás: Communication from the Commission to the European Parliament and the Council …COM(2009)404. 8. August 2009
Statisztikai célból gyűjtött/kezelt adat csak statisztikai célra használható, azaz a sokaság jellemzésére. Adatkiadáskor adminisztratív célra alkalmatlanná kell tenni, azaz ne legyen alkalmas egyedek azonosítására, egyedekre vonatkozó információ felfedésére. 9
Milyen információ felfedését akadályozzuk meg? • Ország kultúrájától függ. • Magyarországon: – különleges adat (jogi alap) – érzékeny adat (vállalati, lakossági kultúra) 10
Felfedés elleni védelem • Felfedés kockázata függ: – Adat jellege (érzékeny, különleges+közvetlen és közvetett azonosítást lehetővé tevő) – Adathasználat közvetlen célja, adathasználó rendelkezésére álló egyéb információ, eszközök, nyilvántartás, adathasználó háttérintézményének feladata – Jogi védelem lehetősége • Adatvédelem: felfedés elleni logikai, jogi, fizikai védelem • Tökéletes védelem nincs, cél, hogy szokásos idő és eszközráfordítással ne legyen felfedhető 11
Felfedés tipikus esetei Táblázatból • Ha az érzékeny kategóriába túl kevés adatszolgáltató esik pl. személygépkocsi-gyártás megyei adatai • Ha az érzékeny kategóriába túl sok/összes adatszolgáltató esik pl. „B régióban minden hajótulajdonos környezetszennyező” Védelem: aggregálás, cellaelnyomás, kerekítés 12
Felfedés tipikus esetei Mikroadatokból • Közvetlen azonosítókból (név, telephely, adószám) • Ritka értékkombinációkból (főtevékenység, régió, létszámkategória) Védelem: közvetlen azonosítók törlése, csonkolás, cellaelnyomás, átkódoláskerekítés, összekeverés 13
Főbb adatkiadási csatornák a KSH-ban Eurostat Statisztikai Hivatal Jogi védelem c) c) b) b) Kutatók az Eurostat kutatószobájában a) Kutatók a Hivatal kutatószobájában EU-s mikroadatot használó kutatók a) Hazai mikroadatot használó kutatók Felfedés elleni védelem Nyilvánosság 14 a) aggregált és mikroadatok nyilvánosságra hozása b) anonimizált mikroadatkiadás (kutatási célra) c) mikroadat-hozzáférés
Adatkiadási/hozzáférési csatornák • Táblázatos – Kész táblázatok (kiadványok, Stadat vagy egyedi) – Adatbázisokból lekérdezéssel • Mikroadat – Távoli hozzáférés – Kutatószoba – Adatállomány kiadása (kutatónak, v. publikus) – Adatállomány átadása kutatói adatbázisba 15
Felfedés elleni védelem alapelvei • • Maximális biztonság – minimális kockázat Minimális információveszteség Hatékonyság, összehangoltság Megalapozottság Különböző formában, különböző csatornákon Egyenkockázat elve 16
Dilemmák az adatkiadásban • Felhasználók megkülönböztetése – egyenkockázat elve • Egyedi igényeknek megfelelő anonimizálás – kockázatnövekedés erőforrásigény - ingyenesség 17
EU: bizalmas adatokhoz való tudományos célú hozzáférés Bizottság 831/2002/EK rendelete Bizalmas adatok – statisztikai egység közvetlen azonosíthatóság nélkül Bizalmas adatokhoz való hozzáférés – hivatali helységben, vagy anonimizált mikroadat kiadása Kérelem: • Intézmény (egyetem, tudományos kutatóintézet, statisztikai intézet, EKB, jegybankok) Bizottság 2004/452/EK határozata a szervezetek jegyzékéről • Kutatók • Kutatási cél • Adatállomány 18
19
Fejlesztési irányok a világban • Nemzetközi összehasonlítási igény, lehetőség • Új technikai lehetőségek (távoli hozzáférés, adatbázisok mérete, hozzáférési eszközök, adatelemzési eszközök) • Speciális kérések, kérdések Válaszok: kutatás, fejlesztés a felfedés elleni logikai védelemben, informatikai, jogi eszközökben 20
Adatvédelmi fejlesztések az EUban • Adatvédelmi kézikönyv felülvizsgálata – érthetőség • Hozzáférés mikroadatokhoz EU szinten (Eurostaton keresztül) – Intézményi engedélyeztetés egyszerűsítése – Adatállományok bővítése • Hozzáférés kutatószobák hálózatán keresztül – Kutatószobák standardja – Anonimizálás, felhasználók minősítése, dokumentáció, szerződés standardja – Szabályozás standardizálása 21
Fejlesztések a KSH-ban • Részvétel EU grantokban/fejlesztésekben • Adathozzáférési csatornák bővítése • Adatvédelmi szempontok egységesítése Csökkenő pénzügyi erőforrások, igen korlátozott emberi kapacitások mellett. 22
Összegzés (1) Statisztikai célokat szolgáló adat csak úgy adható ki (statisztikai szolgálaton kívülre), hogy ne szolgálhasson közvetlenül adminisztratív intézkedés alapjául. Eszköz: felfedés elleni logikai, technikai, jogi védelem Kiadható anonimizált mikroadat, biztonságos táblázat. 23
Összegzés (2) • Statisztikai célnak való megfelelés – Befogadhat egyedi adatot – Kiad csak anonimizált adatot • Mikroadatkiadáshoz – Termelési folyamat átalakítása – Módszertani felkészülés – Költség és emberi erőforrásigény • Jogi környezet (koncepcionális összhang, EU konformitás) 24
Köszönöm a figyelmet! katalin. szep@ksh. hu 25
- Slides: 25