Metodologia nowoczesnej statystyki dziaalnoci gospodarczej MIKROFUZJA Andrzej Modak

Metodologia nowoczesnej statystyki działalności gospodarczej MIKROFUZJA Andrzej Młodak Urząd Statystyczny w Poznaniu, Ośrodek Statystyki

Istota mikrofuzji q Jest to integracja źródeł danych składających się z jednostek statystycznych (wejście:

Najważniejsze rodzaje mikrofuzji Integracja źródeł danych składających się z tych samych jednostek (Wiązanie rekordów

Przykład integracji w drodze wiązania rekordów q Rejestr zawierający dane z zakresu głównych zmiennych,

Podejścia w zakresie wiązania rekordów q q Podejścia deterministyczne cechuje je stosowanie formalnych reguł

Ramy wiązania rekordów 1. Jednoznaczny identyfikator jednostki, bez błędów 2. Identyfikator jednostki stworzony w

Reguła decyzyjna Fellegiego–Suntera q Probabilistyczne podejście do wiązania rekordów oparte na modelu decyzyjnym z

Reguła decyzyjna Fellegiego–Suntera q q Obliczamy gdzie M to zbiór par powiązanych, zaś U

Reguła decyzyjna Fellegiego–Suntera q Progi Tm i Tu wyznaczane są poprzez rozwiązanie równań, które

Moduły podręcznika poświęcone wiązaniu rekordów 1. Parowanie obiektów (łączenie rekordów) 2. Parowanie identyfikatorów obiektów

Przykłady integracji danych dla różnych jednostek (Parowanie statystyczne) q Łączenie przedsiębiorstw Rejestr REGON Rejestr

Metody parowania danych q Metody imputacyjne metody parametryczne (charakteryzujące się skończoną liczbą parametrów –

Metody mieszane 1. Szacujemy model parametryczny (np. funkcję regresji) 2. Model uzyskany w kroku

Ograniczenia i alternatywy parowania 1. Najprostsze metody są domyślnie oparte na założeniu warunkowej niezależności

Moduły podręcznika poświęcone parowaniu statystycznemu 1. Parowanie statystyczne 2. Metody parowania statystycznego

Uzyskiwanie spójnych danych – przykład q Kluczowe dane administracyjne (np. obrót, liczba zatrudnionych, wynagrodzenia).

Integracja źródeł danych z różnymi jednostkami – przykład

Integracja źródeł danych z różnymi jednostkami – przykład q Dane z zakresu działalności gospodarczej

Metody dopasowywania 1. Rozdział proporcjonalny (prorating – mnożenie dopasowywanych zmiennych przez odpowiednie czynniki korygujące)

Rozdział proporcjonalny q Dzielimy zbiór zmiennych na dopasowywalne i niezmienne. Załóżmy, że mamy regułę

Metody minimalnego korygowania q Warunki e 1: x 1 – x 5 + x

Metody minimalnego korygowania q Bardziej ogólnie reguły edycyjne da się wyrazić jako q Metoda

Korygowanie uogólnionym ilorazem q Czynnik odzwierciedlający zmiany pomiędzy rekordem oryginalnym z badania a dopasowanym

Moduły podręcznika dotyczące mikrointegracji 1. Rozwiązywanie konfliktów w mikrodanych 2. Rozdział proporcjonalny 3. Metody

Slides: 25

Download presentation

Metodologia nowoczesnej statystyki działalności gospodarczej MIKROFUZJA Andrzej Młodak Urząd Statystyczny w Poznaniu, Ośrodek Statystyki Małych Obszarów Wykorzystano informacje zawarte w prezentacji Marco Di Zio ze szkolenia Me. Mo. Bu. St w Hadze – 29 listopada 2013 r.

Istota mikrofuzji q Jest to integracja źródeł danych składających się z jednostek statystycznych (wejście: mikro) celem uzyskania jednolitego zbioru danych jednostkowych (wyjście: mikro). q Wykorzystuje się tutaj różnorodne techniki statystyczne (por. np. D’Orazio, M. , Di Zio, M. , and Scanu, M. (2006), Statistical matching: theory and practice, John Wiley&Sons Ltd. , Chichester).

Najważniejsze rodzaje mikrofuzji Integracja źródeł danych składających się z tych samych jednostek (Wiązanie rekordów – łączenie obiektów) – na przykład firm z danego obszaru q Integracja źródeł składających się z różnych jednostek, ale zawartych w tej samej populacji docelowej (Parowanie statystyczne) – na przykład zbiory dotyczące średnich i dużych firm mające pewien zestaw wspólnych zmiennych i określone zmienne odmienne. q Uspójnienie zintegrowanych danych (Mikrointegracja) q

Przykład integracji w drodze wiązania rekordów q Rejestr zawierający dane z zakresu głównych zmiennych, który chcemy zintegrować z informacjami ze źródeł administracyjnych i badań reprezentacyjnych Rejestr – na przykład REGON zawierający charakterystyki takie jak kody NUTS, PKD 2007, liczba zatrudnionych, itp. . Dane finansowe pochodzące np. z rejestru podatkowego POLTAX Reprezentacyjne badanie małych i średnich przedsiębiorstw

Podejścia w zakresie wiązania rekordów q q Podejścia deterministyczne cechuje je stosowanie formalnych reguł decyzyjnych Podejścia probabilistyczne opierają się na wykorzystaniu prawdopodobieństw do oceny wzajemnego powiązania pary rekordów w kontekście kluczowych zmiennych pozwalają kwantyfikować poziom niepewności w zakresie powiązania pary obserwacji i oszacować błędy popełniane w przeprowadzonych działaniach.

Ramy wiązania rekordów 1. Jednoznaczny identyfikator jednostki, bez błędów 2. Identyfikator jednostki stworzony w oparciu o dostępne zmienne, bez błędów 3. Identyfikator jednostki stworzony w oparciu o dostępne zmienne, obciążony określonym błędem. Rodzaje błędów: • • błędne powiązanie – rekordy, które zostały powiązane, ale faktycznie dotyczą tych samych obiektów brakujące wiązania – rekordy, które nie zostały powiązane, ale które faktycznie są związane z tymi samymi obiektami.

Reguła decyzyjna Fellegiego–Suntera q Probabilistyczne podejście do wiązania rekordów oparte na modelu decyzyjnym z 1969 r. q Założenie – dwa źródła danych A i B (o liczbie obserwacji Na i Nb odpowiednio) q Wybieramy k wspólnych zmiennych wiążących X 1, …, Xk q Porównujemy (np. ci=1 gdy Xi w zbiorze A jest równe Xi w zbiorze B lub ci=0 w przeciwnym razie) uzyskując wektor c=(c 1, …, ck) dla każdej pary jednostek (a, b).

Reguła decyzyjna Fellegiego–Suntera q q Obliczamy gdzie M to zbiór par powiązanych, zaś U – zbiór par niepowiązanych Pary (a, b) mogą być uporządkowane i sklasyfikowane w szacunkowych zbiorach powiązań M* i niepowiązań U* (lub rozstrzygnięć nieokreślonych Q*) w oparciu o progi Tm i Tu (Tm>Tu)

Reguła decyzyjna Fellegiego–Suntera q Progi Tm i Tu wyznaczane są poprzez rozwiązanie równań, które minimalizują zarówno rozmiar zbioru Q jak również wskaźniki fałszywych powiązań oraz fałszywego braku powiązań.

Moduły podręcznika poświęcone wiązaniu rekordów 1. Parowanie obiektów (łączenie rekordów) 2. Parowanie identyfikatorów obiektów 3. Nieważone parowanie charakterystyk obiektów 4. Ważone parowanie charakterystyk obiektów 5. Probabilistyczne łączenie rekordów 6. Podejście Fellegi–Suntera i Jaro do łączenia rekordów

Przykłady integracji danych dla różnych jednostek (Parowanie statystyczne) q Łączenie przedsiębiorstw Rejestr REGON Rejestr podatkowy POLTAX Badanie działalności gospodarczej (DG) q Łączenie osób w gospodarstwa domowe celem wyznaczenia ich dochodu Rejestr podatkowy POLTAX Ewidencja ludności PESEL.

Parowanie statystyczne

Metody parowania danych q Metody imputacyjne metody parametryczne (charakteryzujące się skończoną liczbą parametrów – umożliwiają imputację na przykład na podstawie predykcji rozkładów) metody nieparametryczne (na przykład imputacja oparta na dawcach) metody mieszane (łączące podejścia parametryczne i nieparametryczne, np. w pierwszym kroku estymuje się parametry modelu, zaś w drugim – otrzymuje finalne wyniki przy pomocy sposobu nieparametrycznego.

Metody mieszane 1. Szacujemy model parametryczny (np. funkcję regresji) 2. Model uzyskany w kroku pierwszym stosujemy do oszacowania wartości w obu zbiorach danych (np. biorca A, dawca B) 3. Wykorzystujemy oszacowane wartości do odnalezienia dawcy celem imputowania odpowiedniej wielkości biorcy A (np. znajdujemy najbliższego sąsiada w B według odległości obliczonej w oparciu o oszacowane wartości).

Ograniczenia i alternatywy parowania 1. Najprostsze metody są domyślnie oparte na założeniu warunkowej niezależności (Y i Z są niezależne przy danej wspólnej zmiennej X). 2. Celem uwzględnienia bardziej skomplikowanych sytuacji należy użyć informacji pomocniczych dotyczących zmiennych Y i Z, np. danych z okresów wcześniejszych, zmiennych przybliżonych czy powiązanych. 3. Istnienie granic niepewności, tzn. granic nieidentyfikowalnych wielkości (np. korelacji Y i Z).

Moduły podręcznika poświęcone parowaniu statystycznemu 1. Parowanie statystyczne 2. Metody parowania statystycznego

Uzyskiwanie spójnych danych – przykład q Kluczowe dane administracyjne (np. obrót, liczba zatrudnionych, wynagrodzenia). q SBS wymaga więcej szczegółów q Celem uzyskania owych szczegółów przeprowadza się badanie reprezentacyjne. q Dla uzyskania danych o obrocie i innych kluczowych zmiennych można skorzystać z danych rejestrowych (np. POLTAX) a dla innych zmiennych – z wyników badania. Parowanie jest więc tutaj konieczne.

Integracja źródeł danych z różnymi jednostkami – przykład

Integracja źródeł danych z różnymi jednostkami – przykład q Dane z zakresu działalności gospodarczej muszą podlegać pewnej liczbie określonych reguł i logicznych ograniczeń, np. e 1: x 1 – x 5 + x 8 = 0 (zysk = obrót – koszty ogółem) e 2: –x 3 + x 5 – x 4 = 0 (obrót = obrót główny + obrót pozostały) e 3: –x 6 – x 7 + x 8 = 0 (koszty ogółem = wynagrodzenia + inne koszty). q Integracja danych z różnych źródeł prowadzi częstokroć do zaburzeń w tych regułach. Stąd celem zachowania spójności pewne z tych wielkości muszą zostać zmienione lub odpowiednio „dopasowane”.

Metody dopasowywania 1. Rozdział proporcjonalny (prorating – mnożenie dopasowywanych zmiennych przez odpowiednie czynniki korygujące) 2. Metody minimalnego korygowania (minimalizacja odległości pomiędzy rekordem oryginalnych – niespójnym – a dopasowanym z uwzględnieniem istniejących reguł i ograniczeń) 3. Korygowanie uogólnionym ilorazem (dopasowanie ujednolicające dla wszystkich zmiennych).

Rozdział proporcjonalny q Dzielimy zbiór zmiennych na dopasowywalne i niezmienne. Załóżmy, że mamy regułę edycyjną w postaci , a jest czynnikiem korygującym. Wtedy q Ponieważ , zatem

Metody minimalnego korygowania q Warunki e 1: x 1 – x 5 + x 8 = 0 (zysk = obrót – koszty ogółem) e 2: –x 3 + x 5 – x 4 = 0 (obrót = obrót główny + obrót pozostały) e 3: –x 6 – x 7 + x 8 = 0 (koszty ogółem = wynagrodzenia + inne koszty) mogą być wyrażone jako Ex = c, gdzie

Metody minimalnego korygowania q Bardziej ogólnie reguły edycyjne da się wyrazić jako q Metoda polega na znalezieniu rozwiązania problemu: x 0 : obserwowane wartości zmiennych, które mogą być modyfikowane

Korygowanie uogólnionym ilorazem q Czynnik odzwierciedlający zmiany pomiędzy rekordem oryginalnym z badania a dopasowanym z innych źródeł q Przy założeniu, że rekordy złożone składają się z xs, i – danych administracyjnych gdy są one dostępne i danych z badania w przeciwnym razie q Optymalizujemy dobór czynników minimalizując funkcję przy danych regułach

Moduły podręcznika dotyczące mikrointegracji 1. Rozwiązywanie konfliktów w mikrodanych 2. Rozdział proporcjonalny 3. Metody minimalnego korygowania 4. Korygowanie uogólnionym ilorazem