WUT TWG 2005 WEDT Rachunek prawdopodobiestwa teoria informacji

WUT TWG 2005 WEDT Rachunek prawdopodobieństwa, teoria informacji, lingwistyka Wykład 2 Piotr Gawrysiak pgawrysiak@supermedia. pl 2005

Statystyczne NLP • Podejście statystyczne zakłada wykorzystanie metod wnioskowania statystycznego do analizy języka naturalnego • Wnioskowanie statystyczne – analiza pewnych danych eksperymentalnych (wyników doświadczenia, odpowiedzi na pytania ankietera itp. ), generowanych zgodnie z pewnym nieznanym rozkładem prawdopodobieństwa, w celu określenia cech tego rozkładu • Przykład w NLP – modelowanie języka • • Jak przewidzieć wystąpienie kolejnego słowa w sekwencji słów? Do tego potrzebny jest model generacji słów w języku, określający prawdopodobieństwa wystąpienia pewnych słów pod warunkiem wystąpienia słów poprzedzających. WUT TWG 2005

Rachunek prawdopodobieństwa Zdarzenia losowe, doświadczenia, przestrzenie. . . • • Doświadczenie losowe (experiment)– proces, w którym czynione są obserwacje, składa się ze zdarzeń Obserwowane są zdarzenia elementarne (basic outcomes) Przestrzeń /wszystkich możliwych/ zdarzeń elementarnych (sample space) – Ω Przestrzeń Ω może być ciągła (temperatura powietrza, wzrost) lub dyskretna (rzuty kostką, wystąpienia słów) Zdarzenie A – podzbiór Ω Zbiór pusty – zdarzenie niemożliwe, Ω – zdarzenie pewne Przykłady przestrzeni zdarzeń: • • Rzut monetą: Ω={O, R}, kostką: Ω={1. . 6} Lotto: |Ω|=106 Błędy ortograficzne: Ω=Z*, gdzie Z – alfabet, Z* - ciągi znaków nad tym alfabetem Brakujące słowa: |Ω|=wielkość słownika WUT TWG 2005

Rachunek prawdopodobieństwa Przykład z rzutem monetą – rzucamy 3 razy: Ω={OOO, OOR, ORO, ROO, RRO, ROR, ORR, RRR} |Ω|=8 • • • Zdarzenie – wyrzucono trzy orły: A 1={RRR} Zdarzenie – wyrzucono pod rząd dwie reszki: A 2={RRO, ORR, RRR} Zdarzenie – wyrzucono pod rząd cztery orły: A 3=ø Zdarzenia to zbiory więc zastosowanie mają operacje teoriomnogościowe – suma zdarzeń (OR), iloczyn zdarzeń (AND), różnica zdarzeń, dopełnienie zdarzeń (zdarzenie przeciwne) itd. Kostka do gry Ω={1. . 6}, |Ω|=6 • Zdarzenie – wyrzucono parzystą liczbę oczek: A 4={2, 4, 6} • Zdarzenie przeciwne – wyrzucono nieparzystą liczbę oczek: A 5 = Ω-A 4 = {1, 3, 5} WUT TWG 2005

Prawdopodobieństwo Jakie jest prawdopodobieństwo zdarzenia? • • • Powtarzamy eksperyment t razy, zliczając liczbę c wystąpień zdarzenia A Powyższe serie powtarzamy wielokrotnie Wartość ci/ti zbliża się do pewnej (nieznanej a priori) stałej wartości Ta stała wartość to prawdopodobieństwo zdarzenia A, P(A) /Nb. powyższe to definicja częstościowa prawdopodobieństwa, R. von Mises; ponadto np. definicje – geometryczna oraz klasyczna Laplace’a 1812/ Oczywiście w praktyce nie da się przeprowadzić nieskończonej liczby doświadczeń, zatem wartość prawdopodobieństwa możemy jedynie estymować z c 1/t 1 WUT TWG 2005

Prawdopodobieństwo Definicja aksjomatyczna prawdopodobieństwa (Kołmogorowa, 1933) • • • P: F [0, 1] P(Ω)=1 Dla rozłącznych zbiorów Aj F Z powyższych aksjomatów wynikają własności funkcji prawdopodobieństwa takie jak: • • • P(Ø)=0 A B P(A) P(B) WUT TWG 2005

Prawdopodobieństwo warunkowe i łączne • Niekiedy mamy częściową wiedzę o możliwym wyniku doświadczenia • • • Prawdopodobieństwo zdarzenia A: P(A) (prior probability) Załóżmy, że wiemy iż zaszło zdarzenie B Prawdopodobieństwo warunkowe zdarzenia A pod warunkiem, iż zaszło zdarzenie B: P(A|B) (posterior probability) P(A|B) = P(A B)/P(B), P(B)>0 Oczywiście analogicznie P(B|A) = P(A B)/P(A), P(A)>0 zatem P(A B)=P(B)*P(A|B)=P(A)*P(B|A) • Gdy są to zdarzenia niezależne /P(A|B)=P(A) itd. / to: P(A B)=P(A)*P(B) WUT TWG 2005

Reguła łańcuchowa Niezależność zdarzeń, reguła łańcuchowa • Dwa zdarzenia są niezależne, gdy wystąpienie jednego z nich nie ma wpływu na wystąpienie drugiego: • • • pogoda dzisiaj i 20 września 1800 roku wynik dwóch rzutów monetą każde dwa zdarzenia takie że P(A B)=P(A)*P(B) • Zdarzenia mogą być także warunkowo niezależne (conditionally independent): P(A B|C)=P(A|C)*P(B|C) • Uogólnienie prawdopodobieństwa warunkowego – reguła łańcuchowa WUT TWG 2005

WUT TWG Wzór Bayesa 2005 Wzór Bayesa (Bayes Theorem) • Wzór Bayesa pozwala nam odwrócić stosunek zależności pomiędzy zdarzeniami – czyli obliczyć P(B|A) gdy znane jest P(A|B) „Golden Rule of SNLP” • Gdy nie znamy P(A) • • Czasem możemy mianownik zignorować – gdy interesuje nas tylko określenie najbardziej prawdopodobnego zdarzenia ze zbioru zdarzeń zależnych od A Ew. P(A) = P(A B) + P(A B) = P(A|B)P(B)+P(A|B)P(B) Dzielimy zbiór A na dwie rozłączne części – z których jedna oczywiście może być zbiorem pustym

WUT TWG Wzór Bayesa 2005 Z czego wynika bardziej ogólna postać wzoru Bayesa: A jest dzielony na i rozłącznych podzbiorów Przykład: • S: zdrętwienie mięśni szyi, M: zapalenie opon mózgowych • P(S|M) =0. 5, P(M) = 1/50000, P(S)=1/20 • Czujemy że drętwieje nam szyja, czy to powód do niepokoju?

Wzór Bayesa Przykład 2: • Mamy „prawie dobry algorytm wykrywający konstrukcję typu parasitic gap” : Which book did she review __ without reading __? • Algorytm myli się „w obie strony” • G: w zdaniu jest parasitic gap, T: algorytm wykrył pg • P(G) =0. 00001, P(T|G)=0. 95, P(T|G)=0. 005 • Algorytm wykrył pg, czy pg jest rzeczywiście w zdaniu? WUT TWG 2005

WUT TWG Zmienne losowe • • • 2005 Dla każdego doświadczenia przestrzeń zdarzeń elementarnych może być inna Zmienne losowe pozwalają nam analizować prawdopodobieństwa dla wartości numerycznych Zmienna losowa – funkcja X taka że: zmienna losowa ciągła zmienna losowa dyskretna, skokowa (discreet random variable), S – przeliczalny podzbiór R próba Bernouliego

WUT TWG Zmienne losowe • • 2005 Funkcja rozkładu prawdopodobieństwa, rozkład prawdopodobieństwa (probability mass function, pmf) pmf określa prawdopodobieństwo przyjęcia pewnej wartości przez zmienną losową np. dla trzech rzutów monetą, X~liczba orłów: (xi) 0 1 2 3 P(Axi) 1/8 3/8 1/8 Wartość oczekiwana (expectation) – średnia wartości zmiennej losowej

Zmienne losowe Własności wartości oczekiwanej E(X+Y) = E(X) + E(Y) E(XY) = E(X)*E(Y) jeśli zmienne losowe X i Y są niezależne Wariancja (variance) – określa na ile wartości zmiennej losowej odchylają się od średniej WUT TWG 2005

Modele probabilistyczne w NLP • Przy analizie danych tekstowych (zakładając istnienie procesu stochastycznego generującego dane) nie znamy zwykle pmf • Należy zatem estymować pmf analizując próbki danych Podejście bayesowskie Podejście częstościowe WUT TWG 2005

Podejście częstościowe • • WUT TWG 2005 Zgodnie z definicją częstościową Częstość względna: proporcja wystąpień zdarzenia do liczby wszystkich zdarzeń C(u) liczba wystąpień zdarzenia w N próbach • Dla względna częstość dąży do pewnej wartości, będącej oszacowaniem prawdopodobieństwa • Dwie metody – parametryczna i bezparametryczna

Metoda parametryczna i bezparam. Metoda parametryczna: • • Zakładamy iż jakiś proces w języku jest poprawnie modelowany jednym ze znanych rozkładów statystycznych (rozkład statystyczny – rodzina parametryzowanych pmf) takich jak rozkład normalny, dwumianowy itd. Znając naturę procesu pozostaje ustalić jedynie parametry rozkładu, do czego potrzeba stosunkowo niewiele danych Metoda bezparametryczna: • • Nie przyjmujemy żadnych założeń dotyczących rozkładu analizowanych danych pmf należy estymować empirycznie, analizując dużą ilość danych -> zwykle otrzymamy rozkład dyskretnym, ale możemy go przekształcać w ciągły przez interpolację WUT TWG 2005

Przykłady rozkładów WUT TWG 2005 Rozkład dwumianowy • • • Seria doświadczeń o dwóch możliwych wynikach (próby Bernouliego) niezależnych od siebie r – liczba sukcesów w n próbach p - prawdopodobieństwo sukcesu w jednej próbie (np. zmienna losowa R, r=liczba orłów w n rzutach nieuczciwą monetą) Parametry • W zastosowaniach w NLP – często przyjmuje się przybliżenie o niezależności występowania słów (zdań) w tekście. Wtedy rozkład dwumianowy może mieć zastosowanie.

Rozkład dwumianowy Inne rozkłady dyskretne: Poissona, Bernoulliego b(r; 1, p), wielomianowe WUT TWG 2005

Przykłady rozkładów cd. WUT TWG Rozkład normalny • • Rozkład ciągły Parametry – średnia i odchylenie standardowe • • Krzywa Gaussa – dzwonowa W NLP rozkłady ciągłe niezbyt użyteczne – dziedzina (słowa) jest bowiem z natury dyskretna, chociaż też się przydają W statystyce rozkład dwumianowy aproksymuje się zwykle normalnym – co jest uzasadnione, gdy oba prawdopodobieństwa są zbliżone – co może nie być prawdą w wielu metodach NLP • 2005

Rozkład normalny WUT TWG 2005

Podejście częstościowe • • D: dane M: model (rodzina pmf) Θ: parametry (np. μ, σ) Dla ustalonego M : maximum likelihood estimate (MLE) wybieramy parametry takie, że: • Wybór modelu podobnie: WUT TWG 2005

WUT TWG Podejście Bayesowskie • • • 2005 W statystyce Bayesowskiej obliczamy stopnie ufności, wychodząc z pierwotnych wartości prawdopodobieństwa (prior beliefs) i dokonując ich uaktualnienia w świetle nowych faktów (zdarzeń) Przykład: 10 rzutów monetą, 8 orłów Um – model taki że P(orzeł) = m s – sekwencja rzutów gdzie i orłów i j reszek Załóżmy jednak, iż mieliśmy uprzednie przekonanie o jakości monety (tj. iż była uczciwa) Maksimum w 0. 5 • I chcemy je zweryfikować po dokonaniu doświadczenia: