Algorytm Rochioa Wstp Algorytm Rochioa polega na podzieleniu

  • Slides: 21
Download presentation
Algorytm Rochio’a

Algorytm Rochio’a

Wstęp Algorytm Rochio’a polega na podzieleniu obiektów (dokumentów) danego zbioru na pewne grupy –

Wstęp Algorytm Rochio’a polega na podzieleniu obiektów (dokumentów) danego zbioru na pewne grupy – w ramach których znajdować się będą dokumenty podobne do siebie opisem.

Przykład Wykorzystując opis (poniżej) algorytmu Rocchia przeprowadź grupowanie 10 obiektów o następujących opisach: x

Przykład Wykorzystując opis (poniżej) algorytmu Rocchia przeprowadź grupowanie 10 obiektów o następujących opisach: x 1=a 1 b 1 c 1 d 1 e 1 x 2=a 1 b 1 c 1 d 1 e 2 x 3=a 1 b 1 c 2 d 1 e 3 x 4=a 1 b 1 c 3 d 1 e 1 x 5=a 1 b 1 c 1 d 1 e 3 x 6=a 2 b 1 c 2 d 1 e 2 x 7=a 2 b 1 c 3 d 1 e 3 x 8=a 2 b 2 c 3 d 3 e 3 x 9=a 3 b 3 c 2 d 2 e 2 x 10=a 3 b 3 c 2 d 3 e 2 Dla podanego wyżej zbioru obiektów dane są następujące parametry: a) Dla centrum grupy: N 1=5, N 2=3, p 1=0, 2, p 2=0, 3 b) Dla centroidu: N 1 c=5, N 2 c=3, p 1 c=0, 25, p 2 c=0, 35

Krok 0. Pobranie opisów obiektów Krok 1. Wybór potencjalnego centrum grupy xc Jako potencjalne

Krok 0. Pobranie opisów obiektów Krok 1. Wybór potencjalnego centrum grupy xc Jako potencjalne centrum grupy 1 przyjmij obiekt – x 1. Krok 2. Wybór miary podobieństwa (korelacji) każdego dokumentu z centrum grupy xc Dla obliczania współczynnika korelacji zastosuj wzór:

Krok 4. Ustalenie parametrów: p 1, p 2, N 1, N 2 - dla

Krok 4. Ustalenie parametrów: p 1, p 2, N 1, N 2 - dla centrum grupy, p 1 c, p 2 c, N 1 c, N 2 c - dla centroidu. Gdzie: p 1, p 2 to zakładane współczynniki korelacji, przy czym spełniona musi być zależność, że p 1 p 2 p 1, p 2 (0; 1) N 1, N 2 to zakładane liczby dokumentów mających z wybranym centrum grupy współczynniki korelacji większe lub równe zakładanym współczynnikom p 1 i p 2. N 1 dokumentów musi mieć współczynnik korelacji p p 1 oraz N 2 dokumentów musi mieć współczynnik korelacji p p 2

Krok 4 a. Ustalenie parametrów cd. : dla centrum grupy: p 1= 0, 2

Krok 4 a. Ustalenie parametrów cd. : dla centrum grupy: p 1= 0, 2 p 2 = 0, 3 N 1 = 5 N 2 = 3 dla centroidu: p 1 c = 0, 25 p 2 c = 0, 35 N 1 c = 5 N 2 c = 3

Krok 5. Test gęstości dla centrum grupy 1. Przeprowadzamy test gęstości dla centrum grupy

Krok 5. Test gęstości dla centrum grupy 1. Przeprowadzamy test gęstości dla centrum grupy (xc). Test ten mówi, że co najmniej N 1 dokumentów ma współczynnik większy bądź równy od P 1, a N 2 dokumentów ma współczynnik większy bądź równy P 2. 6. grupy. A) Jeżeli założenia są spełnione przechodzimy do kroku B) Jeżeli nie – to wybieramy inny obiekt jako centrum

W tym celu obliczamy współczynniki korelacji (podobieństwa każdego dokumentu z wybranym centrum grupy xc)

W tym celu obliczamy współczynniki korelacji (podobieństwa każdego dokumentu z wybranym centrum grupy xc) stosując wybraną wcześniej miarę korelacji. Gdy mamy 10 dokumentów w systemie to po kolei dla każdego dokumentu wyliczamy taki współczynnik: p(x 1, xc)= ? . . . p(x 10, xc)= ?

W liczniku podajemy liczbę pojęć wspólnym danego dokumentu z centrum grupy xc W mianowniku

W liczniku podajemy liczbę pojęć wspólnym danego dokumentu z centrum grupy xc W mianowniku podajemy sumę pojęć, którymi są opisane obydwa dokumenty: dany dokument xi i dokument stanowiący centrum grupy. Zatem: Aby obliczyć współczynnik korelacji obiektu 1 z centrum grupy. . : ) – który jest jednocześnie obiektem 1 wykonujemy następujące czynności.

x 1=a 1 b 1 c 1 d 1 e 1 Liczba pojęć wspólnych

x 1=a 1 b 1 c 1 d 1 e 1 Liczba pojęć wspólnych = 5 (a 1, b 1, c 1, d 1, e 1) Suma pojęć = 5 (a 1, b 1, c 1, d 1, e 1) Zatem: xc=a 1 b 1 c 1 d 1 e 1

Analogicznie. .

Analogicznie. .

Krok 6. Określamy rangę dokumentów W tym celu porządkujemy dokumenty malejąco według obliczonych w

Krok 6. Określamy rangę dokumentów W tym celu porządkujemy dokumenty malejąco według obliczonych w kroku 5 współczynników korelacji i nadajemy tak ułożonym wartościom rangi od 1 do n. P(x 1, xc)=1. 0 Ranga 1 p(x 1, xc)=1. 0 P(x 2, xc)=0. 67 Ranga 2 p(x 2, xc)=0. 67 P(x 3, xc)=0. 43 Ranga 3 p(x 4, xc)=0. 67 P(x 4, xc)=0. 67 Ranga 4 p(x 5, xc)=0. 67 P(x 5, xc)=0. 67 Ranga 5 p(x 3, xc)=0. 43 P(x 6, xc)=0. 25 Ranga 6 p(x 6, xc)=0. 25 P(x 7, xc)=0. 25 Ranga 7 p(x 7, xc)=0. 25 P(x 8, xc)=0. 0 Ranga 8 p(x 8, xc)=0. 0 P(x 9, xc)=0. 0 Ranga 9 p(x 9, xc)=0. 0 P(x 10, xc)=0. 0 Ranga 10 p(x 10, xc)=0. 0 Krok 6 a. Przeprowadzamy test gęstości – czyli sprawdzamy, czy na pewno: N 1 dokumentów ma p>= p 1 i N 2 dokumentów ma współczynnik p>=p 2 Jeśli tak to znaczy, że wybrane centrum grupy przeszedł test gęstości.

Krok 7. Obliczamy faktyczne rozmiary grupy 1 Wyznaczamy M 1 (liczebność zbioru obiektów dla

Krok 7. Obliczamy faktyczne rozmiary grupy 1 Wyznaczamy M 1 (liczebność zbioru obiektów dla których elementy są większe bądź równe P 2) , M 2 (liczebność zbioru obiektów dla których elementy są większe bądź równe P 1). Ranga 1 p(x 1, xc)=1. 0 Ranga 2 p(x 2, xc)=0. 67 Ranga 3 p(x 4, xc)=0. 67 Ranga 4 p(x 5, xc)=0. 67 Ranga 5 p(x 3, xc)=0. 43 M 1=5 Ranga 6 p(x 6, xc)=0. 25 Ranga 7 p(x 7, xc)=0. 25 Ranga 8 p(x 8, xc)=0. 0 Ranga 9 p(x 9, xc)=0. 0 Ranga 10 p(x 10, xc)=0. 0 M 2=7

Krok 8. Obliczamy minimalny współczynnik korelacji p min Jeśli M 1=M 2 to: to

Krok 8. Obliczamy minimalny współczynnik korelacji p min Jeśli M 1=M 2 to: to Pmin równa się najmniejszemu współczynnikowi korelacji obiektu należącego do M 1 Jeśli M 1 < M 2 to: Obliczamy różnicę pomiędzy współczynnikami korelacji obiektów sąsiednich w grupie maksymalnej M 2, bez obiektów grupy minimalnej M 1. Określamy największą różnicę. Minimalny współczynnik korelacji Pmin jest równy odjemnej z największej różnicy. A) Jeśli największa różnica powtarza się to za Pmin przyjmujemy odjemną o większej wartości.

Krok 8 a. Obliczamy minimalny współczynnik korelacji p min M 1 = 5 M

Krok 8 a. Obliczamy minimalny współczynnik korelacji p min M 1 = 5 M 2 = 7 Zatem aby obliczyć współczynnik korelacji p min obliczam różnicę między dokumentami na granicy tych grup. 5 0, 43 – 0, 25 = 0, 18 6 6 0, 25 – 0, 25 = 0 7 7 0, 25 – 0 = 0, 25 8 Minimalny współczynnik korelacji Pmin jest równy odjemnej z największej różnicy. P min = p 7(x 7) = 0, 25

Krok 9. Wyznaczamy grupę wstępną X w 1 Do grupy wstępnej będą należały wszystkie

Krok 9. Wyznaczamy grupę wstępną X w 1 Do grupy wstępnej będą należały wszystkie te dokumenty, które miały wyliczony współczynnik korelacji większy lub równy p min. Są to wszystkie obiekty grupy maksymalnej M 2: X 1, x 2, x 3, x 4, x 5, x 6 i x 7. Krok 10. Wyznaczamy wstępnego reprezentanta grupy X 1 – czyli centroid Centroid to zbiór wszystkich pojęć, którymi są opisane dokumenty grupy minimalnej M 1, czyli. . . Cw 1 = {a 1, a 2, b 1, c 2, c 3, d 1, e 2, e 3}

Krok 10. Generujemy grupę poprawioną W tym celu powtarzamy raz jeszcze • że teraz

Krok 10. Generujemy grupę poprawioną W tym celu powtarzamy raz jeszcze • że teraz Nasze centrum grupy Aby upewnić się, że na cały algorytm, z tym, pewno wszystkie te dokumenty powinny stanowi CENTROID c 1. . . się znaleźć w tej grupie • a test gęstości przeprowadzamy tylko dla dokumentów grupy maksymalnej M 2 Krok 11. Centrum grupy to centroid C 1= {a 1, a 2, b 1, c 2, c 3, d 1, e 2, e 3} Krok 12. Ustalenie parametrów: dla centroidu: p 1 c = 0, 25 p 2 c = 0, 35 N 1 c = 5 N 2 c = 3

Krok 13. Test gęstości dla centroidu W tym celu obliczamy współczynniki korelacji (podobieństwa) dokumentów

Krok 13. Test gęstości dla centroidu W tym celu obliczamy współczynniki korelacji (podobieństwa) dokumentów grupy maksymalnej M 2 z centroidem C 1. P(x 1, c 1)=5/10 = 0. 5 P(x 2, c 1)=5/10 = 0. 5 P(x 3, c 1)=5/10 = 0. 5 P(x 4, c 1)=5/10 = 0. 5 P(x 5, c 1)=5/10 = 0. 5 P(x 6, c 1)=5/10 = 0. 5 P(x 7, c 1)=5/10 = 0. 5 Krok 14. Określamy rangę dokumentów P(x 1, c 1)=5/10 = 0. 5 Ranga 1 p(x 1, xc)=0. 5 P(x 2, c 1)=5/10 = 0. 5 Ranga 2 p(x 2, xc)= 0. 5 P(x 3, c 1)=5/10 = 0. 5 Ranga 3 p(x 4, xc)=0. 5 P(x 4, c 1)=5/10 = 0. 5 Ranga 4 p(x 5, xc)=0. 5 P(x 5, c 1)=5/10 = 0. 5 Ranga 5 p(x 3, xc)=0. 5 P(x 6, c 1)=5/10 = 0. 5 Ranga 6 p(x 6, xc)=0. 5 P(x 7, c 1)=5/10 = 0. 5 Ranga 7 p(x 7, xc)=0. 5

Krok 14 a. Przeprowadzamy test gęstości – czyli sprawdzamy, czy na pewno: N 1

Krok 14 a. Przeprowadzamy test gęstości – czyli sprawdzamy, czy na pewno: N 1 c dokumentów ma p>= p 1 c i N 2 c dokumentów ma współczynnik p>=p 2 c Jeśli tak to znaczy, że wybrane centrum grupy przeszedł test gęstości. Krok 15. Obliczamy faktyczne rozmiary grupy poprawionej Wyznaczamy M 1 (liczebność zbioru obiektów dla których elementy są większe bądź równe P 2) , M 2 (liczebność zbioru obiektów dla których elementy są większe bądź równe P 1). Ranga 1 p(x 1, xc)=0. 5 Ranga 2 p(x 2, xc)= 0. 5 Ranga 3 p(x 4, xc)=0. 5 Ranga 4 p(x 5, xc)=0. 5 Ranga 5 p(x 3, xc)=0. 5 Ranga 6 p(x 6, xc)=0. 5 Ranga 7 p(x 7, xc)=0. 5 Jeśli M 1=M 2 to: to Pmin równa się najmniejszemu współczynnikowi korelacji obiektu należącego do M 1 czyli p min = p 7(x 7) = 0, 5 M 1 = M 2=7

Krok 16. Wyznaczamy grupę poprawioną X 1 Do tej grupy będą należały wszystkie te

Krok 16. Wyznaczamy grupę poprawioną X 1 Do tej grupy będą należały wszystkie te dokumenty, które miały wyliczony współczynnik korelacji większy lub równy p min. Są to wszystkie obiekty grupy maksymalnej M 2: X 1= {x 1, x 2, x 3, x 4, x 5, x 6 i x 7} Krok 10. Wyznaczamy reprezentanta grupy X 1 – czyli centroid Centroid to zbiór wszystkich pojęć, którymi są opisane wszystkie dokumenty grupy X 1, czyli. . . Cw 1 = {a 1, a 2, b 1, c 2, c 3, d 1, e 2, e 3}

Zatem jedna iteracja algorytmu doprowadziła do powstania grupy X 1 = {X 1, x

Zatem jedna iteracja algorytmu doprowadziła do powstania grupy X 1 = {X 1, x 2, x 3, x 4, x 5, x 6 i x 7} Na jej czele stoi centroid C 1 = {a 1, a 2, b 1, c 2, c 3, d 1, e 2, e 3} Co dalej ? ? ? ? Z dokumentów pozostałych X – X 1 = {x 8, x 9, x 10} powinniśmy tworzyć kolejne grupy. Jednakże jak łatwo zauważyć patrząć na ustalone na początku parametry testu gęstości nie możliwe będzie utworzenie następnych grup, gdyż test ten wymaga aby. . . grupa maksymalna liczyła co najmniej N 2=5 dokumentów. . . a nam zostały już tylko 3. . Zatem na tym kończy się algorytm. I jak było ? ? ?