Algorytm Rochioa Wstp Algorytm Rochioa polega na podzieleniu
- Slides: 21
Algorytm Rochio’a
Wstęp Algorytm Rochio’a polega na podzieleniu obiektów (dokumentów) danego zbioru na pewne grupy – w ramach których znajdować się będą dokumenty podobne do siebie opisem.
Przykład Wykorzystując opis (poniżej) algorytmu Rocchia przeprowadź grupowanie 10 obiektów o następujących opisach: x 1=a 1 b 1 c 1 d 1 e 1 x 2=a 1 b 1 c 1 d 1 e 2 x 3=a 1 b 1 c 2 d 1 e 3 x 4=a 1 b 1 c 3 d 1 e 1 x 5=a 1 b 1 c 1 d 1 e 3 x 6=a 2 b 1 c 2 d 1 e 2 x 7=a 2 b 1 c 3 d 1 e 3 x 8=a 2 b 2 c 3 d 3 e 3 x 9=a 3 b 3 c 2 d 2 e 2 x 10=a 3 b 3 c 2 d 3 e 2 Dla podanego wyżej zbioru obiektów dane są następujące parametry: a) Dla centrum grupy: N 1=5, N 2=3, p 1=0, 2, p 2=0, 3 b) Dla centroidu: N 1 c=5, N 2 c=3, p 1 c=0, 25, p 2 c=0, 35
Krok 0. Pobranie opisów obiektów Krok 1. Wybór potencjalnego centrum grupy xc Jako potencjalne centrum grupy 1 przyjmij obiekt – x 1. Krok 2. Wybór miary podobieństwa (korelacji) każdego dokumentu z centrum grupy xc Dla obliczania współczynnika korelacji zastosuj wzór:
Krok 4. Ustalenie parametrów: p 1, p 2, N 1, N 2 - dla centrum grupy, p 1 c, p 2 c, N 1 c, N 2 c - dla centroidu. Gdzie: p 1, p 2 to zakładane współczynniki korelacji, przy czym spełniona musi być zależność, że p 1 p 2 p 1, p 2 (0; 1) N 1, N 2 to zakładane liczby dokumentów mających z wybranym centrum grupy współczynniki korelacji większe lub równe zakładanym współczynnikom p 1 i p 2. N 1 dokumentów musi mieć współczynnik korelacji p p 1 oraz N 2 dokumentów musi mieć współczynnik korelacji p p 2
Krok 4 a. Ustalenie parametrów cd. : dla centrum grupy: p 1= 0, 2 p 2 = 0, 3 N 1 = 5 N 2 = 3 dla centroidu: p 1 c = 0, 25 p 2 c = 0, 35 N 1 c = 5 N 2 c = 3
Krok 5. Test gęstości dla centrum grupy 1. Przeprowadzamy test gęstości dla centrum grupy (xc). Test ten mówi, że co najmniej N 1 dokumentów ma współczynnik większy bądź równy od P 1, a N 2 dokumentów ma współczynnik większy bądź równy P 2. 6. grupy. A) Jeżeli założenia są spełnione przechodzimy do kroku B) Jeżeli nie – to wybieramy inny obiekt jako centrum
W tym celu obliczamy współczynniki korelacji (podobieństwa każdego dokumentu z wybranym centrum grupy xc) stosując wybraną wcześniej miarę korelacji. Gdy mamy 10 dokumentów w systemie to po kolei dla każdego dokumentu wyliczamy taki współczynnik: p(x 1, xc)= ? . . . p(x 10, xc)= ?
W liczniku podajemy liczbę pojęć wspólnym danego dokumentu z centrum grupy xc W mianowniku podajemy sumę pojęć, którymi są opisane obydwa dokumenty: dany dokument xi i dokument stanowiący centrum grupy. Zatem: Aby obliczyć współczynnik korelacji obiektu 1 z centrum grupy. . : ) – który jest jednocześnie obiektem 1 wykonujemy następujące czynności.
x 1=a 1 b 1 c 1 d 1 e 1 Liczba pojęć wspólnych = 5 (a 1, b 1, c 1, d 1, e 1) Suma pojęć = 5 (a 1, b 1, c 1, d 1, e 1) Zatem: xc=a 1 b 1 c 1 d 1 e 1
Analogicznie. .
Krok 6. Określamy rangę dokumentów W tym celu porządkujemy dokumenty malejąco według obliczonych w kroku 5 współczynników korelacji i nadajemy tak ułożonym wartościom rangi od 1 do n. P(x 1, xc)=1. 0 Ranga 1 p(x 1, xc)=1. 0 P(x 2, xc)=0. 67 Ranga 2 p(x 2, xc)=0. 67 P(x 3, xc)=0. 43 Ranga 3 p(x 4, xc)=0. 67 P(x 4, xc)=0. 67 Ranga 4 p(x 5, xc)=0. 67 P(x 5, xc)=0. 67 Ranga 5 p(x 3, xc)=0. 43 P(x 6, xc)=0. 25 Ranga 6 p(x 6, xc)=0. 25 P(x 7, xc)=0. 25 Ranga 7 p(x 7, xc)=0. 25 P(x 8, xc)=0. 0 Ranga 8 p(x 8, xc)=0. 0 P(x 9, xc)=0. 0 Ranga 9 p(x 9, xc)=0. 0 P(x 10, xc)=0. 0 Ranga 10 p(x 10, xc)=0. 0 Krok 6 a. Przeprowadzamy test gęstości – czyli sprawdzamy, czy na pewno: N 1 dokumentów ma p>= p 1 i N 2 dokumentów ma współczynnik p>=p 2 Jeśli tak to znaczy, że wybrane centrum grupy przeszedł test gęstości.
Krok 7. Obliczamy faktyczne rozmiary grupy 1 Wyznaczamy M 1 (liczebność zbioru obiektów dla których elementy są większe bądź równe P 2) , M 2 (liczebność zbioru obiektów dla których elementy są większe bądź równe P 1). Ranga 1 p(x 1, xc)=1. 0 Ranga 2 p(x 2, xc)=0. 67 Ranga 3 p(x 4, xc)=0. 67 Ranga 4 p(x 5, xc)=0. 67 Ranga 5 p(x 3, xc)=0. 43 M 1=5 Ranga 6 p(x 6, xc)=0. 25 Ranga 7 p(x 7, xc)=0. 25 Ranga 8 p(x 8, xc)=0. 0 Ranga 9 p(x 9, xc)=0. 0 Ranga 10 p(x 10, xc)=0. 0 M 2=7
Krok 8. Obliczamy minimalny współczynnik korelacji p min Jeśli M 1=M 2 to: to Pmin równa się najmniejszemu współczynnikowi korelacji obiektu należącego do M 1 Jeśli M 1 < M 2 to: Obliczamy różnicę pomiędzy współczynnikami korelacji obiektów sąsiednich w grupie maksymalnej M 2, bez obiektów grupy minimalnej M 1. Określamy największą różnicę. Minimalny współczynnik korelacji Pmin jest równy odjemnej z największej różnicy. A) Jeśli największa różnica powtarza się to za Pmin przyjmujemy odjemną o większej wartości.
Krok 8 a. Obliczamy minimalny współczynnik korelacji p min M 1 = 5 M 2 = 7 Zatem aby obliczyć współczynnik korelacji p min obliczam różnicę między dokumentami na granicy tych grup. 5 0, 43 – 0, 25 = 0, 18 6 6 0, 25 – 0, 25 = 0 7 7 0, 25 – 0 = 0, 25 8 Minimalny współczynnik korelacji Pmin jest równy odjemnej z największej różnicy. P min = p 7(x 7) = 0, 25
Krok 9. Wyznaczamy grupę wstępną X w 1 Do grupy wstępnej będą należały wszystkie te dokumenty, które miały wyliczony współczynnik korelacji większy lub równy p min. Są to wszystkie obiekty grupy maksymalnej M 2: X 1, x 2, x 3, x 4, x 5, x 6 i x 7. Krok 10. Wyznaczamy wstępnego reprezentanta grupy X 1 – czyli centroid Centroid to zbiór wszystkich pojęć, którymi są opisane dokumenty grupy minimalnej M 1, czyli. . . Cw 1 = {a 1, a 2, b 1, c 2, c 3, d 1, e 2, e 3}
Krok 10. Generujemy grupę poprawioną W tym celu powtarzamy raz jeszcze • że teraz Nasze centrum grupy Aby upewnić się, że na cały algorytm, z tym, pewno wszystkie te dokumenty powinny stanowi CENTROID c 1. . . się znaleźć w tej grupie • a test gęstości przeprowadzamy tylko dla dokumentów grupy maksymalnej M 2 Krok 11. Centrum grupy to centroid C 1= {a 1, a 2, b 1, c 2, c 3, d 1, e 2, e 3} Krok 12. Ustalenie parametrów: dla centroidu: p 1 c = 0, 25 p 2 c = 0, 35 N 1 c = 5 N 2 c = 3
Krok 13. Test gęstości dla centroidu W tym celu obliczamy współczynniki korelacji (podobieństwa) dokumentów grupy maksymalnej M 2 z centroidem C 1. P(x 1, c 1)=5/10 = 0. 5 P(x 2, c 1)=5/10 = 0. 5 P(x 3, c 1)=5/10 = 0. 5 P(x 4, c 1)=5/10 = 0. 5 P(x 5, c 1)=5/10 = 0. 5 P(x 6, c 1)=5/10 = 0. 5 P(x 7, c 1)=5/10 = 0. 5 Krok 14. Określamy rangę dokumentów P(x 1, c 1)=5/10 = 0. 5 Ranga 1 p(x 1, xc)=0. 5 P(x 2, c 1)=5/10 = 0. 5 Ranga 2 p(x 2, xc)= 0. 5 P(x 3, c 1)=5/10 = 0. 5 Ranga 3 p(x 4, xc)=0. 5 P(x 4, c 1)=5/10 = 0. 5 Ranga 4 p(x 5, xc)=0. 5 P(x 5, c 1)=5/10 = 0. 5 Ranga 5 p(x 3, xc)=0. 5 P(x 6, c 1)=5/10 = 0. 5 Ranga 6 p(x 6, xc)=0. 5 P(x 7, c 1)=5/10 = 0. 5 Ranga 7 p(x 7, xc)=0. 5
Krok 14 a. Przeprowadzamy test gęstości – czyli sprawdzamy, czy na pewno: N 1 c dokumentów ma p>= p 1 c i N 2 c dokumentów ma współczynnik p>=p 2 c Jeśli tak to znaczy, że wybrane centrum grupy przeszedł test gęstości. Krok 15. Obliczamy faktyczne rozmiary grupy poprawionej Wyznaczamy M 1 (liczebność zbioru obiektów dla których elementy są większe bądź równe P 2) , M 2 (liczebność zbioru obiektów dla których elementy są większe bądź równe P 1). Ranga 1 p(x 1, xc)=0. 5 Ranga 2 p(x 2, xc)= 0. 5 Ranga 3 p(x 4, xc)=0. 5 Ranga 4 p(x 5, xc)=0. 5 Ranga 5 p(x 3, xc)=0. 5 Ranga 6 p(x 6, xc)=0. 5 Ranga 7 p(x 7, xc)=0. 5 Jeśli M 1=M 2 to: to Pmin równa się najmniejszemu współczynnikowi korelacji obiektu należącego do M 1 czyli p min = p 7(x 7) = 0, 5 M 1 = M 2=7
Krok 16. Wyznaczamy grupę poprawioną X 1 Do tej grupy będą należały wszystkie te dokumenty, które miały wyliczony współczynnik korelacji większy lub równy p min. Są to wszystkie obiekty grupy maksymalnej M 2: X 1= {x 1, x 2, x 3, x 4, x 5, x 6 i x 7} Krok 10. Wyznaczamy reprezentanta grupy X 1 – czyli centroid Centroid to zbiór wszystkich pojęć, którymi są opisane wszystkie dokumenty grupy X 1, czyli. . . Cw 1 = {a 1, a 2, b 1, c 2, c 3, d 1, e 2, e 3}
Zatem jedna iteracja algorytmu doprowadziła do powstania grupy X 1 = {X 1, x 2, x 3, x 4, x 5, x 6 i x 7} Na jej czele stoi centroid C 1 = {a 1, a 2, b 1, c 2, c 3, d 1, e 2, e 3} Co dalej ? ? ? ? Z dokumentów pozostałych X – X 1 = {x 8, x 9, x 10} powinniśmy tworzyć kolejne grupy. Jednakże jak łatwo zauważyć patrząć na ustalone na początku parametry testu gęstości nie możliwe będzie utworzenie następnych grup, gdyż test ten wymaga aby. . . grupa maksymalna liczyła co najmniej N 2=5 dokumentów. . . a nam zostały już tylko 3. . Zatem na tym kończy się algorytm. I jak było ? ? ?
- Felicia stabilizátor
- Dylemat więźnia
- Wstp
- Wstp
- Program do obsługi hotelu
- Diagnoza edukacyjna definicja
- Ideologia gender na czym polega
- Konserwacja odzieży prezentacja
- Unieruchomienie obłożeniowe
- Obsługa table d'hote
- Defekt masy
- Dzial ekspedycyjny
- Na czym polega rzut sędziowski w koszykówce
- Na czym polega sudoku
- Na czym polega formacja sumienia
- Czym zajmuje się technik ekonomista
- Kation
- System ewakuacji potokowy
- Na czym polega sprawność organizacyjna pilota wycieczek
- Orientacja w terenie
- Test poppelreutera
- Na czym polega grzech syna marnotrawnego