Prskats par klsteranu Pteris Ledi Kas ir klsterana




















- Slides: 20
Pārskats par klāsterēšanu Pēteris Lediņš
Kas ir klāsterēšana? Pamatstruktūras meklēšana lielos datu kopumos
Klāsterēšana: pielietojumi • • • machine learning datizrace rakstu atpazīšanā (pattern recognition) attēlu analīzē (robežu meklēšana? ) bioinformātikā (genomu līdzības, proteīnu ģimenes) • dažādos (ieskaitot interneta) meklētājos • socioloģijā, grupu analīzē • u. c.
Klāsterēšana • Datu – Definē attāluma funkciju starp katriem diviem objektiem d(i, j). Pieņem, ka d(i, j)=0 i==j – Dažkārt pieprasa trīsstūru nevienādību. T. i. Katriem a, b, c d(a, b) <= d(a, c) + d(c, b) – Vai obligāti d(a, b) == d(b, a)? • Grafu – Kā definēt attālumu funkciju starp divām virsotnēm bez šķautnēm? – “Dabiski” – uztvert grafu kā varbūtiskas stāvokļu pārejas
Algoritmu labuma kritēriji • Rezultāts – Salīdzina ar zināmo – Kādas skaitliskas vērtības minimizēšana • Cik daudz klāsteru? – Fiksēts skaits kā parametrs – Nosaka ar speciālu algoritmu/tiek atrasts darbības laikā • Ātrums • Stabilitāte
Kleinberga aksiomas un neiespējamības teorēma • Jon Kleinberg. An impossibility theorem for clustering - Advances in Neural Information Processing Systems, 2002 • Pilnība: iespējams salikt šķautņu svarus tā lai būtu iespējams jebkurš klāsterējums. • Konsistence: ja attālums starp iekšējām virsotnēm paliek mazāks, bet starp ārējām lielāks, tad nemainās klāsterējums. • Mēroga nesvarība: Ja visus attālumus reizina ar pozitīvu skaitli nemainās klāsterējums
Kleinbergs • Pilnība un mērogojums: – Ko darīt ar diviem objektiem? – Šķautņu svari • Konsistence, mērogojums, triviālais klāsterējums? • (Triviālais klāsterējums: viens klāsteris vai n klāsteri n objektu kopā)
Neiespējamība • Ja Mērogojamība un konsistence, tad klāsterējumu kopums veido antiķēdi. (bet pilnība tā nav). • Neiespējamība arī relaksējot konsistenci uz ``apakšklāsteru konsistenci’’.
Vēl relaksēšana • TODO: shai ben david
Hierarhiāla klāsterēšana • Dendogrammas – klāsteru koki. • Apvienojoša vai daloša klāsterēšana • Attālums starp klāsteriem – Single link – Average link – Complete link
Varbūtiska klāsterēšana • k avoti ar dažādiem varbūtību sadalījumiem • Noskaidrot, kurš punkts atbilst kuram avotam. • Avotu apraksts nav zināms • Iteratīvi optimizējot iegūto • (Shai Ben David: ``Add Structure’’, ``Fitting generative models’’)
K-Means, K-Medoids • K-Medoids – Klāsteri asociē ar punktu • K-Means – Klāsteri asociē ar ``vidējo punktu’’ • Iteratīvi – vairāki paveidi, kā darīt • Populārs, bet problemātisks – Klāsteru izmērs – Daudz atkarīgs no sākotnējām izvēlēm
Blīvuma klāsterēšana • Blīvuma savienojamība – Vai eksistē ``blīvs’’ ceļš no punkta a uz punktu b • e-apkārtne • Pamatobjekts • Blīvuma funkcijas – Punktu blīvums apgabalā
Režģu metodes & kategorijas • Režģi: Klāsterē punktu atrašānās apgabalu nevis punktus, piekārto punktus apgabaliem • TODO: Kategorijas: kategorijas, apakškategorijas, objekti, distance starp objektiem liela.
Algoritmiskās paradigmas • TODO
Citas lietas • Apgrūtinājumi algoritmos – Šķēršļi – Neizpildās trīsstūru nevienādība. • Neironu tīkli • Dimensiju skaits
Klāsterēšana grafos • Algoritmiskās ``paradigmas’’ – Gadījuma apstaigas īpašības • Blīvuma klāsterēšana – Daudz BFSu? • Hierarhiska klāsterēšana – Average link + ``Lielus klāsterus apvienot grūtāk’’ • Optimizācijas kritēriji
Klāsterēšana orientētos grafos? • Neorientētos ir skaidra ideja, ko nozīmē klāsterēt orientētos? • Rihards Opmanis: meklēt saistītās komponentes. • Pēteris Lediņš: meklēt minimālo dominējošo kopu.
Optimizācijas kritēriji grafos • Šķautnes starp klāsteriem pret visām šķautnēm • Ekspansija (relatīvais griezuma izmērs): – Visu šķelto šķautņu summa dalīta ar mazāko no izveidotajām komponentēm • Conductance (ekspansijas uzlabojums) – Dala ar minimālo iekšējo šķautņu svaru • Minimum diameter (k klāsteri, meklē mazāko maksimālo diametru) • k-mediānas
MCL&Spektrālā klāsterēšana • Spektrālā klāsterēšana: – Nesaprotu, kāpēc strādā • MCL un tamlīdzīgi – Gadījuma apstaiga