Prskats par klsteranu Pteris Ledi Kas ir klsterana

  • Slides: 20
Download presentation
Pārskats par klāsterēšanu Pēteris Lediņš

Pārskats par klāsterēšanu Pēteris Lediņš

Kas ir klāsterēšana? Pamatstruktūras meklēšana lielos datu kopumos

Kas ir klāsterēšana? Pamatstruktūras meklēšana lielos datu kopumos

Klāsterēšana: pielietojumi • • • machine learning datizrace rakstu atpazīšanā (pattern recognition) attēlu analīzē

Klāsterēšana: pielietojumi • • • machine learning datizrace rakstu atpazīšanā (pattern recognition) attēlu analīzē (robežu meklēšana? ) bioinformātikā (genomu līdzības, proteīnu ģimenes) • dažādos (ieskaitot interneta) meklētājos • socioloģijā, grupu analīzē • u. c.

Klāsterēšana • Datu – Definē attāluma funkciju starp katriem diviem objektiem d(i, j). Pieņem,

Klāsterēšana • Datu – Definē attāluma funkciju starp katriem diviem objektiem d(i, j). Pieņem, ka d(i, j)=0 i==j – Dažkārt pieprasa trīsstūru nevienādību. T. i. Katriem a, b, c d(a, b) <= d(a, c) + d(c, b) – Vai obligāti d(a, b) == d(b, a)? • Grafu – Kā definēt attālumu funkciju starp divām virsotnēm bez šķautnēm? – “Dabiski” – uztvert grafu kā varbūtiskas stāvokļu pārejas

Algoritmu labuma kritēriji • Rezultāts – Salīdzina ar zināmo – Kādas skaitliskas vērtības minimizēšana

Algoritmu labuma kritēriji • Rezultāts – Salīdzina ar zināmo – Kādas skaitliskas vērtības minimizēšana • Cik daudz klāsteru? – Fiksēts skaits kā parametrs – Nosaka ar speciālu algoritmu/tiek atrasts darbības laikā • Ātrums • Stabilitāte

Kleinberga aksiomas un neiespējamības teorēma • Jon Kleinberg. An impossibility theorem for clustering -

Kleinberga aksiomas un neiespējamības teorēma • Jon Kleinberg. An impossibility theorem for clustering - Advances in Neural Information Processing Systems, 2002 • Pilnība: iespējams salikt šķautņu svarus tā lai būtu iespējams jebkurš klāsterējums. • Konsistence: ja attālums starp iekšējām virsotnēm paliek mazāks, bet starp ārējām lielāks, tad nemainās klāsterējums. • Mēroga nesvarība: Ja visus attālumus reizina ar pozitīvu skaitli nemainās klāsterējums

Kleinbergs • Pilnība un mērogojums: – Ko darīt ar diviem objektiem? – Šķautņu svari

Kleinbergs • Pilnība un mērogojums: – Ko darīt ar diviem objektiem? – Šķautņu svari • Konsistence, mērogojums, triviālais klāsterējums? • (Triviālais klāsterējums: viens klāsteris vai n klāsteri n objektu kopā)

Neiespējamība • Ja Mērogojamība un konsistence, tad klāsterējumu kopums veido antiķēdi. (bet pilnība tā

Neiespējamība • Ja Mērogojamība un konsistence, tad klāsterējumu kopums veido antiķēdi. (bet pilnība tā nav). • Neiespējamība arī relaksējot konsistenci uz ``apakšklāsteru konsistenci’’.

Vēl relaksēšana • TODO: shai ben david

Vēl relaksēšana • TODO: shai ben david

Hierarhiāla klāsterēšana • Dendogrammas – klāsteru koki. • Apvienojoša vai daloša klāsterēšana • Attālums

Hierarhiāla klāsterēšana • Dendogrammas – klāsteru koki. • Apvienojoša vai daloša klāsterēšana • Attālums starp klāsteriem – Single link – Average link – Complete link

Varbūtiska klāsterēšana • k avoti ar dažādiem varbūtību sadalījumiem • Noskaidrot, kurš punkts atbilst

Varbūtiska klāsterēšana • k avoti ar dažādiem varbūtību sadalījumiem • Noskaidrot, kurš punkts atbilst kuram avotam. • Avotu apraksts nav zināms • Iteratīvi optimizējot iegūto • (Shai Ben David: ``Add Structure’’, ``Fitting generative models’’)

K-Means, K-Medoids • K-Medoids – Klāsteri asociē ar punktu • K-Means – Klāsteri asociē

K-Means, K-Medoids • K-Medoids – Klāsteri asociē ar punktu • K-Means – Klāsteri asociē ar ``vidējo punktu’’ • Iteratīvi – vairāki paveidi, kā darīt • Populārs, bet problemātisks – Klāsteru izmērs – Daudz atkarīgs no sākotnējām izvēlēm

Blīvuma klāsterēšana • Blīvuma savienojamība – Vai eksistē ``blīvs’’ ceļš no punkta a uz

Blīvuma klāsterēšana • Blīvuma savienojamība – Vai eksistē ``blīvs’’ ceļš no punkta a uz punktu b • e-apkārtne • Pamatobjekts • Blīvuma funkcijas – Punktu blīvums apgabalā

Režģu metodes & kategorijas • Režģi: Klāsterē punktu atrašānās apgabalu nevis punktus, piekārto punktus

Režģu metodes & kategorijas • Režģi: Klāsterē punktu atrašānās apgabalu nevis punktus, piekārto punktus apgabaliem • TODO: Kategorijas: kategorijas, apakškategorijas, objekti, distance starp objektiem liela.

Algoritmiskās paradigmas • TODO

Algoritmiskās paradigmas • TODO

Citas lietas • Apgrūtinājumi algoritmos – Šķēršļi – Neizpildās trīsstūru nevienādība. • Neironu tīkli

Citas lietas • Apgrūtinājumi algoritmos – Šķēršļi – Neizpildās trīsstūru nevienādība. • Neironu tīkli • Dimensiju skaits

Klāsterēšana grafos • Algoritmiskās ``paradigmas’’ – Gadījuma apstaigas īpašības • Blīvuma klāsterēšana – Daudz

Klāsterēšana grafos • Algoritmiskās ``paradigmas’’ – Gadījuma apstaigas īpašības • Blīvuma klāsterēšana – Daudz BFSu? • Hierarhiska klāsterēšana – Average link + ``Lielus klāsterus apvienot grūtāk’’ • Optimizācijas kritēriji

Klāsterēšana orientētos grafos? • Neorientētos ir skaidra ideja, ko nozīmē klāsterēt orientētos? • Rihards

Klāsterēšana orientētos grafos? • Neorientētos ir skaidra ideja, ko nozīmē klāsterēt orientētos? • Rihards Opmanis: meklēt saistītās komponentes. • Pēteris Lediņš: meklēt minimālo dominējošo kopu.

Optimizācijas kritēriji grafos • Šķautnes starp klāsteriem pret visām šķautnēm • Ekspansija (relatīvais griezuma

Optimizācijas kritēriji grafos • Šķautnes starp klāsteriem pret visām šķautnēm • Ekspansija (relatīvais griezuma izmērs): – Visu šķelto šķautņu summa dalīta ar mazāko no izveidotajām komponentēm • Conductance (ekspansijas uzlabojums) – Dala ar minimālo iekšējo šķautņu svaru • Minimum diameter (k klāsteri, meklē mazāko maksimālo diametru) • k-mediānas

MCL&Spektrālā klāsterēšana • Spektrālā klāsterēšana: – Nesaprotu, kāpēc strādā • MCL un tamlīdzīgi –

MCL&Spektrālā klāsterēšana • Spektrālā klāsterēšana: – Nesaprotu, kāpēc strādā • MCL un tamlīdzīgi – Gadījuma apstaiga