Prskats par klsteranu Pteris Ledi Kas ir klsterana
- Slides: 20
Pārskats par klāsterēšanu Pēteris Lediņš
Kas ir klāsterēšana? Pamatstruktūras meklēšana lielos datu kopumos
Klāsterēšana: pielietojumi • • • machine learning datizrace rakstu atpazīšanā (pattern recognition) attēlu analīzē (robežu meklēšana? ) bioinformātikā (genomu līdzības, proteīnu ģimenes) • dažādos (ieskaitot interneta) meklētājos • socioloģijā, grupu analīzē • u. c.
Klāsterēšana • Datu – Definē attāluma funkciju starp katriem diviem objektiem d(i, j). Pieņem, ka d(i, j)=0 i==j – Dažkārt pieprasa trīsstūru nevienādību. T. i. Katriem a, b, c d(a, b) <= d(a, c) + d(c, b) – Vai obligāti d(a, b) == d(b, a)? • Grafu – Kā definēt attālumu funkciju starp divām virsotnēm bez šķautnēm? – “Dabiski” – uztvert grafu kā varbūtiskas stāvokļu pārejas
Algoritmu labuma kritēriji • Rezultāts – Salīdzina ar zināmo – Kādas skaitliskas vērtības minimizēšana • Cik daudz klāsteru? – Fiksēts skaits kā parametrs – Nosaka ar speciālu algoritmu/tiek atrasts darbības laikā • Ātrums • Stabilitāte
Kleinberga aksiomas un neiespējamības teorēma • Jon Kleinberg. An impossibility theorem for clustering - Advances in Neural Information Processing Systems, 2002 • Pilnība: iespējams salikt šķautņu svarus tā lai būtu iespējams jebkurš klāsterējums. • Konsistence: ja attālums starp iekšējām virsotnēm paliek mazāks, bet starp ārējām lielāks, tad nemainās klāsterējums. • Mēroga nesvarība: Ja visus attālumus reizina ar pozitīvu skaitli nemainās klāsterējums
Kleinbergs • Pilnība un mērogojums: – Ko darīt ar diviem objektiem? – Šķautņu svari • Konsistence, mērogojums, triviālais klāsterējums? • (Triviālais klāsterējums: viens klāsteris vai n klāsteri n objektu kopā)
Neiespējamība • Ja Mērogojamība un konsistence, tad klāsterējumu kopums veido antiķēdi. (bet pilnība tā nav). • Neiespējamība arī relaksējot konsistenci uz ``apakšklāsteru konsistenci’’.
Vēl relaksēšana • TODO: shai ben david
Hierarhiāla klāsterēšana • Dendogrammas – klāsteru koki. • Apvienojoša vai daloša klāsterēšana • Attālums starp klāsteriem – Single link – Average link – Complete link
Varbūtiska klāsterēšana • k avoti ar dažādiem varbūtību sadalījumiem • Noskaidrot, kurš punkts atbilst kuram avotam. • Avotu apraksts nav zināms • Iteratīvi optimizējot iegūto • (Shai Ben David: ``Add Structure’’, ``Fitting generative models’’)
K-Means, K-Medoids • K-Medoids – Klāsteri asociē ar punktu • K-Means – Klāsteri asociē ar ``vidējo punktu’’ • Iteratīvi – vairāki paveidi, kā darīt • Populārs, bet problemātisks – Klāsteru izmērs – Daudz atkarīgs no sākotnējām izvēlēm
Blīvuma klāsterēšana • Blīvuma savienojamība – Vai eksistē ``blīvs’’ ceļš no punkta a uz punktu b • e-apkārtne • Pamatobjekts • Blīvuma funkcijas – Punktu blīvums apgabalā
Režģu metodes & kategorijas • Režģi: Klāsterē punktu atrašānās apgabalu nevis punktus, piekārto punktus apgabaliem • TODO: Kategorijas: kategorijas, apakškategorijas, objekti, distance starp objektiem liela.
Algoritmiskās paradigmas • TODO
Citas lietas • Apgrūtinājumi algoritmos – Šķēršļi – Neizpildās trīsstūru nevienādība. • Neironu tīkli • Dimensiju skaits
Klāsterēšana grafos • Algoritmiskās ``paradigmas’’ – Gadījuma apstaigas īpašības • Blīvuma klāsterēšana – Daudz BFSu? • Hierarhiska klāsterēšana – Average link + ``Lielus klāsterus apvienot grūtāk’’ • Optimizācijas kritēriji
Klāsterēšana orientētos grafos? • Neorientētos ir skaidra ideja, ko nozīmē klāsterēt orientētos? • Rihards Opmanis: meklēt saistītās komponentes. • Pēteris Lediņš: meklēt minimālo dominējošo kopu.
Optimizācijas kritēriji grafos • Šķautnes starp klāsteriem pret visām šķautnēm • Ekspansija (relatīvais griezuma izmērs): – Visu šķelto šķautņu summa dalīta ar mazāko no izveidotajām komponentēm • Conductance (ekspansijas uzlabojums) – Dala ar minimālo iekšējo šķautņu svaru • Minimum diameter (k klāsteri, meklē mazāko maksimālo diametru) • k-mediānas
MCL&Spektrālā klāsterēšana • Spektrālā klāsterēšana: – Nesaprotu, kāpēc strādā • MCL un tamlīdzīgi – Gadījuma apstaiga
- Pteris sp
- Kas ir arturs evanss
- Pielenki
- Setara kas adalah
- Hücrenin görüntüsü mekik şeklindedir
- Contoh soal anggaran kas
- Kas ir mana dzimtene kas ir latvija
- Sumber dan penggunaan kas
- Prosedur audit kas dan setara kas
- 100 é impar ou par
- Grafiskie dzejoļi
- Vieillissement par le bas
- Recepteur triphasé equilibré
- Supraespinoso biomagnetismo
- Conception et fabrication assistées par ordinateur
- Approche par les forces
- Svrsene i nesvrsene recenice
- Bac pro commerce par correspondance
- Prise de constantinople par les croisés
- Par inerte
- Réactif de drabkin