Metagenomika Zpracovn a assembly celometagenomovch shotgun dat Mgr
Metagenomika – Zpracování a assembly celometagenomových (shotgun) dat Mgr. Ing. Karel Sedlář
Celometagenomová sekvenace Jak můžeme efektivně sestavit kontigy, které je možné fylogeneticky zaškatulkovat? Jak poznáme ke kterému genomu čtení patří?
Celometagenomová sekvenace • laboratorní metody se vyvíjí velmi rychle, přičemž vyžadují neustálý vývoj nových výpočetních metod, který ale probíhá se zpožděním • „wet-lab“ metody pro získání metagenomických (MG) a metatranskriptomických dat (MT) jsou formalizované a reprodukovatelné • „dry-lab“ metody v tomto ohledu zaostávají, formalizace postupů je složitá • výpočetně velmi náročné problémy, často neřešitelné deterministicky
Základní přístupy • metody pro zpracování surových dat (čtení): – závislé na referenci × nezávislé na referenci
Metody závislé na referenci • založené na přímém mapování či zarovnávání čtení k referenčním databázím • 4 -6 x 1030 prokaryot • Gen. Bank assembly prokaryotních genomů: 68 450 • kompletních jen 5282 • srovnávání s databází je pomalé • i pro lidský střevní mikrobiom stále chybí reference pro 43 % genomů Gen. Bank: 193 739 511 • výsledek: relativní abundance čtení WGS: 338 922 537 v jednotlivých skupinách
Metody závislé na referenci • nemusí data nutně porovnávat s celými sekvencemi, ale jen s markerovými subsekvencemi (třeba vybranými geny) • srovnání je tak časově méně složité • může probíhat 2 způsoby: – porovnává samostatná čtení jako celé sekvence – porovnává profilovou informaci ze čtení (př. počty specifických kmerů) • důležitým parametrem je délka porovnávaných sekvencí → vhodnější pro dlouhá čtení • vhodné spíše pro MT než pro MG • výsledek: relativní abundance drah/taxonomických skupin
Metody závislé na referenci • nástroje pracující s vybranými geny: – – AMPHORA (31 vybraných genů) Meta. Phyler (navíc geny pro doménu Archea) AMPHORA 2 (navíc geny pro doménu Archea) Meta. Phl. An (různé geny pro různé vývojové větve) • nástroje pracující s celými sekvencemi: – BLASTN – Bow. Tie 2 – BWA
Metody nezávislé na referenci • nevyžadují apriorní znalost → využijí i čtení, která patří dosud nepopsaným genomům • může opět pracovat s celými sekvencemi nebo profilovou informací • (mezi)výsledek: relativní abundance skupin podobných, neidentifikovaných sekvencí • umožní sestavení delších sekvencí (kontigů), které jsou teprve následně identifikovány • vyžaduje de novo assembly dat, často několika krokovou s postupnou klasifikací vznikajících kontigů
Metody nezávislé na referenci • SOM (samoorganizační mapy) – založené na zpracování počtů kmerů a následné redukci dimenzionality – původní dimenzionalita je daná délkou k-meru: 4 k – pro k-mery délky 5 nukleotidů je to 45 = 1024
Metody nezávislé na referenci • Viz. Bin – založené také na zpracování počtů k-merů a následné redukci dimenzionality pomocí BH-SNE (Barnes-Hut Stochastic Neighbor Embedding) – používá k-mery délky 4 nukleotidů, původní dimenzionalita je to 44 = 256 – redukce do 2 D – problém je automatické shlukování
Metody nezávislé na referenci • využití v kombinaci s de novo assembly
de novo assembly • shotgun data
de novo assembly • de novo assembly je odjakživa jedním z hlavních problémů bioinformatiky • problematická i pro data jednoho konkrétního genomu, natož při zpracování shotgun metagenomů • kvůli výpočetní náročnosti není možné použít dynamické programování (nw, sw, clustal) • velké množství algoritmů, chybí celkové srovnání, celý obor se rychle vyvíjí • zásadní roli hraje délka čtení → čím delší čtení, tím delší kontigy sestavíme při nižší coverage
de novo assembly • znakové metody • grafové metody – OLC grafy – de Bruijn grafy
de novo assembly • znakové metody – greedy extension algoritmy (hladové algoritmy) – „hladový“ algoritmus spojuje jedno čtení s druhým, tak aby bylo dosaženo co největšího překryvu, skončí když už nelze připojit další – největší překryv neznamená vždy nejlepší řešení – tendence poskytovat sub-optimální řešení – dobré pro malé genomy a krátká čtení – vyšší nárok na operační paměť počítače – v metagenomice v praxi nepoužitelné – nástroje: SSAKE, VCAKE
*Graf •
de novo assembly – grafové m. • OLC (overlap layout concensus) graf je vygenerován s použitím čtení a jejich překryvů vrcholy (uzly) jsou jednotlivá čtení hrany mezi vrcholy reprezentují překryv čtení hledá se Hamiltonovská cesta (každý uzel je navštíven jednou) vhodné především pro delší čtení metagenomická data jsou velmi komplexní, což znesnadňuje výpočet, který je u OLC náročnější – nástoje: Edena, Newbler (454 data), SMRT Analysis (Pac. Bio data) – – –
de novo assembly – grafové m. • de Bruijn graf – graf je vygenerován s použitím čtení a jejich překryvů přesně naopak než u OLC – vrcholy (uzly) jsou překryvy – hrany mezi vrcholy reprezentují unikátní sekvenci každého čtení – hledá se Eulerovský tah (každá hrana ke navštívena jednou) – vhodné pro krátká čtení a komplexní genomy – délka překryvu je jeden z předem volených parametrů → umožňuje efektivnější algoritmus pro výpočet, na druhou stranu může vynechat některé překryvy – některé sestavují graf pro více různých délek překryvů – nástroje: Met. AMOS, SOAPdenovo, Meta. Velvet, Meta-IDBA…
de novo assembly
hodnocení kvality assembly • N 50 – něco jako medián, ale je daná větší váha delším kontigům (~vážený medián) – N 50 = 100 000 bp znamená, že alespoň polovina bází v assembly je obsažena v kontizích o délce alespoň 100 000 bp • používají se i další obdobné deskriptory, další nejčastější je N 90, N 75 • L 50 – udává počet kontigů jejichž součet délek splňuje podmínku N 50
hodnocení kvality assembly •
co-assembly • assembly založená na kombinaci MG a MT dat • IMP: pipeline pro reprodukovatelnou integrovanou analýzu spojených metagenomických a metatranskriptomických dat • umožňuje jak odhad abundance populací, tak aktivity celé komunity • reference-independent → využívá maximum dat
IMP
IMP
Viz. Bin
- Slides: 26