Metagenomika Zpracovn a assembly celometagenomovch shotgun dat Mgr

Metagenomika – Zpracování a assembly celometagenomových (shotgun) dat Mgr. Ing. Karel Sedlář

Celometagenomová sekvenace Jak můžeme efektivně sestavit kontigy, které je možné fylogeneticky zaškatulkovat? Jak poznáme ke kterému genomu čtení patří?

Celometagenomová sekvenace • laboratorní metody se vyvíjí velmi rychle, přičemž vyžadují neustálý vývoj nových výpočetních metod, který ale probíhá se zpožděním • „wet-lab“ metody pro získání metagenomických (MG) a metatranskriptomických dat (MT) jsou formalizované a reprodukovatelné • „dry-lab“ metody v tomto ohledu zaostávají, formalizace postupů je složitá • výpočetně velmi náročné problémy, často neřešitelné deterministicky

Základní přístupy • metody pro zpracování surových dat (čtení): – závislé na referenci × nezávislé na referenci

Metody závislé na referenci • založené na přímém mapování či zarovnávání čtení k referenčním databázím • 4 -6 x 1030 prokaryot • Gen. Bank assembly prokaryotních genomů: 68 450 • kompletních jen 5282 • srovnávání s databází je pomalé • i pro lidský střevní mikrobiom stále chybí reference pro 43 % genomů Gen. Bank: 193 739 511 • výsledek: relativní abundance čtení WGS: 338 922 537 v jednotlivých skupinách

Metody závislé na referenci • nemusí data nutně porovnávat s celými sekvencemi, ale jen s markerovými subsekvencemi (třeba vybranými geny) • srovnání je tak časově méně složité • může probíhat 2 způsoby: – porovnává samostatná čtení jako celé sekvence – porovnává profilovou informaci ze čtení (př. počty specifických kmerů) • důležitým parametrem je délka porovnávaných sekvencí → vhodnější pro dlouhá čtení • vhodné spíše pro MT než pro MG • výsledek: relativní abundance drah/taxonomických skupin

Metody závislé na referenci • nástroje pracující s vybranými geny: – – AMPHORA (31 vybraných genů) Meta. Phyler (navíc geny pro doménu Archea) AMPHORA 2 (navíc geny pro doménu Archea) Meta. Phl. An (různé geny pro různé vývojové větve) • nástroje pracující s celými sekvencemi: – BLASTN – Bow. Tie 2 – BWA

Metody nezávislé na referenci • nevyžadují apriorní znalost → využijí i čtení, která patří dosud nepopsaným genomům • může opět pracovat s celými sekvencemi nebo profilovou informací • (mezi)výsledek: relativní abundance skupin podobných, neidentifikovaných sekvencí • umožní sestavení delších sekvencí (kontigů), které jsou teprve následně identifikovány • vyžaduje de novo assembly dat, často několika krokovou s postupnou klasifikací vznikajících kontigů

Metody nezávislé na referenci • SOM (samoorganizační mapy) – založené na zpracování počtů kmerů a následné redukci dimenzionality – původní dimenzionalita je daná délkou k-meru: 4 k – pro k-mery délky 5 nukleotidů je to 45 = 1024

Metody nezávislé na referenci • Viz. Bin – založené také na zpracování počtů k-merů a následné redukci dimenzionality pomocí BH-SNE (Barnes-Hut Stochastic Neighbor Embedding) – používá k-mery délky 4 nukleotidů, původní dimenzionalita je to 44 = 256 – redukce do 2 D – problém je automatické shlukování

Metody nezávislé na referenci • využití v kombinaci s de novo assembly

de novo assembly • shotgun data

de novo assembly • de novo assembly je odjakživa jedním z hlavních problémů bioinformatiky • problematická i pro data jednoho konkrétního genomu, natož při zpracování shotgun metagenomů • kvůli výpočetní náročnosti není možné použít dynamické programování (nw, sw, clustal) • velké množství algoritmů, chybí celkové srovnání, celý obor se rychle vyvíjí • zásadní roli hraje délka čtení → čím delší čtení, tím delší kontigy sestavíme při nižší coverage

de novo assembly • znakové metody • grafové metody – OLC grafy – de Bruijn grafy

de novo assembly • znakové metody – greedy extension algoritmy (hladové algoritmy) – „hladový“ algoritmus spojuje jedno čtení s druhým, tak aby bylo dosaženo co největšího překryvu, skončí když už nelze připojit další – největší překryv neznamená vždy nejlepší řešení – tendence poskytovat sub-optimální řešení – dobré pro malé genomy a krátká čtení – vyšší nárok na operační paměť počítače – v metagenomice v praxi nepoužitelné – nástroje: SSAKE, VCAKE

*Graf •

de novo assembly – grafové m. • OLC (overlap layout concensus) graf je vygenerován s použitím čtení a jejich překryvů vrcholy (uzly) jsou jednotlivá čtení hrany mezi vrcholy reprezentují překryv čtení hledá se Hamiltonovská cesta (každý uzel je navštíven jednou) vhodné především pro delší čtení metagenomická data jsou velmi komplexní, což znesnadňuje výpočet, který je u OLC náročnější – nástoje: Edena, Newbler (454 data), SMRT Analysis (Pac. Bio data) – – –

de novo assembly – grafové m. • de Bruijn graf – graf je vygenerován s použitím čtení a jejich překryvů přesně naopak než u OLC – vrcholy (uzly) jsou překryvy – hrany mezi vrcholy reprezentují unikátní sekvenci každého čtení – hledá se Eulerovský tah (každá hrana ke navštívena jednou) – vhodné pro krátká čtení a komplexní genomy – délka překryvu je jeden z předem volených parametrů → umožňuje efektivnější algoritmus pro výpočet, na druhou stranu může vynechat některé překryvy – některé sestavují graf pro více různých délek překryvů – nástroje: Met. AMOS, SOAPdenovo, Meta. Velvet, Meta-IDBA…

de novo assembly

hodnocení kvality assembly • N 50 – něco jako medián, ale je daná větší váha delším kontigům (~vážený medián) – N 50 = 100 000 bp znamená, že alespoň polovina bází v assembly je obsažena v kontizích o délce alespoň 100 000 bp • používají se i další obdobné deskriptory, další nejčastější je N 90, N 75 • L 50 – udává počet kontigů jejichž součet délek splňuje podmínku N 50

hodnocení kvality assembly •

co-assembly • assembly založená na kombinaci MG a MT dat • IMP: pipeline pro reprodukovatelnou integrovanou analýzu spojených metagenomických a metatranskriptomických dat • umožňuje jak odhad abundance populací, tak aktivity celé komunity • reference-independent → využívá maximum dat

IMP

IMP

Viz. Bin