CALENDARIO DELLE LEZIONI DICEMBRE 412 ore 14 16

CALENDARIO DELLE LEZIONI DICEMBRE • 4/12, ore 14 -16, aula emiciclo (ed. Q) • 5/12, ore 14 -16/16 -18, LEZIONE PRATICA, aula C (ed. M) • 10/12, ore 11 -13, aula V (ed. A) • 11/12, ore 14 -16, aula emiciclo (ed. Q) • 12/12, ore 14 -16/16 -18, LEZIONE PRATICA, aula C (ed. M) • 17/12, ore 11 -13, aula V (ed. A) – Pallavicini? • 18/12 – se richiesto – chiarimento dubbi/Visione esempio domande esame? • 19/12, ore 14 -16/16 -18, LEZIONE PRATICA, aula C (ed. M) – Pallavicini?

Quantificazione dei livelli di espressione in RNA-seq, un compito non banale! • I livelli di espressione di un gene derivano da conte digitali, ovvero dal numero di reads che sono state mappate nelle coordinate genomiche in cui erano presenti annotazioni di ciascun gene (meglio ancora, nelle regioni annotate come esoni) • Il numero di reads per gene/trascritto è dipendente da: (I) Il livello di espressione (II) La lunghezza del trascritto (III) La profondità di sequenziamento

Le basi della quantificazione dei livelli di espressione in RNA-seq • Allineare le reads con un genoma/trascrittoma di riferimento • Contare le reads allineate per ogni gene/trascritto • Convertire le conte in livelli di espressione relativi • I parametri di mapping sono importanti, ma ancora più importanti sono le strategie con cui gestire/convertire le conte

Cosa succede se uso solamente il numero delle conte? • Rischio di non tenere in considerazione la diversa profondità di sequenziamento (non sempre la quantificazione delle librerie è precisa!) • Vediamo il caso a fianco: il campione «trattato» evidentemente è stato sequenziato con maggior profondità -> tutti i trascritti sembrano upregolati! Nell’esempio in figura il campione trattato consiste di circa 60 Mreads, il controllo di circa 20 Mreads. . . C’è un fattore 3 X di differenza!

C’è necessità di normalizzare i valori di espressione • Caso più semplice: normalizzazione «by totals» • Normalizzo le conte in modo che il numero di reads ottenuto per ciascuna libreria sia il medesimo • La somma - toria delle conte dovrà darmi lo stesso numero! -> ad esempio conte per milion (RPM, Reads Per Million, dette anche CPM – Counts Per Million) In seguito a normalizzazione delle conte lo scatter plot risulta molto più omogeneo e non si notano più molti geni che si discostano in modo rilevante dalla bisettrice

Basta una normalizzazione «by totals» ? • Per molte applicazioni può essere sufficiente • Si tratta di un tipo di normalizzazione «tra campioni» • Tuttavia non permette di apprezzare differenze di espressione tra geni all’interno dello stesso campione • Questo perchè la lunghezza degli m. RNA è variabile • m. RNA lunghi daranno, a parità di espressione, origine a più reads rispetto agli m. RNA corti I due geni sopra sono espressi allo stesso livello, anche se il gene B ha generato 8 volte il numero di reads del gene A

Normalizzazione «within samples» • RPKM (Reads Per Kilobase of exon per Million mapped reads) • Normalizza «between samples» (usa il numero di reads mappate totali, dipendente dalla profondità di sequenziamento come fattore di scaling • Normalizza anche «within samples» (usa la lunghezza dei trascritti come fattore di scaling)

C = conte; N = numero totale di reads mappabili (dipende dalla profondità di sequenziamento!)

Che differenza c’è tra RPKM ed FPKM? • FPKM = Fragments Per Kilobase of exon per Million mapped reads • Il concetto è lo stesso degli RPKM • Vengono però contati i frammenti, cioè le coppie di reads Paired-End • Questa misura ha senso solo per sequenziamenti Illumina Paired-End

Non tutti i campioni/tessuti sono uguali! • Prendiamo il caso di dati di sequenziamento derivati da diversi tessuti, in questo caso derivati da un mollusco bivalve (ghiandola digestiva, piede, muscolo). Essi sembrano essere molto specializzati! • Cioè esprimono a livelli altissimi alcuni geni molto importanti per la loro funzionalità -> le curve mostrate a fianco sono «curve di saturazione» che ci mostrano i livelli cumulativi di espressione dei trascritti tessuto per tessuto

• Alcuni tessuti (ma anche campioni sperimentali!) produrranno pochi geni a livelli altissimi che «cattureranno» la maggior parte delle reads di un sequenziamento • Altri saranno meno specializzati e avranno una distribuzione più uniforme delle reads • Il numero di geni non espressi in tessuti/campioni diversi può variare! • Questo ha un effetto importante sulle unità di misura da usare per la comparazione tra campioni!

Ma allora quale è il problema degli RPKM/FPKM? • La sommatoria degli RPKM/FPKM nei diversi campioni mi darò valori diversi! • E’come se volessi confrontare i livelli di espressione nei due diagrammi a torta a fianco basandomi sull’area delle fette • L’area del diagramma 2 è doppia di quella del diagramma 1! • Quello che devo confrontare non è l’area delle fette ma la proporzione relativa al totale (cioè l’angolo di ciascuna fetta)

Introduciamo una nuva misura: i TPM • TPM = Transcripts Per Million • In sostanza questa misura converte gl RPKM/FPKM di modo che la loro sommatoria dia 1 milione • Questa misura dovrebbe rendere maggiormente raffrontabili i livelli di espressione tra campioni, pur mantenendo la comparabilità dei livelli di espressione tra geni in uno stesso campione come gli RPKM

Ma. . . • Tutte queste misure sono misure di abbondanza relativa • Non esiste nessun modo, bioinformaticamente parlando, di garantire una comparabilità diretta tra i campioni • I TPM tentano di approssimare una misura accurata, ma sono comunque dipendenti dal numero di trascritti espressi • Morale della favola: il confronto tra i livelli di espressione tra vari campioni deve sempre necessariamente tenere in considerazione il fatto che stiamo lavorando con abbondanze relative e non con abbondanze assolute • Se volessi ottenere delle misure assolute dovrei fare affidamento a trascritti sintetici «spike-in» inseriti concentrazioni note in fase di preparazione delle librerie

• Esistono molte diverse strategie per la normalizzazione dei dati di RNA-seq • Tutte hanno i loro sostenitori e detrattori • Bisogna notare che solo i TPM garantiscono sia una normalizzazione «betweensamples» che «withinsamples» • Moltissimi metodi di analisi statistica di differential gene expression non tengono in considerazione la lunghezza dei trascritti, in quanto focalizzati sul confronto tra campioni, non tra geni diversi

Altri problemi. . . come gestisco le reads che mappano su più di un gene o più di un trascritto? • Ogni gene ha diverse varianti di splicing alternativo, annotate nei vari genomi • Anche alcuni algoritmi per l’assemblaggio de novo di trascrittomi fanno generano isoforme di splicing (ad esempio il metodo più popolare in assoluto, Trinity) • Geni paraloghi possono essere identici o quasi • Problema che varia in base alla specie • Ad esempio in pesci (WGD) • Meno rilevante con reads lunghe • Meno rilevante con reads PE • Come le gestisco?

Come gestisco le reads che mappano su geni/trascritti multipli? • Opzione 1: le scarto e uso solo le reads che mappano in modo univoco -> bad idea • Opzione 2: mappo prima le reads univoche e poi ridistribuisco quelle multiple in modo proporzionale-> good idea • Opzione 3: sviluppo un algoritmo che ottimizzi questo sistema -> RSEM -> Expectation-Maximization

Tratto da Patcher, MODELS FOR TRANSCRIPT QUANTIFICATION FROM RNA-SEQ, 2011

Small RNA analysis – una breve panoramica • Problematiche molto simili vengono incontrate nel caso dell’analisi degli small RNA, in particolare dei mi. RNA. Naturalmente la gestione delle reads (trimming e mapping) va pensata in modo diverso rispetto ad un RNA-seq, dal momento che le dimensioni dei mi. RNA sono molto ridotte (circa 22 nt)! Il sequenziamento stesso sarà di tipo ben preciso (ad esempio non ha senso usare reads molto lunghe oppure approcci paired-end!) • In questo caso sono possibili due approcci ben distinti: 1) Contare i diversi tipi di mi. RNA ottenuti in un esperimento di sequenziamento per poi compararli con un database di riferimento (approccio mapping-free, più «leggero» , non richiede un genoma di riferimento) 2) Mappare le reads su un genoma annotato e contare quante cadono all’interno di regioni annotate come mi. RNA (approccio più «pesante» , applicabile solo ad organismi modello, in cui il genoma è ben annotato

Small RNA analysis – una breve panoramica • Esistono database specifici per mi. RNA, il più importante dei quali è mi. RBase (http: //www. mirbase. org) • E’ possibile confrontare le sequenze ottenute dal sequenziamento con quelle depositate in questi database, associando a ciascun mi. RNA noto un numero di conte digitali • L’analisi di espressione differenziale può procedere in modo analogo a quanto viene fatto per i dati di RNA-sequencing N. B. In questo caso parlare di RPKM, TPM ed FPKM non ha senso visto che la lunghezza dei mi. RNA è sempre la stessa. La normalizzazione andrà fatta quindi esclusivamente sulla base della profondità di sequenziamento

Small RNA analysis – una breve panoramica • Un tipico workflow di un’analisi mi. RNA-seq prevede il confronto con molteplici database per ottenere dati solidi • L’obiettivo finale non è soltanto quello di identificare i mi. RNA che vanno incontro ad espressione differenziale, ma anche a prevedere quali possano essere i geni target e quindi i processi biologici maggiormente influenzati I database non contengono soltanto informazioni relative alla sequenza dei mi. RNA, ma anche ali loro target biologici noti, ovvero i geni che possono esserne modulati, e di conseguenza anche i pathway molecolari sottoposti a regolazione (in quanto ogni gene target è a sua volta associato ad una o più annotazioni funzionali.