http cseweb ucsd eduppevznerB 4 BexcerptsCompeauPevzner pdf 7
Сборка генома [http: //cseweb. ucsd. edu/~ppevzner/B 4 B/excerpts/Compeau-Pevzner. pdf] 7
OLC алгоритмы • • • Staden, R. A new computer method for the storage and manipulation of DNA gel reading data(1982) Nucleic Acids Research 10, 4731 -4751. – Построен на основе жадного подхода – Предложен термин контиг 1984 – SEQAID – Peltola, H. , Söderlund, H. , and Ukkonen, E. 1984. SEQAID: A DNA sequence assembly program based on a mathematical model. Nucleic Acids Res. 12, 307 -321. – Первый OLC сборщик 1992 – CAP – Huang, X. 1992. A contig assembly program based on sensitive detection of fragment overlaps. Genomics 14, 18 -25. 13
OLC алгоритмы Название Технологии Авторы Presented Edena Illumina D. Hernandez et al. 2008 Celera WGA Assembler / CABOG Sanger, 454, Illumina Myers, G. et al. ; Miller G. et al. 2004 MIRA Sanger, 454, Illumina, SOLi. D, Ion. Tor, Pac. Bio Chevreux, B 1998 PCAP Sanger, 454 Huang et al. 2003 14
De Bruijn граф AGCTATCGTGACG AGCTATC ATCGTG AGCTAT CGTGACG GCTATC CGTGAC CTATCGT CGTGAC TCGTGAC GCTATCG TCGTGAC TATCGTG GTGACG CTATCG TCGTGA CTATCGTGA TATCGTG GTGACG AGCTATC GCTATCG TCGTGA ATCGTGA CTATCGTG 15
De Bruijn граф AGCTATCG CTATCGTG ATCGTGAC CGTGACG AGCTATCGTGACG 16
De Bruijn граф TGTACTATGTCCTA TGT GTA TAC ACT CTA TAT ATG TGT GTC TCC CCT CTA TGTA GTAC TACT ACTA CTAT TATG ATGT TGTC GTCC TCCT CCTA TA GTCC TCCT ACT AC TA TA CC CTA CCT AT AT GTC TACT GT CT TGT GTA TG TG TC GTAC ATG TATG TAT 18
De Bruijn граф TGTA GTAC TACT ACTA CTAT TATG ATGT TGTC GTCC TCCT CCTA TGTACTATGTCCTA TGTC GTCC TCCT CCTA CTAT TATG ATGT TGTA GTAC TACT ACTA TGTCCTATGTACTA 19
De Bruijn graph algorithms 1) Построение хэша и de. Bruijn граф 2) Упрощение линейных участков 3) Удаление «пузырей» и «хвостиков» [Daniel R. Zerbino and Ewan Birney, Velvet: Algorithms for de novo short read assembly using de Bruijn graphs. Genome Res. May 2008; 18(5): 821– 829. ] 20
De Bruijn graph Klow Khigh Kmid 21
Алгоритмы, основанные на De Bruijn графах Наименование Технологии Авторы Разработан ABy. SS Illumina, SOLi. D Simpson, J. et al. 2008 CLC Genomics Workbench Sanger, 454, Illumina, SOLi. D CLC bio 2008 Pevzner, P. et al 2001 Chaisson, MJ. et al. 2008 Euler-sr Sanger, 454, Illumina IDBA (Iterative Illumina, 454, Solex Yu Peng, Henry C. M. 2010 De Bruijn graph a Leung, Siu-Ming Yiu, Francis short read Y. L. Chin Assembler) Velvet Sanger, 454, Illumina, SOLi. D Zerbino, D. et al 2007 SPAdes Illumina, Ion Torrent, Pac. Bio Bankevich, A et al. 2012 23
String graph 24
Алгоритмы, основанные на String graph методологии Наименование Технологии Авторы Разработан SGA Illumina, Ion Torrent Simpson, J. et al. 2011 Newbler Sanger, 454, Illumina, Ion Torrent 454/Roche 2009 25
Более реалистичный пример графа [http: //bioinformatics. org. au/ws 13/wp-content/uploads/ws 13/sites/3/ Full. Presentations/Torsten-Seemann_2013 -Winter-School-presentation. pdf] 26
Как повторы влияют на сборку Повторяющиеся элементы сливаются в один контиг. [http: //bioinformatics. org. au/ws 13/wp-content/uploads/ws 13/sites/3/ Full. Presentations/Torsten-Seemann_2013 -Winter-School-presentation. pdf] 29
Как повторы влияют на сборку Слияние тандемных повторов Исключение участка между повторами Перестановка [http: //bioinformatics. org. au/ws 13/wp-content/uploads/ws 13/sites/3/ Full. Presentations/Torsten-Seemann_2013 -Winter-School-presentation. pdf] 30
От контигов к скаффолдам Парные чтения Контиги Скаффолд Гэпы [http: //bioinformatics. org. au/ws 13/wp-content/uploads/ws 13/sites/3/ Full. Presentations/Torsten-Seemann_2013 -Winter-School-presentation. pdf] 34
Технологии секвенирования Компания Платформа Технология Длина рида, п. н. ABI/Life technologies 3130 x. L-3730 x. L CE-Sanger 600 -1000 Beckman Ge. XP Genetic Analysis System CE-Sanger 600 -1000 Roche/454 Genome Sequencer FLX System Pyrosequencing 230 -400 Illumina Hi. Seq 2000/mi. Seq Reversible terminator sequencing by synthesis 2 x 150 ABI/SOLi. D 5500 xl SOLi. D System Sequencing by ligation 25 - 35 Helicos Heli. Scope Single-molecule sequencing by synthesis 25 - 30 Pacific Biosciences Pac. Bio RS Single Molecule Real Time 964 ABI/Life technologies Ion PGM™ Sequencer Semiconductor Sequencing 35 - 200 36
Если вы подписались на длинный геном Требуйте набор библиотек с разной длиной вставки Геном мухоловки - 1. 1 Gb Библиотеки: 1)~200 4)~500 2)~300 5)~2400 3)~400 6)~4100 7)~5100 8)~18000 9)~21000 [Ellegren H et al. , The genomic landscape of species divergence in Ficedula flycatchers. 38 Nature 2012, 491. ]
Форматы файлов • FASTA формат >SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGT TT • FASTQ формат @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGT TT + !''*((((***+))%%%++)(%%%%). 1***-+*''))**55 CCF>>>>>>CCCCCCC 65
De novo сборка генома • Предобработка FASTQC, prinseq, trimmomatic, kmc 2, kmernator 2… • Сборка Newbler, Spades, Velvet… • Оценка качества сборки QUAST, BLAST, Prinseq, Bowtie… 42
Верификация сборки • ALE(Assembly Likelihood Evaluation)[Clark et al. , 2013] • FRC(Feature Response Curve)[Vezzi et al. 2012] • Amosvalidate[Phillippy et al. , 2008] 48
Виды сборок 51 [Chain at el. Genome Project Standards in a New Era of Sequencing. Science. 2009. 326. ]
Splicing graph [http: //proline. bic. nus. edu. sg/dedb/methodology. html] 58
Транскриптомные сборщики Сборщики, основанные на De. Bruijn графах. на OLC подходе(454, Sanger, Pac. Bio) (Illumina, SOLi. D, Ion. Torrent ) • • Trinity(Broad) Velevet(Oases) Trans. Abyss SOAPtrans • • Mira 3 Est 2 assembly GS/Newbler(Roche) SMRT Pipe(Pac. Bio) 62
velveth • . /velveth <output_directory> <hash_length> [[-<file_format>][-<read_type>] <filename>] • read_type – short(по умолчанию); short. Paired; short 2; short. Paired 2; long. Paired 67
velvetg(одиночные чтения) • . /velvetg <output_directory> [<parameters>] • -cov_cutoff • -min_contig_lgth • -max_coverage • -exp_cov 68
velvetg(парные чтения) • . /velvetg <output_directory> [<parameters>] • . /shuffle. Sequences_fasta. pl forward_reads. fa reverse_reads. fa output. fa • -ins_length_sd • -ins_length 2_sd • -ins_length_long_sd 69
Velvet файлы с результатами сборки • • contigs. fa stats. txt Last. Graph Final graph has 3623771 nodes and n 50 of 7, max 99, total 13230514, using 0/1650370 reads 70
- Slides: 70