PRELUCRAREA VOLUMELOR MARI DE DATE CURS 1 BIG

PRELUCRAREA VOLUMELOR MARI DE DATE CURS 1: BIG DATA ȘI ANALIZA BIG DATA Conf. Univ. Dr. Habil. Marc FRÎNCU marc. frincu@e-uvt. ro

STRUCTURA CURSULUI 1 oră de curs + 2 ore laborator per săptămână (Bioinformatică) 2 ore curs + 1 oră laborator per săptămână (IACD, IASTE) � � Cursul este comun între cele 3 La IACD și IASTE la fiecare două săptămâni (când Bioinformatica nu are curs) discutăm o serie de lucrări științifice Ce vom învăța la curs? Importanța analizei Big Data Impactul Big Data în științe (ex. bioinformatică) Arhitecturi paralele și distribuite Paralelizarea algoritmilor de calcul Importanța arhitecturii hardware și a structurii datelor în design-ul algoritmilor pentru procesare Big Data � Analiza datelor independente, dependente și a fluxurilor de date omogene și eterogene � � � Practic (laborator) � Folosirea Google Cloud pentru a analiza date în bioinformatică � Paralelizarea unor algoritmi secvențiali elementari în bioinformatică Design, testare, evaluare

CERINȚE MINIMALE Nota 5 1 algoritm paralel implementat (într-un singur limbaj/tehnologie) și evaluat � O prezentare (10 min prezentare + 2 întrebări) despre o lucrare științifică (publicată sau raport tehnic) cu tematică Big Data, bioinformatică, calcul pe cloud sau paralel � Nota 10 Toți algoritmii de la laborator implementați și evaluați, raportul final fiind prezentat sub forma unui raport tehnic � O prezentare (10 min prezentare + 2 întrebări) despre o lucrare științifică din reviste/conferințe de top (IPDPS, Supercomputing, Europar, CCGrid, ICDCS, IEEE Trans. PDC, IEEE Trans. Computing, FGCS, TPDS) cu tematică Big Data, bioinformatică, calcul pe cloud sau paralel �

O LUME TOT MAI INTERCONECTATĂ ȘI COMPLEXĂ Je Suis Charlie: 6500 retweet-uri per minut

O LUME TOT MAI INTERCONECTATĂ ȘI COMPLEXĂ Sisteme ciberfizice: IT + comunicare + inteligență

CUNOAȘTERE = PUTERE = DATE Date: decizie control autonomie inteligență

CE ESTE BIG DATA? Oxford English Dictionary (OED) � Wikipedia � data of a very large size, typically to the extent that its manipulation and management present significant logistical challenges an all-encompassing term for any collection of data sets so large and complex that it becomes difficult to process using on-hand data management tools or traditional data processing applications datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze The ability of society to harness information in novel ways to produce useful insights or goods and services of significant value” and “…things one can do at a large scale that cannot be done at a smaller one, to extract new insights or create new forms of value. The broad range of new and massive data types that have appeared over the last decade or so The new tools helping us find relevant data and analyze its implications The convergence of enterprise and consumer IT The shift (for enterprises) from processing internal data to mining external data The shift (for individuals) from consuming data to creating data. The merger of Madame Olympe Maxime and Lieutenant Commander Data The belief that the more data you have the more insights and answers will rise automatically from the pool of ones and zeros A new attitude by businesses, non-profits, government agencies, and individuals that combining data from multiple sources could lead to better decisions. https: //www. forbes. com/sites/gilpress/2014/09/03/12 -big-data-definitions-whats-yours/#66 e 783 be 13 ae

CE ESTE BIG DATA? Volum Viteză Varietate . . .

CE ESTE BIG DATA? Big Data Small Data TB sau PB de date >TB, PB GB 30 Ki. B - 30 Gi. B / secundă Date fixe În plus, Big Data înseamnă: � Folosirea mai multor surse de date � Ambiguități în date, erori umane sau de calculator Big Data != Better Data Datele neprocesate nu au valoare! Analiza datelor crește valoarea lor!

BIG DATA ÎN CIFRE

BIG DATA ÎN CIFRE

BIG DATA ÎN CIFRE

RELEVANȚA BIG DATA ÎN CONTEXTUL ACTUAL

DE CE ACUM? ”We could have gotten started a lot earlier. We simply weren’t stepping back and looking at how to use the data” – Brad Smith, Intuit Datele sunt prea prețioanse pentru a fi șterse! Hardware/preț • • • Cost redus de stocare Procesoare multi-core puternice Latență redusă datorită calculului distribuit • Rețele rapide: 40 Gbps, 100 Gbps Virtualizare/containere • Izolarea resurselor dedicate unui anumit calcul • VMWare, Virtual. Box, Docker Acces ieftin la resurse • Calculul pe Cloud Tehnologii • • • O înțelere mai bună a distribuției proceselor • Map. Reduce Sisteme de baze de date noi • No. SQL (Key-value store, columnar): Redis, Cassandra, Dinamo, Monet. DB Tehnici avansate de analiză • Machine Learning Platforme de Big Data ușor accesibile • Google Cloud, Amazon Web Service Software open-source • Open. Stack, Open. Nebula, HDFS

CE FACEM CU DATELE? Atenție la principiile etice! Date private � Date sensibile �

EXTRAGEREA DE INFORMAȚII Exploratorie � Teorie bazată pe observația unor fenomene Constructivă � Teorie bazată pe axiome și implicații deduse Modelare (teorie) Analiză Ipoteze Experiment

A PATRA PARADIGMĂ Big Data + analiză � Predicția viitorului Analiză � Urmează o abordare exploratorie și studiază datele � Deduce cunoștințe pe baza statisticii sau tehnicilor de machine learning Construirea de modele și validarea lor pe baza datelor

ANALIZA DATELOR Procesul de studiu al datelor de diverse tipuri cu scopul de a identifica corelații necunoscute precum și alte informații utile și folositoare Bazat de regulă pe data mining Fluxul de analiză

TIPURI DE ANALIZĂ DE DATE Descriptivă � Ce s-a întâmplat? De diagnoză � De ce s-a întâmplat? Predictivă � Ce se va întâmpla? Prescriptivă � Ce ar trebui să fie făcut și de ce? Nivelul de înțelegere a datelor și valorea acestora

C TEVA EXEMPLE Monitorizarea medicală a copiilor pentru a alerta atunci când este nevoie de o intervenție Prezicerea stricării unor utilaje în industrie Prevenirea ambuteiajelor, economisirea de carburant, reducerea poluării

VALOAREA DATELOR

FLUXUL DE ANALIZĂ A DATELOR Achiziția de date Curățarea, anotarea și extragerea datelor relevante � Valori lipsă, aberante (outliere), duplicate � Între 50 -70% din efortul de analiză este focalizat aici! Integrarea și reprezentarea datelor eterogeneîntr-un format comun Analiza datelor Interpretarea automată și vizuală a rezultatelor � Oamenii văd deseori șabloane pe care programele nu le identifică! Luarea de decizii

ROLURI ÎN ANALIZA BIG DATA Data scientist Data science = metodă sistematică dedicată descoperirii de cunoștințe prin intermediul analizei datelor � În afaceri � � În știință � analizează date experimentale/observate pentru a trage anumite concluzii Cerințe optimizarea proceselor organizatorice pentru creșterea eficienței Statistică Programare Java, Python, R, . . Cunoștiințe de domeniu Data engineering = domeniu ce dezvoltă și oferă sisteme pentru gestiunea și analiza Big Data � Creează platforme scalabile și modulare pentru data scientisti � Instalează soluții Big Data � Cerințe � Baze de date, software engineering, procesare paralelă și cloud, procesare în timp real Programare C++, Java, Python Înțelerea factorilor de performanță precum și limitările sistemelor

DOMENII DE INTERES Bioinformatica

BIG DATA ÎN BIOINFORMATICĂ 200 GB (43 DVD-uri) � Un singur genom uman Institutul European de Bioinformatică (EBI) � 40 PB (2014) � Informații despre gene, proteine, molecule mici � Cantitatea de date se dublează anual � Doar unul dintre institulele din lume din domeniu https: //arxiv. org/pdf/1506. 05101. pdf

CE FACE BIG DATA ÎN BIOINFORMATICĂ SPECIALĂ? Datele sunt eterogene � Numeroase probleme necesită date eterogene din diverse surse � Datele sunt generate de organizații, fiecare cu propriul format de stocare Datele sunt distribuite geografic � O mică parte este transferabilă � Restul trebuie să rămână local Cost mare de transfer Politici de confidențialitate și securitate Norme etice � Procesarea trebuie efectuată in situ!

EXEMPLE DE PROBLEME BIG DATA ÎN BIOINFORMATICĂ Analiza expresiei genelor (gene expression) Secvențierea ADN-ul, ARN-ul și a proteinelor Interacțiuni proteină-proteină (PPI) Pathway analysis Ontologia genelor (GO)

ANALIZA EXPRESIEI GENELOR Procesul prin care informații dintr-o genă sunt folosite pentru a sintetiza un produs genetic funcțional (ARN, proteină) Determinarea șablonului genelor în diverse circumstanțe sau celule specifice Poate identifica gene afectate de anumiți patogeni sau viruși Rezultatele pot fi folosite pentru a sugera anumiți biomarkeri pentru identificarea/prevenirea bolilor Problema Big Data � Volumul mare de date și numărul de scenarii

SECVENȚIEREA ADN-UL, ARN-UL ȘI A PROTEINELOR Secvențe de ADN, ARN sau peptide sunt procesate folosind diverse metode analitice pentru a înțelege proprietățile, funcțiile, structura și evoluția lor Problema Big Data � PB de date ADN arhitecturi și platforme scalabile noi pentru secvențierea rapidă � Secvențierea ARN folosirea de unelte machine learning pentru a extrage și procesa informații deseori omise din date

INTERACȚIUNI PROTEINĂ-PROTEINĂ (PPI) Oferă informații despre procese biologice Ajută la înțelegerea funcțiilor proteinelor PPI-uri anormale stau la baza detecției unor boli precum cancerul sau Alzheimer-ul Problema Big Data � Date mari, eterogene și care sosesc constant https: //www. researchgate. net/publication/260839098_Genomic_convergence_and_network_analysis_appro ach_to_identify_candidate_genes_in_Alzheimer%27 s_disease/figures? lo=1&utm_source=google&utm_med ium=organic

PATHWAY ANALYSIS Folosită pentru a înțelege cauzele moleculare ale unei boli Identifică genele și proteinele asociate cu etiologia unei boli Problema Big Data � Datele genetice, genomice protoemice au crescut atât de mult încât e nevoie de noi soluții pentru procesarea volumelor în timpi utili https: //www. researchgate. net/publication/257072511_A_Helicopter_Perspecti ve_on_TB_Biomarkers_Pathway_and_Process_Based_Analysis_of_Gene_E xpression_Data_Provides_New_Insight_into_TB_Pathogenesis/figures? lo=1 &utm_source=google&utm_medium=organic

ONTOLOGIA GENELOR Conține ontologii genetice independente de specii pentru procese biologice asociate, componente celulare și funcții moleculare Problema Big Data � Platforme pentru procesarea volumelor mari de date în timp util http: //chicas. lancaster-university. uk/projects/gene_ontology. html

DATE VS. VITEZĂ DE PROCESARE

EXEMPLU CONCRET CLASIFICARE ÎN STUDII ADN MICROARRAY Clasificarea și predicția categoriei de diagnostic a mostrei pe baza profilului expresiei genei Măsurători ale expresiei pe o mostră de 4026 de gene de la 59 de pacienți (39 pentru antrenare) cu limfom împărțiți în 3 clase în funcție de tipul limfomului Problemă � Clase puține, date de clasificat numeroase (volum) Algoritm Găsirea centroidului (expresia medie a fiecărei gene) fiecărui tip de limfom � Găsirea genelor care aparțin acestuia � http: //statweb. stanford. edu/~tibs/ftp/ncshrink 2. pdf

SURSE CURS http: //www. comp. nus. edu. sg/~tankl/cs 5344/slides/2016/intro. pdf http: //infolab. stanford. edu/~echang/Big. Dat 2015 -Lecture 1 -Edward-Chang. pdf https: //wr. informatik. unihamburg. de/_media/teaching/wintersemester_2015_2016/bd-1516 einfuehrung. pdf https: //www. ee. columbia. edu/~cylin/course/bigdata/EECS 6893 Big. Data. Analytics-Lecture 1. pdf

CURSUL VIITOR Arhitecturi paralele și distribuite � Sisteme paralele Cu memorie partajată Cu memorie distribuită � Sisteme distribuite Cloud-ul
- Slides: 36