BIG DATA EN DE WISKUNDE ACHTER HAAR SUCCES
BIG DATA EN DE WISKUNDE ACHTER HAAR SUCCES MAURICE VAN KEULEN
WAT IS BIG DATA? Sinds 1975 VLDB conferentie: Very Large Data. Bases Mijn uit Officiële uitleg: de 4 V’s Veel § Volume oude wijn § Velocity in nieuwe zakken § Variety § Veracity leg “Big” de hoeveelheid data overschrijdt een grens waar intelligent gedrag uit de data oprijst Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 2
VOORBEELD “MAGIE” IN BIG DATA: SCENE COMPLETION Hays, J. , Efros, A. 2007. Scene Completion Using Millions of Photographs. ACM Trans. Graph. 26, 3, Article 4 (July 2007), 7 pages. http: //doi. acm. org/10. 1145/1239451. 1239455. Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 3
VOORBEELD “MAGIE” IN BIG DATA: GOOGLE TRANSLATE documenten van de Verenigde Naties (6 talen) Big data-analyse met 1. Tweetalige collectie van meer dan miljoen woorden én 2. twee enkeltalige collecties van meer dan een miljard woorden Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 4
VOORBEELD “MAGIE” IN BIG DATA: IBM WATSON Watson: Kunstmatig intelligent systeem dat vragen kan beantwoorden die gesteld zijn in natuurlijke taal Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 5
WAT IS BIG DATA? Kansrekening!!! Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 6
KANSREKENING: DE ESSENTIE Hoe weet ik of en hoe een dobbelsteen ‘oneerlijk’ is? Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 7
MAAR HOE WERKT KANSREKENING DAN MET BIG DATA? LATEN WE HET GEWOON EENS DOEN MET EENVOUDIGE BIG DATA CASUS: SPELLINGCORRECTIE
Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 9
CLAUDE SHANNON § https: //www. youtube. com/watch? v=q. Tp. WD 28 Vcq 0 § Werkte voor Bell Telephone Laboratories in 1950 Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 10
Hai, hoe gaat het? Telefoonlijn met ruis Haai, koe schaap hut! Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 11
Hai, hoe gaat het? Haai, koe schaap hut! “twente” “dwente” in gedachten: letter “T” getypt: letter “R” Input I “Noisy channel” Output O § P(I|O) : “de voorwaardelijke kans op input I gegeven output O” § Î = argmax P(I|O) V : varianten voor I I∈V “de input waarvoor P(I|O) maximaal is” P(I) : kans op input I § … ⇔ Î = argmax P(O|I) P(I) I∈V P(O|I) : de kans dat “noisy channel” de input I dusdanig verknoeit dat je O krijgt Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 12
HOE PAST SHANNON’S MODEL OP HET PROBLEEM VAN AUTOMATISCHE SPELLINGCORRECTIE? § De“noisy channel” ben jij typend op een toetsenbord … waarbij je soms fouten maakt § ‘I’ is het woord dat je wilde typen in Google § ‘O’ is het woord dat je in werkelijkheid in Google typte § ‘V’ zijn alle varianten typefouten § Woorden met een vergelijkbare spelling § Woorden met een vergelijkbare uitspraak Big data We kunnen P(I) en P(O|I) voor alle woorden en varianten uitrekenen en opslaan! Levenshtein Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 13
OVER HOEVEEL WOORDEN/VARIANTEN HEBBEN WE HET? Big data We kunnen P(I) en P(O|I) voor alle woorden en varianten uitrekenen en opslaan! § Global Language Monitor (2014): 1. 025. 109, 8 § Merriam Webster’s dictionary (1993; incl appendix): ± 470. 000; Oxford English Dict 2 nd ed: vergelijkbaar § Elk ± 1000 varianten Ø 1 miljard ‘woorden’ Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 14
DIT KUN JE OOK ZELF! (1) GENEREER KANDIDATEN alphabet = 'abcdefghijklmnopqrstuvwxyz' def levenshtein(word): splits = [(word[: i], word[i: ]) for i in range(len(word) + 1)] inserts = [a + c + b for a, b in splits for c in alphabet] deletes = [a + b[1: ] for a, b in splits if b] substs = [a + c + b[1: ] for a, b in splits for c in alphabet if b] return set(deletes + substitutes + inserts) print levenshtein('dwente') Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 15
V = ALLE KANDIDATEN VAN “DWENTE” dwrnte, dwentet, dwentee, cwente, dwentke, dweynte, dwznte, dwenyte, dvwente, dwengte, dwbente, dwmnte, dtente, dwelte, tdwente, dwenpe, dwejnte, dwentc, dwenke, dwentei, dwegnte, dwenxte, dwentd, dwehte, hdwente, dwentse, dyente, dkwente, dwpente, dwuente, dwednte, dwenete, dwentbe, dwsente, dwentce, diwente, dwenth, dwenste, swente, dwentze, dwedte, dwebnte, dwenteb, dwence, dwentae, fdwente, dwyente, gwente, dweunte, dwentex, dwtnte, daente, ndwente, dwante, dwmente, dwense, dwentfe, ewente, kdwente, dwekte, dweonte, dgente, dwenje, dlwente, dwjente, zdwente, dweqnte, dwentme, dwentes, dwentre, vwente, dwenze, pwente, duente, dwegte, dwentr, dwelnte, diente, qdwente, dxente, wdwente, dwexnte, dwefnte, dwecte, odwente, dwepnte, dwdente, dwenbe, dnente, dwenteu, dwenve, dwentv, dwenae, dwette, dkente, lwente, dweute, dwgente, dwinte, dbente, dwevnte, dwaente, dwjnte, wente, djente, dfwente, dwenie, dwentpe, dwenjte, dwoente, dwqente, dpwente, dwenrte, dwenkte, kwente, dwentey, dwenye, dtwente, dwenthe, dwented, dwzente, dwunte, dwentek, dcwente, ldwente, idwente, dwhente, dwxnte, dmente, dwehnte, dwentge, dweste, dwewnte, dwvnte, edwente, dwtente, dwenqte, dwcente, bdwente, dwencte, dwenqe, dwenhe, dwpnte, dwentne, dwlnte, dcente, qwente, dweote, drwente, owente, dwenxe, dpente, dqwente, dwentx, bwente, pdwente, dwentye, dwewte, doente, dwknte, dwetnte, dwenta, dwentb, dwwnte, dwnnte, dwentf, dwentg, dwenoe, dwenti, dwentj, dwentk, dzente, dwentm, dwentn, dwento, dwentp, dwentq, dwhnte, dwents, dwentt, dwentu, dwemte, dwentw, dfente, dwenty, dwentz, dwfnte, dwejte, rwente, dwentie, dwsnte, sdwente, dwefte, dwenge, dwenzte, twente, dqente, dwenmte, deente, dweete, dwentqe, dwenwe, dwynte, dwentev, drente, dlente, dvente, dwebte, dwenne, dwenlte, djwente, dgwente, xwente, dnwente, dwgnte, dawente, vdwente, mwente, dwemnte, dwenbte, dewente, dwrente, dwentoe, adwente, rdwente, dhwente, dwenate, dwexte, dwiente, dwvente, dweyte, dwenfe, dwesnte, dwennte, dswente, iwente, dwonte, dwentwe, ywente, dwenote, ddwente, gdwente, mdwente, dwentl, dwenhte, jdwente, dweinte, dwentew, dwenre, dwbnte, dsente, dwenme, dmwente, dxwente, dwlente, nwente, dwkente, dwxente, dwentue, udwente, dweante, dwendte, dwnente, dwentel, dwentem, dwentej, dwentje, dwenute, dwentef, dwenteg, dwernte, zwente, xdwente, dwfente, dwentea, dwezte, awente, dwepte, dwentez, dwenpte, dwene, dwcnte, dhente, dwenite, dwenee, jwente, dwenter, dwevte, dzwente, dwenteq, dwenten, dweznte, dwentep, dwecnte, dwenteo, ydwente, dwenue, duwente, dwenle, dweente, dwentte, dwenfte, dwdnte, dwerte, dweknte, ddente, dywente, hwente, dweite, dwenvte, dwentde, dowente, dwenwte, dwentve, fwente, wwente, dwenteh, dwende, dbwente, cdwente, dwqnte, dweqte, dwentxe, dwentle, dwentec, uwente Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 16
P(O|I) : CHANNEL MODEL § Zeg, de kans op een enkele typefout (andere letter, extra letter of missende letter) is 1 op 100 voor elke letter: P( O≠a | I=a) = 0, 01 P( O=a | I=a) = 0, 99 § dus P(O=“dwente” | I=“twente”) = P(O=‘d’|I=‘t’) P(O=‘w’|I=‘w’) … P(O=‘e’|I=‘e’) = 0, 01 ∙ 0, 995 = 0, 0095 P(O=“dwente” | I=“dwente”) = 0, 996 = 0, 94 Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 17
P(I): PRIOR MODEL § P(I) is de kans dat ik woord “I” in gedachten heb § dwz wat zijn waarschijnlijk normale veel voorkomende woorden? (taalmodel) § dwz tel gewoon hoe vaak elk woord op het web voorkomt P(I=“dwente”) = 5. 000 / 100. 000 P(I=“drente”) = 500. 000 / 100. 000 P(I=“twente”) = 25. 000 / 100. 000 Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 18
Miljoen woorden, elk 1000 varianten = tabel met miljard woorden elk van gem. ± 11, 5 letters = ± 11, 5 GB RESULTAAT Kandidaat P(O|I)P(I) 10 -6 dwente 0, 94 0, 00000005 0, 047 drente 0, 0095 0, 000005 0, 048 twente 0, 0095 0, 00025 2, 375 50 x Miljoen woorden, elk 1000 varianten = tabel met miljard getallen = 8 GB Deze slaan we niet op maar berekenen we on-the-fly: de kans op 0 of 1 typefouten Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 19
BIG DATA: WAAROM NU? Kansrekening voor dergelijke toepassingen is § Modelleren § Tellen, optellen, vermenigvuldigen, sorteren § Voor heel heel veel teksten big data Wat heeft Google en consorten ons gebracht? § Niet zozeer zoektechnologie … § … maar technologie die het mogelijk maakt woorden te tellen e. d. voor voldoende grote collecties teksten § Onze studenten begrijpen dat Googles “index” eigenlijk een simultane kansverdeling is! Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 20
COMPUTERS LEREN LUISTEREN EN LEZEN Eén van de big data-beloftes: computers te leren luisteren en lezen … ja echt begrijpend § IBM Watson kan dit (tot op zekere hoogte) Taal is vreselijk ambigu Wat is er eigenlijk zo moeilijk aan lezen? § Voorbeeld-tweet: - Lady Gaga - Speechless live @ Helsinki 10/13/2010 http: //www. youtube. com/watch? v=y. REoci. Hyijk. . . @ladygaga also talks about Grampa who died Maarher met creatieve toepassing recently van big data, kunnen § Nog eentje: “Paris Hiltoncomputers stayed in the Hilton” dit Paris (steeds beter) Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 21
VOORBEELDEN BEDRIJFSTOEPASSINGEN Voorspellen § wat klanten waarschijnlijk zouden willen hebben … zodat je gericht kunt adverteren § welke medicatie iemand waarschijnlijk nodig heeft … zodat in de apotheek met waarschuwingen fouten voorkomen kunnen worden … zodat je dosering kunt aanpassen aan de patient § welke bedrijven waarschijnlijk frauderen … zodat je inspectiepersoneel efficiënt kunt inzetten (echt waar: zo doet Inspectie van SZW dat) Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 22
WAT LIGT ER NOG MEER IN HET VERSCHIET? EEN SELECTIE Social robotics / Kunstmatige intelligentie § begrijpen van taal § begrijpen van emoties § begrijpen van non-verbale communicatie § begrijpen van humor!? ! Prof. Vanessa Evers Commercie: inzicht in klanten, producten, kansen (vb: microtargeting, onderhoud) Zorg en voeding: inzicht in cellen, stoffen, reacties, lichaam, effectiviteit (vb: medicijnen, behandelingen, personalisatie) Maatschappij: milieuonderzoek, forensics / intelligence (bv: fraude) Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 23
BIG DATA HEEFT VALKUILEN § Mythe: meer data is beter § Mythe: meer data scientists is beter Maar dan groter En de standaard valkuilen van kansrekening / statistiek: § Bias, met bijvoorbeeld als gevolg § Discriminatie § Onjuiste inzichten en beslissingen / overgeneralisatie § We zien correlaties geen oorzakelijke verbanden § Bijvoorbeeld Google Flu Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 24
CONCLUSIE (1) Welke wiskunde kan toveren met data? ØKansrekening We kunnen tegenwoordig (simultane) kansverdelingen § heel dicht benaderen op basis van voldoende data § volledig opslaan, ook de hele grote § deze gebruiken, voor hele grote, maar ook voor de meest kleine toepassingen Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 25
CONCLUSIE (2) Pas echt big data … “when magic happens” ØDe hoeveelheid data overschrijdt een grens waar intelligent gedrag uit de data oprijst Voorbeelden: § Scene completion, Google Translate, IBM Watson Grote beloftes voor kunstmatige intelligentie § Eén nader bekeken: spellingcorrectie § Aantrekkelijke andere onderwerpen: social robotics, (fraud) forensics / intelligence, milieu, zorg & voeding Imaginary lunchlezing - Big data en de wiskunde achter haar succes 27 Okt 2016 26
- Slides: 26