De virtuele presentator Herwin van Welbergen Begeleiders Dr
De virtuele presentator Herwin van Welbergen Begeleiders: Dr. Job Zwiers Prof. Dr. Ir. Anton Nijholt Ir. Dennis Reidsma Human Media Interaction
Inhoud n n n n Opdrachtomschrijving Proces van presenteren Focus en aanpak Architectuur Scripttaal Synchronisatie van spraak en gebaar Spraak Lichaamshouding Wijsgebaar Onbewuste bewegingen Demo Evaluatie Mogelijke uitbreidingen 2/27/2021 Human Media Interaction 2
Opdrachtomschrijving n Tijdens een presentatie worden verschillende kanalen (modaliteiten) gebruikt om informatie over te brengen n n Spraak Gebaar Sheets Maak een realistische, virtuele, menselijke presentator in een 3 D vergaderruimte die gebruik maakt van deze verschillende modaliteiten om te presenteren 2/27/2021 Human Media Interaction 3
Proces van presenteren 2/27/2021 Human Media Interaction 4
Focus en aanpak n n Alleen het uitvoer proces word gebouwd De invoer van dit proces staat beschreven in een script Dus: maak een architectuur die het mogelijk maakt om uitingen op meerdere modaliteiten te laten zien Demonstreer de werkbaarheid van deze architectuur door een aantal modaliteiten te implementeren n n Spraak Wijsgebaar Sheet wisseling Postuur wisseling 2/27/2021 Human Media Interaction 5
Architectuur: eisen n n Timing/synchronisatie Consistentie Uitbreidbaarheid Onderbreekbaar => real-time technieken Gebruik maken van bestaande vergaderruimte 2/27/2021 Human Media Interaction 6
Architectuur: vergaderruimte 2/27/2021 Human Media Interaction 7
Architectuur: sheets 2/27/2021 Human Media Interaction 8
Architectuur 2/27/2021 Human Media Interaction 9
Scripttaal: doel n n Beschrijft de acties op verschillende modaliteiten Beschrijft de synchronisatie tussen de acties 2/27/2021 Human Media Interaction 10
Multi. Modal. Sync n n Iedere modaliteit heeft een eigen kanaal De kanalen worden gesynchroniseerd door telkens 1 kanaal te laten ‘leiden’ 2/27/2021 Human Media Interaction 11
Multi. Modal. Sync: voorbeeld 2/27/2021 Human Media Interaction 12
Synchronisatie van gebaar en spraak n Fases van een gebaar n n fonologische synchronisatie regel: n n Preparatie (optioneel) Stroke Retractie (optioneel) de stroke van een gebaar gaat vooraf aan of eindigt op de fonologische piek lettergreep van de bijbehorende spraak Dus: de stroke moet gesynchroniseerd worden met de piek van de bijbehorende spraak 2/27/2021 Human Media Interaction 13
Spraak n n n Loquendo TTS Synchronizatie met gebaren op woordniveau Lipsynchronisatie n Volume van de spraak=>opening van de mond 2/27/2021 Human Media Interaction 14
Lichaamshouding n n Defineerd start en eind positie voor de ledematen voor gesture units Wisseling van houding door interpolatie van de begin naar de eind-houding 2/27/2021 Human Media Interaction 15
Wijsgebaar n n Welke modaliteit (linker hand, rechter hand, hoofd) Hoe lang duurt de preparatie fase Wat is de eind-positie van hand of hoofd Hoe beweegt de hand/het hoofd 2/27/2021 Human Media Interaction 16
Wijsgebaar: modaliteit n n n Wijs naar links met de linkerhand en naar rechts met de rechterhand Oog fixeert op het 'doelwit' gedurende een wijsbeweging Handen bezig met iets anders => wijzen met hoofd 2/27/2021 Human Media Interaction 17
Wijsgebaar: wet van Fitts n n Voorspelt de tijd nodig om van een bepaalde start positie naar een eindgebied te bewegen Deze tijd wordt bepaald door de af te leggen afstand en de grootte van het doelwit Modelleerd snelle, gerichte wijs acties Kan dus gebruikt worden om de minimum preparatie tijd te bepalen 2/27/2021 Human Media Interaction 18
Wijsgebaar: Wat is de eindpositie van de hand? n n n De presenter wijst met alleen schouder, elleboog en hand De positie van de pols is gegeven Probleem: wat is de rotatie van de elleboog en de schouder? Analytische oplossing met 1 vrijheidsgraad De elleboog wijst altijd naar beneden 2/27/2021 Human Media Interaction 19
Wijsgebaar: Wat is de eindpositie van het hoofd? n n n De nek heeft 3 vrijheidsgraden De neus op een doelwit richten is een tweedimensionaal probleem Donders wet voor het hoofd: bij iedere kijkrichting horen 3 unieke waardes voor de vrijheidsgraden 2/27/2021 Human Media Interaction 20
Wijsgebaar: Hoe beweegt de hand n n n Snelheidsgrafiek is bubbelvorming Bubbel hoeft niet symmetrisch te zijn Instelbaar: n n n Aanname n 2/27/2021 Lengte acceleratie fase Maximum snelheid De elleboog en hand volgen het kortste pad naar de eindpositie Human Media Interaction 21
Wijsgebaar: Hoe beweegt het hoofd n n De rotatie as van het hoofd is constant gedurende een wijs-kijk beweging De snelheidsgrafiek is bubbelvormig 2/27/2021 Human Media Interaction 22
Wijsgebaar: retractie(1) n n Theorie: Als er een retractie fase is, dan is de beweging in de retractie symmetrisch met die in de preparatie Getest met behulp van videos 2/27/2021 Human Media Interaction 23
Wijsgebaar: retractie(2) 2/27/2021 Human Media Interaction 24
Wijsgebaar: retractie(3) n Regels n n Als het wijsgebaar direct gevolgd wordt door een ander gebaar: sla retractie over en begin met het nieuwe gebaar Zo niet, beweeg dan terug naar de rust positie op dezelfde manier als de er bewogen is in de preparatie (maar achteruit) 2/27/2021 Human Media Interaction 25
Wijsgebaar: Demo 2/27/2021 Human Media Interaction 26
Onbewuste bewegingen n Zelfs als we stil staan beweegt ons lichaam op subtiele wijze n n n Ogen knipperen Borstkas en schouders bewegen bij ademen Balanceren Een virtueel mens dat niet dit soort bewegingen maakt ziet er stijf uit Simulatie door kleine willekeurige beweging van gewrichten 2/27/2021 Human Media Interaction 27
Demo 2/27/2021 Human Media Interaction 28
Evaluatie: architectuur n Timing n n n Timing op woord niveau is voldoende om aan de fonologische synchronisatie regel te voldoen Meer variatie in timing en strakkere planning kan bereikt worden door de fonologische piek in woorden te identificeren Het model van de wisselende leidende modaliteit is flexibeler dan het gebruik van spraak als leidende modaliteit 2/27/2021 Human Media Interaction 29
Evaluatie: architectuur(2) n Consistentie n n Zoals voorspeld: consistentie conflicten tussen geïmplementeerde en niet geïmplementeerde modaliteiten Uitbreidbaarheid n De architectuur wordt en is gebruikt in andere projecten n n 2/27/2021 Presenter met interruptie (Jaak Vlasveld) Virtuele gids (Marco van Kessel) Human Media Interaction 30
Evaluatie: afzonderlijke modaliteiten n Sheets n n n Door rechthoekige gebieden te identificeren kan het wijsgebaar aangepast worden aan de vorm van het gebied Spraak Lichaamshouding n n Zijn handig om begin en eindpositie van gebaren aan te geven Veranderingen van lichaamshouding zien er niet mooi uit 2/27/2021 Human Media Interaction 31
Evaluatie: Onbewuste beweging n n Doel: verminderen stijfheid van de presentator Geëvalueerd met gebruikers test n n 17 proefpersonen vonden de onbewust bewegende presentator natuurlijker 1 proefpersoon zag geen verschil 2 proefpersonen vonden de niet onbewust bewegende presenter natuurlijker Alle proefpersonen vonden de onbewust bewegende presenter minder stijf 2/27/2021 Human Media Interaction 32
Evaluatie: Wijsgebaar n Wet van Fitts n n n 3 van de 4 wijsgebaren in de voorbeeldpresentatie konden gemodelleerd worden met de wet van Fitts Minimum tijd nuttig voor planner Symmetrie Wet van Donders IK-techniek n n Real-time Ziet er wat stijf uit omdat alleen schouder en elleboog gebruikt worden 2/27/2021 Human Media Interaction 33
Mogelijke uitbreidingen n Spraak n n Wijsgebaar n n n Synchronisatie op lettergreep of piek Animatie voor de stroke Minder stijf Verandering van lichaamshouding n n Voorgebakken animatie Animatie model 2/27/2021 Human Media Interaction 34
Mogelijke uitbreidingen: meer types gebaren n Meer types gebaren n Beat Iconisch Metaforisch 2/27/2021 Human Media Interaction 35
Vragen 2/27/2021 Human Media Interaction 36
Borrel n Torenkamer Bastille 2/27/2021 Human Media Interaction 37
Eastereggs 2/27/2021 Human Media Interaction 38
Waarom virtuele mensen? n n Tonen en valideren van theorieen over menselijk gedrag of menselijke beweging Mensen reageren op media op dezelfde manier als ze op mensen reageren n Theorie: door interactie met media menselijker te maken wordt deze plezieriger en efficienter 2/27/2021 Human Media Interaction 39
Bestaande script-talen(1) n Gebruik van stempels met vaste tijden (NITE-XML, Co. Gest, etc) n n n Vooral gebruikt voor annotatie Limiteerd flexibiliteit, de timing van alle acties moet van te voren bepaald worden SMIL-achtige aanpak (CML, STEP, VHML) n n Gebruikt par, seq and wait Iedere mogelijke manier van synchronizatie kan hiermee uitgedrukt worden Verschillende modaliteiten zijn niet duidelijk gescheiden Het hele script moet gelezen worden voordat met de uitvoer begonnen kan worden 2/27/2021 Human Media Interaction 40
Bestaande script-talen(2) n Defineer een hoofd modaliteit die de timing van de andere modaliteiten bepaald n n Er bestaat geen modaliteit die de timing van alle andere modaliteiten bepaald Als zo’n modaliteit zou bestaan, dan zou deze moeten kunnen wisselen 2/27/2021 Human Media Interaction 41
Mogelijke uitbreidingen: gebaar/spraak selectie n n n Welke gebaren de presenter gebruikt en wat hij zegt komt nu uit een script Volgende logische abstractiestap: maak het proces dat bepaald welke gebaren en welke spraak geselecteerd worden Bestaand werk: n n Voor wijsgebaren (Krahmer) Voor iconische gebaren (Cassel) 2/27/2021 Human Media Interaction 42
Andere mogelijke uitbreidingen n n Interruptie Geavanceerdere presenter n n n Gebruik van vingers voor gebaren Realistische modellen voor bijv. ademen en knipperen van ogen Stijl en emotie 2/27/2021 Human Media Interaction 43
Mogelijke uitbreidingen: meer types gebaren n Meer types gebaren n n Beat Iconisch Metaforisch Conflict oplossing n n n Kies een andere modaliteit Combineer gebaren Voer een van de gebaren niet uit 2/27/2021 Human Media Interaction 44
Gebaar: Wat is een gebaar? n n Een beweging van het lichaam of de ledematen dat een idee uitdrukt of bekrachtigt Wat is het verschil met andere lichaamsbeweging? n n n Gebaren zijn symmetrisch Piek structuur Duidelijk start en einde 2/27/2021 Human Media Interaction 45
Gebaar: structuur n Gesture unit: meerder gebaren die direct achter elkaar worden uitgevoerd 2/27/2021 Human Media Interaction 46
Eisen aan het presentatie-script n n De synchronisatie moet niet af hangen van constante tijds waarden De synchronizerende modaliteit moet veranderd kunnen worden De modaliteiten moeten duidelijk gescheiden zijn, zodat het script goed te lezen is Het mogelijk zijn om te beginnen met de executie van het script voordat het volledig ingelezen en gepland is 2/27/2021 Human Media Interaction 47
Multi. Modal. Sync(2) n n n Kanalen worden parallel uitgevoerd Binnen een kanaal worden de expressies sequentieel uitgevoerd Synchronisatie punten kunnen binnen kanalen of binnen expressies worden gedefineerd Een kanaal kan gesynchronizeerd worden met andere kanalen, door te wachten op een synchronizatie punt Expressions kunnen gebruik maken van synchronizatie punten voor hun timing 2/27/2021 Human Media Interaction 48
- Slides: 48