Phonetik und Sprachverarbeitung 5 1 Wie kann die

Phonetik und Sprachverarbeitung 5. 1 Wie kann die Grundfrequenz zum Zweck der Stimmverstellung manipuliert werden? Referat von Dominique Vornwald 20. 12. 2007

Gliederung v Fall v Studie • • Creaky Voice als Stimmverstellung Methode Ergebnisse Diskussion 2

Fall • Die Frau eines Bankiers wurde entführt à Erpressung à Kassettenaufnahme des Täters • Sprechersamples der Verdächtigen standen zur Verfügung • Tests ergaben, dass es sich um eine Stimmverstellung handeln muss è Aufgabe: Mit welcher Wahrscheinlichkeit ist einer der 3 Verdächtigen der, der die Aufnahme gemacht hat 3

Studie I v creaky Voice: • signifikant niedrigere f 0 (im Vergleich zur modaler Phonation bei Erwachsenen) à Laver (1980) und Catford (1964) haben sie bei 25 Hz-52 Hz und 40 Hz– 60 Hz gemessen • im Gegensatz zur modalen Sprache (Brustsprache) zeichnet sich die Struktur der creaky voice durch große Irregularitäten im unteren Bereich der Tonhöhe (Ball et al 1990) aus • niedrige Amplitude der Vibration 4

Studie I • f 0 ist bei dieser Art der Stimmverstellung kein gutes Indiz à die weiteren Auswirkungen auf f 0 sind nicht bekannt • auch die LTAS Analyse (Long Term Average Spectra) führt zu keinen guten Ergebnissen à man geht nicht davon aus, dass die Vokalformanten stark beeinflusst werden à isolierte Vokalformanten aus der fließenden Sprache zu messen, stellt ein Problem dar • temporale Aspekte können nicht verwendet werden à es ist noch nicht geklärt warum das Sprechtempo bei c. v. abnimmt • aber, koartikulatorische Strategien könnten bei Lauten und in Formanttransitionen widergespiegelt werden 5

Studie I è In dieser Studie soll überprüft werden ob phonetisch trainierte Hörer verstellte Stimmen besser identifizieren können als untrainierte 6

Studie I v 10 untrainierte männliche Hörer • VP hören Tonband mit verlangsamtem Sprechtempo und creaky voice • dann lesen VP den Text: „The North Wind and The Sun“ einmal mit der normalen Stimme und einmal mit creaky voice vor • die creaky voice aller Personen wurde von Hirson und Duckworth als passend befunden 7

Studie I • der letzte Satz des Textes wurde für das Perzeptionsexperiment genutzt: • 40 Sets mit ABX à Jeweils 20 mit A und B in Normalsprache von verschiedenen Sprechern und 20 in creaky voice von verschiedenen Sprechern à 1. Gruppe: X (c. v. ) passt entweder zu Sprecher A oder B à 2. Gruppe: X (c. v. ) passt weder zu A noch zu B à 3. Gruppe: X (normal) passt entweder zu Sprecher A oder B à 4. Gruppe: X (normal) passt weder zu A noch zu B 8

Studie I • die Reihenfolge von A und B innerhalb der Triplets und die Sequenz der Triplets waren zufällig • jedes Triplet wurde 2 x präsentiert à 15 trainierte Hörer (Gruppe P) und 12 untrainierte Hörer (Gruppe N) sollten entscheiden ob X vom Sprecher A, B oder von keinem von beiden gesprochen wurde 9

Studie I 10

Studie I v Diskussion • - sth Frikative sind recht resistent gegen die c. v. Verstellung (insbesondere [s]) • c. v. kann leicht produziert werden, auch über einen längeren Zeitraum • c. v. kann mit akustischen Analysen schwer herausgefiltert werden • instrumentelle Methoden können kombinierte Verstellungstechniken nicht herausfiltern • Hörermethoden können dies teilweise 11

Studie I è trainierte Hörer sind besser in der Lage die Sprecher zu identifizieren àihr Können sollte nicht unterschätzt werden àz. B. AX-Experimente à aber, Vorsicht bei der Interpretation der Gruppenergebnisse àeinige Hörer von N waren genauso gut wie die Mehrheit der Gruppe P àeinige aus P hatten Resultate, die eher denen der Gruppe N glichen 12

Gliederung v Studie • Methoden • Ergebnisse • Diskussion 13

Studie II v Fragestellung: • Gibt es Vorlieben bei der Wahl der Verstellungsmodi? • Verändert sich die Normalsprache im Verlauf der Zeit? • Wie gut können die Verstellungen konstant gehalten werden? 14

Studie II v Methode: • Sprecherdaten: forensischer Datenpool BKA • 50 Frauen- und Männerstimmen wurden ausgewählt • Text: typische idiomatische, semantische und stilistische Elemente eines Kidnappertextes (Telefonanruf) • durchschnittlich 60 sek. am Stück gesprochen • um die Langzeitaspekte analysieren zu können, wurden 5 Aufnahmen in Intervallen von ca. 6 Wochen gemacht à 1476 Aufnahmen 15

Studie II • 3 mögliche Verstellungstypen: 1. Tonhöhe erhöhen (HIGH) 2. Tonhöhe verringern (LOW) 3. Denasalierung (D) • 2 sollen ausgewählt werden, wenn möglich 1. und 2. è vor allem Frauen entschieden sich für D 16

Studie II • nur bei der 1. Sitzung durften die VP bei Bedarf üben • der Text wurde von den VP vorlesen • die Stimmverstellung sollte jedes Mal möglichst gleich sein • alle Sitzungen waren vom Ablauf her gleich 17

Studie II v Ergebnisse: • Normalsprache (Referenzmaterial): • Männer: F 0 -Mittelwerte sind bei 1 und 2 und bei 3, 4, 5 ähnlich • der Unterschied zwischen den beiden Ähnlichkeitsgruppierungen beträgt 2 Hz àleichte Abnahme von f 0 über die gesamte Aufnahmedauer • Frauen: Unterschiede sind geringer und haben keine besondere Tendenz 18

Studie II • Standardabweichung (ANOVA) • Männer: F 0 sinkt konstant über die Zeit (Zeitfaktor signifikant) • Frauen: Kein Effekt èmögliche Erklärung: Stressabbau, weil sich die Männer an das Prozedur gewöhnt haben èentweder standen die Frauen die ganze Zeit unter Stress oder nie 19

Studie II 20

Studie II • Vergleich f 0 -Mittelwerte bei Normal und Verstellt: • die größte Variation gibt es beim Modus HIGH (insbesondere bei Männern -> falsetto) • LOW: die Verteilung geht eher gegen 0 • Denasal: ähnlich zu normal, aber wesentlich tiefer 21

Studie II v HIGH • Männer: Großer Anstieg der f 0 -Mittelwerte von 116. 6 Hz bis auf 223. 9 Hz à 11. 3 Halbtöne, also fast eine Oktave • Frauen: Großer Anstieg der f 0 -Mittelwerte von 208. 5 Hz bis auf 297. 8 Hz à 6. 2 Halbtöne, also knapp über ½ Oktave è beide Geschlechter können f 0 stark (signifikant) über ihre gewöhnliche f 0 anheben 22

Studie II • verschiedene Varianten: • Männer: von 30 haben • 12 f 0 erhöht und blieben im modalen Zustand • 13 f 0 erhöht und wechselten das Register zu falsetto • 5 f 0 erhöht und nutzten beide Register à 9 von den 13 haben f 0 über 100% erhöht, also mehr als 1 Oktave • Frauen: von 34 haben • 30 f 0 erhöht blieben im modalen Register • 2 f 0 erhöht durchgängig falsetto genutzt • 2 f 0 erhöht falsetto und modal genutzt 23

Studie II • Einfluss der Zeit: • Frauen zeigen einen graduellen Anstieg der f 0 (1 Halbton) über die gesamte Aufnahmedauer (signifikant) • Männer weisen die gleiche Tendenz auf (nicht signifikant) è mögliche Erklärung: • bei den Männern wird mehr falsetto genutzt, was zu einem erhöhten f 0 -Mittelwert führt àkeine Signifikanz àes könnte auch ein Lerneffekt aufgetreten sein (Stabilisierung der Veränderungsmuster) 24

Studie II v LOW • Einfluss der Zeit: • Männer: Abfall der f 0 nach der 2. Aufnahme (ANOVA -> signifikant p=0. 02) • Frauen: kein signifikanter Abfall von f 0 • Im Vergleich zur normalen Sprache • f 0 sinkt beiden Geschlechtern à Männer: 116. 6 Hz - 100. 9 Hz -> 2. 5 Halbtöne à Frauen: 208. 5 Hz - 189. 6 Hz -> 3. 56 Halbtöne 25

Studie II • Männer: von 37 konnten • 2 f 0 nicht konstant senken (Differenz: ½ Halbton) à die f 0 von beiden Sprechen liegt unter dem Durchschnitt (93 Hz und 104 Hz) à der mit der stärksten Erhöhung hat lauter gesprochen als in der Normalsprache è erklärt die höhere f 0, aber nicht, warum er f 0 nicht konstant senken konnte • VP war aber überzeugt davon, dass sie tiefer sprach • Frauen: von 21 konnten • alle die f 0 senken (1. 3 -5. 4 Halbtöne) 26

Studie II v DENASAL • beide Geschlechter zeigen eine leichte Steigung des f 0 Mittelwertes im Gegensatz zur normalen Stimme • die Veränderungsgröße ist viel geringer als bei den anderen Modi (Männer: 1 Halbton, Frauen: 0. 2 Halbtöne) • Männer: der Unterschied vom f 0 -Mittelwert zur Normalsprache ist signifikant à aber die Signifikanz variiert von p=0. 03 bis p=0. 05 • Frauen: Keine Signifikanz (auch nicht beim t Test p=0. 20 bis p=0. 59) 27

Studie II v Männer: von 33 haben • 16 f 0 gesenkt • 17 f 0 erhöht • max. Abweichungen von der unverstellten Stimme variieren von -2. 1 bis +5. 0 Halbtönen v Frauen: von 45 haben • 19 f 0 gesenkt • 26 f 0 angehoben • max. Abweichung von der unverstellten Stimme von -4. 1 bis +2. 8 Halbtonschritte è ANOVA: die Unterschiede im Bezug auf die Zeit sind für beide Geschlechter nicht signifikant (m: p=0. 646 f: p=0. 46) 28

Studie II v Diskussion: • die VP konnten ihre Stimme relativ konstant über ~6 Monate verstellen • VP, die eine hohe f 0 haben, tendieren dazu sie weiter zu erhöhen • VP mit niedriger f 0 tendieren dazu f 0 zu senken • Trend ist mehr bei Frauen zu beobachten • kein Zusammenhang zwischen normaler f 0 und der Wahl für D • VP haben verschiedene Möglichkeiten zur Verstellung gewählt • Geschlechterabhängigkeit ist vorhanden: 29

Studie II • Männer haben f 0 generell drastischer verändert • High und Low: „Lerneffekte“ bei allen Männern • High: f 0 Wert wurde von Männern stärker erhöht als von Frauen • Low: f 0 Wert wurde von Frauen stärker gesenkt als von Männern à erklärbar durch geschlechterbedingte f 0 à Männer haben mehr Spielraum nach oben, Frauen nach unten 30

Studie II • Männer haben sich öfter für Low als für High entschieden, Frauen umgekehrt • Frauen haben den Modus falsetto viel seltener genutzt als Männer • D: • war der bevorzugt gewählte Modus der Frauen • leichtes Ansteigen der mittleren f 0 beiden Geschlechtern à für jeden Sprecher konnten allerdings kleine Variationen in beide Richtungen erkannt werden 31

Studie II v Bleiben spezifische Sprechercharakteristika erhalten? • bei Low oder D kann die normale f 0 vorhergesagt werden • bei High nicht, unhabhängig davon ob falsetto oder modale Stimme verwendet wurde à Zurückzuführen auf sehr große Freiheitsgrade zur Variation • Vernachlässigt wurde das Phänomen, dass einige Männer zwischen falsetto und modal kurzzeitig gewechselt haben (1 Satz oder weniger) 32

Studie II v Inwieweit haben die Verstellungen zu weiteren absichtlichen oder unabsichtlichen Verstellungen anderer Parameter geführt? • fast bei allen VP aufgetreten • meistens sinkt das Sprechtempo mit steigendem Grad der Verstellung, insbesondere bei High und Low • nicht nur langsameres Artikulieren, sondern auch mehr Pausen à ungewohnte artikulatorische Bewegungen und Gebrauchen der Artikulationsorgane à mehr Konzentration und Anstrengung 33

Studie II • Lautstärke: bei H wurden VP lauter als Konsequenz des stärkeren subglottalen Luftdrucks, insbesondere bei falsetto • LOW: • Reduktion der Amplitude im Signal àAusprägung der Vibrationen an der Glottis • teilweise Auftreten von creaky voice und flüstern 34

Vielen Dank 35