Berechnung von digitalen Signalen Jonathan Harrington Wenn noch
Berechnung von digitalen Signalen Jonathan Harrington
Wenn noch nicht getan, bitte die Formanten für die aetobi Sprachdatenbank berechnen. . (und die Formantdateien in einem beliebigen Verzeichnis speichern)
1. Formanten korrigieren 2. Parameter für Formantberechnungen in weiblichen Stimmen 3. Einige Äußerungen für die Signalverarbeitung auswählen 4. Parameter setzen in der Berechnung von Signalen 5. Signalverarbeitung: RMS, ZCR
2. Formantfehler 1. Formanten manuell korrigieren
Die Formanten sind in weiblichen im allgemeinen höher als in männlichen Stimmen. Manchmal werden genauere Formantwerte bei Frauenstimmen durch nominal F 1 = 600 Hz (Default = 500 Hz) in der forest Registerkarte erzeugt
3. Manchmal wollen wir die Signalverarbeitung auf einige ausgewählte Äußerungen anwenden… (b) Äußerungsliste editieren (a) save utterance list
(c) Äußerungsliste laden load utterance list
Analog Signale 1. Digitalisierung: Abtasten, Quantisierung Praat, Audacity, Wavesurfer Digitale Zeitsignale 2. Anwendung von einem Fenster EMU-tkassp Zeitsignal-Aufteilung 3. Anwendung von einem Parameter EMU-tkassp Abgeleitete oder parametrisierte Signale (z. B. Formanten, Grundfrequenz, d. B-RMS, ZCR)
Anwendung von einem Fenster Ein Parameter (Formanten, f 0, RMS) wird auf eine gewisse Dauer oder Fenster von Punkten angewendet Fensterlänge = die Dauer des Fensters Für Sprachsignale, meistens 10 bis 30 ms = die Mindestdauer von phonetischen Ereignissen wie Plosiv-Verschlüssen, oder -Lösungen Fensterverschiebung = wie oft soll der Parameter berechnet werden? Meistens alle 5 oder 10 ms. Rechteckiges- oder Cosinus-Fenster?
Fensterlänge = 100 ms Fensterverschiebung = 100 ms Parameter (Formanten, F 0, RMS usw) Parameter. Wert (Ein Wert pro 100 ms)
Rechteckiges (rectangular) Fenster Das aufgeteilte Signal wird vor der Parameter. Berechnung nicht geändert Parameter. Wert
Ein rechteckiges Fenster hat ‘scharfe’ Kanten (das Signal beginnt und endet plötzlich), die ein Parameter manchmal beeinflussen. z. B. bei spektralen Berechnungen verursachen diese scharfen Kanten hohe Frequenzen, die mit dem Sprachsignal nichts zu tun haben. Daher werden vor der Berechnung mancher Parameter die Kanten geglättet – durch die Multiplikation mit einem Cosinus-Fenster:
Cosinus-Fenster (Werte liegen zwischen 0 und 1) Signal mit dem Cosinus-Fenster multipliziert Parameter. Wert
Ein Cosinus-Fenster wird im Allgemeinen bei Frequenzberechnungen angewendet Es gibt mehrere Sorten von Cosinus-Fenstern (Hamming, Hanning, Blackman. . . ), die fast die selbe Wirkung haben
d. B-RMS (Lautstärke) Lautstärke ist ca. im Verhältnis zum Logarithmus vom Kraft-Mittelwert 64 60 0 20 40 Kraft 0 2 4 6 8 80 8 -4 Amplitude (der Luftdruckänderungen) Kraft = Amplitude 2 Kraft. Mittelwert 29. 16667 Dauer Lautstärke (d. B-RMS) = log 10(29. 1667) = 1. 46 Bel = 14. 6 d. B
Parameter: Lautstärke (d. B-RMS) d. B Fensterlänge 25 ms -Verschiebung 5 ms d. B Fensterlänge 100 ms -Verschiebung 100 ms
ZCR (zero-crossing-rate) oder Nulldurchgangsrate ZCR (in Hz) die Frequenz, mit der das Signal die x-Achse (die Zeit. Achse) schneidet pro Sekunde, dividiert durch 2. Hohe ZCR-Werte: Sprachlaute mit Turbulenz (Frikative, Verschlusslösungen)
ZCR (fortgesetzt) ca. 2 ms ZCR = Z / (2 t) Hz Das Signal schneidet die x-Achse ca. 9 Mal in 2 ms = 9/2 Mal pro ms = 9000/2 = 4500 Mal pro Sekunde ZCR ist daher ca. 4500/2 ca. 2250 Hz
Signale mit hoher Frequenz (wie Frikative und die Lösungen von Plosiven) schneiden die x-Achse mit hoher Frequenz und haben daher hohe ZCR-Werte U ZCR (Hz) s
Ich muss Dieter sagen ZCR (Hz)
Vorgang in der Berechnung von digitalen Signalen Grundfrequenz Formanten d. B-RMS (Lautstärke) ZCR (zero-crossing-rate)
1. Parameter auswählen (Für Formanten und f 0).
2. Parameterwerte festlegen Mit dieser Registerkarten lassen sich die Parameter der jeweiligen Signalberechnung ändern
z. B forest (Formant-Berechnungen) Durchschnittlicher F 1 (bei weiblichen Stimmen auf 600 – 700 Hz setzen) Fensterverschiebung Fensterlänge Fenstersorte
Extension Für jede wav Datei, auf die Formantberechnungen angewandt wird, wird eine entsprechende Datei mit Extension fms erzeugt, die Formanten enthält (z. B agr 001. fms für agr 001. wav)
3. Verzeichnis für die erzeugten Signale wählen Verzeichnis wählen: wo möchte ich die Signale speichern? 4. Signalberechnungen starten
5. Template Datei modifizieren (Damit Emu weiß, wo sich die neuen Signale befinden)
- Slides: 27