Zurück zur Startseite
 Startseite   Kontakt   Impressum   English  Zitat von Friedrich Jürgenson

Die Sprachsynthese-Methode

Aktueller Hinweis: Mittlerweile ist das hier beschriebene DOS-Programm "AUDIGIT" technisch überholt. Eine neue Software, die auch unter Windows läuft, finden Sie hier (externer Link). Eine aktuelle Beschreibung der Sprachsynthese-Methode finden Sie hier (externer Link).

Als etwa im Jahr 1990 die Einspielmethode der computergestützten Sprachsynthese entwickelt worden ist und seither im Kölner Technologiezentrum bei Einspielungen regelmäßig zur Anwendung kam, erfuhr sie trotz der guten Ergebnisse keine besonders große Verbreitung, was auch verständlich war - benötigte man dazu doch außer einem Computer noch ein Zusatzgerät, den sogenannten Digitizer, dessen Aufgabe es war, analoge Sprachsignale computergerecht aufzubereiten. Diesen Digitizer gab es jedoch nicht im Handel zu kaufen, sondern er mußte selbst aufgebaut werden, was für interessierte, aber elektronisch weniger versierte Anwender ein unüberwindliches Hindernis darstellte. Inzwischen haben sich die Zeiten geändert - wir leben im "Multimedia-Zeitalter" -, und eine Soundkarte gehört eigentlich schon zur Standardausstattung jedes Computers, welcher sich inzwischen neben Fernseher und Kühlschrank schon seinen festen Platz in fast jedem Haushalt erobern konnte. Was lag da näher, als diese interessante Einspielmethode einem größeren Kreis von potentiellen Benutzern zugänglich zu machen, indem die dazu benötigte Software in punkto Soundkarten-Unterstützung angepaßt und darüberhinaus in vielerlei Hinsicht erweitert wurde? Wenn Sie also im Besitze eines Computers mit Soundkarte sind, dann ist alles, was sie noch benötigen, um mit der Sprachsynthese-Methode Einspielungen vorzunehmen, die Software AUDIGIT (Hinweise dazu finden Sie am Schluß dieses Beitrages). Falls Ihr Computer noch nicht über eine Soundkarte verfügt: für etwa DM 170,- sind bereits gute Soundkarten im Handel erhältlich (z.B. die SoundBlaster 16 Value der Firma Creative Labs).

Die Sprachsynthese-Methode wurde zwar in Heft P 86 auf Seite 15 ("Der Computer-Zufallsgenerator") schon einmal kurz erwähnt, aber speziell den "Neuzugängen" des VTF wird dieser Begriff möglicherweise nicht allzu viel sagen. Deshalb möchte ich an dieser Stelle noch einmal darauf eingehen:

Um Tonbandstimmen einzuspielen, scheint es erforderlich zu sein, irgendein "Rohmaterial" anzubieten, aus dem durch physikalisch (noch) nicht erklärbare Einflüsse sinnvolle, auf vorher gestellte Fragen des Experimentators bezugnehmende sprachliche Äußerungen entstehen sollen. Es existieren die unterschiedlichsten Methoden zur Erzeugung, Abstrahlung und Aufnahme des Rohmaterials, dessen Frequenzspektrum sich offensichtlich immer im hörbaren Bereich befinden muß - ob als direktes Schallereignis oder moduliert auf die verschiedensten Träger (Radiowellen, Licht, etc.).

Mit der Sprachsynthese-Methode existiert eine weitere interessante Möglichkeit der Erzeugung akustischen Rohmaterials. Das Prinzip dieser Methode ist einfach erklärt: Ein beliebiges Sprachsignal wird mit Hilfe des Computers in gleichlange Segmente unterteilt, die dann zufallsgesteuert wieder ausgegeben werden. Das dabei entstehende "Kauderwelsch" hat zwar noch den Klang des ursprünglichen Sprachsignals, ist jedoch nicht mehr zu verstehen und eignet sich daher als akustisches Hintergrundgeräusch für Einspielungen von Tonbandstimmen.

Die ursprüngliche Idee bei dieser Methode war das zufallsgesteuerte Zusammensetzen einzelner, genau definierter Phoneme zu einer Zufalls-Sprache (zufallsgesteuerte Phonemsynthese). Es hat sich aber dann in der Praxis gezeigt, daß willkürlich "zerhackte" Sprache aufgrund ihrer größeren Dynamik bei Einspielungen bessere Erfolge bringt. Zudem ist das Unterteilen eines Audiosignals in gleichlange Segmente einfacher zu bewerkstelligen als das manuelle Herausschneiden einzelner Phoneme. Auch sind hierbei die Variationsmöglichkeiten weitaus vielfältiger.

Die Sprachsynthese-Methode könnte aufgrund der durch die Verwendung des Computers gegebenen Kontrollmöglichkeiten bei der Erzeugung des Rohmaterials einen wichtigen Beitrag leisten zur Dokumentation der Paranormalität von Tonbandstimmen und somit die wissenschaftliche Anerkennung dieses Phänomens fördern.

Nun etwas zu den vielfältigen Möglichkeiten, die diese Methode bietet:

Es können beliebige Sprachsignale mit 8 Bit Auflösung digitalisiert und im Computerspeicher abgelegt werden. Die Sample-Frequenz läßt sich dabei von ca. 4,7 bis 44,2 kHz einstellen. Eine spezielle Funktion ermöglicht dann die zufallsgesteuerte Wiedergabe einzelner Segmente dieses Signals, um so ein akustisches "Rohmaterial" für Einspielungen zu erzeugen. Hierbei gibt es folgende Einstellmöglichkeiten:

Segmentlänge

Die Länge der zufallsgesteuert wiedergegebenen Segmente kann zwischen 1 Millisekunde und mehreren Sekunden gewählt werden. Hiermit wird bestimmt, wie stark das Signal zerstückelt wird. Bei zu großen Werten können einzelne Wortfetzen oder Worte zu hören sein; zu kleine Werte (unter 10 ms) verfälschen den Klang des Signals, können aber zu interessanten Ergebnissen führen!

Anordnung der Segmente

Die Segmente können innerhalb des Audiosignals entweder hintereinander oder einander überschneidend angeordnet sein. Im ersten Fall liegen die Segmente an genau definierten Stellen nahtlos hintereinander. Im zweiten Fall kann jedes Segment an einer beliebigen Stelle innerhalb des Audiosignals liegen, was mehr Variationsmöglichkeiten für die Bildung des Rohmaterials zuläßt.

Hüllkurve

Die Hüllkurve sagt etwas über den Übergang zwischen zwei zeitlich aufeinanderfolgenden Segmenten aus, also den Amplitudenverlauf. Bei "Rechteck" ist die Lautstärke für jedes wiedergegebene Segment konstant; die Segmente werden "hart geschnitten" und folgen übergangslos aufeinander, was ziemlich abgehackt klingt. "Dreieck" bewirkt ein gleichmäßiges Ansteigen der Lautstärke bis zum Maximalwert bei gleichzeitigem Abfallen der Lautstärke des vorangegangenen Segments. Nach Erreichen des Maximalwertes sinkt die Lautstärke wieder gleichmäßig ab, während das nächste Segment langsam anklingt. Dieses "Fading" ergibt einen "weicheren" Klang, da die Schnittstellen zwischen den Segmenten nicht mehr hörbar sind. Eine weitere Art des "weichen Schneidens" wird mit der Hüllkurve "Trapez" erreicht: Hier sind die auf- und absteigenden Flanken des Fadings steiler, und nach Erreichen des Maximalwertes bleibt die Lautstärke für die Dauer einer halben Segmentlänge auf dem Maximalwert, bevor sie wieder abfällt. Alle drei Arten des Schneidens sind für Einspielungen geeignet.

Pausen

Durch Einfügen von Pausen variabler Länge zwischen eine ebenfalls variable Anzahl von Segmenten kann die fortlaufende Wiedergabe zufallsgesteuert ausgewählter Segmente in regelmäßigen oder zufälligen Abständen unterbrochen werden. Hierdurch soll ein normaler Sprachfluß simuliert werden. Diese Funktion ist zudem sehr hilfreich, um Raum für die Fragen des Experimentators zu schaffen. Außerdem wird dadurch das spätere Abhören erleichtert. Und nicht zuletzt scheint dadurch die Stimmenbildung gefördert zu werden. Oft beginnen oder enden Stimmen genau mit einer Sequenz zwischen zwei eingefügten Pausen, was jedesmal sehr eindrucksvoll ist.

Während der zufallsgesteuerten Wiedergabe können die verwendeten Segmentnummern und alle sonstigen Parameter wie Sample-Frequenz, Segmentlänge, Anordnung, Hüllkurve und Pausen mitprotokolliert werden, um dasselbe Zufallssignal zu einem späteren Zeitpunkt für eine Kontroll-Einspielung zu Verifizierungszwecken möglicher akustischer Umformungen unter gleichen Versuchsbedingungen reproduzieren zu können.

Sämtliche digitalisierten Audiosignale, die als Basis für die Erzeugung von Rohmaterial dienen, lassen sich in Dateien abspeichern und zur späteren Verwendung wieder in den Speicher laden. Nur so lassen sich vergleichbare Bedingungen für Versuchsreihen schaffen. Um Samples mit anderen Anwendungen austauschen zu können, wurde als Dateiformat das weitverbreitete WAVE-Format gewählt.

Bei Einspielungen mit der Sprachsynthese-Methode hat es sich als sinnvoll erwiesen, das vom Rechner erzeugte Zufalls-Sprachsignal akustisch über einen Lautsprecher in geringer Lautstärke in den Raum abzustrahlen und in einiger Entfernung per Mikrofon wieder zu empfangen und zwecks Aufnahme einem Cassettenrecorder zuzuführen. Die Fragen des Experimentators gelangen dabei zusammen mit dem akustischen Rohmaterial auf das Band.

Um eine bessere Kontrollmöglichkeit akustischer "Umformungen" zu erhalten, kann man das Mikrofon an den linken Kanal eines Stereo-Cassettenrecorders anschließen, während man dem rechten Kanal das Rohmaterial direkt per NF-Kabel zuführt. Das spätere Abhören erfolgt dann abwechselnd über den linken und den rechten Stereo-Kanal: entdeckt man auf der linken Spur der Einspielung eine Stimme, kann durch Umschalten auf die rechte Spur überprüft werden, ob diese bereits im Rohmaterial enthalten war oder nicht. Im ersten Fall hätte man eine Veränderung des Original-Rohmaterials über die akustische Strecke nachgewiesen. Ob es sich dabei um eine "paranormale" Veränderung handelt, kann allerdings nicht mit Sicherheit gesagt werden, denn allein schon durch die akustischen Gegebenheiten (Raumakustik, Reflexion der Schallwellen, Frequenzgang von Lautspercher und Mikrofon, Übersteuerung der Aufnahme, Oberwellen) kann das Signal so stark verzerrt werden, daß daraus scheinbar neue oder andere Laute entstehen. Durch eine Kontroll-Einspielung bei gleichen Versuchsbedingungen und unter Verwendung desselben Rohmaterials läßt sich in einem solchen Fall zumindest verifizieren, ob es sich um eine akustisch bedingte, also physikalisch erklärbare und wiederholbare Veränderung handelt, oder um ein einmaliges Ereignis, das nicht reproduzierbar ist.

Abschließend sei erwähnt, daß viele sehr gute Stimmen bereits direkt im Rohmaterial zu hören sind, also nicht durch akustische Umformungen entstanden sind, was deren Echtheit und Paranormalität jedoch keinesfalls widerlegen muß. Wir haben es hier mit einem Phänomen zu tun, das sich physikalischen Erklärungsmodellen gegenwärtig noch vollständig entzieht.


(Quelle: VTF-Post P 87, Heft 2/97)


Experimente mit der Sprachsynthese-Methode

Bei Interesse an der Sprachsynthese-Methode können Sie die benötigte Software AUDIGIT für Soundkarten-Unterstützung hier herunterladen.

Das Programm läuft zur Zeit nur unter DOS, nicht jedoch innerhalb der MS-DOS-Eingabeaufforderung von Windows! Wenn Sie also Windows 3.x verwenden, beenden Sie es! Benutzen Sie Windows 95, dann booten Sie Ihren Rechner bitte im MS-DOS-Modus! Für Windows NT liegen keine Erfahrungen vor. Der Speicherplatz ist unter DOS auf 640 Kilobyte begrenzt. Um möglichst viel Speicher für die Aufnahme von Audio-Signalen zur Verfügung zu haben, sollten alle DOS-Treiber in den hohen Speicherbereich geladen werden. (Vielleicht gibt es ja demnächst auch ein "AUDIGIT für Windows" ohne diese Beschränkungen ...).

[Update: Mittlerweile gibt es ein neues Programm namens EVPmaker, das auch unter Windows läuft!]

Als "Rohmaterial" (die 25-Sekunden-Aufnahme) kann jeder beliebige gesprochene Text verwendet werden, z.B. vom Radio oder Ihre eigene Stimme. Versuchen Sie männliche und weibliche Sprache. Hier gibt es die vielfältigsten Möglichkeiten und man nicht vorhersagen, was sich am besten als Rohmaterial eignet. Einmal aufgenommenes Rohmaterial läßt sich als WAVE-Datei (Mono, 8 Bit) abspeichern und für spätere Verwendung wieder in den Arbeitsspeicher laden. Wählen Sie nach dem Aufnehmen oder Laden einer Audio-Datei die Funktion "Zufallsgesteuerte Wiedergabe", um die "Zufallssprache" zu erzeugen. Experimentieren Sie auch mit der Veränderung verschiedener Parameter (Segmentlänge, Übergang zwischen den Segmenten (hart oder weich)). Nehmen Sie dieses "Kauderwelsch" über ein Mikrofon auf. Wenn Sie eine Frage stellen wollen, unterbrechen Sie die Wiedergabe und starten Sie sie anschließend erneut. Vielleicht ist es sinnvoll, die 'Pausen' zu aktivieren. Manchmal beginnen oder enden "Stimmen" genau an den Grenzen einer Rohmaterial-Sequenz zwischen zwei Pausen. Wenn Stimmen entstehen, sind diese oftmals laut und deutlich, manchmal beziehen Sie sich sogar auf eine vorhergehende Frage des Experimentators.

Machen Sie Ihre Versuche über einen längeren Zeitraum hinweg, da Quantität und Qualität der erhaltenen Stimmen unabhängig von bekannten physikalischen Faktoren schwankt. Ich nehme an, dies hat auch etwas zu tun mit dem seelischen Zustand des Experimentators. Möglicherweise wird zur Erzeugung paranormaler Phänomene irgend eine Art von "Energie" benutzt, die vom Experimentator unter bestimmten Voraussetzungen zur Verfügung gestellt wird. Auf diesem Gebiet liegen allerdings noch keine verläßlichen Forschungsergebnisse vor.

Nun viel Erfolg bei Ihren eigenen Experimenten! Bitte berichten Sie mir von Ihren Erfahrungen!