Zurück zur Startseite
 Startseite   Kontakt   Impressum   Datenschutz   English  Zitat von Friedrich Jürgenson

Die Sprachsynthese-Methoden

Akustisches Rohmaterial für Einspielungen maschinell erzeugt
von S. B.

Um Tonbandstimmen einzuspielen, scheint es erforderlich zu sein, irgendein "Rohmaterial" anzubieten, aus dem sich diese Stimmen "bilden" sollen. In schalldichten Räumen ohne jede Geräuschquelle scheinen sich dagegen keine Stimmen zu bilden. Das Frequenzspektrum dieses Rohmaterials - egal ob als direktes Schallereignis oder moduliert auf die verschiedensten Träger (Radiowellen, Licht, etc.) - muss sich dabei offenbar im hörbaren Bereich befinden. Eine der gängigsten Ansichten ist, dass es sich bei den Stimmen um paranormale Umformungen des Rohmaterials handelt. Diese Annahme konnte bisher in Experimenten jedoch noch nicht eindeutig bestätigt werden. In der Regel sind die Stimmen bereits im Rohmaterial enthalten. Einige persönliche Überlegungen dazu habe ich in dem Bericht Hypothesen zur Entstehung des Tonbandstimmen-Phänomens vorgestellt.

Zur Erzeugung, Abstrahlung und Aufnahme des Rohmaterials existieren die unterschiedlichsten Methoden. Die meisten Experimentatoren benutzen ein Radio als Rohmaterial-Quelle, das auf einen fremdsprachigen Sender oder auf ein Gemisch von mehreren Sendern eingestellt wurde. Wichtig ist, dass man die Sprache selbst nicht versteht, denn dies wäre sehr irritierend. Mir persönlich war diese Methode immer zu fehleranfällig, da man dabei sehr leicht Täuschungen unterliegen kann, wenn man etwas als deutsch interpretiert, das in Wirklichkeit ein deutsch klingendes Wort in der betreffenden Fremdsprache ist. Ein "unverdächtiges", aber möglichst sprachähnliches Rohmaterial musste her.


Fidelio Köberle, VTF e.V.

Bereits im Jahr 1988, als Viele den Computer nur aus Science-Fiction-Filmen kannten, hatte der damalige 1. Vorsitzende des Vereins für Tonbandstimmenforschung (VTF) e.V., Fidelio Köberle, die Idee, "[...] ein künstlich hergestelltes Rohmaterial zur Verfügung zu stellen, etwa analog dem bereits vielfach benutzten Wasserplätschern oder dem Geräusch bei der Reibemethode (Struck). Ideal könnte sein ein synthetisch laufend hergestelltes Rohmaterial, das der Sprache so nah wie möglich kommt. So nah wie möglich deshalb, um den Gesprächspartnern auf der anderen Seite zu erlauben, mit möglichst geringem Energieaufwand daraus echte Sprache zu machen. Geringer Energieaufwand deshalb, weil wir wissen, dass es dann am besten funktioniert (siehe Umformungen). Das Material dürfte natürlich noch keine Sprache sein, sich aber leicht in sinnvolle Sprache verwandeln lassen. Es müsste ohne Periodizität sprudeln. Es sollte Pausen enthalten, wie normales Sprechen auch. Ohne Einsatz von Zufallsgeneratoren für die Variation von Ton und Pausen wird man nicht auskommen. [...]". (Quelle: VTF-Post P 51, Heft 2/88 - 1.4.1988, Seite 42)


Zufallsgesteuerte Sprachsynthese


Helmut Schmidt mit Psi-Testgerät

Angeregt von diesem Vorschlag wurden verschiedene Methoden entwickelt, solch ein synthetisches Rohmaterial herzustellen. Der Elektronik-Ingenieur Peter Stein (Dänemark) beispielsweise benutzte zwei Stereo-Cassetten-Abspielgeräte (Walkmen), zwischen deren vier Tonspuren mittels eines elektronischen Umschalters fortlaufend gewechselt wurde. Die Geschwindigkeit dieses Umschaltens konnte dabei eingestellt werden. Mir persönlich war diese Methode jedoch zu wenig flexibel und das damit erzeugte Rohmaterial nicht "dynamisch" genug. Angeregt durch die Psychokinese-Experimente des Parapsychologen Helmut Schmidt (externer Link) wollte ich einen echten Zufallsgenerator verwenden, der paranormal beeinflusst werden sollte. Jede Zufallszahl sollte dabei einem Phonem der deutschen Sprache zugeordnet sein. Während dann der Zufallsgerenator lief, sollten die jeweiligen Phoneme über einen Lautsprecher ausgegeben werden. Mit etwas "Übung" sollte es den Verursachern der Stimmen dann möglich sein, durch Beeinflussung des Zufallsgenerators die gewünschten Stimmen zu synthetisieren. Da es wahrscheinlich ziemlich aufwendig und teuer gewesen wäre, dies mit elektronischen Mitteln zu realisieren, entschied ich mich für eine Lösung unter Verwendung eines Computers.


Audio-Ed


Der Homecomputer C64 (Bild: Bill Bertram)

PCs waren damals (1989) noch teuer, und Soundkarten dafür gab es sowieso noch nicht. Zwar besaß der Amiga schon tolle Soundfähigkeiten, aber da ich gerade den Homecomputer Commodore 64 (externer Link) (C64) hatte, versuchte ich es erst einmal damit. Der C64 verfügte zwar über einen Soundchip, mit dem man Töne künstlich erzeugen konnte, nicht jedoch Sprache bzw. Phoneme digitalisieren. Zufällig fand ich dann im Elektronik-Fachhandel einen Bausatz für ein sogenanntes Audio-Interface, eine Art "Soundkarten-Ersatz", den man an den User-Port des C64 anschließen konnte, um Audiosignale zu digitalisieren, im Computer-Speicher abzulegen und später wieder auszugeben. Das Audio-Interface funktionierte nach dem sogenannten "Delta-Modulationsverfahren", eine 1-Bit-A/D- und D/A-Wandlung, die sehr ungenau ist und total verrauscht klingt, aber mit sehr wenig Speicherplatz auskommt. Trotzdem war der gerade mal 48 Kilobyte große nutzbare Speicher des C64 schon nach 13 Sekunden Aufnahmezeit voll. Aber das reichte für meine Zwecke, denn immerhin konnte man darin ca. 100 unterschiedliche Phoneme unterbringen (wenn man eine durchschnittliche Phonem-Länge von 0,1 bis 0,2 Sekunden zugrundelegt), und das reichte zum Synthetisieren künstlicher Sprache völlig aus.

Zur Ansteuerung des Audio-Interface lag ein kleines BASIC-Programm bei (natürlich als Listing zum Abtippen), das aus mehreren DATA-Zeilen irgendwelche Zahlenwerte in den Hauptspeicher POKEte. Es handelte sich dabei um die Assembler-Routinen zum Ansteuern des Interfaces. Diese disassemblierte ich mit einem Maschinensprache-Monitor (so etwas Ähnliches wie DEBUG unter MS-DOS, einen "richtigen" Assembler benutzte ich erst später) und schrieb dazu - ebenfalls direkt in Maschinensprache - weitere Funktionen zum Editieren, Laden, Speichern usw. Das daraus entstandene Programm erhielt den Namen Audio-Ed. Das "Ed" deutet schon darauf hin, dass es mit diesem Programm möglich war, ein Audio-Signal zu editieren: Man konnte kurze Tonsequenzen (z.B. Phoneme) nach Gehör herausschneiden und als einzelne Segmente auf "Floppy-Disk" abspeichern. Wenn man genügend Phoneme zusammen hatte, konnte man daraus eine Phonemdatei erzeugen und die einzelnen Phoneme zufallsgesteuert wiedergeben lassen. Außerdem gab es eine Funktion, mit der man die Auswahl der Phoneme über das Gameport steuern konnte, um so einen "echten" Zufallsgenerator anschließen zu können.

In der Praxis hatte es sich aber herausgestellt, dass es für die Anzahl und die Qualität der erhaltenen Tonbandstimmen unerheblich ist, ob zur Erzeugung eines "Zufalls-Rohmaterials" richtige Phoneme oder einfach nur willkürlich aus dem Signal herausgeschnittene Segmente verwendet wurden. Auch ob es sich um "echte" Zufallszahlen oder nur Pseudo-Zufallszahlen handelt, war dafür unerheblich. Letzteres fand ich eher durch einen Zufall heraus. Hierzu eine kleine Anekdote:

Einmal erhielt ich bei einer Einspielung mit weiblicher Sprache als Rohmaterial die ziemlich deutliche und markante Stimme:

"Computer ist kaputt!"

[Download]

Ich wusste damit nichts anzufangen, denn offensichtlich funktionierte das Gerät ja bestens. Am nächsten Tag benutzte ich dasselbe Rohmaterial wieder für eine Einspielung (ich hatte mir das Sample auf Diskette abgespeichert). Als ich plötzlich dieselbe Stimme "Computer ist kaputt" wieder hörte, war ich doch anfangs ziemlich überrascht. Was war geschehen?

Da der C64 keine eingebaute Echtzeituhr hatte, wurde der Zufallsgenerator bei jedem Einschalten des Rechners immer mit denselben Startwerten initialisiert, was ich damals aber noch nicht wusste. Aber konnte das sein? Eine so deutliche Stimme aus Pseudo-Zufallszahlen? Außerdem erhielt ja die Stimme durch diesen Vorfall auch noch eine gewisse Sinnbezogenheit, indem sie mir in verschlüsselter Form (was bei TBS oft der Fall ist) zu verstehen gab, dass der "Zufallsgenerator" nicht in der von mir gedachten Form funktioniert. Ursprünglich ging ich davon aus, es würde sich um "echte" Zufallszahlen handeln, weil ja in der Literatur immer von "Zufallsgenerator" die Rede war. Meine Hypothese war folglich, dass dieser "Zufallsgenerator" (paranormal) beeinflusst werden könnte. Aber das war ja nun offensichtlich nicht der Fall, denn sonst wäre die Stimme kein weiteres Mal entstanden.

Die Schlussfolgerungen aus diesem Vorfall waren weitreichend: Offenbar war es für die Entstehung deutlicher, sinnvoller und bezugnehmender Tonbandstimmen nicht erforderlich, die Geräte paranormal zu beeinflussen!

Das Programm Audio-Ed wurde 1990 für einen PC (286er) unter MS-DOS umgeschrieben und um eine "Protokollfunktion" erweitert. Damit konnte man die erzeugte Zufalls-Sequenz während der (pseudo-)zufallsgesteuerten Wiedergabe der Segmente in einer Protokolldatei mitschreiben lassen, um zu einem späteren Zeitpunkt dasselbe "Rohmaterial" noch einmal wiedergeben zu lassen. So konnte man eine Einspielung sozusagen "wiederholen", um zu untersuchen, ob dabei dieselben Stimmen entstehen wie bei der ersten Einspielung (was bei mir bisher immer der Fall war - also keine "Umformungen").


AuDigit


Der Sound-Digitizer (Soundkarten-Ersatz)

Da das Editieren der einzelnen Phoneme und das Zusammenstellen eines kompletten Phonemsatzes immer eine sehr aufwendige Angelegenheit war, erhielt die nächste Version des Programms gar keine Editierfunktion mehr und bekam daher nur den Namen AuDigit". Diese Version - nun in C geschrieben - arbeitete mit "echter" 8-Bit-D/A- und A/D-Wandlung. Soundkarten waren zu der Zeit immer noch beinahe unerschwinglich; deshalb verwendete ich einen selbstgebauten Sound-Digitizer, zu dem es in der Ausgabe 10/90 der Zeitschrift "DOS International" (heute "PC Magazin") eine Bauanleitung gab.

Auch hier lag wieder ein in Pascal und Assembler geschriebenes Beispielprogramm bei. Soundkarten-Unterstützung kam erst später dazu. Da AuDigit ebenfalls ein DOS-Programm war, unterlag es natürlich immer noch den Beschränkungen des nutzbaren Speichers, der unter MS-DOS auf 640 KB begrenzt war und nur eine geringe Aufnahmezeit (ca. 25 Sekunden bei einer Sample-Frequenz von 20 kHz und einer Auflösung von 8 Bit) zuließ. Außerdem funktionierte das Programm nur mit 100% Soundblaster-kompatiblen Soundkarten. Deshalb schrieb ich im Mai/Juni 2000 einen "Nachfolger", das Programm EVPmaker, das unter Microsoft Windows läuft und mit jeder Soundkarte funktioniert.


EVPmaker

Gegenüber "AuDigit" sind bei EVPmaker viele neue Funktionen hinzugekommen. So können nun zur Bildung des Zufalls-Rohmaterials statt willkürlich herausgeschnittener Sprachsegmente auch "richtige" Phoneme verwendet werden, wenn diese zuvor mit Hilfe eines Soundbearbeitungsprogramms wie z.B. Adobe Audition (ehemals CoolEdit) innerhalb des Ausgangsmaterials markiert wurden. Wenn die einzelnen Phoneme mit entsprechenden Lautschrift-Symbolen versehen werden, besteht sogar die Möglichkeit einer schriftlichen Kontrolle des Gehörten. Dadurch wird es möglich, die gehörten Stimmen zu "objektivieren" bzw. mehr über das subjektive "Verstehen" von Lautsequenzen, wie sie Tonbandstimmen darstellen, zu erfahren.

Eine weitere Neuerung von EVPmaker ist die Möglichkeit, ganze "Tonbandstimmen-Sitzungen" (engl. "EVP Sessions") aufzuzeichnen und dabei jede einzelne Stimme, die man aus dem erzeugten Rohmaterial heraushört, zusammen mit der gestellten Frage und der gehörten Antwort zu erfassen und abzuspeichern. Die zu jeder TBS (Tonbandstimme) gehörige Rohmaterial-Sequenz kann beliebig oft wiederholt werden, sie kann als WAV-Datei abgespeichert oder direkt in einen Sound-Editor geladen werden, um dort weiterbearbeitet oder genauer untersucht zu werden. Dabei wird jedes einzelne Rohmaterial-Segment, aus dem sich die zufällig erzeugte Sequenz zusammensetzt, in einer "Cue List" abgespeichert. Wenn der Sound-Editor über die Möglichkeit verfügt, eine solche Cue-List anzuzeigen, dann können darüber die Segmente direkt angesprungen oder diese auch einzeln wiedergegeben werden. Auf diese Weise kann man z.B. genau bestimmen, aus welchen Bruchstücken sich die TBS zusammensetzt.

Weiterhin gibt es verschiedene Arten der Generierung der Zufallszahlen, mit denen die wiederzugebenden Segmente/Phoneme vom Programm herausgepickt werden: Neben Pseudo-Zufall (wie bisher) kann nun u.a. auch "echter" Zufall verwendet werden, indem z.B. ein auf "Rauschen" eingestelltes Radio an den Eingang der Soundkarte angeschlossen wird. Diese Möglichkeiten sind allerdings noch so neu, dass ich noch nicht sagen kann, inwiefern sie die Stimmenbildung beeinflussen; hierzu müssten noch einige Versuche unternommen werden. Obwohl ich - wie oben geschrieben - bei der Sprachsynthese-Methode direkte Umformungen des Rohmaterials bisher nicht beobachten konnte, erhoffe ich mir durch die Verwendung "echten" Zufalls eine vermehrte Bildung bezugnehmender Stimmen, da ich davon ausgehe, dass sich ein analoges Gerät wie ein Radio eher in paranormale Vorgänge "einschwingen" kann als ein Computer, der intern rein logisch arbeitet und praktisch nicht "beeinflusst" werden kann.


Gewobbelte Radios


Eine "Spirit Box" (P-SB7)

Parallel zur Entwicklung der computergestützten Sprachsynthese-Methoden ab 1989 hat der Elektronik-Ingenieur Peter Stein (Dänemark) auf analogem Wege versucht, ein zufälliges akustisches Rohmaterial zu erzeugen, indem er die Empfangsfrequenz eines Radioempfängers mit Hilfe einer kleinen elektronischen Schaltung gewobbelt hat, d.h. automatisiert oszillierend verändert hat. Diese Methode hat später, im Jahr 2002, Frank Sumption (USA) (externer Link) aufgegriffen und dahingehend variiert, dass er die Empfangsfrequenz von UKW/FM-Radios nicht oszillierend variierte, sondern zufällig. Anstelle des Wobbbelgenerators benutzte er eine elektronische Schaltung, die zufällige Spannungsschwankungen erzeugte, mit denen er die Abstimmung des Empfängers veränderte. Dadurch wurden die empfangbaren Radiosender in schneller, zufälliger Reihenfolge abwechselnd hörbar, und in diesem "Kauderwelsch" entstanden dann unter günstigen Bedingungen Stimmen, die intelligent und bezugnehmend auf die Fragen anwesender Personen reagierten. Frank Sumption baute zig dieser Geräte und gab sie an Interessierte in aller Welt weiter. Diese "Frank's Box" genannten Geräte erlangten eine gewisse Berühmtheit, so dass in der Folge auch andere Experimentatoren damit begannen, ähnliche Geräte zu bauen, die sie dann unter der Bezeichnung "Ghost Box" oder "Spirit Box" verkauften. Teilweise wurden die Geräte dazu stark vereinfacht - im simpelsten Fall wurden handelsübliche Taschenradios (z.B. das Sangean-Radio DT-250) durch Unterbrechen einer Leiterbahn so modifiziert, dass der automatische Sendersuchlauf nicht mehr stoppte und "endlos" weiterlief, während aus dem Lautsprecher stakkatoartig die Wortfetzen der empfangenen Sender zu hören waren, was dann als akustisches Rohmaterial für Einspielungen diente. Es dauerte natürlich nicht lange, bis auch entsprechende Smartphone-Apps entwickelt wurden, die eine Anzahl von Webradio-Stationen auf ähliche Weise "scannten", so dass sich der typische "Ghostbox-Sound" ergab. Mittlerweile existieren Unmengen solcher "Ghostbox-Apps" und auch -Programme für Windows, so dass es unmöglich ist, an dieser Stelle eine auch nur annähernd vollständige und aktuelle Übersicht zu geben. Findige Experimentatoren (hauptsächlich aus den USA) bauten die "Ghostbox"-Methode weiter aus und kombinierten z.B. Smartphones, auf denen "Ghostbox-Apps" liefen, mit allerlei Effektgeräten zur Erzeugung von Hall (Reverb) oder zur Rauschunterdrückung (Noise Gate) und belegten diese Gerätekombinationen dann mit Namen wie "The Portal" oder "Wonder Box". (Dass paranormale Stimmen durch dosiertes Hinzufügen von Hall deutlicher hörbar werden können, ist übrigens bereits eine Erkenntnis aus der frühen Tonbandstimmenforschung.) Wer sich hier betätigen will, wird mit Hilfe von Google alle nötigen Informationen finden.


(Erstellt: 02.11.2001 • zuletzt aktualisiert: 30.04.2018)