|
Spracherkennung mit dem Computer
Was ist derzeit möglich und wie sind unsere Zukunftsaussichten?
Vortrag von Theo Bleitgen
gehalten auf der Jahrestagung 1998 des VTF in Fulda
Die rasante Entwicklung der Computertechnik brachte es fertig, daß
innerhalb weniger Jahre fast in keinem Büro mehr eine der guten alten
Schreibmaschinen anzutreffen war. Das laute Hämmern der Tasten in
Schreibsälen ist nun einem leisen Geklapper der Computertastatur in
modernen Großraumbüros gewichen. Dort, wo früher ein Fernschreiber
so laut seinen Dienst versah, daß man ihn sogar unter einer Lärmschutzhaube
verstecken mußte, steht nun ein kleines, unscheinbares Faxgerät,
welches fast unhörbar die Nachricht auf einem Papierstreifen ausdruckt.
Flüsterleise Thermodrucker, Tintenstrahldrucker und Laserdrucker haben
ebenfalls die Schreibmaschine in der Rangordnung weit nach hinten verwiesen.
Doch damit war die Entwicklung auf dem Bürosektor aber noch nicht
zu Ende.
Eine neue Entwicklung, Sprache und Musik auf dem Computer ein- bzw.
ausgeben zu können, führte vor einigen Jahren sogar zu der Möglichkeit,
Schriftzeichen aus dem PC in Sprache umsetzen zu lassen. Man konnte sich
damit vom Computer seine Briefe vorlesen lassen. Aber auch das war den
Entwicklern noch nicht Fortschritt genug. Man wollte unbedingt weg von
der zeitraubenden Eingabe über die Tastatur. Und tatsächlich
schaffte man es, die äußerst kompliziert aufgebaute menschliche
Sprache vom Computer sogar akustisch verstehen zu lassen, um sie dann auf
einem Drucker wieder in Schriftzeichen umsetzen zu können. Wenn man
heute in der Werbung zu lesen bekommt "Sie diktieren - Ihr Computer schreibt",
dann sind das keine leeren Versprechungen. Auf einem modernen Computer
wurde der Traum von der digitalen Stenotypistin schon in vielen Büros
verwirklicht und mit Erfolg umgesetzt. Der Text wird nicht mehr mühevoll
mit der Tastatur eingegeben, sondern man spricht ihn einfach in das Mikrofon.
Das Schreiben übernimmt der PC. Bei einer Geschwindigkeit von bis
zu 150 verstandenen Wörtern in der Minute ist er wahrscheinlich schneller
als Sie jemals tippen können, und neue Technologien sorgen sogar für
ein kontiunierliches Diktieren im natürlichen Sprachrhythmus, das
heißt, es sind keine unnatürlichen Pausen zwischen den einzelnen
Wörtern mehr nötig. Stimmliche Besonderheiten, wie unterschiedliche
Stimmlage oder mundartliche Färbung, bereiten dem Computer, bei entsprechend
intensiver Vorbereitung zur Erkennung, kaum noch Probleme. Selbst preisgünstige
Programme verfügen über interne Wörterbücher mit bis
zu 320.000 Wörtern und mehr und ein aktives Vokabular schon bis zu
64 000 Wörtern. Die eigentliche Worterkennungsrate, bei entsprechender
Vorbereitung, beträgt heute schon mehr als 90 %. Die Lernfähigkeit
der Programme, durch Anpassen an die Stimme des Sprechers, Anlegen von
mehreren Stimmprofilen und einer neuartigen Kontext-Analyse, steigern die
Erkennungsgenauigkeit schwieriger Wörter. Dieses Kontext-Lernen erlaubt
es zum Beispiel, für bestimmte Zusammenhänge sogar abweichende
Schreibweisen zu definieren. So schreibt das Programm das Wort Becker mit
e, anstatt Bäcker mit ä, wenn zuvor das Wort Jürgen erkannt
wurde.
Wer sich einmal die Mühe gemacht hat, die Entwicklungen im VTF
zu beobachten, der wird festgestellt haben, daß man auch hier mittlerweile
moderne Methoden zur Erforschung der Tonbandstimmen verwendet. Die Filterung
von verrauschten Stimmenbeispielen, die Stimmenanalyse, oder die Stimmensynthese
zur Erstellung von Einspielkonserven ist im VTF aber erst der Auftakt zu
einer Entwicklung, die sich immer mehr auf den digitalen Sektor hinbewegt.
Und so wäre die Spracherkennung, übrigens ein ganz neues Forschungsgebiet
im VTF, ohne digitale Hochleistungs-Technologie und ohne den Computer überhaupt
nicht möglich.
Daß uns bei der Spracherkennung in Verbindung mit unseren Tonbandstimmen
allerdings noch einige Schwierigkeiten im Wege stehen, soll an dieser Stelle
nicht verheimlicht werden. Unsere seit etwa einem Jahr laufenden Versuche
zeigen uns nämlich sehr deutlich, daß bei einer Einspielung
auf Mittelwelle oder Kurzwelle kaum eine Hoffnung besteht, von dem Computer
auch nur ein Wort aus dem fürchterlichen Durcheinander von Stimmen
und Geräuschen erkennen zu lassen. Und auch kommende, verbesserte
Systeme werden das vermutlich nicht schaffen, da ihnen das intelligente
Selektionsverfahren eines menschlichen Gehirns mit seinen unendlich vielen
Erfahrungsmustern fehlt. Doch aus der Erkenntnis dieser Aussichtslosigkeit
heraus, daß unsere von Störungen stark überlagerten Einspielungen
vom Computer wohl nie direkt verstanden werden können, zeichnen sich
zwei anderer gangbare Wege ab. Benutzen wir zur Spracherkennung nämlich
einmal nicht unsere stark gestörten Einspielungen, sondern erinnern
uns wieder an die relativ einfachen und leisen Mikrofonstimmen, dann ergibt
sich, in Verbindung mit der leider vernachlässigten neuen Filtermethode,
eine bestimmte Hoffnung auf Erfolg. Denn das Entfernen von Rauschanteilen
in einer Tonaufnahme ist nämlich bei weitem einfacher und effektiver,
als das Entfernen von komplexen Störungen. Professionelle Restaurationsprogramme
entfernen bestimmte Störungen heutzutage so schonend aus dem Programm-Material,
daß eine Beeinträchtigung desselben kaum noch hörbar ist.
Und daß Mikrofoneinspielungen, mit nicht sprachähnlichem, sondern
mehr neutralem Hintergrundgeräusch in der Vergangenheit zwar leise,
aber hervorragende paranormale Aussagen ergeben haben, sollte nicht vergessen
werden.
Auch ist es unbestritten einfacher, mit einer reinen Mikrofonaufnahme
die Paranormalität einer Stimme beweisen zu können, wenn dabei
als Voraussetzung alle Vorkehrungen gegen evtl. Hochfrequenz-Einstrahlungen
gemacht wurden, als wenn man eine Mittelwelleneinspielung, z.B. auf der
Jürgensonwelle, zum Vergleich heranzieht. Zugegeben - die Stimmen
sind auf Mittelwelle lauter, und oft nehmen sie direkten Bezug auf die
Frage bzw. nennen den Namen des Experimentators. Damit aber einen Echtheitsbeweis
für eine Parnormalität bei einem wissenschaftlichen Institut
führen zu wollen, hätte von vornherein keine Aussicht auf Erfolg.
Übrigens legt man heute immer noch keinen gesteigerten Wert auf
eine notwendige Hochfrequenzentkopplung, wie die äußerlichen
Konstruktions-Merkmale des Hannoverschen Mikrofons es beweisen, und man
muß sich bezüglich der Beweisfähigkeit der Stimmen die
Kritik der Fachleute in diesem Punkte gefallen lassen.
Heute haben wir die Möglichkeiten, leise Stimmen mittels neuartiger
Techniken so gut ver-ständlich zu machen, so daß es bedauerlich
ist, daß man von den alten Einspielmethoden so wenig Gebrauch macht.
Damit wäre ein Weg aufgezeigt, wie mit der ältesten Einspielmethode
eine Spracherkennung mit dem Computer zu realisieren wäre.
Ein anderer Weg wäre es, die Möglichkeiten zukünftiger,
verbesserter Spracherkennungs-Programme für die derzeit noch recht
umständliche und ungenaue Sprechererkennung zu nutzen. Die Spektralanalyse
bietet zwar die Möglichkeit, die Stimmbandgrundfrequenz mit ihren
Oberwellen auf dem Bildschirm sichtbar zu machen und zu bestimmen, ob es
sich um eine männliche oder weibliche Stimme handelt, doch ist dieses
Verfahren zu wenig aussagekräftig. Die Selektion einzelner Vokale
und die Sichtbarmachung bestimmter zum Vokal gehörender Formantfrequenzen
sind weitere Möglichkeiten zur Identifikation einer Stimme. Denn jeder
Vokal enthält eine Reihe bestimmter Formantfrequenzen, welche durch
Resonanzen im Vokaltrakt entstehen, und von Sprecher zu Sprecher unterschiedlich
sind, da jedes Sprechwerkzeug etwas anders geformt ist. Dieses Prinzip
ist jedoch so störanfällig, daß zum Beispiel ein Schnupfen
oder eine Halsentzündung die ganze Analyse zunichte machen kann.
Wie bereits angedeutet, werden die Programme in Ihrer Fähigkeit,
sprecherspezifische Erkennung zu gewährleisten immer weiter verbessert,
und man wird sie in absehbarer Zeit auch im Sicherheitsbereich vernünftig
einsetzen können. Für uns ergibt sich daraus ebenfalls eine Verwendungsmöglichkeit
für unsere Stimmenbeispiele. Sollte es nämlich in den nächsten
Jahren gelingen, unsere Einspielungen, wie auch immer, klar und ohne Störungen
auf unsere Tonträger zu bringen, dann hätte man in Verbindung
mit einem guten Spracherkennungs-Programm ein ideales Werkzeug für
die Stimmenforschung.
Die zu Lebzeiten aufgezeichneten Sprachproben einer Person, die vom
Programm trainiert und mit den entsprechenden Stimmprofilen abgespeichert
werden, wären die Grundlage für eine Stimmendatenbank. Die Voraussetzung
für das Funktionieren eines solchen Projektes wäre allerdings
die Richtigkeit unserer Annahme, daß wir im Jenseits, wenn auch in
anderer Weise, unseren Stimmcharakter behalten würden.
Bestimmt werden Sie erkannt haben, daß der eingangs erwähnte
Satz "Sie diktieren - Ihr Computer schreibt" für das Erkennen von
Tonbandstimmen-Beispielen vorläufig nur eine bedingte Gültigkeit
haben kann. Wenn wir aber die Bereiche Spracherkennung und Sprecheridentifikation
voneinander trennen, so bleibt uns, in Verbindung mit unseren Filterprogrammen,
doch ein gewisser Spielraum, den wir derzeit nutzen können. Die Schwierigkeiten
die dazu noch zu bewältigen sind, liegen nämlich weniger am Computer
oder den Spracherkennungs-Programmen selbst, sondern vielmehr an der Qualität
unserer Einspielungen. So wären zum Beispiel Worte aus einer Einspielung,
die mit einer Konserve aus zerhacktem Fremdsprachentext entstanden sind,
unter Umständen zu erkennen, eine Sprechererkennung könnte damit
allerdings niemals funktionieren. Diese bestimmt nicht schlechten Aussichten
bei der Spracherkennung, könnten aber der Tonbandstimmenforschung
für die Zukunft ein Ansporn sein, sich wieder etwas mehr um eine verbesserte
Einspielqualität zu bemühen.
|
|