Der natürliche Gesprächspartner

Von dynamic audio berlin

Konkatenation von Audiofiles

Der natürliche Gesprächspartner Konkatenation von Audiofiles - ein Fachbeitrag von Christian Schneider, dynamic audio Moderne Sprachapplikationen begegnen dem Benutzer immer häufiger mit einem ausgefeilten Hear & Feel-Konzept. Das Persona-Design ist ausgearbeitet, die Stimme und die Texte sind dem Produkt angepasst und auch das Dialog-Design wird zunehmend offener und natürlicher gehalten. Kurzum: Die Branche strebt einen Dialog mit einem natürlich klingenden computergesteuerten Gesprächspartner an. 1. State of the Art Betrachten wir die Sprachapplikationen am Markt, so stellen wir fest, dass sich auf der Eingabeseite des Nutzers, auf dem Weg zum natürlichen Dialog, in den letzen Jahren viel getan hat. Die Fragestellungen im Dialog werden immer offener und natürlicher und auch die Spracherkennung wird immer besser. Auf der Ausgabeseite der Systeme hingegen ist leider kaum eine Veränderung zum Positiven zu verzeichnen. IVRs klingen heutzutage immer noch unnatürlich und roboterhaft. Woran liegt das? Das Bewusstsein für eine unternehmensspezifische, zum Produkt passende Persona hat zwar zugenommen (sicherlich ein wichtiger Schritt hin zum natürlichen Gesprächspartner), dennoch klingen die Systemausgaben immer noch unnatürlich und künstlich zusammengebaut, was angeblich dem Umstand gezollt ist, dass die Audioausgabe der Sprachapplikation auf konkateniertem Audiomaterial beruht. (Unter Konkatenation versteht man das aneinanderketten einzelner Audiodateien). Selbstverständlich ist die Technik des Konkatenierens den Dialog-Designern bekannt und sicherlich kaum eine Anwendung kommt heute ohne konkateniertes Audio aus. Dennoch, wird gerade in diesem Bereich Vieles falsch gemacht. 2. Wann wirkt der Gesprächspartner unnatürlich? Eine Sprachapplikation ist eine interaktive Anwendung. Daher ist es nur schwer vorherzusagen, welchen genauen Weg der Benutzer durch die Anwendung wählt, bzw. in welche Richtung der Call-Flow ihn führt. Wird der Benutzer verstanden? Braucht er Hilfe? Muss etwas wiederholt werden? Gerade in komplexen Systemen gleicht kaum ein Call dem anderen. Vor diesem Hintergrund ist es sehr wichtig, dass auch die einzelnen Audiofiles miteinander harmonisieren und die Anknüpfungspunkte zwischen den Dialogsequenzen stimmig sind, damit der Dialog natürlich klingt. Viele Systeme verwenden z.B. Random Prompts als Feedback für erfolgreiche oder nicht verstandene Eingaben. Die Idee ist gut, lockert den Dialog auf und sorgt für Abwechslung. Leider wird hierbei häufig vergessen, eine natürliche Sprachpause nach dem Random Prompt einzubauen, was den Dialog holpern lässt. Generell sind die Übergänge von Random-, Hilfe- und Nomatch Prompts zum Dialogprompt anfällig für schlecht zusammengesetzte Audiofiles. Wichtig ist auch die Stimmung des Sprechers, der die Audiofiles vorher im Tonstudio aufgenommen hat. Die Tonality und Lautstärke sollte zwischen den konkatenierten Audiodaten gleichbleibend sein, da sonst ein Bruch im Dialog entsteht. Eine unkontinuierliche Persona wirkt stets unnatürlich. Die größte Herausforderung scheint aber die natürliche Wiedergabe von Daten in IVRs zu sein. Bei großen und sich ändernden Datenbeständen wird für die Sprachausgabe meist eine TTS-Engine eingesetzt. Diese künstlichen Stimmen haben den Vorteil, wirtschaftlicher zu sein, als alle eventuellen Datenbestände im Tonstudio aufzunehmen. Auf der anderen Seite entsteht beim Anrufer fast immer der Eindruck mit einem Roboter zu telefonieren. Eine andere Möglichkeit Datenbestände wiederzugeben, ist die Verwendung von vorher aufgenommenen Audiodaten, die konkateniert werden. Diese Methode wird bei überschaubaren Datensätzen wie z.B.Nummern, Geldbeträgen oder Uhrzeiten angewandt. Konkatenierte Datensätze klingen - richtig angewandt - schon recht natürlich im Gegensatz zu TTS-Stimmen. Von einer wirklich natürlichsprachlichen Ausgabe seitens der Systeme scheinen wir dennoch weit entfernt zu sein. Die Sprechtempi unterscheiden sich zu oft zwischen der Datenausgabe und dem vorangegangenem Prompt oder die Stimmungen der einzelnen Dateien passen einfach nicht zueinander. 3. Was kann man besser machen? Um ein natürlich klingendes Produkt zu schaffen, ist die enge Zusammenarbeit zwischen Tonstudio und Dialog-Designern von größter Wichtigkeit. Zum einen sollte der Sprecher im Tonstudio verstehen können, wie die einzelnen Prompts miteinander kombiniert werden, denn nur dann kann er durch Nuancierung und Bindungen der Betonungen ein harmonisches Zusammenspiel der Audiodaten erreichen. Gerade in der Vorbereitung einer Aufnahmesession sollte Wert auf ein sorgfältiges Aufnahmedokument gelegt werden. Numerisch generierte Promptlisten schaffen es oft nicht, einen Eindruck zu vermitteln, wie der Dialog ablaufen soll. Ein Aufnahmedokument hingegen, das der Dialogstruktur folgt, trägt viel zur Natürlichkeit eines Systems bei: Die Kontinuität der Persona bleibt erhalten. Auch der aufnehmende Techniker (bzw. der Editierer der Aufnahmen) sollte etwas vom Konkatenieren verstehen. Gerade bei der Auswahl unter mehreren Sprechertakes sollten die am besten harmonisierenden Audiofiles ausgesucht werden. Nicht immer eine leichte Aufgabe. Vor allem dann nicht, wenn das Zusammenspiel der Audiodateien mehrdeutig ist. Auch bei der Wiedergabe von Datenbeständen kann man einiges verbessern. Bei IVRs, die auf eine TTS-Engine angewiesen sind, ist es z.B. möglich, Aufnahmen mit der gleichen Stimme zu realisieren, die die TTS-Stimme eingesprochen hat. Das Ergebnis wäre eine gleich bleibende Stimme für die Daten (TTS-Ausgabe) und für die Dialogprompts (Studiosprecher). Der Benutzer nimmt somit keinen gravierenden Bruch in der Stimmung des Systems wahr. Eine andere Möglichkeit, TTS-Engines ohne gravierenden Natürlichkeitsverlust einzusetzen, ist die Einbindung in ein pfiffiges Gesamtkonzept. Beispiele gibt es hier schon am Markt. Im Preisvergleich der 11864 wird der Benutzer z.B. einfach an einen Assistenten weitergeleitet, der dann die TTS Ausgabe übernimmt. Einfach und gut gelöst. Bei konkatenierten Datenbeständen, die auf eine TTS-Engine verzichten können, gibt es ebenfalls Verbesserungsmöglichkeiten. Speziell bei der Wiedergabe von numerischen Ziffern, wie z.B. Telfonnummern, Passwörtern, PINs etc. fällt auf, dass diese oft roboterhaft zusammengesetzt klingen. Das liegt zum Teil daran, dass viele Systeme nur eine, maximal zwei Betonungen für eine Ziffer aufnehmen. Viel natürlicher hingegen klingen drei Betonungen: Initial, medial und final. Betrachten wir beim Sprechen die Zahl 9873, so stellen wir fest, dass die erste Ziffer initial, die nächsten beiden medial und die letzte Ziffer final betont gesprochen wird. Sicherlich bedeutet die Einführung einer dritten Betonungsart einiges an Mehraufwand für den Programmierer, das Ergebnis spricht jedoch für sich. Eine weitere Möglichkeit, Zahlen und numerische Ziffern natürlicher wiederzugeben ist die Verwendung von Zahlenpaaren in der Audioausgabe. Dadurch wird zwar der Recordingaufwand erhöht, da anstatt von 20 Ziffern (10 initial und 10 final) 200 Ziffern aufgenommen werden müssen. Aber auch hier ist das Ergebnis deutlich natürlicher. Besonderes Augenmerk sollte auch auf das richtige Timing und die Betonung der zu konkatenierten Audiofiles gelegt werden. Eine wirkliche Herausforderung, grade bei der Aufnahme im Tonstudio mit dem Voice Talent. Nur wirklich gute Sprecher sind erfahrungsgemäß in der Lage, dieser hohen Anforderung gerecht zu werden. Es verlangt viel Disziplin und Können hunderte von Audiodaten gleichmäßig zu betonen - ohne Schwankungen in der Stimmung und ohne Timingverlust. Doch es geht! Damit aber noch nicht genug. Besonders im Editingprozess (Schnitt und Bearbeitung) der Audiodateien muss beachtet werden, wie die einzelnen Audiofiles untereinander zusammenpassen. Denn eine gute Betonung und eine saubere Aufnahme erzeugen noch keinen natürlich klingenden Satz. Grade der gezielte Einsatz von Pausen im Editingprozess schafft erst eine natürliche Satzmelodie. Fazit Einen natürlich klingenden Gesprächspartner zu kreieren ist meiner Meinung nach derzeit zwar noch eine große Herausforderung, aber nicht unlösbar. Programmierer, Dialog-Designer und Tonstudio müssen einfach schon frühzeitig im Projektablauf gewerkeübergreifend zusammenarbeiten, um konzeptionell festzulegen, wie die höchstmögliche Natürlichkeit in der Audioausgabe zu realisieren ist. Christian Schneider Sounddesigner und Multimediaproduzent, dynamic audio Der Sounddesigner und Multimediaproduzent Christian Schneider ist Mitgründer von dynamic audio - dem Full Service Spezialisten für Audioproduktionen im Multimediabereich. Gemeinsam mit dem Projektmanager und Audio Engineer Jonathan Buttmann bilden sie das Kernteam des Unternehmens. Unterstützt wird das Team durch ein breites Spektrum an freien Sprechern, Sounddesignern, Textern, Konzeptern und Linguisten. dynamic audio verfügt über ein professionell ausgestattetes Tonstudio, eine umfangreiche Soundlibary sowie einen großen, mehrsprachigen Sprecherpool.

Kommentare

12. Jun 12

Meldung teilen

Bewerten Sie diesen Artikel

Hinweis Für den Inhalt der Pressemitteilung ist der Einsteller, dynamicaudio, verantwortlich.

Pressemitteilungstext: 1194 Wörter, 9391 Zeichen. Artikel reklamieren

Keywords

Diese Pressemitteilung wurde erstellt, um bei Google besser gefunden zu werden.

Tragen Sie jetzt Ihre kostenlose Pressemitteilung ein!