Schema fur den ?Vocoder“ von Homer Dudley (1940)
Unter
Sprachsynthese
versteht man die kunstliche Erzeugung der menschlichen
Sprechstimme
. Durch
Text-to-Speech
(
TTS
) (oder
Vorleseautomat
) wird
Fließtext
in eine akustische
Sprachausgabe
uberfuhrt.
Genugend Rechenleistung vorausgesetzt, verwendet man heute sog.
Tiefe Neuronale Netze
(DNN), die man mit vielen Stunden hochwertiger Sprachaufnahme anlernt,
englisch
Deep learning speech synthesis
.
Bis Mitte der 2010er-Jahre verwendete man den analytischen Ansatz. Dabei wird der Text uber mehrere Zwischenstufen zu Sprache gewandelt, diese sind meist: Eingangstext, Lautschrift, Phoneme, Aneinanderstellung von aufgenommenen oder synthetisierten Diphonen. Ein besonderes Problem ist die Erzeugung einer naturlichen Sprachmelodie (
Prosodie
).
Die Herkunft der Diphone unterscheidet grundsatzlich zwischen zwei Methoden. Das Signal kann durch die sogenannte physiologische (artikulatorische) Modellierung vollstandig im Rechner erzeugt werden. Oder aber es wird auf Sprachaufnahmen (
Samples
) zuruckgegriffen, was teilweise auch als Signalmodellierung bezeichnet wird.
Wahrend die geschichtlich ersten Systeme auf
Formantsynthesen
beruhten, basierten die bisher industriell eingesetzten Systeme vorwiegend auf Signalmodellierung.
Nachbau der ?Sprechmaschine“ von Wolfgang von Kempelen (2009)
Nachbau der Konstruktion von Hermann von Helmholtz (1865)
Demonstration des ?Voders“ 1939
Schon lange vor der Erfindung der elektronischen
Signalverarbeitung
versuchten Wissenschaftler Maschinen zu konstruieren, die menschliche Sprache erzeugen konnen.
Gerbert von Aurillac
(1003) wird ein aus Bronze gefertigter ?Sprechender Kopf“ zugeschrieben, von dem berichtet wurde, dass er ?ja“ und ?nein“ sagen konnte. Wohl eher in den Bereich der Legenden gehoren die Apparate von
Albertus Magnus
(1198?1280) und
Roger Bacon
(1214?1294).
Der deutsche, in Kopenhagen tatige Wissenschaftler
Christian Kratzenstein
baute 1779 aufgrund eines Preisausschreibens der St. Petersburger Akademie eine ?Sprachorgel“, die durch freischwingende
Lingualpfeifen
mit dem menschlichen
Vokaltrakt
nachgebildeten Resonatoren funf lange
Vokale
(a, e, i, o und u) synthetisieren konnte.
Wolfgang von Kempelen
entwickelte bereits seit ca. 1760 eine
Sprechmaschine
, die er 1791 in seiner Veroffentlichung ?Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine“ darstellte. Diese Synthese basierte wie Kratzensteins auf einem Blasebalg als Lungenaquivalent, die eigentliche Anregung geschah aber erheblich anatomienaher durch eine einzelne, aufschlagende Lingualpfeife. Damit waren einige Vokale und auch Plosive moglich. Daruber hinaus ließen sich uber verschiedene Mechanismen einige Frikative darstellen. An den Stimmbandern schloss ein Ledertubus an, der durch eine Hand verformt werden konnte, und so die variable Geometrie und Resonanzverhalten des Vokaltrakts nachbildete. Von Kempelen schrieb:
?in einer Zeit von drei Wochen eine bewundernswerte Fertigkeit im Spielen erlangen, besonders wenn man sich auf die lateinische, franzosische oder italienische Sprache verlegt, denn die deutsche ist
[aufgrund der haufigen Konsonantenbundel]
um vieles schwerer.“
Charles Wheatstone
baute 1837 eine
Speaking Machine
, die auf diesem Entwurf beruht, ein Nachbau findet sich im
Deutschen Museum
. 1857 baute
Joseph Faber
die
Euphonia
, die ebenso diesem Prinzip folgt.
Ende des 19. Jahrhunderts entwickelte sich das Interesse weg vom Nachbau menschlicher Sprachorgane (genetische Sprachsynthese), hin zur Simulation des akustischen Raumes (gennematische Sprachsynthese). So synthetisierte
Hermann von Helmholtz
erstmals Vokale mit Hilfe von Stimmgabeln, die auf die Resonanzfrequenzen des Vokaltraktes in bestimmten Vokalstellungen abgestimmt waren. Diese Resonanzfrequenzen werden als
Formanten
bezeichnet. Sprachsynthese durch Kombination von Formanten war technischer Mainstream bis in die Mitte der 1990er Jahre.
In den
Bell Labs
wurde in den 1930ern der
Vocoder
, ein tastaturgesteuerter elektronischer Sprachsynthesizer entwickelt, uber den gesagt wurde, dass er klar verstandlich war. Homer Dudley verbesserte diese Maschine zum
Voder
, der in der
Weltausstellung 1939
prasentiert wurde. Der Voder benutzte elektrische Oszillatoren zur Erzeugung der Formantfrequenzen.
Die ersten computerbasierten Sprachsynthesesysteme wurden in den spaten 1950ern entwickelt, das erste komplette Text-To-Speech-System 1968 fertiggestellt. Der Physiker
John Larry Kelly, Jr
entwickelte 1961 bei den Bell Labs eine Sprachsynthese mit einem
IBM 704
und ließ ihn das Lied
Daisy Bell
singen. Der Regisseur
Stanley Kubrick
war davon so beeindruckt, dass er es in den Film
2001: A Space Odyssey
integrierte.
Wahrend fruhe elektronische Sprachsynthesen noch sehr roboterhaft klangen und teilweise schwer verstandlich waren, erreichen sie etwa seit der Jahrtausendwende eine Qualitat, bei der es mitunter schwierig ist, sie von menschlichen Sprechern zu unterscheiden. Das ist hauptsachlich der Tatsache zu verdanken, dass sich die Technologie von der eigentlichen Synthese des Sprachsignals abgewandt hat und sich darauf konzentriert, aufgenommene Sprachsegmente optimal zu verketten.
[1]
[2]
[3]
Zahlreiche Webseiten und Online-Anbieter bieten frei zugangliche oder kommerzielle Nachbildungen von zum Teil prominenten Stimmen fiktiver oder realer Vorlagen an, um individualisierte Audiodateien zu erstellen.
Sprachsynthese setzt eine Analyse der menschlichen Sprache voraus, bezuglich der
Phoneme
, aber auch der Prosodie, weil eben ein Satz allein durch die Satzmelodie unterschiedliche Bedeutungen haben kann.
Was den Syntheseprozess an sich betrifft, gibt es verschiedene Methoden. Gemeinsam ist allen Methoden, dass sie auf eine Datenbank zuruckgreifen, in der charakteristische Informationen uber Sprachsegmente hinterlegt sind. Elemente aus diesem Inventar werden zur gewunschten Außerung verknupft. Sprachsynthesesysteme lassen sich anhand des Inventars der Datenbank und insbesondere der Methode zur Verknupfung klassifizieren. Tendenziell fallt die Signalsynthese umso einfacher aus, je großer die Datenbank ist, da diese dann bereits Elemente enthalt, die der gewunschten Außerung naher sind und weniger Signalbearbeitung notwendig ist. Aus dem gleichen Grund gelingt bei einer großen Datenbank meistens eine naturlicher klingende Synthese.
Eine Schwierigkeit der Synthese liegt in dem Aneinanderfugen von Inventarelementen. Da diese aus verschiedenen Außerungen stammen, unterscheiden sie sich auch in der Lautstarke, der Grundfrequenz und der Lage der Formanten. Bei einer Vorverarbeitung der Datenbank oder beim Verbinden der Inventarelemente mussen diese Unterschiede moglichst gut ausgeglichen werden
(Normalisierung)
, um nicht die Qualitat der Synthese zu beeintrachtigen.
Die Unit Selection liefert die beste Qualitat besonders bei einer eingeschrankten
Domane
. Die Synthese verwendet eine große Sprachdatenbank, in der jede aufgenommene Außerung in einige oder alle der folgenden Einheiten segmentiert wird:
Diese Segmente werden mit einem Verzeichnis von einer Reihe akustischer und phonetischer Eigenschaften wie Grundfrequenzverlauf, Dauer oder Nachbarn gespeichert.
Fur die Synthese werden durch spezielle
Suchalgorithmen
, gewichtete
Entscheidungsbaume
, eine Reihe von moglichst großen Segmenten bestimmt, die der zu synthetisierenden Außerung hinsichtlich dieser Eigenschaften moglichst nahekommen. Da diese Reihe ohne oder mit wenig Signalverarbeitung ausgegeben wird, bleibt die Naturlichkeit der gesprochenen Sprache erhalten, solange wenige Verkettungsstellen erforderlich sind.
Anfang des 21. Jahrhunderts durchgefuhrte Experimente haben gezeigt, dass die korrekte Wiedergabe der Lautubergange wesentlich fur die Verstandlichkeit der Sprachsynthese ist.
Um alle Lautubergange zu speichern, wird eine Datenbasis mit etwa 2500 Eintragen verwendet. Darin ist jeweils der Zeitbereich des stationaren Teils, die Phonemmitte eines Phonems, bis zum stationaren Teil des folgenden Phonems abgespeichert. Fur die Synthese werden die Informationen entsprechend zusammengefugt (
konkateniert
).
Weitere
Koartikulationseffekte
, die viel zur Naturlichkeit der Sprache beitragen, konnen durch umfangreichere Datenbasen berucksichtigt werden. Ein Beispiel dafur ist
Hadifix
, das
Ha
lbsilben,
Di
phone und Suf
fix
e enthalt.
Die Signalerzeugung gibt die gewunschten Segmente aus der Datenbank mit dem vorgegebenen Grundfrequenzverlauf wieder. Diese Auspragung des Grundfrequenzverlaufs kann auf verschiedene Arten geschehen, worin sich die folgenden Verfahren unterscheiden.
Bei Synthesen, die eine Quelle-Filter-Separation verwenden, wird eine Signalquelle mit periodischer Signalform verwendet. Deren Periodenlange wird passend zur Grundfrequenz der zu synthetisierenden Außerung eingestellt. Dieser Anregung wird je nach Phonemtyp zusatzlich Rauschen beigemischt. Die abschließende Filterung pragt die lautcharakteristischen Spektren auf. Vorteilhaft bei dieser Klasse von Verfahren ist die einfache Grundfrequenzsteuerung der Quelle. Ein Nachteil ergibt sich durch die in der Datenbank gespeicherten Filterparameter, deren Bestimmung aus Sprachproben schwierig ist. Je nach Art des Filters bzw. der zugrunde liegenden Sichtweise des Sprechens unterscheidet man die folgenden Verfahren:
Die Formantsynthese beruht auf der Beobachtung, dass es zur Unterscheidung der Vokale genugt, die ersten zwei
Formanten
treffend zu reproduzieren. Jeder Formant wird durch einen in der
Mittenfrequenz
und
Gute
steuerbaren
Bandpass
, ein Polfilter 2. Ordnung, nachgebildet. Die Formantsynthese ist durch analoge elektronische Schaltungen vergleichsweise einfach realisierbar.
Das akustische Modell bildet die gesamten Resonanzeigenschaften des
Vokaltrakts
durch einen geeigneten Filter nach. Haufig wird der Vokaltrakt dazu vereinfacht als Rohr variablen Querschnitts betrachtet, wobei Quermoden vernachlassigt werden, da die seitliche Ausdehnung des Vokaltrakts klein ist. Die Querschnittsanderungen werden weiterhin durch aquidistante Querschnittssprunge approximiert. Ein haufig gewahlter Filtertyp ist der
Kreuzgliedketten-Filter
, bei dem eine direkte Beziehung zwischen Querschnitt und Filterkoeffizient besteht.
[4]
Diese Filter sind eng verwandt mit dem
Linear Predictive Coding
(LPC), das ebenfalls fur Sprachsynthesen eingesetzt wird. Bei dem LPC werden ebenfalls die gesamten Resonanzeigenschaften berucksichtigt, es besteht jedoch kein direkter Zusammenhang zwischen Filterkoeffizienten und Querschnittsverlauf des Vokaltrakts.
Die artikulatorische Synthese stellt gegenuber dem akustischen Modell eine Beziehung zwischen der
Stellung der Artikulatoren
und dem daraus resultierenden Querschnittsverlauf des Vokaltrakts her. Hier kommen zur Nachbildung der Resonanzcharakteristik neben zeitdiskreten Kreuzgliedkettenfiltern auch Losungen der zeitkontinuierlichen Horngleichung zum Einsatz, aus denen das Zeitsignal durch
Fouriertransformation
gewonnen wird.
Pitch Synchronous Overlap Add, abgekurzt PSOLA, ist ein Syntheseverfahren, bei dem sich in der Datenbank Aufzeichnungen des Sprachsignals befinden. Sofern es sich um periodische Signale handelt, sind diese mit einer Information uber die Grundfrequenz (Pitch) versehen und der Anfang jeder Periode ist markiert. Bei der Synthese werden diese Perioden mit einem bestimmten Umfeld mittels einer
Fensterfunktion
ausgeschnitten und dem zu synthetisierenden Signal an passender Stelle hinzuaddiert: Je nachdem ob die gewunschte Grundfrequenz hoher oder tiefer liegt als die des Datenbankeintrags, werden sie entsprechend dichter oder weniger dicht als in dem Original zusammengefugt. Zur Anpassung der Lautdauer konnen Perioden entfallen oder doppelt ausgegeben werden. Dieses Verfahren wird auch als TD-PSOLA oder PSOLA-TD (TM) bezeichnet, wobei TD fur Time Domain steht und hervorhebt, dass die Verfahren im Zeitbereich arbeiten.
Eine Weiterentwicklung ist das Multi Band Resynthesis OverLap Add ? Verfahren, kurz
MBROLA
. Hier werden die Segmente in der Datenbank durch eine Vorverarbeitung auf eine einheitliche Grundfrequenz gebracht und Phasenlage der Harmonischen wird normalisiert. Dadurch entstehen bei der Synthese eines Ubergangs von einem Segment auf das nachste weniger perzeptiv wahrnehmbare Storungen und die erzielte Sprachqualitat ist hoher.
Diese Syntheseverfahren sind mit der
Granularsynthese
verwandt, die in Klangerzeugung und -verfremdung bei elektronischer Musikproduktion zum Einsatz kommt.
Die parametrische Sprachsynthese ist eine Gruppe von Verfahren, welche auf stochastischen Modellen basieren. Bei diesen Modellen handelt es sich entweder um
Hidden Markov Modelle (HMM)
, um stochastische Markov-Graphen (SMG), oder neuerdings auch um eine Kombination dieser beiden. Grundprinzip ist, dass die aus einer Textvorverarbeitung gewonnenen, symbolischen Phonemfolgen eine statistische Modellierung durchlaufen, indem sie zunachst in Segmente zerlegt und jedem dieser Segmente sodann ein bestimmtes Modell aus einer bestehenden Datenbasis zugeordnet wird. Jedes dieser Modelle wiederum wird durch eine Reihe von
Parametern
beschrieben und schließlich mit den anderen Modellen verkettet. Die Verarbeitung zu einem kunstlichen Sprachsignal, das sich an den besagten Parametern orientiert, schließt die Synthese dann ab. Im Falle der Verwendung flexiblerer, stochastischer Markov-Graphen, lasst sich ein solches Modell sogar insofern optimieren, als dass ihm vorab und mittels Zufuhrung von Beispielen naturlicher Sprache eine gewisse Grundnaturlichkeit antrainiert werden kann. Statistische Verfahren dieser Art entstammen dem kontraren Bereich der
Spracherkennung
und motivieren sich durch Erkenntnisse uber den Zusammenhang zwischen der Wahrscheinlichkeit einer bestimmten, gesprochenen Wortfolge und der dann zu erwartenden, ungefahren Sprechgeschwindigkeit, oder ihrer Prosodie.
[5]
[6]
[7]
Die Nutzung von Sprachsynthese-Software muss kein Selbstzweck sein. Menschen mit Sehbehinderungen ? z. B.
Grauem Star
oder altersbedingter
Makuladegeneration
? nutzen TTS-Softwarelosungen, um sich Texte direkt am Bildschirm vorlesen zu lassen.
Blinde
Menschen konnen einen Computer mittels einer
Screenreader
-Software bedienen und bekommen Bedienelemente und Textinhalte angesagt. Aber auch Dozenten nutzen die Sprachsynthese fur die Aufzeichnung von Vortragen. Ebenso nutzen Autoren TTS-Software, um selbst geschriebene Texte auf Fehler und Verstandlichkeit hin zu prufen.
Ein weiteres Einsatzgebiet findet sich in Form von Software, die das Erzeugen von
MP3-Dateien
erlaubt. Hierdurch kann Sprachsynthese-Software fur die Erzeugung einfacher
Podcasts
bzw.
Audioblogs
genutzt werden. Erfahrungsgemaß kann die Produktion von Podcasts bzw. Audioblogs sehr zeitintensiv sein.
Bei der Arbeit mit US-amerikanischer Software ist zu beachten, dass die vorhandenen Stimmen von unterschiedlicher Gute sind. Englische Stimmen haben eine hohere Qualitat als deutsche. Eine Ursache ist die reduzierte Verfugbarkeit großerer deutscher Sprachdatenbanken, welche als Grundlage fur das Training eines kunstlichen Modells erforderlich sind. Das deutschsprachige Projekt
Thorsten (Stimme)
versucht diese Lucke zu schließen. Eine 1:1-Kopie der Texte in eine TTS-Software kann nicht empfohlen werden, eine Nachbearbeitung ist in jedem Fall notig. Dabei geht es nicht nur um das Ersetzen von Abkurzungen und Zahlen in geschriebenen Text, auch das Einfugen von Satzzeichen ? auch wenn diese grammatikalisch nicht korrekt sind ? kann helfen, um auf das Satztempo Einfluss zu nehmen. Deutsche ?Ubersetzungen“ mit Anglizismen stellen fur die Sprachsynthese i. d. R. ein unuberwindbares Problem dar.
Haufige Anwendungen sind Ansagen in Telefon- und in Navigationssystemen und automatische Haltestellenansagen in Verkehrsmitteln.
Amiga SoftVoice Sprachsynthese
- AnalogX SayIt
- Aristech
- Audiodizer
- Balabolka (Freeware, 26 Sprachen,
SAPI4 und SAPI5
)
- BOSS, entwickelt am Institut fur Kommunikationswissenschaften der
Universitat Bonn
- Browsealoud von textHELP
- Cepstral Text-to-Speech
- CereProc
- Coqui AI
[8]
[9]
- DeskBot
- espeak
(Open Source, viele Sprachen, SAPI5)
- Festival
- Festvox
- FreeTTS
(Open Source)
- GhostReader
- Gnuspeech
- Infovox
- IVONA Text-to-Speech
- Linguatec
Voice Reader 15
- Logox Clipreader
- Loquendo TTS
- MacinTalk und narrator.device von SoftVoice
- MARY Text-To-Speech entwickelt vom DFKI Language Technology Lab
- MBROLA
[10]
unterschiedliche Stimmen (fertigen Phoneme) in verschiedenen Sprachen, die von Sprachsynthesesoftware wie eSpeak oder Festival benutzt werden konnen.
[11]
- Modulate
[12]
Software zur Stimmkonversion, benutzt
Generative Adversarial Networks
[13]
- Mozilla
TTS
[14]
- MWS Reader
Sprachausgabe
- NaturalReader von NaturalSoft
- OnScreenVoices von tom weber software
- ReadSpeaker: Webseiten vorlesen und Podcasting
- Realspeak von Nuance (ehem. ScanSoft), jetzt Kobaspeech 3
- SAM von Don’t Ask Software
[15]
- SpeechConcept
- Sprechomat
- libttspico-utils von SVOX (Kommandozeilen gesteuerte Sprachsynthese in Deutsch, Englisch (GB und US), Spanisch, Franzosisch und Italienisch)
[16]
- Synte 2 wurde ab 1977 durch Raimo O. Toivonen entwickelt. Ihm ging das Forschungsprojekt VAMKOM voraus,
finnisch
Vammaisten kommunikaatiovalineiden kehittaminen
‚Entwicklung von Kommunikationsgeraten fur Behinderte‘
. Es lief in Tampere in den Jahren 1975?1978 und war der Beginn der finnischen mikroprozessorgestutzten Sprachtechnologie.
- Synte 3 war ein Formanten-Sprachsynthesizer. Er wurde in einem kommerziellen Projekt in den Jahren 1980?1981 zunachst am Fachbereich fur Elektronik der
Technischen Universitat Tampere
entwickelt. Es wurde unter den Assistenzprofessoren Matti A. Karjalainen, Unto K. Laine und Raimo O. Toivonen entwickelt.
- SPL1 Forschungs-Sprachsynthesizer (
finnisch
SPL1-tutkimuspuhesyntetisaattori
) wurde von 1981 bis 1983 in Tampere fur den akademischen Gebrauch entwickelt. Er basierte auf der kommerziellen PARCAS-Soundkarte von Euroka Oy und der Vocom SPS2-Sprachanalyse-Hardware. Der SPL1 wurde von Grund auf neu programmiert und fand in der Forschung bis Mitte der 1980er Jahre Anwendung.
- SYNVO
- Tacotron (Google)
[17]
- Text Aloud MP3
- Toshiba ToSpeak
- TTS Robot
- virsyn CANTOR Vokalsynthese
- Virtual Voice
- Votrax
- SC-01A (analog formant)
- SC-02 / SSI-263 / ?Arctic 263“
- General Instrument
Speech Processor
- SP0250
- SP0256-AL2 ?Orator“ (CTS256A-AL2)
- SP0264
- SP1000
- Mullard MEA8000
[18]
- National Semiconductor DT1050 Digitalker (Mozer)
- Silicon Systems SSI 263 (analog formant)
- Texas Instruments
- Oki
Semiconductor
- MSM5205
- MSM5218RS (ADPCM)
- Toshiba T6721A C²MOS Voice Synthesizing LSI
- Karlheinz Stober, Bernhard Schroder, Wolfgang Hess:
Vom Text zur gesprochenen Sprache.
In:
Henning Lobin
,
Lothar Lemnitzer
(Hrsg.):
Texttechnologie. Perspektiven und Anwendungen.
Stauffenburg, Tubingen 2004,
ISBN 3-86057-287-3
, S. 295?325.
- Jessica Riskin:
Eighteenth-Century Wetware.
In:
Representations.
Bd. 83, Nr. 1, 2003,
ISSN
0734-6018
, S. 97?125,
doi
:
10.1525/rep.2003.83.1.97
.
- James L. Flanagan:
Speech Analysis, Synthesis and Perception
(=
Kommunikation und Kybernetik in Einzeldarstellungen.
Bd. 3). 2nd edition. Springer, Berlin u. a. 1972,
ISBN 3-540-05561-4
. 1. Aufl. 1965, 3. Aufl. 2008
[19]
- Ville Pulkki,
Matti Karjalainen
:
Communication Acoustics: An Introduction to Speech, Audio and Psychoacoustics.
John Wiley & Sons, 2015,
ISBN 978-1-118-86654-2
.
Geschichte
Systeme
Webinterfaces
- ↑
Dennis Klatt’s History of Speech Synthesis
(
Memento
vom 4. Juli 2006 im
Internet Archive
)
- ↑
Sami Lemmetty:
History and Development of Speech Synthesis.
In:
Review of Speech Synthesis Technology.
HELSINKI UNIVERSITY OF TECHNOLOGY, 1. Juni 1999,
abgerufen am 14. Marz 2019
(englisch).
- ↑
Arne Hoxbergen:
Die Geschichte der Sprachsynthese anhand einiger ausgewahlter Beispiele
(PDF; 490 kB).
Berlin 2005.
- ↑
Karl Schnell:
Rohrmodelle des Sprechtraktes.
Frankfurt 2003.
- ↑
Patent
DE10040991C1
:
Verfahren zur parametrischen Synthese von Sprache.
Angemeldet am
18. August 2000
, veroffentlicht am
27. September 2001
, Anmelder: Technische Universitat Dresden, Erfinder: Matthias Eichner, Matthias Wolf.
- ↑
Diplomarbeit_Breitenbuecher
(
Memento
des
Originals
vom 24. Januar 2012 im
Internet Archive
)
Info:
Der Archivlink wurde automatisch eingesetzt und noch nicht gepruft. Bitte prufe Original- und Archivlink gemaß
Anleitung
und entferne dann diesen Hinweis.
@1
@2
Vorlage:Webachiv/IABot/www.ims.uni-stuttgart.de
- ↑
Archivierte Kopie
(
Memento
vom 21. Juli 2014 im
Internet Archive
)
- ↑
Homepage Coqui AI -
https://coqui.ai
- ↑
coqui.
In:
GitHub
.
Abgerufen am 1. Marz 2024
(englisch).
- ↑
Welcome to MBROLA project.
In:
GitHub
.
UMONS Institute for Creative Technologies, 30. Januar 2022,
abgerufen am 30. Januar 2022
(englisch).
- ↑
Sprachausgabe.
In:
Wiki.ubuntuusers.de.
Abgerufen am 30. Januar 2022
.
- ↑
Modulate: Unlock your voice.
Abgerufen am 14. Marz 2019
.
- ↑
Technology Review:
Sprechen wie Barack Obama.
14. Marz 2019,
abgerufen am 14. Marz 2019
.
- ↑
mozilla/TTS.
Mozilla, 7. Februar 2021,
abgerufen am 7. Februar 2021
.
- ↑
https://simulationcorner.net/index.php?page=sam
- ↑
libttspico-utils - Paketbeschreibung bei Debian
- ↑
Sebastian Gruner:
Tacotron 2: Googles Sprachsynthese erreicht fast menschliche Qualitat - Golem.de.
In:
golem.de.
21. Dezember 2017,
abgerufen am 14. Marz 2019
.
- ↑
http://vesta.homelinux.free.fr/wiki/le_synthetiseur_vocal_mea_8000.html
- ↑
Speech Analysis Synthesis and Perception
(pdf)