Een spraaksynthesizer neemt tekst als zijn primaire input. Deze tekst kan in verschillende formaten staan:
* PLAATS TEKST: Het meest voorkomende formaat, dat alleen tekens en interpunctie bevat.
* opgemaakte tekst: Bevat opmaakselementen zoals BOLD, cursief en lijnonderbrekingen.
* Fonetische transcripties: Fonetische symbolen gebruiken om de geluiden van de tekst weer te geven.
* prosodische informatie: Aanvullende informatie over het ritme, intonatie en nadruk van de tekst.
Naast tekst, kunnen sommige spraaksynthesizers extra ingangen accepteren:
* spraakparameters: Waardoor gebruikers de gesynthetiseerde stem kunnen aanpassen, zoals geslacht, leeftijd, accent en emotionele toon.
* Audiosignalen: Voor toepassingen zoals realtime spraakconversie, waarbij de synthesizer een bestaand audiosignaal wijzigt.
De manier waarop de synthesizer deze inputs verwerkt, kan sterk variëren, variërend van eenvoudige regelgebaseerde systemen tot complexe diepgaande leermodellen. Het kernprincipe blijft echter hetzelfde: Tekst omzetten in spraaksignalen. |