Síntesi de veuLa síntesi de parla és la producció artificial de parla humana. Un sistema usat amb aquest propòsit rep el nom de sintetitzador de parla i es pot dur a terme en programari o en maquinari. La síntesi de veu es diu sovint en anglès text-to-speech (TTS) , en referència a la seva capacitat de convertir text en parla. No obstant això, hi ha sistemes que enlloc de produir veu a partir d'un text ho fan a partir de representació lingüística simbòlica en parla. La veu sintètica és una veu artificial (no pregravada), generada mitjançant un procés de sintetització de la parla. La qualitat d'una veu sintètica vindrà donada per:
Visió general de la tecnologia de síntesi de veuUn sistema text a veu es compon de dues parts: un front-end i un back-end . A grans trets, el front-end pren com entrada text i produeix una representació lingüística fonètica. El back-end pren com entrada la representació lingüística simbòlica i produeix una forma d'ona sintetitzada. El front-end exerceix dues tasques principals. Primer, pren el text i converteix parts problemàtiques com nombres i abreviatures en paraules equivalents. Aquest procés es diu sovint normalització de text o preprocessat. Llavors assigna una transcripció fonètica a cada paraula, i divideix i marca el text en diverses unitats prosòdiques, com frases i oracions. El procés d'assignar transcripcions fonètiques a les paraules rep el nom de conversió text a fonema (TTP en anglès) o grafema a fonema (GTP en anglès). La combinació de transcripcions fonètiques i informació prosòdica constitueix la representació lingüística fonètica . L'altra banda, el back-end, pren la representació lingüística simbòlica i la converteix en so. El back-end es diu sovint sintetitzador . HistòriaMolt abans del desenvolupament del processament de senyal modern, els investigadors de la veu van intentar crear màquines que produïssin parla humana. El Papa Silvestre II (1003), Albert Magne (1198-1280) i Roger Bacon (1214-1294) van crear exemples primerencs de 'caps parlants'. En 1779, el científic danès Christian Gottlieb Kratzenstein, que treballava en aquesta època en Acadèmia Russa de les Ciències, va construir models del tracte vocal que podria produir les cinc vocals llargues (a, i, i, o, o). Wolfgang von Kempelen de Viena, Àustria, va descriure en la seva obra Mechanismus der menschlichen Sprache nebst der Beschreibung seine sprechenden Maschine ("mecanisme de la parla humana amb descripció de la seva màquina parlant", JB Degen, Wien) una màquina accionada amb una manxa. Aquesta màquina tenia, a més, models de la llengua i els llavis, per produir consonants, així com a vocals. el 1837 Charles Wheatstone va produir una 'màquina parlant' basada en el disseny de von Kempelen, i el 1857 M. Faber va construir la màquina 'Euphonia'. El disseny de Wheatstone va ser ressuscitat el 1923 per Paget. En els anys 30, els laboratoris Bell Labs van desenvolupar el vocoder, un analitzador i sintetitzador de la parla operat per teclat que era clarament intel·ligible. Homer Dudley va refinar aquest dispositiu i creà VODER, que va exhibir a l'Exposició Universal de Nova York de 1939. Els primers sintetitzadors de veu sonaven molt robòtics i eren sovint intel·ligibles amb prou feines. No obstant això, la qualitat de la parla sintetitzada ha millorat en gran manera, i el resultat dels sistemes de síntesi contemporanis és, de vegades, indistingible de la parla humana real. Malgrat l'èxit dels sintetitzadors purament electrònics, segueix investigant-se en sintetitzadors mecànics per al seu ús en robots humanoides. Fins i tot el millor sintetitzador electrònic està limitat per la qualitat del transductor que produeix el so, així que en un robot un sintetitzador mecànic podria ser capaç de produir un so més natural que un altaveu petit. El primer sistema de síntesi computat va ser creat a finals de la dècada de 1950 i el primer sistema complet text a veu es va finalitzar el 1968. Des de llavors s'han produït molts avenços en les tecnologies usades per sintetitzar veu. Tecnologies de síntesiLes dues característiques utilitzades per descriure la qualitat d'un sintetitzador de veu són la naturalitat i intel·ligibilitat . La naturalitat d'un sintetitzador de veu es refereix a fins a quin punt sona com la veu d'una persona real. La intel·ligibilitat d'un sintetitzador es refereix a la facilitat de la sortida de poder ser entesa. El sintetitzador ideal deu ser alhora natural i intel·ligible, i cada tecnologia intenta aconseguir el màxim d'ambdues. Algunes de les tecnologies són millors en naturalitat o en intel·ligibilitat i les metes de la síntesi determinen sovint què aproximació s'ha de seguir. Hi ha dues tecnologies principals usades per generar parla sintètica: síntesi concatenada i síntesi de formantes . Síntesi concatenadaLa síntesi concatenada es basa en la concatenació de segments de veu gravats. Generalment, la síntesi concatenada produeix els resultats més naturals. No obstant això, les diferències entre la variació natural de la parla i les tècniques automatitzades de segmentació de formes d'ona resulten en defectes audibles, que comporten una pèrdua de naturalitat. Hi ha tres tipus bàsics de síntesi concatenada. Síntesi per selecció d'unitatsLa síntesi per selecció d'unitats utilitza una base de dades de veu gravada (més d'una hora de parla gravada). Durant la creació de la base de dades, la parla se segmenta en algunes o totes de les següents unitats: fonemes, sil·labes, paraules, frases i oracions. Normalment, la divisió en segments es realitza usant un reconeixedor de veu modificat per forçar el seu alineament amb un text conegut. Després es corregeix manualment, usant representacions com la forma d'ona i l'espectrograma. Es crea un índex de les unitats a la base de dades basada en paràmetres acústics de la segmentació com la freqüència fonamental, el pitch, la durada, la posició en la síl·laba i els fonemes veïns. En temps d'execució, l'objectiu desitjat es crea determinant la millor cadena de candidats de la base de dades (selecció d'unitats). Aquest procés s'aconsegueix típicament usant un arbre de decisió especialment ponderat. La selecció d'unitats dona la màxima naturalitat a causa del fet que no aplica molt processament digital de senyals a la parla gravada, la qual cosa sovint fa que el so gravat soni menys natural, encara que alguns sistemes usen una mica de processament de senyal en la concatenació per suavitzar les formes d'ona. De fet, la sortida de la millor selecció d'unitats és sovint indistingible de la veu humana real, especialment en contextos en els quals el sistema ha estat adaptat. Per exemple, un sistema de síntesi de veu per donar informacions de vols pot guanyar en naturalitat si la base de dades va ser construïda a base enregistraments d'informacions de vols, doncs serà més probable que apareguin unitats apropiades i fins i tot cadenes senceres en la base de dades. No obstant això, la màxima naturalitat sovint requereix que la base de dades sigui molt àmplia, arribant en alguns sistemes als gigabytes de dades gravades. Síntesi de difònicLa síntesi de difònic fa servir una base de dades mínima contenint tots els difònics que poden aparèixer en un llenguatge donat. El nombre de difònic depèn de la fonotáctica del llenguatge: l'espanyol té uns 800 difònic, l'alemany uns 2.500. En la síntesi de difònic, la base de dades conté un sol exemple de cada difònic. En temps d'execució, la prosòdia d'una oració se sobreimposa a aquestes unitats mínimes mitjançant processament digital de senyals, com codificació lineal predictiva, PSOL o MBROLA. La qualitat de la parla resultant és generalment pitjor que l'obtinguda mitjançant selecció d'unitats però més natural que l'obtinguda mitjançant síntesi de formants. La síntesi difònic pateix dels defectes de la síntesi concatenada i sona robòtica com la síntesi de formantes, i té pocs avantatges respecte a aquestes tècniques a part de la petita mida de la base de dades, així que el seu ús en aplicacions comercials experimenta un declivi, encara que continua usant-se en investigació perquè hi ha unes quantes implementacions lliures. Síntesi específica per a un dominiLa síntesi específica per a un domini concatena paraules i frases gravades per crear sortides completes. S'usa en aplicacions on la varietat de textos que el sistema pot produir està limitada a un particular domini, com anuncis de sortides de trens o informació meteorològica. Aquesta tecnologia és molt senzilla d'implementar, i s'ha usat comercialment durant llarg temps: és la tecnologia usada per aparells com rellotges i calculadores parlants. La naturalitat d'aquests sistemes pot ser molt gran, perquè la varietat d'oracions està limitada i correspon a l'entonació i la prosòdia dels enregistraments originals. No obstant això, pel fet d'estar limitats a unes certes frases i paraules de la base de dades, no són de propòsit general i només poden sintetitzar la combinació de paraules i frases pels quals van ser dissenyats. Síntesi de formantsLa síntesi de formants no usa mostres de parla humana en temps d'execució. En lloc d'això, la sortida es crea usant un model acústic. Paràmetres com la freqüència fonamental i els nivells de soroll es varien durant el temps per crear una forma d'ona o parla artificial. Aquest mètode es coneix també com síntesi basada en regles però alguns addueixen que molts sistemes concatenats usen components basats en regles per a algunes parts dels seus sistemes, com el front-end, així que el terme no és prou específic. Molts sistemes basats en síntesi de formantes generen parla robòtica i d'aparença artificial, i la sortida mai es podria confondre amb la veu humana. No obstant això, la naturalitat màxima no és sempre la meta d'un sintetitzador de veu, i aquests sistemes tenen alguns avantatges sobre els sistemes concatenats. La síntesi de formantes pot ser molt intel·ligible, fins i tot a altes velocitats, evitant els defectes acústics que poden aparèixer amb freqüència en els sistemes concatenats. La síntesi de veu d'alta velocitat és sovint usada pels discapacitats visuals per utilitzar computadors amb fluïdesa. D'altra banda, els sintetitzadors de formantes són sovint programes més petits que els sistemes concatenats perquè no necessiten una base de dades de mostres de veu gravada. D'aquesta forma, poden usar-se en sistemes embeguts, on la memòria i la capacitat de procés són sovint minses. Finalment, atès que els sistemes basats en formants tenen un control total sobre tots els aspectes de la parla produïda, poden incorporar una àmplia varietat de tipus d'entonacions, que no només comprenguin preguntes i enunciacions. Altres mètodes de síntesi
Desafiaments del front-endDesafiaments de la normalització de textEl procés de normalitzar text és poques vegades simple. Els textos estan plens d'homògrafs, nombres i abreviatures que han de ser transformats en una representació fonètica. Per descomptat, en llengües on la correspondència entre el text escrit i el seu equivalent fonètic és poca (anglès) o cap (mandarí), la creació d'aquests sistemes es complica. Molts sistemes de text a veu no generen representacions semàntiques dels textos d'entrades, ja que els sistemes per fer-ho no són fiables o computacionalment efectius. Com a resultat, s'usen diverses tècniques heurístiques per estimar la manera correcta de desambiguar homògrafs, com buscar paraules veïnes i usar estadístiques sobre la freqüència d'aparició de les paraules. Decidir com convertir nombres en paraules és un altre problema que han de solucionar els sintetitzadors de veu. És un desafiament bastant simple programar un sistema que converteixi nombres en paraules, com per exemple transformar 1325 en "1325". No obstant això, els nombres apareixen en diferents contextos, i 1325 pot ser un ordinal, "un tres dues cinc" si són els últims dígits d'un DNI o "tretze vint-i-cinc" si és un número de telèfon. Sovint un sistema de síntesi de veu pot inferir com expandir un nombre en funció de les paraules o números veïns i la puntuació, i alguns sistemes proporcionen un sistema per especificar el tipus de context si és ambigu. De la mateixa manera, abreviatures com " etc. " Es poden transformar fàcilment en "et, etcètera", però sovint les abreviatures pot ser ambigües. Per exemple l'abreviatura " am " pot ser "davant meridiam" en l'exemple: "El vol aterrarà a les 11 am" o pot ser "modulació d'amplitud" o simplement "a ema" en l'exemple "Ens pot trobar a la sintonia 1425 am ". Els sistemes amb front end intel·ligents poden fer estimacions adequades sobre com tractar abreviatures ambigües, mentre que altres poden fer el mateix en tots els casos, donant resultats de vegades còmics. Desafiaments dels sistemes Text a fonemaEls sintetitzadors de veu fan servir dues aproximacions bàsiques al problema de determinar la pronunciació d'una paraula basant-se en la seva pronunciació, un procés que sovint rep el nom de conversió text a fonema o grafema a fonema, atès que fonema és el terme usat pels lingüistes per descriure sons distintius en una llengua. L'aproximació més simple a aquest problema és la basada en diccionaris, en la qual s'emmagatzema al programa un gran diccionari que conté totes les paraules de la llengua i la seva correcta pronunciació. Determinar la pronunciació correcta de cada paraula consisteix a buscar cada paraula en el diccionari i reemplaçar el text amb la pronunciació especificada al diccionari. L'altra aproximació per convertir text en fonemes és l'aproximació basada en regles, on aquestes regles per a la pronunciació de les paraules s'apliquen a paraules per extreure les seves pronunciacions basades en la seva forma escrita. Cada aproximació té avantatges i desavantatges. La tècnica basada en diccionaris té com a avantatges ser ràpida i precisa, però falla completament si una paraula donada no apareix al diccionari, i a mesura que creix el diccionari creixen els requeriments de memòria del sistema de síntesi. D'altra banda, la tècnica basada en regles funciona amb qualsevol entrada, però la complexitat de les regles creix substancialment a mesura que es tenen en compte ortografies i pronunciacions irregulars. Com a resultat, gairebé qualsevol sintetitzador de veu usa una combinació de les dues tècniques. Alguns idiomes, com l'espanyol, tenen un sistema d'escriptura molt regular i la predicció de la pronunciació de paraules basada en el lletreig és gairebé sempre correcta. Els sistemes de síntesi de veu per a aquest tipus de llenguatges generalment usen un enfocament basat en regles com l'enfocament central per a la conversió text-fonema i auxiliant de diccionaris petits per a algunes paraules d'origen estranger la pronunciació no es dedueix de l'escriptura. En altres com l'anglès, atès que es tracta de sistemes molt irregulars en la seva escriptura, l'enfocament es basa principalment en diccionaris i només per paraules no usuals es basa en regles. Problemes de la veu sintètica
En els últims temps han aparegut sintetitzadors que utilitzen veu de dona de qualitat acceptable, però, segueixen sense arribar a la qualitat oferta per un sintetitzador de similars característiques que empri veu masculina. Llenguatges d'etiquetes per a síntesi de veuHi ha un cert nombre de llenguatge d'etiquetes per a la interpretació de text com veu d'acord amb XML. El més recent és SSML, proposat pel W3C, que té actualment categoria d'esborrany. Altres llenguatges d'etiquetes d'aparició anterior són SABRE i JSML. Encara que cada un va ser proposat com un nou estàndard, cap ha estat àmpliament adoptat. Els llenguatges d'etiquetes per a síntesi de veu no són llenguatges d'etiquetes per diàleg com VoiceXML, que inclou, a més d'etiquetes de conversió text a veu, etiquetes relatives a reconeixement de veu i control de diàleg. Vegeu també
Bibliografia
Enllaços externs |