Summary: | Esta tesis, al centrarse en la generación de voz sintética en el
dominio de las conversaciones virtuales en español, trata dos
aspectos diferentes del proceso de la conversión de texto en habla:
Por un lado, parte de esta investigación gira alrededor de la
normalización-corrección de los mensajes que los usuarios escriben
mientras chatean con amigos o conocidos, cuyo lenguaje dista
considerablemente del texto estándar y normativo que emplean
estos conversores. Estos textos presentan numerosas abreviaturas,
emoticonos, sustituciones de grafías o repeticiones de ellas,
haciendo que el texto si es procesado por los normalizadores
convencionales de los CTH resultara incomprensible por el oyente.
Por otro lado, el habla generada debe corresponderse con el
dominio especificado. En las conversaciones virtuales, que se
asemejan más a una conversación oral que a un discurso escrito,
predomina un afán por comunicar situaciones, transmitir estados
emocionales, opiniones, sentimientos, etc. Por lo tanto, la voz
desarrollada en esta investigación pretende reflejar esta
expresividad, concretamente se pretende generar enunciados en los
que se transmitan emociones mediante la modelación de parámetros
prosódicos. Para lograr este propósito se parte del conversor de
texto a habla de la empresa escocesa Cereproc. === This thesis, by focusing on the generation of synthetic speech in the
domain of virtual Spanish conversations, addresses two different
aspects of the Text-to-Speech process.
On one hand, most of this research revolves around the
standardization-correction of messages that users type while
chatting with friends or acquaintances, whose language varies
considerably from standard text and the policy using these systems.
These texts have many abbreviations, emoticons, photographic
substitutions or repetitions of them, making the text
incomprehensible to the listener if it is processed by the
conventional normalisers of TTS.
On the other hand, the speech generated should match the specified
domain. In virtual conversations, which are more like a
conversation than written speech, the prevailing situations are
eagerness to communicate, convey emotional states, feelings, etc.
Therefore, the voice developed in this research is intended to reflect
this expression, specifically aims to generate statements, which
emotions are transmitted through prosodic modeling. To achieve
this purpose, the text-to-speech system by the Scottish company
CereProc is addressed.
|