Síntesis del habla

La síntesis de voz es la simulación generada por computadora del habla humana. Se utiliza para traducir información escrita en información auditiva donde es más conveniente, especialmente para aplicaciones móviles como correo electrónico habilitado por voz y mensajería unificada. También se utiliza para ayudar a las personas con problemas de visión de modo que, por ejemplo, el contenido de una pantalla de visualización se pueda leer automáticamente en voz alta a un usuario ciego. La síntesis de voz es la contraparte del reconocimiento de voz o de voz. El primer esfuerzo de síntesis del habla fue en 1779 cuando el profesor ruso Christian Kratzenstein creó un aparato basado en el tracto vocal humano para demostrar las diferencias fisiológicas involucradas en la producción de cinco sonidos de vocales largas. El primer sintetizador de voz completamente funcional, VODER (Demostrador de operación de voz) de Homer Dudley, se mostró en la Feria Mundial de 1939. El VODER se basó en la investigación de codificadores de voz (codificadores de voz) de Bell Laboratories de mediados de los años treinta.

Prótesis de habla es un discurso generado por computadora para personas con discapacidades físicas que dificultan el habla de manera inteligible. Gran parte de la investigación en esta área integra la generación tanto de texto como de voz, ya que las discapacidades que crean problemas con el habla también dificultan la entrada de texto. Dada la velocidad y fluidez de la conversación humana, el desafío de las prótesis del habla es sortear estas dificultades. El principal objetivo de la investigación es crear un sistema protésico que se asemeje lo más posible al habla natural, con la menor intervención del usuario. Los sistemas de prótesis del habla también permiten que las personas con discapacidad visual utilicen ordenadores.

Multimodal síntesis de voz (a veces denominada audiovisual síntesis de voz) incorpora una cara animada sincronizada para complementar la voz sintetizada. Las mismas dificultades que subyacen a la discapacidad del habla de un individuo a menudo obstaculizan su capacidad para comunicarse a través de expresiones faciales. Aunque el habla sintetizada es cada vez más realista, puede pasar bastante tiempo antes de que se acerque a la capacidad de los matices del habla natural. Los sistemas multimodales incorporan un medio para agregar señales no verbales al habla (como sacudir la cabeza, sonreír y guiñar un ojo, por ejemplo) para que el significado del usuario sea lo más claro posible.