La emulación de voz es la reproducción generada por software del habla de un individuo. El software aplica tecnologías avanzadas como el aprendizaje profundo y las redes neuronales para la síntesis de voz, lo que permite imitar las voces de personas específicas.
Lyrebird, una startup canadiense de inteligencia artificial con sede en Montreal, lanzó un software que puede producir una imitación del habla de cualquier persona con un solo minuto de audio. Los algoritmos de Lyrebird pueden tomar una grabación de 60 segundos del discurso de una persona como entrada y generar hasta mil oraciones en medio segundo. El software puede cambiar la entonación para que coincida con una emoción deseada, por lo que el discurso de salida suena emocionado, por ejemplo, enojado o estresado.
Adobe está trabajando en una tecnología similar. El sistema Project VoCo de la compañía requiere 20 minutos de entrada, pero luego permite al usuario editar texto de manera similar a la forma en que Adobe Photoshop permite alterar imágenes.
La tecnología aún no es lo suficientemente sofisticada como para ser completamente convincente, pero las aplicaciones potenciales de la emulación de voz son prometedoras. El software de Lyrebird podría hacer posible que su actor favorito le lea un libro, o podría “leerle” un libro a su hijo cuando no esté en casa. El software también podría habilitar prótesis de habla para discapacitados, reproduciendo la voz real del usuario.
Otras aplicaciones de la emulación de voz son menos benignas. Un atacante podría usar la tecnología para hacerse pasar por un usuario autorizado en un sistema de reconocimiento de voz, por ejemplo, o para imitar la voz de alguien diciendo algo que en realidad no había dicho. Tales declaraciones podrían usarse para dañar la reputación de un objetivo o para difundir información falsa o armada.