Interfaz de programa de aplicación de voz (SAPI)

SAPI (Speech Application Program Interface) es una interfaz de programa de aplicación (API) proporcionada con el sistema operativo Microsoft Windows que permite a los programadores escribir programas que ofrecen capacidades de reconocimiento de voz y texto a voz. Se proporcionan interfaces para los lenguajes de programación C, C ++ y Visual Basic. Utilizando la arquitectura COM (Component Object Model) de Microsoft, SAPI es la interfaz de programa de aplicación de voz más utilizada en la actualidad. En el futuro, Microsoft planea incorporar tecnología de voz utilizando SAPI en su sistema operativo.

SAPI tiene siete componentes principales:

  • Comando de voz: Voice Command es una interfaz de alto nivel que proporciona comando y control de reconocimiento de voz para aplicaciones. El comando de voz permite a un desarrollador crear un menú de comando de voz que contiene comandos de voz, como "archivo nuevo" o "enviar correo a [email protected]" que un usuario habla en un micrófono u otro dispositivo de audio. El usuario puede controlar la computadora sin necesidad de teclado o mouse.
  • Dictado de voz: El dictado de voz permite al usuario dictar en cualquier aplicación que admita el reconocimiento de voz. Un cuadro de edición virtual o invisible recibe el texto que dicta el usuario y muestra el texto en una ventana de la aplicación. El dictado de voz permite el formato de texto, como el uso de mayúsculas, la traducción de palabras de puntuación a símbolos de puntuación, las entradas del glosario incorporadas y la corrección de la última palabra hablada o una palabra seleccionada. Las aplicaciones que usan el dictado por voz clasifican el habla por temas que usan diferentes estilos de lenguaje. Los temas incluyen discursos por correo electrónico, redacción formal o discursos de programación. El dictado de voz almacena la información de cada tema en su disco duro.
  • Texto de voz: Voice Text convierte el texto en voz que se reproduce a través de los altavoces de la computadora o se envía a través de una línea telefónica. El discurso que se reproduce tiene varios modos diferentes, cada uno con una voz diferente.
  • Telefonía de voz: La telefonía por voz utiliza controles de telefonía que son similares a los controles de Windows. Los controles de Windows incluyen botones, cuadros de lista, controles deslizantes y otros objetos que se pueden manipular con un mouse o teclado. Los controles de telefonía son códigos que reconocen respuestas habladas como Sí o No, su número de teléfono, la fecha y la hora. Los controles de telefonía crean un diálogo entre el usuario y la computadora. Por ejemplo, un usuario llama a un proveedor para pedir un artículo. A continuación, el usuario responde a varias preguntas hablando por el auricular del teléfono. Los controles de telefonía reconocen estas respuestas y las envían a la aplicación que procesa las respuestas. Los controles de telefonía también manejan condiciones de error (estos son comunes con números hablados o cuando la persona que llama no responde) y variaciones de respuestas como "4 de enero" o "mañana".
  • Reconocimiento directo de voz: Esta es una interfaz de bajo nivel similar a Voice Command. La principal diferencia es que el reconocimiento directo de voz habla directamente con el motor de voz. Esto le da a la aplicación más control y velocidad.
  • Texto directo a voz: Esta es una interfaz de bajo nivel similar a Voice Text que también habla directamente al motor de voz.
  • Objetos de audio: Un objeto de audio le dice al motor de voz dónde obtener su audio.

El futuro de la tecnología del habla incluirá productos que le permitirán hacer cosas como navegar por Internet usando el habla y preguntarle a su televisor qué está mostrando esta noche. Los desarrolladores de software están desarrollando aplicaciones que comprenden conceptos. Por ejemplo, si le dice a su computadora que imprima un determinado documento, su aplicación sabrá si debe imprimirlo en su impresora o en la impresora de la red. La tecnología del habla es importante para los profesionales médicos, el personal encargado de hacer cumplir la ley, los discapacitados físicos, así como para muchos usuarios domésticos y de negocios.