El modelo de canal ruidoso es un marco utilizado en el procesamiento del lenguaje natural (PNL) para identificar la palabra correcta en situaciones en las que no está clara. El marco ayuda a detectar las palabras deseadas para los correctores ortográficos, asistentes virtuales, programas de traducción, sistemas de respuesta a preguntas y software de voz a texto.
ruido, en este contexto, es cualquier cosa que oscurezca señales y datos. El modelo de canal ruidoso se llama así porque la señal original, la palabra deseada, se oscurece en la transmisión cuando las interrupciones o los errores crean ruido en el canal. En este caso, el ruido podría consistir en una falta de ortografía en el lenguaje escrito, por ejemplo, o sonidos ambientales, mala pronunciación o dificultad para hablar en el lenguaje hablado.
A continuación, se muestra un ejemplo básico de cómo el modelo de canal ruidoso podría funcionar con un programa de revisión ortográfica:
Cuando una palabra no se encuentra en el diccionario de corrección ortográfica, se identifica como un error ortográfico y las palabras candidatas se sugieren en función de su probabilidad de ser la palabra deseada, generalmente como resultado de lo cerca que están esas palabras del error ortográfico. Como regla, los candidatos más probables implicarán un solo cambio, y hay cuatro tipos diferentes de errores de un solo cambio: eliminación, inserción, sustitución y reversión. Si la palabra mal escrita es acress, Por ejemplo, acres podría haber sido intencionado, pero se agregó un extra; la actriz podría haber sido la intención, pero la t se perdió; a través de podría haber sido intencionado pero e escrito en lugar de o; caricia podría haber sido la intención, pero las dos primeras letras se escribieron en la secuencia incorrecta. Por lo tanto, si el usuario escribe acress, el programa de revisión ortográfica podría sugerir esas cuatro palabras.
Debido a los caprichos del habla humana y al potencial de ruido real, el software de reconocimiento de voz presenta desafíos adicionales a los sistemas basados en texto. Sin embargo, el marco básico es similar.