La extracción de información (IE) es la recuperación automatizada de información específica relacionada con un tema seleccionado de un cuerpo o cuerpos de texto.
Las herramientas de extracción de información permiten extraer información de documentos de texto, bases de datos, sitios web o múltiples fuentes. IE puede extraer información de texto no estructurado, semiestructurado o estructurado, legible por máquina. Sin embargo, generalmente IE se utiliza en el procesamiento del lenguaje natural (NLP) para extraer texto estructurado de texto no estructurado.
La extracción de información depende del reconocimiento de entidad con nombre (NER), una subherramienta que se utiliza para encontrar información específica para extraer. NER reconoce a las entidades primero como una de varias categorías, como ubicación (LOC), personas (PER) u organizaciones (ORG). Una vez que se reconoce la categoría de información, una utilidad de extracción de información extrae la información relacionada de la entidad nombrada y construye un documento legible por máquina a partir de ella, que los algoritmos pueden procesar para extraer el significado. IE encuentra significado a través de otras subtareas, incluida la resolución de co-referencias, la extracción de relaciones, el análisis de lenguaje y vocabulario y, a veces, la extracción de audio.
IE se remonta a los primeros días del procesamiento del lenguaje natural de la década de 1970. JASPER es un sistema para IE que para Reuters de Carnegie Melon University es un ejemplo temprano. Los esfuerzos actuales en el procesamiento de documentos multimedia en IE incluyen anotaciones automáticas y el reconocimiento de contenido y la extracción de imágenes y videos también podrían verse como IE.
Debido a la complejidad del lenguaje, la IE de alta calidad es una tarea desafiante para los sistemas de inteligencia artificial (IA).