Datos semiestructurados

Los datos semiestructurados son datos que no se han organizado en un repositorio especializado, como una base de datos, pero que, sin embargo, tienen información asociada, como metadatos, que los hace más fáciles de procesar que los datos sin procesar.

La diferencia entre datos estructurados, datos no estructurados y datos semiestructurados:
Los datos no estructurados no se han organizado en un formato que facilite el acceso y el procesamiento. En realidad, muy pocos datos están completamente desestructurados. Incluso las cosas que a menudo se consideran datos no estructurados, como documentos e imágenes, están estructuradas hasta cierto punto. Los datos estructurados son básicamente lo opuesto a los no estructurados: se han reformateado y sus elementos se han organizado en una estructura de datos para que los elementos se puedan direccionar, organizar y acceder en varias combinaciones para hacer un mejor uso de la información. Los datos semiestructurados se encuentran en algún lugar entre los dos. No está organizado de una manera compleja que posibilite un acceso y análisis sofisticados; sin embargo, puede tener información asociada, como el etiquetado de metadatos, que permite abordar los elementos contenidos.

Aquí hay un ejemplo: un documento de Word generalmente se considera datos no estructurados. Sin embargo, puede agregar etiquetas de metadatos en forma de palabras clave y otros metadatos que representen el contenido del documento y faciliten la búsqueda de ese documento cuando las personas busquen esos términos; los datos ahora están semiestructurados. Sin embargo, el documento todavía carece de la compleja organización de la base de datos, por lo que no llega a ser un dato completamente estructurado.

En realidad, existe una superposición considerable entre los límites de las tres categorías, que a veces se describen colectivamente como el continuo de datos.