Higiene de datos

La higiene de datos son los procesos colectivos que se llevan a cabo para garantizar la limpieza de los datos. Los datos se consideran limpios si están relativamente libres de errores. Los datos sucios pueden deberse a una serie de factores que incluyen registros duplicados, datos incompletos o desactualizados y el análisis incorrecto de campos de registros de sistemas dispares. Los errores se pueden introducir en cualquier etapa a medida que se ingresan, almacenan y administran los datos.

La calidad de los datos es crucial para los procesos operacionales y transaccionales dentro de la empresa y para la confiabilidad de los informes de análisis de negocios (BA) / inteligencia de negocios (BI).

La depuración de datos, también llamada depuración de datos, es el proceso de modificar o eliminar datos de una base de datos que son incorrectos, están incompletos, tienen un formato incorrecto o están duplicados. Por lo general, el proceso implica actualizarlo, estandarizarlo y eliminar la duplicación de registros para crear una vista única de los datos, incluso si están almacenados en múltiples sistemas dispares.