Un conserje de datos es un empleado de TI que limpia las fuentes de big data para prepararlas para los analistas de datos y los científicos de datos. El trabajo fue creado para permitir que aquellos con habilidades de alto nivel sean empleados de manera más efectiva en lugar de un trabajo que otros podrían realizar.
Se estima que el tiempo de preparación de datos puede representar más del 80 por ciento del tiempo involucrado en el análisis de datos. Los conserjes de datos, también conocidos como manipuladores de datos, realizan el trabajo de preparación necesario que debe completarse antes de que sea posible un procesamiento y análisis más sofisticados. Un conserje de datos adquiere, inspecciona, consolida, limpia y organiza datos dispares y desorganizados, lo que hace posible el trabajo de analistas de datos y científicos de datos en mucho menos tiempo al descargar el trabajo que el personal de TI más capacitado normalmente tendría que hacer antes de trabajar realmente con el datos.
Antes de que los conserjes de datos hagan su trabajo, los macrodatos no están preparados para un análisis complejo. Su preparación también prepara datos para su uso con herramientas como Hadoop, Pig, Hive, Spark y MapReduce, y lenguajes de programación que incluyen lenguaje de consulta estructurado (SQL), Python, Scala y Perl, así como lenguajes de computación estadística como R.
A medida que las empresas de TI adquieren y procesan más y más datos, la división de la carga de trabajo es cada vez más importante para entregar análisis de calidad a tiempo. A menudo, son los empleados jóvenes en el campo del análisis de datos los que realizan este minucioso trabajo de preparación. Casi un tercio de los trabajadores de inteligencia empresarial pueden considerarse conserjes de datos, al menos como parte de sus trabajos. El término conserje de datos no suele ser un título de trabajo, sino más bien una descripción de la tarea. Un empleado cuya función principal es la preparación de datos puede denominarse ingeniero de datos.