El etiquetado de datos, en el contexto del aprendizaje automático, es el proceso de detección y etiquetado de muestras de datos. El proceso puede ser manual, pero normalmente se realiza o se facilita mediante software.
¿Para qué se utiliza el etiquetado de datos?
El etiquetado de datos es una parte importante del preprocesamiento de datos para ML, en particular para el aprendizaje supervisado, en el que tanto los datos de entrada como los de salida se etiquetan para su clasificación a fin de proporcionar una base de aprendizaje para el procesamiento de datos en el futuro.
Un sistema de entrenamiento para identificar animales en imágenes, por ejemplo, podría estar provisto de múltiples imágenes de varios tipos de animales de los que aprendería las características comunes de cada uno, lo que le permitiría identificar correctamente a los animales en imágenes sin etiquetar.
El etiquetado de datos también se utiliza al construir algoritmos ML para vehículos autónomos. Los vehículos autónomos, como los vehículos autónomos, deben poder diferenciar los objetos en su recorrido para poder procesar el mundo exterior y conducir de forma segura. El etiquetado de datos se utiliza para permitir que la inteligencia artificial (IA) del automóvil sepa la diferencia entre una persona, la calle, otro automóvil y el cielo al etiquetar las características clave de esos objetos o puntos de datos y buscar similitudes entre ellos.
¿Cómo funciona el etiquetado de datos?
Los sistemas de aprendizaje profundo y aprendizaje automático a menudo requieren cantidades masivas de datos para establecer una base para patrones de aprendizaje confiables. Los datos que utilizan para informar el aprendizaje deben etiquetarse o anotarse en función de las características de los datos que ayudan al modelo a organizar los datos en patrones que producen una respuesta deseada.
Las etiquetas utilizadas para identificar las características de los datos deben ser informativas, discriminatorias e independientes para producir un algoritmo de calidad. Un conjunto de datos debidamente etiquetado proporciona una verdad fundamental que el modelo ML utiliza para verificar la precisión de sus predicciones y continuar refinando su algoritmo.
Un algoritmo de calidad es alto tanto en precisión como en calidad. La precisión se refiere a la proximidad de ciertas etiquetas en el conjunto de datos a la verdad del terreno. La calidad se refiere a cuán consistentemente preciso es un conjunto de datos completo.
Los errores en el etiquetado de datos afectan la calidad del conjunto de datos de entrenamiento y el rendimiento de cualquier modelo predictivo para el que se utiliza. Para mitigar esto, muchas organizaciones adoptan un enfoque de Human-in-the-Loop (HITL), manteniendo la participación humana en la capacitación y prueba de modelos de datos a lo largo de su crecimiento iterativo.
Métodos de etiquetado de datos
Una empresa puede utilizar varios métodos para estructurar y etiquetar sus datos. Las opciones van desde el uso de personal interno hasta los servicios de crowdsourcing y etiquetado de datos. Estas opciones incluyen lo siguiente:
- Crowdsourcing. Una plataforma de terceros brinda acceso empresarial a muchos trabajadores a la vez.
- Contratistas Una empresa puede contratar trabajadores independientes temporales para procesar y etiquetar datos.
- Equipos gestionados. Una empresa puede contratar a un equipo administrado para procesar datos. Los equipos administrados son capacitados, evaluados y administrados por una organización externa.
- Personal interno. Una empresa puede utilizar a sus empleados existentes para procesar datos.
No existe un método óptimo para etiquetar datos. Las empresas deben utilizar el método o la combinación de métodos que mejor se adapte a sus necesidades. Algunos criterios a considerar al elegir un método de etiquetado de datos son los siguientes:
- el tamaño de la empresa;
- el tamaño del conjunto de datos que requiere etiquetado;
- el nivel de habilidad de los empleados en el personal;
- las restricciones financieras de la empresa; y
- el propósito del modelo ML se complementa con datos etiquetados.
Un buen equipo de etiquetado de datos idealmente debería tener un conocimiento de dominio de la industria a la que sirve una empresa. Los etiquetadores de datos que tienen un contexto externo guiándolos son más precisos. También deben ser flexibles y ágiles, porque el etiquetado de datos y el aprendizaje automático son procesos iterativos, que siempre cambian y evolucionan a medida que se ingresa más información.
Importancia del etiquetado de datos
Un informe reciente de la firma de asesoría e investigación de IA Cognilytica encontró que más del 80% del tiempo que las empresas dedican a proyectos de IA se destina a preparar, limpiar y etiquetar datos. El etiquetado manual de datos es el método más costoso y que requiere más tiempo, pero puede estar justificado para aplicaciones importantes.
Los críticos de la inteligencia artificial especulan que la automatización pondrá en riesgo trabajos de baja calificación, como el trabajo en centros de llamadas, la conducción de camiones y Uber, porque las tareas de memoria son cada vez más fáciles de realizar para las máquinas. Sin embargo, algunos expertos creen que el etiquetado de datos puede presentar una nueva oportunidad de trabajo de baja calificación para reemplazar los que son anulados por la automatización, porque existe un excedente cada vez mayor de datos y máquinas que necesitan procesarlos para realizar las tareas necesarias ML e IA avanzados.