Desanonimización (desanonimización)

La anonimización es una estrategia de minería de datos en la que los datos anónimos se cruzan con otras fuentes de datos para volver a identificar la fuente de datos anónima. 

Cualquier información que distinga una fuente de datos de otra puede usarse para anonimizar. Aunque el concepto de anonimización se remonta a varias décadas, el término apareció en los titulares en 2006 cuando Arvind Narayanan y Vitaly Shmatikov participaron en un concurso organizado por Netflix, un popular servicio de alquiler de películas. Narayanan y Shmatikov aplicaron su metodología de anonimización a un conjunto de datos que contenía las calificaciones de películas anónimas de 500,000 miembros y pudieron identificar con éxito los datos de Netflix para varios miembros específicos. Según Narayanan y Shmatik, la anonimización requiere datos abundantes, granulares y bastante estables en el tiempo y el contexto.

A medida que el gobierno de los Estados Unidos y otras naciones avanzan con iniciativas de gobierno abierto, más datos están disponibles públicamente a través de Internet. Gran parte de estos datos se han eliminado para crear lo que el gobierno llama "conjuntos de datos limitados". La información de identificación personal (PII), como nombres, direcciones y números de seguridad social, se elimina de conjuntos de datos limitados o se oculta mediante un proceso de anonimización de datos para que la fuente específica de los datos permanezca anónima. Esta garantía de anonimato protege la privacidad de la fuente y permite al gobierno compartir legalmente conjuntos de datos limitados con terceros sin requerir permiso por escrito. Estos datos han demostrado ser muy valiosos para los investigadores, especialmente en el ámbito de la salud. Sin embargo, a los defensores de la privacidad les preocupa que, a pesar de que los datos hayan sido borrados, hay tantos disponibles que la identidad de un individuo específico podría redescubrirse.

Ver también: reglas de asociación, inteligencia empresarial, minería de opiniones, OLAP, lógica difusa