Reducción de dimensionalidad

La reducción de dimensionalidad es un aprendizaje automático (ML) o técnica estadística para reducir la cantidad de variables aleatorias en un problema mediante la obtención de un conjunto de variables principales. Este proceso puede llevarse a cabo utilizando una serie de métodos que simplifican el modelado de problemas complejos, eliminan la redundancia y reducen la posibilidad de sobreajuste del modelo y, por lo tanto, incluyen resultados que no pertenecen.

El proceso de reducción de dimensionalidad se divide en dos componentes, selección de características y extracción de características. En la selección de características, se eligen subconjuntos más pequeños de características de un conjunto de muchos datos dimensionales para representar el modelo mediante filtrado, envoltura o incrustación. La extracción de características reduce el número de dimensiones en un conjunto de datos para modelar variables y realizar análisis de componentes.

Los métodos de reducción de dimensionalidad incluyen:

  • Análisis factorial
  • Filtro de baja varianza
  • Filtro de alta correlación
  • Eliminación de características hacia atrás
  • Selección de funciones avanzadas
  • Análisis de componentes principales (PCA)
  • Análisis discriminante lineal
  • Métodos basados ​​en proyecciones
  • Incrustación de vecinos estocásticos distribuidos en t (t-SNE)
  • UMAP
  • Análisis de componentes independientes
  • Relación de valor faltante
  • Bosque al azar

La reducción de la dimensionalidad es ventajosa para los desarrolladores de IA o los profesionales de datos que trabajan con conjuntos de datos masivos, realizan visualización de datos y analizan datos complejos. Ayuda en el proceso de compresión de datos, lo que permite que los datos ocupen menos espacio de almacenamiento y reduce los tiempos de cálculo.