Sobre muestreo y submuestreo

El sobremuestreo y el submuestreo son técnicas que se utilizan en la minería de datos y el análisis de datos para modificar clases de datos desiguales para crear conjuntos de datos equilibrados. El sobremuestreo y el submuestreo también se conocen como remuestreo.

Estas técnicas de análisis de datos se utilizan a menudo para ser más representativas de los datos del mundo real. Por ejemplo, se pueden realizar ajustes de datos para proporcionar materiales de capacitación equilibrados para la inteligencia artificial y los algoritmos de aprendizaje automático.

Un área en la que se utilizan técnicas de sobremuestreo y submuestreo es la investigación por encuestas. La población de una muestra de la encuesta puede estar desequilibrada en términos de tipos de participantes, lo que puede disuadir a la población más grande que la encuesta está destinada a estudiar. Al utilizar un muestreo excesivo o insuficiente, las proporciones de las características encuestadas, como el sexo, el grupo de edad y la etnia, se pueden utilizar para hacer que el peso de los datos sea más representativo de las proporciones del grupo dentro de las poblaciones más grandes.

Muestreo excesivo frente a muestreo insuficiente

Cuando una clase de datos es la clase minoritaria subrepresentada en la muestra de datos, se pueden usar técnicas de muestreo excesivo para duplicar estos resultados y obtener una cantidad más equilibrada de resultados positivos en el entrenamiento. El muestreo excesivo se utiliza cuando la cantidad de datos recopilados es insuficiente. Una técnica de sobremuestreo popular es SMOTE (Técnica de sobremuestreo de minorías sintéticas), que crea muestras sintéticas muestreando aleatoriamente las características de las ocurrencias en la clase de minorías.

Por el contrario, si una clase de datos es la clase mayoritaria sobrerrepresentada, el submuestreo se puede utilizar para equilibrarla con la clase minoritaria. El submuestreo se utiliza cuando la cantidad de datos recopilados es suficiente. Los métodos comunes de submuestreo incluyen centroides de conglomerados y enlaces Tomek, los cuales apuntan a posibles características superpuestas dentro de los conjuntos de datos recopilados para reducir la cantidad de datos mayoritarios.

Tanto en el sobremuestreo como en el submuestreo, rara vez se sugiere la duplicación simple de datos. En general, es preferible el muestreo excesivo, ya que el muestreo insuficiente puede provocar la pérdida de datos importantes. Se sugiere submuestreo cuando la cantidad de datos recopilados es mayor de lo ideal y puede ayudar a las herramientas de minería de datos a mantenerse dentro de los límites de lo que pueden procesar de manera efectiva.