La ley de Zipf es una distribución estadística en ciertos conjuntos de datos, como las palabras en un corpus lingüístico, en el que las frecuencias de ciertas palabras son inversamente proporcionales a sus rangos. Llamada así por el lingüista George Kingsley Zipf, quien alrededor de 1935 fue el primero en llamar la atención sobre este fenómeno, la ley examina la frecuencia de las palabras en el lenguaje natural y cómo la palabra más común aparece dos veces más que la segunda palabra más frecuente, tres veces más. a menudo como la palabra siguiente y así sucesivamente hasta la palabra menos frecuente. La palabra en la posición n aparece 1 / n veces más que la más frecuente.
Cuando las palabras se clasifican de acuerdo con sus frecuencias en una colección de textos lo suficientemente grande y luego la frecuencia se traza contra el rango, el resultado es una curva logarítmica. (O si grafica en una escala logarítmica, el resultado es una línea recta).
La palabra más común en inglés es "the, " que aparece aproximadamente una décima parte del tiempo en un texto típico; la siguiente palabra más común (rango 2) es "de," que aparece aproximadamente una vigésima parte del tiempo. En este tipo de distribución, la frecuencia disminuye drásticamente a medida que aumenta el número de rango, por lo que una pequeña cantidad de elementos aparece con mucha frecuencia y una gran cantidad rara vez ocurre.
La distribución de las palabras de Zipfian es universal en el lenguaje natural: se puede encontrar en el habla de niños menores de 32 meses, así como en el vocabulario especializado de los libros de texto universitarios. Los estudios muestran que este fenómeno también se aplica en casi todos los idiomas.
Individualmente, ni la sintaxis ni la semántica son suficientes para inducir una distribución Zipfian por sí solas. Sin embargo, la sintaxis y la semántica funcionan juntas para una distribución Zipfian.
Solo recientemente se ha probado rigurosamente la ley de Zipf en bases de datos lo suficientemente grandes como para garantizar la validez estadística. Investigadores del Centre de Recerca Matematica, perteneciente a la red CERCA de la Generalitat de Catalunya, adscritos al Departamento de Matemáticas de la Universitat Autónoma de Barcelona, analizaron la colección completa de textos en lengua inglesa del Proyecto Gutenberg, una base de datos gratuita con más de 30,000 obras. Cuando se omitieron las palabras más raras, la ley de Zipf se aplicó a más de la mitad de las palabras.
La ley se puede aplicar a campos distintos a la literatura. Se han encontrado distribuciones de Zipfian en los rangos de población de ciudades en varios países, tamaños de corporaciones, clasificaciones de ingresos y rangos de la cantidad de personas que miran el mismo canal de televisión.