A lei do Zipf
A lei Zipf é uma lei empírica, formulada usando estatísticas matemáticas, com o nome do linguista George Kingsley Zipf, que a propôs pela primeira vez.
A lei Zipf afirma que dada uma grande amostra de palavras utilizadas, a freqüência de qualquer palavra é inversamente proporcional à sua posição na tabela de freqüência. Portanto, a palavra número n tem uma freqüência proporcional a 1/n.
Assim, a palavra mais freqüente ocorrerá cerca do dobro da segunda palavra mais freqüente, três vezes mais freqüente que a terceira palavra mais freqüente, etc. Por exemplo, em uma amostra de palavras no idioma inglês, a palavra mais freqüente, "the", representa quase 7% de todas as palavras (69.971 de um pouco mais de 1 milhão). Fiel à Lei Zipf, a palavra "de" em segundo lugar representa pouco mais de 3,5% das palavras (36.411 ocorrências), seguida por "e" (28.852). Apenas cerca de 135 palavras são necessárias para contabilizar a metade da amostra de palavras de uma grande amostra.
O mesmo relacionamento ocorre em muitos outros rankings, sem relação com o idioma, tais como as fileiras populacionais das cidades em vários países, tamanhos de corporações, classificações de renda, etc. A aparição da distribuição no ranking das cidades por população foi notada pela primeira vez por Felix Auerbach em 1913.
Não se sabe por que a lei do Zipf é válida para a maioria dos idiomas.