A lei do Zipf
A lei Zipf é uma lei empírica, formulada usando estatísticas matemáticas, com o nome do linguista George Kingsley Zipf, que a propôs pela primeira vez.
A lei Zipf afirma que dada uma grande amostra de palavras utilizadas, a freqüência de qualquer palavra é inversamente proporcional à sua posição na tabela de freqüência. Portanto, a palavra número n tem uma freqüência proporcional a 1/n.
Assim, a palavra mais freqüente ocorrerá cerca do dobro da segunda palavra mais freqüente, três vezes mais freqüente que a terceira palavra mais freqüente, etc. Por exemplo, em uma amostra de palavras no idioma inglês, a palavra mais freqüente, "the", representa quase 7% de todas as palavras (69.971 de um pouco mais de 1 milhão). Fiel à Lei Zipf, a palavra "de" em segundo lugar representa pouco mais de 3,5% das palavras (36.411 ocorrências), seguida por "e" (28.852). Apenas cerca de 135 palavras são necessárias para contabilizar a metade da amostra de palavras de uma grande amostra.
O mesmo relacionamento ocorre em muitos outros rankings, sem relação com o idioma, tais como as fileiras populacionais das cidades em vários países, tamanhos de corporações, classificações de renda, etc. A aparição da distribuição no ranking das cidades por população foi notada pela primeira vez por Felix Auerbach em 1913.
Não se sabe por que a lei do Zipf é válida para a maioria dos idiomas.
Perguntas e Respostas
P: O que é a lei de Zipf?
R: A lei de Zipf é uma lei empírica que afirma que a frequência de uma palavra em uma amostra grande é inversamente proporcional à sua classificação na tabela de frequência.
P: Quem propôs a lei de Zipf?
R: A lei de Zipf foi proposta pela primeira vez por George Kingsley Zipf, um linguista.
P: Como a lei de Zipf explica a frequência de palavras em uma amostra de palavras em inglês?
R: De acordo com a lei de Zipf, a palavra mais frequente em uma amostra de palavras em inglês ocorre cerca de duas vezes mais do que a segunda palavra mais frequente, três vezes mais do que a terceira palavra mais frequente etc. Essa tendência continua à medida que a classificação da palavra diminui.
P: Qual é a porcentagem de todas as palavras que a palavra mais frequente representa em uma amostra de palavras em inglês?
R: Em uma amostra de palavras em inglês, a palavra que ocorre com mais frequência ("the") representa quase 7% de todas as palavras.
P: Qual é a relação entre o número de palavras necessárias para representar metade da amostra e a frequência dessas palavras?
R: De acordo com a lei de Zipf, são necessárias apenas cerca de 135 palavras para representar metade da amostra de palavras em uma amostra grande.
P: Que outras classificações apresentam a lei de Zipf?
R: A mesma relação que a lei de Zipf descreve na frequência de palavras ocorre em outras classificações não relacionadas ao idioma, como as classificações da população de cidades em vários países, tamanhos de empresas e classificações de renda.
P: Quem notou o surgimento da distribuição nas classificações de cidades por população?
R: O aparecimento da distribuição em classificações de cidades por população foi notado pela primeira vez por Felix Auerbach em 1913.