A lei do Zipf

Autor: Leandro Alegsa

26-01-2021 20:37

A lei Zipf é uma lei empírica, formulada usando estatísticas matemáticas, com o nome do linguista George Kingsley Zipf, que a propôs pela primeira vez.

A lei Zipf afirma que dada uma grande amostra de palavras utilizadas, a freqüência de qualquer palavra é inversamente proporcional à sua posição na tabela de freqüência. Portanto, a palavra número n tem uma freqüência proporcional a 1/n.

Assim, a palavra mais freqüente ocorrerá cerca do dobro da segunda palavra mais freqüente, três vezes mais freqüente que a terceira palavra mais freqüente, etc. Por exemplo, em uma amostra de palavras no idioma inglês, a palavra mais freqüente, "the", representa quase 7% de todas as palavras (69.971 de um pouco mais de 1 milhão). Fiel à Lei Zipf, a palavra "de" em segundo lugar representa pouco mais de 3,5% das palavras (36.411 ocorrências), seguida por "e" (28.852). Apenas cerca de 135 palavras são necessárias para contabilizar a metade da amostra de palavras de uma grande amostra.

O mesmo relacionamento ocorre em muitos outros rankings, sem relação com o idioma, tais como as fileiras populacionais das cidades em vários países, tamanhos de corporações, classificações de renda, etc. A aparição da distribuição no ranking das cidades por população foi notada pela primeira vez por Felix Auerbach em 1913.

Não se sabe por que a lei do Zipf é válida para a maioria dos idiomas.

Perguntas e Respostas

P: O que é a lei de Zipf?

R: A lei de Zipf é uma lei empírica que afirma que a frequência de uma palavra em uma amostra grande é inversamente proporcional à sua classificação na tabela de frequência.

P: Quem propôs a lei de Zipf?

R: A lei de Zipf foi proposta pela primeira vez por George Kingsley Zipf, um linguista.

P: Como a lei de Zipf explica a frequência de palavras em uma amostra de palavras em inglês?

R: De acordo com a lei de Zipf, a palavra mais frequente em uma amostra de palavras em inglês ocorre cerca de duas vezes mais do que a segunda palavra mais frequente, três vezes mais do que a terceira palavra mais frequente etc. Essa tendência continua à medida que a classificação da palavra diminui.

P: Qual é a porcentagem de todas as palavras que a palavra mais frequente representa em uma amostra de palavras em inglês?

R: Em uma amostra de palavras em inglês, a palavra que ocorre com mais frequência ("the") representa quase 7% de todas as palavras.

P: Qual é a relação entre o número de palavras necessárias para representar metade da amostra e a frequência dessas palavras?

R: De acordo com a lei de Zipf, são necessárias apenas cerca de 135 palavras para representar metade da amostra de palavras em uma amostra grande.

P: Que outras classificações apresentam a lei de Zipf?

R: A mesma relação que a lei de Zipf descreve na frequência de palavras ocorre em outras classificações não relacionadas ao idioma, como as classificações da população de cidades em vários países, tamanhos de empresas e classificações de renda.

P: Quem notou o surgimento da distribuição nas classificações de cidades por população?

R: O aparecimento da distribuição em classificações de cidades por população foi notado pela primeira vez por Felix Auerbach em 1913.

Pesquise na enciclopédia