Estatísticas

A estatística é um ramo da matemática aplicada que trata da coleta, organização, análise, interpretação e apresentação de dados. A estatística descritiva resume os dados. A estatística inferencial faz previsões. A estatística ajuda no estudo de muitas outras áreas, como ciência, medicina, economia, psicologia, política e marketing. Alguém que trabalha em estatística é chamado de estatístico. Além de ser o nome de um campo de estudo, a palavra "estatística" também se refere a números que são usados para descrever dados ou relacionamentos.

História

As primeiras estatísticas conhecidas são os dados do censo. Os babilônios fizeram um censo por volta de 3500 AC, os egípcios por volta de 2500 AC, e os antigos chineses por volta de 1000 AC.

A partir do século 16, matemáticos como Gerolamo Cardano desenvolveram a teoria da probabilidade, o que fez da estatística uma ciência. Desde então, as pessoas têm coletado e estudado estatísticas sobre muitas coisas. Árvores, estrelas do mar, estrelas, rochas, palavras, quase tudo o que pode ser contado tem sido objeto de estatísticas.

Coleta de dados

Antes de podermos descrever o mundo com estatísticas, devemos coletar dados. Os dados que coletamos em estatísticas são chamados de medidas. Após a coleta de dados, utilizamos um ou mais números para descrever cada observação ou medida. Por exemplo, suponhamos que queremos descobrir o quão popular é um determinado programa de TV. Podemos escolher um grupo de pessoas (chamado amostra) da população total de telespectadores. Depois perguntamos a cada telespectador da amostra com que freqüência eles assistem ao programa. A amostra são dados que você pode ver, e a população são dados que você não pode ver (já que você não perguntou a todos os telespectadores da população). Por outro exemplo, se quisermos saber se um determinado medicamento pode ajudar a baixar a pressão arterial, podemos dar o medicamento às pessoas por algum tempo e medir sua pressão sanguínea antes e depois.

Estatística descritiva e inferencial

Os números que descrevem os dados que você pode ver são chamados de estatísticas descritivas. Números que fazem previsões sobre dados que você não pode ver são chamados de estatística inferencial.

A estatística descritiva envolve o uso de números para descrever as características dos dados. Por exemplo, a altura média das mulheres nos Estados Unidos é uma estatística descritiva que descreve uma característica (altura média) de uma população (mulheres nos Estados Unidos).

Uma vez que os resultados tenham sido resumidos e descritos, eles podem ser usados para previsão. Isto é chamado de Estatísticas Inferenciais. Como exemplo, o tamanho de um animal depende de muitos fatores. Alguns destes fatores são controlados pelo meio ambiente, mas outros são por herança. Portanto, um biólogo pode fazer um modelo que diz que há uma alta probabilidade de que a prole seja pequena em tamanho se os pais fossem pequenos em tamanho. Este modelo provavelmente permite prever o tamanho de forma melhor do que apenas adivinhando ao acaso. Testar se uma determinada droga pode ser usada para curar uma determinada condição ou doença é normalmente feito comparando os resultados das pessoas que recebem a droga com os das pessoas que recebem um placebo.

Métodos

Na maioria das vezes, coletamos dados estatísticos através de pesquisas ou experimentos. Por exemplo, uma pesquisa de opinião é um tipo de pesquisa. Escolhemos um pequeno número de pessoas e fazemos perguntas a elas. Em seguida, usamos suas respostas como dados.

A escolha dos indivíduos a serem escolhidos para uma pesquisa ou coleta de dados é importante, pois influencia diretamente as estatísticas. Quando as estatísticas são feitas, não se pode mais determinar quais indivíduos são levados. Suponhamos que queiramos medir a qualidade da água de um grande lago. Se tirarmos amostras junto ao dreno de resíduos, obteremos resultados diferentes do que se as amostras forem tiradas em um ponto distante, difícil de alcançar, do lago.

Há dois tipos de problemas que são comumente encontrados na coleta de amostras:

  1. Se houver muitas amostras, as amostras provavelmente estarão muito próximas do que são na população real. Se houver muito poucas amostras, porém, elas podem ser muito diferentes do que são na população real. Este erro é chamado de erro casual (ver Erros e resíduos nas estatísticas).
  2. Os indivíduos para as amostras precisam ser escolhidos cuidadosamente, geralmente eles serão escolhidos aleatoriamente. Se este não for o caso, as amostras podem ser muito diferentes do que realmente são na população total. Isto é verdade mesmo se um grande número de amostras for coletado. Este tipo de erro é chamado de enviesamento.

Erros

Podemos reduzir os erros de oportunidade tomando uma amostra maior, e podemos evitar algum preconceito escolhendo aleatoriamente. Entretanto, às vezes, amostras aleatórias grandes são difíceis de colher. E o viés pode acontecer se pessoas diferentes não forem perguntadas, ou se recusarem a responder nossas perguntas, ou se souberem que estão recebendo um tratamento falso. Estes problemas podem ser difíceis de resolver. Veja também erro padrão.

Estatística descritiva

Encontrar o meio dos dados

O meio dos dados é chamado de uma média. A média nos fala de um indivíduo típico da população. Há três tipos de média que são freqüentemente utilizados: a média, a mediana e a modalidade.

Os exemplos abaixo utilizam este exemplo de dados:

 Nome | A    B    C    D    E    F    G    H    I    J ---------------------------------------------   score| 23 26 49 57 64 66 78 82 92

Média

A fórmula para a média é

x ¯ = 1 N ∑ i = 1 N x i = x 1 + x 2 + + x N N {\i}}={\i1}{\i1}{\i1}}frac {\i=1}^^{\i}x_{\i}={\i}frac {\i_{\i}+x_{\i}+cdots +x_{\i}{\i}} {\displaystyle {\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}

Onde x 1 , x 2 , ... , x N {\i1}, x_{\i},x_{\i},ldots ,x_{\i}{\displaystyle x_{1},x_{2},\ldots ,x_{N}} são os dados e N {\i} é o {\displaystyle N}tamanho da população. (ver Notação Sigma).

Isto significa que você soma todos os valores, e depois divide pelo número de valores.

Em nosso exemplo x ¯ = ( 23 + 26 + 49 + 49 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58,6 {\i1}=(23+26+49+49+49+57+64+66+78+82+92)/10=58,6} {\displaystyle {\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58.6}

O problema com o meio é que ele não diz nada sobre como os valores são distribuídos. Valores que são muito grandes ou muito pequenos mudam muito a média. Nas estatísticas, estes valores extremos podem ser erros de medida, mas às vezes a população realmente contém estes valores. Por exemplo, se em uma sala há 10 pessoas que ganham $10/dia e 1 que ganha $1.000.000/dia. A média dos dados é de $90.918 dólares/dia. Mesmo sendo o valor médio, a média neste caso não é o valor que qualquer pessoa faz, portanto é inútil para alguns fins.

Esta é a "média aritmética". Outros tipos são úteis para alguns fins.

Mediana

A mediana é o item central dos dados. Para encontrar a mediana, ordenamos os dados do menor para o maior número e depois escolhemos o número no meio. Se houver um número par de dados, não haverá um número bem no meio, então escolhemos os dois intermediários e calculamos sua média. Em nosso exemplo há 10 itens de dados, os dois do meio são "57" e "64", então a mediana é (57+64)/2 = 60,5. Outro exemplo, como o exemplo de renda apresentado para a média, considere uma sala com 10 pessoas que têm renda de $10, $20, $20, $40, $50, $60, $90, $90, $100, e $1.000.000, a mediana é $55 porque $55 é a média dos dois números do meio, $50 e $60. Se o valor extremo de $1.000.000 for ignorado, a média é de $53. Neste caso, a mediana está próxima do valor obtido quando o valor extremo é jogado fora. A mediana resolve o problema dos valores extremos, como descrito na definição de média acima.

Modo

A modalidade é o item de dados mais freqüente. Por exemplo, a letra mais comum em inglês é a letra "e". Diríamos que "e" é o modo de distribuição das letras.

Por exemplo, se em uma sala há 10 pessoas com renda de $10, $20, $20, $40, $50, $60, $90, $90, $90, $100, e $1.000.000, a modalidade é $90 porque $90 ocorre três vezes e todos os outros valores ocorrem menos de três vezes.

Pode haver mais de uma modalidade. Por exemplo, se em uma sala há 10 pessoas com renda de $10, $20, $20, $20, $50, $60, $90, $90, $90, $100, e $1.000.000, as modalidades são $20 e $90. Isto é bi-modal, ou tem duas modalidades. A bi-modalidade é muito comum e muitas vezes indica que os dados são a combinação de dois grupos diferentes. Por exemplo, a altura média de todos os adultos nos Estados Unidos tem uma distribuição bi-modal. Isto porque homens e mulheres têm alturas médias separadas de 1,763 m para homens e 1,622 m para mulheres. Estes picos são aparentes quando os dois grupos são combinados.

A modalidade é a única forma de média que pode ser usada para dados que não podem ser colocados em ordem.

Encontrar a propagação dos dados

Outra coisa que podemos dizer sobre um conjunto de dados é como eles estão espalhados. Uma maneira comum de descrever a dispersão de um conjunto de dados é o desvio padrão. Se o desvio padrão de um conjunto de dados for pequeno, então a maioria dos dados está muito próxima da média. Se o desvio padrão for grande, porém, então muitos dos dados são muito diferentes da média.

Se os dados seguem o padrão comum chamado distribuição normal, então é muito útil conhecer o desvio padrão. Se os dados seguem este padrão (diríamos que os dados são normalmente distribuídos), cerca de 68 de cada 100 pedaços de dados estarão fora da média por menos do que o desvio padrão. Não apenas isso, mas cerca de 95 de cada 100 medições estarão fora da média por menos de duas vezes o desvio padrão, e cerca de 997 em 1000 estarão mais próximos da média do que três desvios padrão.

Outras estatísticas descritivas

Também podemos usar estatísticas para descobrir que algum percentual, percentil, número ou fração de pessoas ou coisas em um grupo fazem algo ou se encaixam em uma determinada categoria.

Por exemplo, os cientistas sociais usaram estatísticas para descobrir que 49% das pessoas no mundo são homens.

Software relacionado

A fim de apoiar os estatísticos, muitos softwares estatísticos foram desenvolvidos:

  • Instituto SAS
  • SPSS (feito pela IBM)

AlegsaOnline.com - 2020 / 2022 - License CC3