Intervalo de confiança

Nas estatísticas, um intervalo de confiança é uma forma especial de estimar um determinado parâmetro. Com este método, é dado um intervalo inteiro de valores aceitáveis para o parâmetro em vez de um único valor, juntamente com a probabilidade de que o valor real (desconhecido) do parâmetro estará no intervalo. O intervalo de confiança é baseado nas observações de uma amostra e, portanto, difere de amostra para amostra. A probabilidade de que o parâmetro estará no intervalo é chamada de nível de confiança. Muito freqüentemente, isto é dado como uma porcentagem. O intervalo de confiança é sempre dado em conjunto com o nível de confiança. As pessoas podem falar sobre o "intervalo de confiança de 95%". Os pontos finais do intervalo de confiança são chamados de limites de confiança. Para um determinado procedimento de estimativa em uma determinada situação, quanto mais alto o nível de confiança, mais amplo será o intervalo de confiança.

O cálculo de um intervalo de confiança geralmente requer suposições sobre a natureza do processo de estimação - é principalmente um método paramétrico. Uma suposição comum é que a distribuição da população da qual veio a amostra é normal. Como tal, os intervalos de confiança, como discutido abaixo, não são estatísticas robustas, embora possam ser feitas mudanças para acrescentar robustez.

Significado do termo "confiança".

O termo confiança tem um significado semelhante em estatísticas, como no uso comum. No uso comum, uma alegação de 95% de confiança em algo é normalmente considerada como indicando certeza virtual. Em estatísticas, uma alegação de 95% de confiança significa simplesmente que o pesquisador viu um intervalo possível de um grande número de possíveis, do qual dezenove em vinte intervalos contêm o valor real do parâmetro.

Exemplo prático

A factory assembly line fills margarine cups to a desired 250g +/- 5g

Uma máquina enche os copos com margarina. Por exemplo, a máquina é ajustada para que o conteúdo das xícaras seja de 250g de margarina. Como a máquina não pode encher cada copo com exatamente 250g, o conteúdo adicionado aos copos individuais mostra alguma variação, e é considerado uma variável aleatória X. Esta variação é assumida como normalmente distribuída em torno da média desejada de 250g, com um desvio padrão de 2,5g. Para determinar se a máquina está adequadamente calibrada, uma amostra de n = 25 xícaras de margarina é escolhida ao acaso e as xícaras são pesadas. Os pesos da margarina são X1, ..., X25, uma amostra aleatória de X.

Para ter uma impressão da expectativa μ, é suficiente dar uma estimativa. O estimador apropriado é a média da amostra:

μ ^ = X ¯ = 1 n ∑ i = 1 n X i . estilo de jogo _{\i1}{\i}={\i}===frac {\i}{\i}{\i}sum _{\i=1}^{\i_X_{\i}. } {\displaystyle {\hat {\mu }}={\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}.}

A amostra mostra pesos reais x1, ...,x25, com média:

x ¯ = 1 25 ∑ i = 1 25 x i = 250,2 gramas . estilo de jogo {\i}={\i}==frac {1}{25}}sum _{i=1}^{25}x_{i}=250,2 {\i},{\i}texto{gramas}}}. } {\displaystyle {\bar {x}}={\frac {1}{25}}\sum _{i=1}^{25}x_{i}=250.2\,{\text{grams}}.}

Se tomarmos outra amostra de 25 copos, poderíamos facilmente esperar encontrar valores como 250,4 ou 251,1 gramas. Uma amostra com um valor médio de 280 gramas seria, no entanto, extremamente rara se o conteúdo médio das xícaras fosse, de fato, próximo a 250g. Há todo um intervalo em torno do valor observado 250,2 da média da amostra, dentro do qual, se toda a média da população realmente tomar um valor neste intervalo, os dados observados não seriam considerados particularmente incomuns. Tal intervalo é chamado de intervalo de confiança para o parâmetro μ. Como calculamos tal intervalo? Os pontos finais do intervalo têm que ser calculados a partir da amostra, portanto são estatísticas, funções da amostra X1, ..., X25 e, portanto, as próprias variáveis aleatórias.

Em nosso caso, podemos determinar os pontos finais considerando que a amostra média X de uma amostra normalmente distribuída também é normalmente distribuída, com a mesma expectativa μ, mas com erro padrão σ/σ = 0,5 (gramas). Ao padronizar, obtemos uma variável aleatória

Z = X ¯ - μ σ / n = X ¯ - μ 0.5 {\i1}-z={\i}-frac {\i}-mu {\i}{sigma /{\i}-qrt {n}}}}={\i}-frac {\i}-mu {0.5}}} {\displaystyle Z={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}={\frac {{\bar {X}}-\mu }{0.5}}}

dependendo do parâmetro μ a ser estimado, mas com uma distribuição normal independente do parâmetro μ. Assim, é possível encontrar números -z e z, independentes do μ, onde Z se situa entre com probabilidade 1 - α, uma medida de quão confiantes queremos estar. Tomamos 1 - α = 0,95. Portanto, nós temos:

P ( - z ≤ Z ≤ z ) = 1 - α = 0,95. P(-z-leq Z\leq z)=1-alfa- =0,95,} {\displaystyle P(-z\leq Z\leq z)=1-\alpha =0.95.\,}

O número z é o resultado da função de distribuição cumulativa:

Φ ( z ) = P ( Z ≤ z ) = 1 - α 2 = 0,975 , z = Φ - 1 ( Φ ( z ) ) = Φ - 1 ( 0,975 ) = 1.96 , {\\i1}{\i1}displaystyle {\i}begin{\i}Phi (z)&=P(Z\iq z)=1-{\i1}frac {\i}{\i1}=0,975,{\i}[6pt]z&=\i ^{-1}(\i(z))=\i ^{-1}(0,975)=1,96,{\i}end{\i} {\displaystyle {\begin{aligned}\Phi (z)&=P(Z\leq z)=1-{\tfrac {\alpha }{2}}=0.975,\\[6pt]z&=\Phi ^{-1}(\Phi (z))=\Phi ^{-1}(0.975)=1.96,\end{aligned}}}

e nós conseguimos:

0,95 = 1 - α = P ( - z ≤ Z ≤ z ) = P ( - 1,96 ≤ X ¯ - μ σ / n ≤ 1,96 ) = P ( X ¯ - 1,96 σ n ≤ μ ≤ ≤ X ¯ + 1,96 σ n ) = P ( X ¯ - 1,96 × 0,5 ≤ μ ≤ X ¯ + 1,96 × 0,5 ) = P ( X ¯ - 0,98 ≤ μ ≤ X ¯ + 0,98 ) . {\\i1}displaystyle {\i1}begin{\i1}0,95&=1-{\i1}alpha =P(-z-leq Z\iq z)=P(-1,96\iq {\i1}frac {\i}-mu {\i}{\i}{\i1}sigma /{\i}{\i}-COPY0-leq 196 à direita)6pt[6pt]&=Pesquerda(bar {XX}-1.96frac {sigma {sqrt {n}}-leqmu {xbar {X}+1.96frac {\frac {\sigma {\sqrt {\n}direita)[6pt]&=Pesquerda(bar {Xbar {X}-1,96 vezes 0,5\leq {\mu {Xbar {X}+1.96 vezes 0,5 à direita){6pt]&=Pesquerda(barra {X}-0,98leq {X}mu {X}leq {X}+0,98 à direita).end{alinhado} {\displaystyle {\begin{aligned}0.95&=1-\alpha =P(-z\leq Z\leq z)=P\left(-1.96\leq {\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}\leq 1.96\right)\\[6pt]&=P\left({\bar {X}}-1.96{\frac {\sigma }{\sqrt {n}}}\leq \mu \leq {\bar {X}}+1.96{\frac {\sigma }{\sqrt {n}}}\right)\\[6pt]&=P\left({\bar {X}}-1.96\times 0.5\leq \mu \leq {\bar {X}}+1.96\times 0.5\right)\\[6pt]&=P\left({\bar {X}}-0.98\leq \mu \leq {\bar {X}}+0.98\right).\end{aligned}}}

Isto pode ser interpretado como: com uma probabilidade de 0,95 encontraremos um intervalo de confiança no qual encontraremos o parâmetro μ entre os pontos finais estocásticos

X ¯ - 0 . 98 ¯bar ¯-0{.98,} {\displaystyle {\bar {X}}-0{.}98\,}

e

X ¯ + 0.98. estilo de exibição + 0,98,98,98 {\displaystyle {\bar {X}}+0.98.\,}

Isto não significa que há 0,95 de probabilidade de se atingir o parâmetro μ no intervalo calculado. Toda vez que as medições forem repetidas, haverá outro valor para o X médio da amostra. Em 95% dos casos μ estará entre os pontos finais calculados a partir desta média, mas em 5% dos casos não estará. O intervalo de confiança real é calculado pela entrada dos pesos medidos na fórmula. Nosso intervalo de confiança de 0,95 se torna:

( x ¯ - 0,98 ; x ¯ + 0,98 ) = ( 250,2 - 0,98 ; 250,2 + 0,98 ) = ( 249,22 ; 251,18 ) . {\displaystyle ({\bar {x}}-0.98;{\bar {x}}+0.98)=(250.2-0.98;250.2+0.98)=(249.22;251.18).\,} {\displaystyle ({\bar {x}}-0.98;{\bar {x}}+0.98)=(250.2-0.98;250.2+0.98)=(249.22;251.18).\,}

Como o valor desejado 250 de μ está dentro do intervalo de confiança resultante, não há razão para acreditar que a máquina esteja calibrada erroneamente.

O intervalo calculado tem pontos finais fixos, onde μ pode estar no meio (ou não). Portanto, este evento tem probabilidade 0 ou 1. Não podemos dizer: "com probabilidade (1 - α) o parâmetro μ está no intervalo de confiança". Sabemos apenas que, por repetição em 100(1 - α) % dos casos μ estará no intervalo calculado. Em 100α % dos casos, entretanto, não. E infelizmente não sabemos em qual dos casos isto acontece. É por isso que dizemos: "com nível de confiança 100(1 - α) %, μ está no intervalo de confiança. "

A figura à direita mostra 50 realizações de um intervalo de confiança para uma determinada população significa μ. Se escolhermos aleatoriamente uma realização, a probabilidade é de 95% de termos escolhido um intervalo que contenha o parâmetro; no entanto, podemos ter azar e ter escolhido a realização errada. Nunca saberemos; ficamos presos ao nosso intervalo.

Os segmentos de linha vertical representam 50 realizações de um intervalo de confiança para μ.Zoom
Os segmentos de linha vertical representam 50 realizações de um intervalo de confiança para μ.

Perguntas e Respostas

P: O que é um intervalo de confiança em estatística?


R: Um intervalo de confiança é um intervalo especial usado para estimar um parâmetro, como a média da população, fornecendo uma faixa de valores aceitáveis para o parâmetro em vez de um único valor.

P: Por que é usado um intervalo de confiança em vez de um único valor?


R: Um intervalo de confiança é usado em vez de um único valor para levar em conta a incerteza da estimativa de um parâmetro com base em uma amostra e para fornecer uma probabilidade de que o valor real do parâmetro esteja dentro do intervalo.

P: O que é um nível de confiança?


R: Um nível de confiança é a probabilidade de que o parâmetro que está sendo estimado esteja dentro do intervalo de confiança e, geralmente, é apresentado como uma porcentagem (por exemplo, intervalo de confiança de 95%).

P: O que são limites de confiança?


R: Os limites de confiança são os pontos finais de um intervalo de confiança, que definem o intervalo de valores aceitáveis para o parâmetro que está sendo estimado.

P: Como o nível de confiança afeta o intervalo de confiança?


R: Em um determinado procedimento de estimativa, quanto maior o nível de confiança, mais amplo será o intervalo de confiança.

P: Que suposições são necessárias para calcular um intervalo de confiança?


R: O cálculo de um intervalo de confiança geralmente requer suposições sobre a natureza do processo de estimativa, como a suposição de que a distribuição da população da qual a amostra veio é normal.

P: Os intervalos de confiança são estatísticas robustas?


R: Os intervalos de confiança, conforme discutido abaixo, não são estatísticas robustas, embora possam ser feitos ajustes para aumentar a robustez.

AlegsaOnline.com - 2020 / 2023 - License CC3