× Estatística 1 Estatística 2 Matemática Financeira Logística 1 Administração Financeira Logística 2

open

Estatística 2 - Aula 8

Aula 08 - Intervalo de confiança

Intervalo de confiança

Introdução

Vimos até o momento como se comporta uma população com distribuição normal sabendo os dados que a parametrizam: média e desvio padrão. Porém, muitas vezes não sabemos o valor do desvio padrão ou da média da população. Para calcular a média e o desvio padrão da população pegamos uma amostra em campo, esta podendo ser de 25 objetos, 30, 50, 100, 500 etc...

Mas devemos saber diferenciar o que é desvio padrão e média da amostra e o que é da população.

Por exemplo, qual a média de um lançamento de um dado de 6 faces? A média é 3,5, em outras palavras, a população tem média 3,5. Agora, imagina que lançando um dado 5 vezes coletamos os seguintes dados:

\begin{equation} 1, 6, 3, 2, 1 \end{equation}

A média da amostra é 2,6!!

Agora lançamentos de novo 5 dados:

\begin{equation} 5, 3, 6, 3, 1 \end{equation}

Dessa vez a média da amostra é 3,83!!

Simulações

E se começarmos a guardar esse resultado da média? Vamos fazer algumas simulações:

Simulações para amostra de tamanho 5

Para 2 grupos de 5 lançamentos de dados (amostra tamanho 5):

1º média = 2,6 2º média = 3,83

Para 10 grupos de 5 lançamentos de dados (amostra tamanho 5):

Exemplo média 10

Para 30 grupos de 5 lançamentos de dados (amostra tamanho 5):

Exemplo média 10

Para 70 grupos de 5 lançamentos de dados (amostra tamanho 5):

Exemplo média 10

Para 200 grupos de 5 lançamentos de dados (amostra tamanho 5):

Exemplo média 10

Para 2000 grupos de 5 lançamentos de dados (amostra tamanho 5):

Exemplo média 10

Depois de uma certa quantidade é possível verificar uma curva normal ocorrendo. Mas demorou para a curva normal aparecer, logo, vamos fazer uma mudança, e se usarmos uma amostra de tamanho 200? Isto é, vamos ver a média depois de lançar 200 dados, espera-se que a média fique em volta de 3,5 como é da população! Vamos para as simulações:

Simulações para amostra de tamanho 200

Para 10 grupos de 200 lançamentos de dados (amostra tamanho 200):

Exemplo média 10

Para 70 grupos de 200 lançamentos de dados (amostra tamanho 200):

Exemplo média 10

Para 200 grupos de 200 lançamentos de dados (amostra tamanho 200):

Exemplo média 10

Para 200 grupos de 2000 lançamentos de dados (amostra tamanho 2000):

Exemplo média 10

De novo o gráfico é similar a uma normal!!

Conclusões

Percebe-se dois pontos:

O gráfico é similar à normal. No caso usaremos a teoria central do limite de novo: Em repetidos experimentos, a média de uma amostra irá tender a uma distribuição normal.

A amplitude do primeiro é diferente da amplitude do segundo. Lidando com amostras, quanto maior sua amostra, menor o desvio padrão da média amostral.

Média amostral

Assim, dizemos que a média amostral é normalmente distribuída:

\begin{equation} \bar{x} \sim N(u, \frac{\sigma}{\sqrt{n}}) \end{equation}

Ela é dependente da média da amostra e o desvio padrão da amostra dividido pela raiz do tamanho da amostra.

Intervalo de confiança

É claro que a média amostral não é interessante, o que nos interessa de verdade é a média da população. Para isso nos utilizamos de um intervalo de confiança:

Um intervalo de confiança (IC) é um intervalo estimado de um parâmetro de interesse de uma população. Em vez de estimar o parâmetro por um único valor, é dado um intervalo de estimativas prováveis.

Intervalos de confiança são usados para indicar a confiabilidade de uma estimativa. Por exemplo, um IC pode ser usado para descrever o quanto os resultados de uma pesquisa são confiáveis. Sendo todas as estimativas iguais, uma pesquisa que resulte num IC pequeno é mais confiável do que uma que resulte num IC maior.

Podemos interpretar o intervalo de confiança como um intervalo que contém os valores "plausíveis" que a média da população pode assumir. Assim, a amplitude do intervalo está associada a incerteza que temos a respeito do parâmetro.

O tamanho do intervalo é definido pela distribuição normal da média amostral e da confiança escolhida. Por exemplo, é comum usar para estes cálculos 95% de confiança, isso quer dizer que em 95% das vezes a média da população estará neste intervalo. A confiança é inversamente proporcional à siginificância, a significância está ligada ao erro do teste, neste caso, uma confiança de 95% significa uma significância de 5%.

No caso essa confiança é denominada alpha e procuramos um intervalo em que a média populacional estará abrangendo a confiança dada:

Assim, dado o nível de confiança que gostaria de ter: 90%, 95%, 98%, 99% etc... irá procurar os pontos que possibilitam ter um intervalo com essa confiança. Em intervalos bicaudais, um intervalo que tende para direita quanto para esquerda, procuramos os pontos onde deixem a probabilidade de erro metade para esquerda e metade para direita.

Exemplo real

Uma pesquisa de opinião entrevistou 2500 pessoas com respeito se irão votar ou não votar num candidato A. Em média, 20% dos entrevistados votarão no candidato A e sabemos que o desvio padrão populacional é de 40%, já que o desvio amostral é de 40% e temos uma amostra muito grande(mais de 2000 pessoas). Uma empresa de consultoria quer construir um intervalo de confiança para a média populacional, em outras palavras, poder, a partir dessa amostra, definir quantas pessoas vão votar no candidato A na população total. Para isso definiu que haverá 5% siginificância ou 95% de confiança seu intervalo.

Um intervalo de 95% de confiança bicaudal indica que haverá 2,5% de erro à direita e à esquerda. Sabendo que a média de uma amostra se comporta como uma normal, o Z que estabela o erro de 2,5% à esquerda é de -1,96 e o Z que estabele erro de 2,5% à direita é de 1,96. Em resumo:

\begin{equation}-1,96 < \text{nosso intervalo na normal reduzida} < 1,96\end{equation}

No caso é na normal reduzida. Devemos assim transformá-la para a normal da questão que possui 20% de média. A binomial de 20% de média tem desvio padrão de 40%, como neste caso é uma amostra:

\begin{equation} \text{X para }P(X < 2,5\%) = 20\%-1,96*\frac{40\%}{\sqrt{2500}} = 18,43\%\end{equation}\begin{equation} \text{X para }P(X > 97,5\%) = 20\%+1,96*\frac{40\%}{\sqrt{2500}} = 21,56\%\end{equation}

O que aconteceria se utilizarmos os mesmos parâmetros do exercício anterior, mas 40% dos entrevistados vão votar no candidato A com desvio padrão populacional de 24%?

A binomial de 40% de média tem desvio padrão de 24%, como neste caso é uma amostra:

\begin{equation} \text{X para }P(X < 2,5\%) = 40\%-1,96*\frac{24\%}{\sqrt{2500}} = 39,05\%\end{equation}\begin{equation} \text{X para }P(X > 97,5\%) = 40\%+1,96*\frac{24\%}{\sqrt{2500}} = 40,94\%\end{equation}

O que aconteceria se utilizarmos os mesmos parâmetros do exercício anterior, mas com significância de 2%?

Significância de 2% significa que ignoraremos os 1% de média inferiores ou os 1% maiores médias:

\begin{equation} \text{X para }P(X < 1\%) = 40\%-2,33*\frac{24\%}{\sqrt{2500}} = 38,88\%\end{equation}\begin{equation} \text{X para }P(X > 99\%) = 40\%+2,33*\frac{24\%}{\sqrt{2500}} = 41,11\%\end{equation}

Bem próximo dos famosos 1% de erro para cima ou para baixo nas pesquisas de opiniões em época de eleição! A verdade é que o desvio padrão da amostra é diferente para cada média apresentada. Para o apresentador não ter que falar cada erro na televisão, preferimos apenas dizer que todos tem erro médio de 1%.

Exercícios

1) Se uma amostra aleatória n=25, tem uma média amostral de 51,3 e uma desvio padrão populacional de σ=2. Construa o intervalo com 95% de confiança para a média populacional µ.

2) Sabe-se que a vida em horas de um bulbo de lâmpada de 75W é distribuída de forma aproximadamente normal com desvio padrão de σ=25. Uma amostra aleatória de 20 bulbos tem uma vida media de 1.014 horas. Construa um intervalo de confiança de 95% para a vida média.

3) Qual deve ser o tamanho da amostra para que o intervalo com 99,5% de confiança para a média populacional tenha uma semi amplitude não superior a 1,5? Sabe-se que a variância populacional é de 23.

4) Qual deve ser o tamanho de uma amostra cujo desvio padrão é 10 para que a diferença da média amostral para a média da população, em valor absoluto, seja menor que 1, com coeficiente de confiança igual a:

a) 95%

b) 99%

5) Uma variável aleatória X tem distribuição normal, com média amostral 100 e desvio padrão populacional 10. Se o tamanho amostral é de 16 elementos, calcule P(90 < média populacional < 110).

6) Que tamanho deveria ter uma amostra com média amostral de 100 e desvio padrão populacional 10 para que P(90 < média populacional < 110) = 95%?

7) Uma amostra aleatória de 625 donas de casa revela que 70% da amostra preferem a marca A de detergente com desvio padrão populacional de 45%. Construir um intervalo de confiança para p = proporção das donas de casa que preferem A com coeficiente de confiança γ = 90%.

8) Suponha que estejamos interessados em estimar a porcentagem de consumidores de um certo produto. Se a amostra de tamanho 300 forneceu 100 indivíduos que consomem o dado produto, determine o intervalo de confiança da média populacional, com c.c. de 95%; interprete o resultado.

Gabarito

1) I.C. = 51,3 ± 0,78;

2) I.C. = 1014 ± 11;

3) 81;

4) a) 385; b) 665;

5) Quase 100%;

6) Aproximadamente 4.

7) (0.6692 ; 0.7308).

8) (0.280; 0.387).

Como fazer os gráficos dessa aula:

In [1]:
import matplotlib.pyplot as plt
import math
import numpy as np
import random
%matplotlib inline  
In [36]:
def media_5_dados_n_vezes(n):
    dado = []
    for k in range(n):
        amostra = []
        for x in range(5):
            amostra.append(random.randrange(6) + 1)
        dado.append(np.mean(amostra))
    return dado
In [53]:
def media_200_dados_n_vezes(n):
    dado = []
    for k in range(n):
        amostra = []
        for x in range(200):
            amostra.append(random.randrange(6) + 1)
        dado.append(np.mean(amostra))
    return dado
In [37]:
media_5_dados_n_vezes(3)
Out[37]:
[3.0, 3.2, 3.6]
In [42]:
plt.hist(media_5_dados_n_vezes(10))
plt.xlabel(u"Valor da média")
plt.ylabel(u"Frequência")
plt.show()
In [43]:
plt.hist(media_5_dados_n_vezes(30))
plt.xlabel(u"Valor da média")
plt.ylabel(u"Frequência")
plt.show()
In [46]:
plt.hist(media_5_dados_n_vezes(70))
plt.xlabel(u"Valor da média")
plt.ylabel(u"Frequência")
plt.show()
In [49]:
plt.hist(media_5_dados_n_vezes(200))
plt.xlabel(u"Valor da média")
plt.ylabel(u"Frequência")
plt.show()
In [51]:
plt.hist(media_5_dados_n_vezes(2000))
plt.xlabel(u"Valor da média")
plt.ylabel(u"Frequência")
plt.show()
In [54]:
plt.hist(media_200_dados_n_vezes(10))
plt.xlabel(u"Valor da média")
plt.ylabel(u"Frequência")
plt.show()
In [55]:
plt.hist(media_200_dados_n_vezes(70))
plt.xlabel(u"Valor da média")
plt.ylabel(u"Frequência")
plt.show()
In [56]:
plt.hist(media_200_dados_n_vezes(200))
plt.xlabel(u"Valor da média")
plt.ylabel(u"Frequência")
plt.show()
In [57]:
plt.hist(media_200_dados_n_vezes(2000))
plt.xlabel(u"Valor da média")
plt.ylabel(u"Frequência")
plt.show()
In [ ]: