Grátis
55
pág.
Denunciar
Pré-visualização | Página 5 de 10
do evento {� ≤ Pw}. Por exemplo, No Exemplo 2.6 (b) podemos estimar a percentagem de usuários que esperam menos que 10 minutos para serem atendidos, isto é: V6(� ≤ 10) = � . (2.8) Neste caso, podemos verificar, de acordo com o código em R "length(y[y<10])/length(y)" que p = 0.92. Graficamente, a percentagem de usuários que esperam entre a e b minutos é dada pela área sombreada no histograma alisado da Figura 2.14 Figura 2.14 - )( bXaFr ≤≤ . Note que, )()()( aXFbXFbXaF rrr ≤−≤=≤≤ , sendo que, rF é a frequência relativa acumulada. Análise Exploratória de Dados 25 Nem sempre, as medidas de tendência central, a média por ex., fornecem informações suficientes sobre o comportamento de uma variável X. Outras medidas podem se fazer necessárias, como, as medidas de dispersão dessa variável. 2.2.3. Medidas de Dispersão Além das medidas de centralidade e de posição, é importante obter informações sobre a dispersão ou variabilidade dos dados. Suponha que os salários dos empregados de uma empresa estejam concentrados em dois grupos: grupo 1 com salários em torno de 10000 reais e grupo 2 com salários em torno de 800 reais. Não seria suficiente informar que a média de salários da empresa é de aproximadamente 5000 reais. Este caso ilustra a importância das medidas de dispersão para melhorar a comparação entre duas ou mais variáveis. Apresentamos nesta seção as medidas de dispersão mais utilizadas: variância, desvio-padrão e o coeficiente de variação. Estas medidas são ainda definidas sob o uso de dados agrupados em subintervalos de classes. Definição 2.5. DESVIO (di) - Considere uma amostra observada (P�, P, ⋯ , P�) de tamanho n de uma variável � . Então, o i-ésimo desvio ?\ em relação à média amostral x é dado por: ?\ = P\ − P̅, (2.9) em que, = = 1, 2, . . . , �. Podemos mostrar que 0)(11=−=∑∑==niinii xxd . Definição 2.6. VARIÂNCIA AMOSTRAL ({) - Considere uma amostra observada de tamanho n (P�, P, ⋯ , P�) de uma variável X. Um estimador da variância populacional 2σ é a variância amostral {, definida por { = 1� − 1 |(P\ − P̅)�\a� (2.10) Outro estimador comumente utilizado para estimar 2σ é dado por }~ = 1� |(P\ − P̅)�\a� . Análise Exploratória de Dados 26 Estimaremos 2σ por { , a menos em situações especificadas. Definição 2.7. DESVIO PADRÃO AMOSTRAL ({) - Considere uma amostra observada (P�, P, ⋯ , P�) de tamanho � de uma variável �. Um estimador do desvio padrão populacional } é o desvio padrão amostral {, definido por { = � 1� − 1 |(P\ − P̅)�\a� . (2.11) Podemos observar que o desvio padrão amostral { é definido como a raiz quadrada da variância amostral {. Outro estimador comumente utilizado para estimar } é dado por }~ = �1� |(P\ − P̅)�\a� . Estimaremos o desvio padrão populacional } pelo estimador { . É importante ressaltar que o desvio padrão é uma medida de dispersão que está na mesma escala dos dados. Definição 2.8. COEFICIENTE DE VARIAÇÃO AMOSTRAL (L�) - O coeficiente de variação amostral L� é uma medida de dispersão adimensional definida como o quociente do desvio padrão amostral pela média amostral: L� = {�P̅ . (2.12) Estimaremos o coeficiente de variação populacional, � = } �⁄ , por �~ = L�, de acordo com a equação (2.12). Análise Exploratória de Dados 27 As equações (2.10), (2.11) e (2.12) podem ser facilmente adaptadas para dados agrupados. Se os dados estão agrupados em k classes ou categorias, com frequências kjf j ,,1, L= , a variância amostral é dada por: { = 1� − 1 |(P5 − P̅)N5a� 45 , em que, x é definida pela equação (2.6). Exemplo 2.7 - Considere uma amostra aleatória (a.a.) de tamanho 21 do tempo de espera � (em minutos) até o atendimento � de usuários numa fila de uma biblioteca: � = (2.0, 5.0, 4.8, 3.5, 2.4, 8.0, 17.0, 3.0, 1.5, 1.2, 1.4, 2.8, 3.1, 1.7, 1.8, 2.4, 16.0, 15.0, 1.4, 1.3, 19.0). A amostra ordenada de � é dada por: (1.2, 1.3, 1.4, 1.4, 1.5, 1.7, 1.8, 2.0, 2.4, 2.4, 2.8, 3.0, 3.1, 3.5, 4.8, 5.0, 8.0, 15.0, 16.0, 17.0, 19.0). Algumas estatísticas para os dados da Tabela 2.5 calculadas no software R são dadas por 21211∑ == i ixx = 5.4428 min. , mediana = 2.8 min. {� = ��X� ∑ (P\ − P̅)�\a� = 34.5286 min2 , {� = 5.8751 min. TABELA 2.5 - Percentis do tempo de espera na fila (em minutos). Percentil xp 0 5 10 25 50 75 90 95 100 1.2 1.3 1.4 1.7 (1o quartil) 2.8 (mediana) 5.0 (3o quartil) 16.0 17.0 19.0 Então, o valor x para o qual 90% dos valores amostrais são menores ou iguais a P é 16.0. Observe que pela definição de percentis, Análise Exploratória de Dados 28 V6(� < 16.0) = 90% , sendo que, V6 é chamada de frequência relativa acumulada do tempo de espera. A Figura 2.15 apresenta um histograma da variável X. FIGURA 2.15 - Histograma do tempo de espera na fila de 21 usuários de uma biblioteca. ## Códigos em R para os dados do Exemplo 2.7 rm(list=ls(all=TRUE)) # remove todas as variaveis x=c(2.0, 5.0, 4.8, 3.5, 2.4, 8.0, 17, 3.0, 1.5, 1.2, 1.4, 2.8, 3.1, 1.7, 1.8, 2.4, 16, 15, 1.4, 1.3, 19) ordx= sort(x) # dados ordenados summary(x) # resumo dos dados xbar= mean(x) # média de X var(x) # variância de X sd(x) # desvio padrão de X n=length(x) # tamanho da amostra q=c(0, 0.05, 0.10, 0.25, 0.50, 0.75, 0.90, 0.95, 1) # para definir percentis de interesse quantile(x, q) Md=median(x) # mediana de X hj=c(0,4,8,12,16,20) # vetor de limites de classes hist(x, breaks=hj, xlim = range(hj), ylim = c(0,0.20) , main="", xlab="tempo de espera na fila (min)", ylab="densidade", col="blue", probability=T) ######## Análise Exploratória de Dados 29 2.2.4. Medidas de Assimetria Definição 2.9. COEFICIENTE DE ASSIMETRIA DE PEARSON (��) - O coeficiente de assimetria de Pearson mede o grau de assimetria da distribuição de frequência em relação à uma distribuição de frequência simétrica, é definido como: ,XoXSMxA−= sendo que, j� , P � e {� representam, a moda, a média e o desvio-padrão amostrais da variável � , respectivamente. Se �� = 0, a distribuição é simétrica. Se �� > 0, a distribuição é assimétrica à direita. Se �� < 0, a distribuição é assimétrica à esquerda. Outros coeficientes de assimetria podem ser visto em DOANE & SEWARD (2011). As Figuras 2.16 e 2.17 mostram posições relativas entre a média moda e mediana, e alguns tipos de histogramas, respectivamente. FIGURA 2.16 - Posições relativas entre a média, mediana e moda numa população. Fonte: DOANE & SEWARD (2011). Análise Exploratória de Dados 30 FIGURA 2.17 - Alguns histogramas com características importantes . Fonte: DOANE & SEWARD (2011). 2.4. Função de Distribuição Empírica DEFINIÇÃO: Sejam (P�, P, ⋯ , P�) uma amostra observada de tamanho � de uma variável quantitativa e P um número real qualquer. A de função de distribuição empírica (Fde), indicada por V�(P) é dada por V�(P) = �(P)� , sendo que, �(P) representa o número de observações menores ou iguais a P. A Figura 2.18 representa a Fde da variável � do Exemplo 2.6 (b). Análise Exploratória de Dados 31 FIGURA 2.18 - Função de distribuição empírica da variável � do Exemplo 2.6 (b). O código em R plot(ecdf(x),col='red',
Página12345678910