A medis da varicao e a mesma variancia da populacao

Nesta seção será discutido o cálculo e o uso da média como uma medida de tendência central, assim como as medidas de dispersão que lhe são associadas, variância, desvio-padrão e coeficiente de variação.

Média a partir de uma série de dados

Seja X uma variável e \(( x_1, \ldots,x_n )\), ou \(( x_1, \ldots,x_N )\), uma sequência de valores observados de X, então a média nesse conjunto de valores é dada por:

  • \(\overline{x}=\displaystyle\frac{\displaystyle\sum_{i=1}^{n}{x_i}}{n}, \mbox{que é a média amostral, no caso de uma amostra}\)
  • \(\mu=\displaystyle\frac{\displaystyle\sum_{i=1}^{n}{x_i}}{N}, \mbox{que é a média populacional para valores a partir de uma população},\) sendo:
    • \(\overline{x}\), a notação para média amostral,
      • \(\mu\) a notação para média populacional,
      • \(n\) a quantidade de elementos na amostra e
      • \(N\) a quantidade de elementos na população.

No R a média pode ser obtida de modo simples e rápido. Considere a variável “Altura”, obtida a partir de questionário aos estudantes ingressastes das engenharias do Campus da UFC de Russas ano 2020. A obtenção da média de altura é vista a seguir, onde pode ser visto que a altura média dos estudantes entrevistados é \(\overline{x} \approx 1,68\).

options(OutDec = ",")
X<-DadosEstudante$Altura                  ## variável "Idade"

X.bar<- mean(X)                           ## obtenção da média


X.bar

## [1] 1,685072

Média a partir da tabela de frequência simples

Para ilustrar a obtenção da média a partir da tabela de frequência simples, considere a variável idade dos entrevistados no dia da entrevista, vista na Tabela 2.2. Como a idade aqui é observada em número de anos completos por cada estudante, essa é uma variável resultado de uma contagem, assim pode ser considerada como discreta. Além, disso, são poucos valores possíveis no conjunto de dados, como pode ser visto a seguir:

X<-DadosEstudante$Idade                       ## variável "Idade"

Valores_possiveis<- unique(X)                 ## possíveis valores da variável no conjunto de dados

Valores_possiveis

##  [1] 17 19 20 18 43 22 23 21 28 16 24 26 33 25

Deste modo, pode ser pensada uma tabela de frequência simples para essa variável, como mostra a Tabela 2.1. A partir dessa tabela pode ser obtida a idade média dos entrevistados multiplicando a frequência relativa pelos valores assumidos pela variável, em seguida somando os termos resultantes, como segue:

\[\overline{x}=\displaystyle\sum_{i=1}^{k} x_i f_i = 16 . \frac{1}{209}+ 17 . \frac{23}{209}+18 . \frac{63}{209}+ 19. \frac{52}{209}+ 20. \frac{30}{209}+ 21. \frac{12}{209} + 22. \frac{12}{209} +\]

\[ + 23. \frac{8}{209} + 24. \frac{1}{209} + 25. \frac{1}{209} + 26. \frac{1}{209} + 28. \frac{8}{209} + 33. \frac{1}{209} + 43. \frac{2}{209}\approx 19,5.\]

Esses cálculos podem ser realizados na própria tabela de frequência, observe a quarta coluna da Tabela 2.1, onde podem ser encontrados os resultados para cada termo do somatório apresentado acima, bem como o total obtido, que é a média da variável “Idade”. Assim, em média os estudantes estavam com 19,5 anos completos na época de aplicação do questionário, que coincidiu com o início do curso que escolheram.

Tabela 2.1: Distribução de frequência da variável X=“Idade”.
\(X_i\)\(n_i\)\(f_i\)\(X_i \times f_i\)
16 1 0,005 0,077
17 23 0,110 1,871
18 63 0,301 5,426
19 52 0,249 4,727
20 30 0,144 2,871
21 12 0,057 1,206
22 12 0,057 1,263
23 8 0,038 0,880
24 1 0,005 0,115
25 1 0,005 0,120
26 1 0,005 0,124
28 2 0,010 0,268
33 1 0,005 0,158
43 2 0,010 0,411
Total 209 1,000 19,517

#if(!require(knitr)) install.packages("knitr");require(knitr) # instalar caso não tenha
## no código abaixo, se os dados estiverem em um diretório do computador, bastar fornecer o caminho com barras invertidas, seguido do nome do arquivo, em vez do link, exemplo "C:/user/meus documentos/DataEstudat.csv"
DadosEstudante<-read.table("https://raw.githubusercontent.com/rfdapaz/DadosAME/master/DataEstudat.csv",sep=',', head=TRUE, encoding = "UTF-8", check.names=FALSE) 

knitr::kable(
  head(DadosEstudante[,1:8], 10), caption = 'Dados fornecidos por estudantes ingressantes do ano de 2020 nos cursos de engenharias do Campus da UFC de Russas.',
  booktabs = TRUE
)

Tabela 2.2: Dados fornecidos por estudantes ingressantes do ano de 2020 nos cursos de engenharias do Campus da UFC de Russas.
CidadeUFSexoIdadePesoAlturaCurso
1 Limoeiro do Norte CE Feminino 17 40,2 1,61 Engenharia Mecânica
2 Aracati CE Feminino 17 100,0 1,60 Engenharia de Produção
3 Limoeiro do Norte CE Masculino 19 60,0 1,65 Engenharia de Produção
4 Quixadá CE Masculino 20 80,3 1,73 Engenharia Mecânica
5 Russas CE Masculino 17 59,0 1,68 Engenharia Mecânica
6 Limoeiro do Norte CE Masculino 19 75,0 1,80 Engenharia de Software
7 Jaguaribe CE Masculino 18 63,0 1,75 Engenharia de Produção
8 Jaguaruana CE Feminino 18 57,0 1,53 Engenharia de Produção
9 Fortaleza CE Feminino 19 74,0 1,65 Engenharia de Produção
10 Russas CE Masculino 20 73,0 1,70 Engenharia Mecânica

Medida da dispersão em torno da média

Uma medida da localização do centro da distribuição de frequência sem informações sobre a dispersão dos dados em torno dessa medida não é de muita utilidade. Principalmente se essa medida é a média, que pode ser afetada por diversas características dos dados. Para ilustrar, considere o Exemplo 2.1.

Exemplo.2.1 Suponha que duas lojas (Loja A e Loja B) de uma mesma franquia estejam sendo comparadas pelas vendas diárias de seus produtos. Para isso foram regitradas o total de itens vendidos por dia durante 30 dias. As Tabelas vistas em 2.4 mostram as distribuições dos números de vendas diárias para as duas lojas. Nestas tabelas estão apresentadas as médias de vendas diárias para as duas lojas sendo:

  • loja A: \(\overline{A}=3,7\)
  • loja B: \(\overline{B}=3,7.\)

Com base nas médias acima pode-se concluir que as vendas diárias ocorrem de maneira igual nas duas lojas. Mas será que isso é verdade?

Note que mesmo as distribuições das vendas diárias sendo diferente, como mostram as tabelas, essas distribuições levam a mesma média diária de vendas.

Assim, para se ter uma melhor descrição da distribução de frequência de uma variável, faz-se necessário o uso de uma medida da variabilidade dos dados em torno da medida de tendência central utilizada. Para medir a variabilidade em torno da média podem ser usadas:

  • variância;
  • desvio-padrão;
  • e coeficiente de variação.
Tabela 2.4: Frequência de vendas diárias das lojas A e B em 30 dias.
Vendas diárias Loja B\(n_i\)\(f_i\)\(X_i \times f_i\)
2 2 0,1 0,1
3 9 0,3 0,9
4 14 0,5 1,9
5 5 0,2 0,8
Total 30 1,0 3,7
Vendas diárias Loja A\(n_i\)\(f_i\)\(X_i \times f_i\)
0 2 0,1 0,0
2 8 0,3 0,5
3 4 0,1 0,4
4 5 0,2 0,7
5 7 0,2 1,2
6 2 0,1 0,4
7 1 0,0 0,2
9 1 0,0 0,3
Total 30 1,0 3,7

Variância e Desvio-Padrão

A medida de tendência central mais comumente utilizada na prática é a média.
Uma vez que essa medida é adotada para descrever a posição da distribuição dos dados,
faz-se necessário a escolha de uma medida da variabilidade em torno dessa média.
Neste caso, a variância e o desvio padrão podem ser adotados.

Para entender a obtenção da variância é importante entender o conceito de desvio em torno da média. O desvio é dado pela diferênça entre cada valor observado e a média desses valores. Considere a sequência de observações a seguir:

## [1]  8 11 13  9  7

A média dessa sequência é dada por:

\[\overline{x}=\frac{(8 +11+ 13 + 9+ 7)}{5}=9,6\] Assim, os desvios dos dados em torno da média é dado por: \[d_i=x_i-\overline{x}\] Para essa série de dados, os desvios são:

\[d_1=x_1-\overline{x}=8-9,6=-1,6\] \[d_2=x_2-\overline{x}=11-9,6=1,4\] \[d_3=x_3-\overline{x}=13-9,6=3,4\]

\[d_4=x_4-\overline{x}=9-9,6=-0,6\]

\[d_5=x_5-\overline{x}=7-9,6=-2,6\]

Com isso, têm-se um novo conjunto de dados, fornecido pelas diferenças acima. Uma medida da dispersão em torno da média é alcançada sumarizando esses desvios observados. Vimos que uma medida usada para resumir um conjunto de dados, é a média. No entanto, obter a média desses desvios diretamente não seria uma maneira eficaz de obter informações sobre os desvios, pois componentes negativos anulam parte de componentes positivos e vice-versa.

Então, para resolver esse problema é conveniente obter a média do quadrado dos desvios, em vez dos desvios diretamente, ou seja, é conveniente obter:

\[S^2=\frac{(d_1^2 +d_2^2+ d_3^2 + d_4^2+ d_5^2)}{5}=\frac{((-1.6)^2 +(1.4)^2+ (3.4)^2 + (-0.6)^2+ (-2.6)^2)}{5}= 4.64\]

Logo, uma medida da variabilidade dos dados em torno da média, que é dada pela média dos quadrados dos desvio. Essa medida é chamada de variância e, pela sua construção, quanto maior o seu valor, maior é a dispersão dos dados em torno da média.

Embora a variância seja uma boa medida da variabilidade dos dados, sua interpretação fica comprometida pela alteração da unidade da variável, ocorrida pela consideração dos quadrados dos desvio. Para contornar essa dificuldade, é comum o uso da raiz quadrada da variância, em vez de seu valor propriamente dito. Neste caso, tem-se o desvio-padrão.

Variância e desvio-padrão de uma amostra a partir de uma série de dados

Considerando \(x_1, x_2, \cdots, x_n\) uma sequência de valores observados de uma variável X a partir de uma amostra, a variância e o desvio-padrão amostrais podem ser obtidos como segue.

\[\mbox{Variância: } S^2=\frac{\displaystyle\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1}\]

\[\mbox{Desvio-Padrão: } S=\sqrt\frac{\displaystyle\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1}\] em que:

  • \(\overline{x}\) denota a média da amostral

  • e \(n\) denota a quantidade de elementos na amostra.

Variância e desvio-padrão da população a partir de uma série de dados

Seja \(x_1, x_2, \cdots, x_N\) uma sequência de valores observados de uma variável X. Assim, a variância e o desvio-padrão podem ser obtidos como segue.

\[\mbox{Variância: } \sigma^2=\frac{\displaystyle\sum_{i=1}^{N}(x_i-\mu)^2}{N}\] \[\mbox{Desvio-Padrão: } \sigma=\sqrt\frac{\displaystyle\sum_{i=1}^{N}(x_i-\mu)^2}{N},\] em que:

  • \(\mu\) é a média da população

  • e \(N\) é a quantidade de elementos na população.

Variância a partir de uma tabela de frequência

Se os dados estão apresentados em uma tabela de frequência, a variância é obtida tomando-se a média ponderada dos quadrados dos desvios dos valores possíveis da variável (ou dos pontos médio das classes).

\[\sigma^2=\frac{\displaystyle\sum_{j=1}^{k}(x_j-\mu)^2.n_j}{N} \ \ \ \ \ \ \ \ \ \ \mbox{ ou } \ \ \ \ \ \ \ \ \ S^2=\frac{\displaystyle\sum_{j=1}^{k}(x_j-\mu)^2.n_j}{n-1},\]

em que:

  • \(n_j\) é a frequência da j-ésima classe;

  • \(k\) é o número de classes na tabela

  • e \(x_j\) é o j-ésimo valor possível da variável (ou ponto médio da classe).

Coeficiente de variação (CV)

O CV é uma medida de variabilidade relativa, que é definida como a razão entre o desvio padrão e a média. Assim, essa é uma medida expressa em percentual e seu cálculo é mostrado a seguir.

\[\mbox{População: } CV\%=\frac{\sigma}{\mu} \times 100\] \[\mbox{Amostra: } CV\%=\frac{S}{\overline{x}} \times 100\]

Note que o CV não tem unidade, pois o desvio-padrão e a média estão na mesma unidade, fazendo com que estas se cancelem. Isso faz com que esta seja uma boa métrica para comparar variabilidade de dados em unidades diferentes.

Como foi visto no Exemplo 2.1, a interpretação da média pode ser comprometida pela variabilidade dos dados. Como o coeficiente de variação é bastante sensível a variabilidade, sendo que um CV um pouco alto já fornece alta variabilidade, em cada área, ou problema, é sempre bom ser estudados valores de referência, ou limiares para esse medida. Aqui, para efeitos didáticos, serão usados os limiares apresentados na Tabela 2.5.

Tabela 2.5: Exemplo de limiares para o CV.
FaixaCV %Dispersão
menor ou igual a 15 % baixo baixa dispersão dos dados
entre 15 % e 30 % médio média dispersão dos dados
maior que 30 % alto alta dispersão dos dados

Exemplos de Aplicação

Tabela 2.6: Dados das curvas da rodovia BR 116 entre os quilometros 52,90 e 113,20 no estado do Ceará, e número de acidentes entre 2014 e 2019 analisados em Quaresma (2019).
Km da curva\(N^o\) de AcidentesRaio Ângulo CentralDesenvol.Superel.
53,11 6 260 34,18 75,124 7,99
53,43 5 260 29,90 55,697 7,99
55,76 0 5000 0,21 18,249 0,78
57,99 2 2300 3,27 131,249 1,64
58,16 0 1300 10,85 186,098 2,78
58,47 1 900 7,58 59,152 3,83

Referências

O que é variância de uma população?

A variância populacional é um valor de dispersão* do centro de uma dada função de distribuição. A «variância populacional» pode ser vista como a variância do modelo matemático escolhido para modelar determinada variável aleatória.

Como calcular a variância da média?

Fórmulas de variância e desvio padrão Primeiramente, devemos calcular a média aritmética do conjunto; Em seguida, subtraímos de cada valor do conjunto a média calculada e elevamos o resultado ao quadrado; Por fim, somamos todos os valores e dividimos pelo número de dados.

Quanto maior a média maior a variância?

Variância - indica o quão distante está cada valor dos números do valor central. Dito isso, quanto menor a variância, mais próximos os valores da média; quanto maior a variância, mais distantes os valores estão da média.

Qual a diferença de variância amostral e populacional?

Quando o conjunto das observações é uma população, é chamada de variância da população. Se o conjunto das observações é (apenas) uma amostra estatística, chamamos-lhe de variância amostral (ou variância da amostra).