Nesta seção será discutido o cálculo e o uso da média como uma medida de tendência central, assim como as medidas de dispersão que lhe são associadas, variância, desvio-padrão e coeficiente de variação. Show
Média a partir de uma série de dadosSeja X uma variável e \(( x_1, \ldots,x_n )\), ou \(( x_1, \ldots,x_N )\), uma sequência de valores observados de X, então a média nesse conjunto de valores é dada por:
No R a média pode ser obtida de modo simples e rápido. Considere a variável “Altura”, obtida a partir de questionário aos estudantes ingressastes das engenharias do Campus da UFC de Russas ano 2020. A obtenção da média de altura é vista a seguir, onde pode ser visto que a altura média dos estudantes entrevistados é \(\overline{x} \approx 1,68\).
Média a partir da tabela de frequência simplesPara ilustrar a obtenção da média a partir da tabela de frequência simples, considere a variável idade dos entrevistados no dia da entrevista, vista na Tabela 2.2. Como a idade aqui é observada em número de anos completos por cada estudante, essa é uma variável resultado de uma contagem, assim pode ser considerada como discreta. Além, disso, são poucos valores possíveis no conjunto de dados, como pode ser visto a seguir:
Deste modo, pode ser pensada uma tabela de frequência simples para essa variável, como mostra a Tabela 2.1. A partir dessa tabela pode ser obtida a idade média dos entrevistados multiplicando a frequência relativa pelos valores assumidos pela variável, em seguida somando os termos resultantes, como segue: \[\overline{x}=\displaystyle\sum_{i=1}^{k} x_i f_i = 16 . \frac{1}{209}+ 17 . \frac{23}{209}+18 . \frac{63}{209}+ 19. \frac{52}{209}+ 20. \frac{30}{209}+ 21. \frac{12}{209} + 22. \frac{12}{209} +\] \[ + 23. \frac{8}{209} + 24. \frac{1}{209} + 25. \frac{1}{209} + 26. \frac{1}{209} + 28. \frac{8}{209} + 33. \frac{1}{209} + 43. \frac{2}{209}\approx 19,5.\] Esses cálculos podem ser realizados na própria tabela de frequência, observe a quarta coluna da Tabela 2.1, onde podem ser encontrados os resultados para cada termo do somatório apresentado acima, bem como o total obtido, que é a média da variável “Idade”. Assim, em média os estudantes estavam com 19,5 anos completos na época de aplicação do questionário, que coincidiu com o início do curso que escolheram.
Tabela 2.2: Dados fornecidos por estudantes ingressantes do ano de 2020 nos cursos de engenharias do Campus da UFC de Russas.
Medida da dispersão em torno da médiaUma medida da localização do centro da distribuição de frequência sem informações sobre a dispersão dos dados em torno dessa medida não é de muita utilidade. Principalmente se essa medida é a média, que pode ser afetada por diversas características dos dados. Para ilustrar, considere o Exemplo 2.1. Exemplo.2.1 Suponha que duas lojas (Loja A e Loja B) de uma mesma franquia estejam sendo comparadas pelas vendas diárias de seus produtos. Para isso foram regitradas o total de itens vendidos por dia durante 30 dias. As Tabelas vistas em 2.4 mostram as distribuições dos números de vendas diárias para as duas lojas. Nestas tabelas estão apresentadas as médias de vendas diárias para as duas lojas sendo:
Com base nas médias acima pode-se concluir que as vendas diárias ocorrem de maneira igual nas duas lojas. Mas será que isso é verdade? Note que mesmo as distribuições das vendas diárias sendo diferente, como mostram as tabelas, essas distribuições levam a mesma média diária de vendas. Assim, para se ter uma melhor descrição da distribução de frequência de uma variável, faz-se necessário o uso de uma medida da variabilidade dos dados em torno da medida de tendência central utilizada. Para medir a variabilidade em torno da média podem ser usadas:
Variância e Desvio-PadrãoA medida de tendência central mais comumente utilizada na prática é a média. Para entender a obtenção da variância é importante entender o conceito de desvio em torno da média. O desvio é dado pela diferênça entre cada valor observado e a média desses valores. Considere a sequência de observações a seguir:
A média dessa sequência é dada por: \[\overline{x}=\frac{(8 +11+ 13 + 9+ 7)}{5}=9,6\] Assim, os desvios dos dados em torno da média é dado por: \[d_i=x_i-\overline{x}\] Para essa série de dados, os desvios são: \[d_1=x_1-\overline{x}=8-9,6=-1,6\] \[d_2=x_2-\overline{x}=11-9,6=1,4\] \[d_3=x_3-\overline{x}=13-9,6=3,4\] \[d_4=x_4-\overline{x}=9-9,6=-0,6\] \[d_5=x_5-\overline{x}=7-9,6=-2,6\] Com isso, têm-se um novo conjunto de dados, fornecido pelas diferenças acima. Uma medida da dispersão em torno da média é alcançada sumarizando esses desvios observados. Vimos que uma medida usada para resumir um conjunto de dados, é a média. No entanto, obter a média desses desvios diretamente não seria uma maneira eficaz de obter informações sobre os desvios, pois componentes negativos anulam parte de componentes positivos e vice-versa. Então, para resolver esse problema é conveniente obter a média do quadrado dos desvios, em vez dos desvios diretamente, ou seja, é conveniente obter: \[S^2=\frac{(d_1^2 +d_2^2+ d_3^2 + d_4^2+ d_5^2)}{5}=\frac{((-1.6)^2 +(1.4)^2+ (3.4)^2 + (-0.6)^2+ (-2.6)^2)}{5}= 4.64\] Logo, uma medida da variabilidade dos dados em torno da média, que é dada pela média dos quadrados dos desvio. Essa medida é chamada de variância e, pela sua construção, quanto maior o seu valor, maior é a dispersão dos dados em torno da média. Embora a variância seja uma boa medida da variabilidade dos dados, sua interpretação fica comprometida pela alteração da unidade da variável, ocorrida pela consideração dos quadrados dos desvio. Para contornar essa dificuldade, é comum o uso da raiz quadrada da variância, em vez de seu valor propriamente dito. Neste caso, tem-se o desvio-padrão. Variância e desvio-padrão de uma amostra a partir de uma série de dadosConsiderando \(x_1, x_2, \cdots, x_n\) uma sequência de valores observados de uma variável X a partir de uma amostra, a variância e o desvio-padrão amostrais podem ser obtidos como segue. \[\mbox{Variância: } S^2=\frac{\displaystyle\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1}\] \[\mbox{Desvio-Padrão: } S=\sqrt\frac{\displaystyle\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1}\] em que:
Variância e desvio-padrão da população a partir de uma série de dadosSeja \(x_1, x_2, \cdots, x_N\) uma sequência de valores observados de uma variável X. Assim, a variância e o desvio-padrão podem ser obtidos como segue. \[\mbox{Variância: } \sigma^2=\frac{\displaystyle\sum_{i=1}^{N}(x_i-\mu)^2}{N}\] \[\mbox{Desvio-Padrão: } \sigma=\sqrt\frac{\displaystyle\sum_{i=1}^{N}(x_i-\mu)^2}{N},\] em que:
Variância a partir de uma tabela de frequênciaSe os dados estão apresentados em uma tabela de frequência, a variância é obtida tomando-se a média ponderada dos quadrados dos desvios dos valores possíveis da variável (ou dos pontos médio das classes). \[\sigma^2=\frac{\displaystyle\sum_{j=1}^{k}(x_j-\mu)^2.n_j}{N} \ \ \ \ \ \ \ \ \ \ \mbox{ ou } \ \ \ \ \ \ \ \ \ S^2=\frac{\displaystyle\sum_{j=1}^{k}(x_j-\mu)^2.n_j}{n-1},\] em que:
Coeficiente de variação (CV)O CV é uma medida de variabilidade relativa, que é definida como a razão entre o desvio padrão e a média. Assim, essa é uma medida expressa em percentual e seu cálculo é mostrado a seguir. \[\mbox{População: } CV\%=\frac{\sigma}{\mu} \times 100\] \[\mbox{Amostra: } CV\%=\frac{S}{\overline{x}} \times 100\] Note que o CV não tem unidade, pois o desvio-padrão e a média estão na mesma unidade, fazendo com que estas se cancelem. Isso faz com que esta seja uma boa métrica para comparar variabilidade de dados em unidades diferentes. Como foi visto no Exemplo 2.1, a interpretação da média pode ser comprometida pela variabilidade dos dados. Como o coeficiente de variação é bastante sensível a variabilidade, sendo que um CV um pouco alto já fornece alta variabilidade, em cada área, ou problema, é sempre bom ser estudados valores de referência, ou limiares para esse medida. Aqui, para efeitos didáticos, serão usados os limiares apresentados na Tabela 2.5. Tabela 2.5: Exemplo de limiares para o CV.
Exemplos de AplicaçãoTabela 2.6: Dados das curvas da rodovia BR 116 entre os quilometros 52,90 e 113,20 no estado do Ceará, e número de acidentes entre 2014 e 2019 analisados em Quaresma (2019).
ReferênciasO que é variância de uma população?A variância populacional é um valor de dispersão* do centro de uma dada função de distribuição. A «variância populacional» pode ser vista como a variância do modelo matemático escolhido para modelar determinada variável aleatória.
Como calcular a variância da média?Fórmulas de variância e desvio padrão
Primeiramente, devemos calcular a média aritmética do conjunto; Em seguida, subtraímos de cada valor do conjunto a média calculada e elevamos o resultado ao quadrado; Por fim, somamos todos os valores e dividimos pelo número de dados.
Quanto maior a média maior a variância?Variância - indica o quão distante está cada valor dos números do valor central. Dito isso, quanto menor a variância, mais próximos os valores da média; quanto maior a variância, mais distantes os valores estão da média.
Qual a diferença de variância amostral e populacional?Quando o conjunto das observações é uma população, é chamada de variância da população. Se o conjunto das observações é (apenas) uma amostra estatística, chamamos-lhe de variância amostral (ou variância da amostra).
|