Gabarito da Aula 5: Inferência estatística

A partir da base dos pinguins do pacote dados:

1. Calcule a correlação produto momento de Pearson entre o comprimento do bico e a profundidade do bico dos pinguins. Crie um gráfico de pontos (dispersão) com ggplot2 para acompanhar sua análise exploratória.

library(dados)

cor.test(x = pinguins$comprimento_bico,
         y = pinguins$profundidade_bico,
         method = "pearson")

    Pearson's product-moment correlation

data:  pinguins$comprimento_bico and pinguins$profundidade_bico
t = -4.4591, df = 340, p-value = 0.0000112
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.3328072 -0.1323004
sample estimates:
       cor 
-0.2350529 

Os resultados nos indicam que as duas variáveis apresentam uma correlação negativa (ou seja, quando o valor de uma variável sobe, o valor da outra desce). A correlação parece estar entre uma correlação fraca e moderada (r = 0,235).

library(ggplot2)

pinguins |> 
  ggplot(aes(x = comprimento_bico,
             y = profundidade_bico)) +
  geom_point(fill = "tan4",
             size = 1.5,
             alpha = 0.8) +
  geom_smooth(method = "lm",
              se = FALSE) +
  theme_classic(16, "Arial") +
  labs(x = "Comprimento do bico (em mm)",
       y = "Profundidade do bico (em mm)")
1
A função geom_smooth() com o argumento method = "lm" adiciona uma reta de regressão linear para observar qual a tendência de associação entre as duas variáveis plotadas no gráfico. Pode servir como dica de qual a possível correlação entre as características.

2. Rode um teste t de duas amostras para verificar a diferença na média do comprimento da nadadeira entre os pinguins macho e fêmea. Usando as funções group_by() e summarise() do pacote dplyr, faça um resumo da média e da mediana dos comprimentos das nadadeiras estratificando pelos grupos (lembre-se que a base pinguins possui onze valores ausentes, os conhecidos NA, na coluna do sexo).

library(dplyr)

pinguins |> 
  group_by(sexo) |> 
  summarise(
    media_nadadeira = mean(comprimento_nadadeira),
    mediana_nadadeira = median(comprimento_nadadeira),
    n_pinguins = n()
  )
# A tibble: 3 × 4
  sexo  media_nadadeira mediana_nadadeira n_pinguins
  <fct>           <dbl>             <dbl>      <int>
1 fêmea            197.              193         165
2 macho            205.              200.        168
3 <NA>              NA                NA          11
t.test(comprimento_nadadeira ~ sexo,
       data = pinguins,
       paired = FALSE,
       alternative = "two.sided")

    Welch Two Sample t-test

data:  comprimento_nadadeira by sexo
t = -4.8079, df = 325.28, p-value = 0.000002336
alternative hypothesis: true difference in means between group fêmea and group macho is not equal to 0
95 percent confidence interval:
 -10.064811  -4.219821
sample estimates:
mean in group fêmea mean in group macho 
           197.3636            204.5060 

Parece que nosso teste t foi significativo (\(p<0,001\)) e através dos valores das médias vemos que, em geral, o comprimento das nadadeiras dos pinguins macho são maiores que o comprimento das nadadeiras dos pinguins fêmea (\(\mu_{macho} = 204,5\); \(\mu_{fêmea} = 197,4\)).

3. Crie um modelo de ANOVA de uma via para verificar se há diferenças na massa corporal dos pinguins baseado em sua espécie. Caso sim, rode um teste de Tukey para analisar quais grupos diferenciam entre si.

anova_massa_especie <- aov(massa_corporal ~ especie,
                        data = pinguins)

summary(anova_massa_especie)
             Df    Sum Sq  Mean Sq F value Pr(>F)    
especie       2 146864214 73432107   343.6 <2e-16 ***
Residuals   339  72443483   213698                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
2 observations deleted due to missingness

A partir dos resultados do modelo de ANOVA de uma via, parece que existem diferenças significativas de massa corporal entre as espécies (\(p<0,001\)). Podemos encontrar o p-valor observando a coluna Pr(>F) na saída acima.

Portanto, se faz interessante rodar um teste post-hoc como o teste de Tukey para checar a diferença entre cada par de espécies e ver onde essas diferenças de fato se apresentam.

TukeyHSD(anova_massa_especie)
  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = massa_corporal ~ especie, data = pinguins)

$especie
                                            diff       lwr       upr     p adj
Pinguim-de-barbicha-Pinguim-de-adélia   32.42598 -126.5002  191.3522 0.8806666
Pinguim-gentoo-Pinguim-de-adélia      1375.35401 1243.1786 1507.5294 0.0000000
Pinguim-gentoo-Pinguim-de-barbicha    1342.92802 1178.4810 1507.3750 0.0000000

Ao rodar o teste de Tukey, observamos que as diferenças na massa corporal dos pinguins se dá principalmente em uma grande diferença de peso entre os pinguins-gentoo quando comparados aos pinguins das outras espécies. Vocês podem observar os p-valores ao observar a coluna p adj. A diferença nas médias pode ser observada através da coluna diff na saída acima.