Gabarito da Aula 6: Modelos de regressão

1. Ler Capítulo 8 do livro OpenIntro Statistics sobre Introduction to linear regression (caso queira se aprofundar, ler Capítulo 9 sobre Multiple and logistic regression).

Para concluir esse exercício, você necessita apenas ler o capítulo 8 indicado no enunciado. Caso você tenha ficado com alguma dúvida, fique a vontade de enviar um email para bmontezano@hcpa.edu.br com seus questionamentos.

Caso você tenha lido o capítulo 9 do livro também e queira tirar alguma dúvida, fique a vontade para enviar um email.

2. A partir dos dados dados_iris do pacote dados, crie um modelo de regressão linear simples e um modelo de regressão linear múltipla com as variáveis da sua escolha (lembre-se que o desfecho deve ser contínuo, ou seja, numérico).

library(dados)

regressao_simples <- lm(Comprimento.Petala ~ Comprimento.Sepala,
                        data = dados_iris)

summary(regressao_simples)

Call:
lm(formula = Comprimento.Petala ~ Comprimento.Sepala, data = dados_iris)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.47747 -0.59072 -0.00668  0.60484  2.49512 

Coefficients:
                   Estimate Std. Error t value Pr(>|t|)    
(Intercept)        -7.10144    0.50666  -14.02   <2e-16 ***
Comprimento.Sepala  1.85843    0.08586   21.65   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.8678 on 148 degrees of freedom
Multiple R-squared:   0.76, Adjusted R-squared:  0.7583 
F-statistic: 468.6 on 1 and 148 DF,  p-value: < 2.2e-16
regressao_multipla <-
  lm(Comprimento.Petala ~ Comprimento.Sepala + Largura.Sepala + Especies,
     data = dados_iris)

summary(regressao_multipla)

Call:
lm(formula = Comprimento.Petala ~ Comprimento.Sepala + Largura.Sepala + 
    Especies, data = dados_iris)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.75196 -0.18755  0.00432  0.16965  0.79580 

Coefficients:
                   Estimate Std. Error t value      Pr(>|t|)    
(Intercept)        -1.63430    0.26783  -6.102 0.00000000908 ***
Comprimento.Sepala  0.64631    0.05353  12.073       < 2e-16 ***
Largura.Sepala     -0.04058    0.08113  -0.500         0.618    
Especiesversicolor  2.17023    0.10657  20.364       < 2e-16 ***
Especiesvirginica   3.04911    0.12267  24.857       < 2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.2833 on 145 degrees of freedom
Multiple R-squared:  0.9749,    Adjusted R-squared:  0.9742 
F-statistic:  1410 on 4 and 145 DF,  p-value: < 2.2e-16

3. Crie um gráfico de dispersão/pontos (scatterplot) para acompanhar sua análise de regressão linear simples.

library(ggplot2)

dados_iris |> 
  ggplot(aes(y = Comprimento.Petala,
             x = Comprimento.Sepala)) +
  geom_point(fill = "grey20",
             size = 2,
             alpha = 0.7) +
  geom_smooth(method = "lm",
              linewidth = 1.5,
              color = "steelblue3",
              se = FALSE) +
  labs(x = "Comprimento da sépala (em cm)",
       y = "Comprimento da pétala (em cm)",
       title = "Como explicar o comprimento da pétala a partir do tamanho da sépala?",
       subtitle = "Um modelo de regressão linear simples") +
  theme_classic(12, "Arial")