Tarefas de casa
Bem-vindo à página de tarefas de casa do curso! Aqui você encontrará as tarefas de casa referentes a cada aula do curso, juntamente com um link para o gabarito ao final. As tarefas foram cuidadosamente selecionadas para ajudar você a praticar e aplicar o conhecimento adquirido em cada aula, e são uma parte importante do processo de aprendizado. Certifique-se de completar todas as tarefas e utilizar o gabarito para verificar suas respostas e entender qualquer dúvida que possa ter. Espero que você aproveite este recurso e aprimore suas habilidades em R!
Aula 1: R e RStudio
Crie um vetor de 1 a 25 e armazene em uma variável de nome
sequencia
(lembre-se do operador:
).Crie um vetor de caractere de dois elementos com seu nome e último nome (chamado
nome_completo
) e extraia seu sobrenome usando[]
.Filtre a base
pixar_bilheteria
do pacotedados
e extraia apenas os filmes que tiveram orçamento menor que 100 milhões de dólares (lembre-se do$
, do<
, do[]
e da funçãolibrary()
).
Aula 2: Manipulação de dados
Escolha uma das bases de dados do pacote
dados
e utilize ao menos uma vez as funções:select()
,mutate()
,filter()
,arrange()
,summarise()
egroup_by()
(as bases disponíveis podem ser acessadas no site de referência do pacote).Nos dados
questionario
do pacotedados
, crie um subconjunto apenas com as observações do ano de 2014 e armazene em um objeto chamadodados_2014
.
Aula 3: Visualização de dados
- A partir dos dados
pinguins
do pacotedados
, crie:- Um gráfico de pontos (dispersão)
- Um box plot (variável numérica estratificada por uma variável categórica)
- Um histograma
- Escolha um dos seus gráficos para ajustá-lo e deixá-lo visualmente mais agradável. Isso pode incluir ajustar os rótulos, tamanho da fonte, cores, adicionar título, e o que mais você achar importante (lembre-se da função
labs()
e famíliatheme_[estilo_do_tema]()
).
Aula 4: Análise descritiva
A tarefa da Aula 4 deve ser realizada com os dados pinguins
do pacote dados
.
Filtre a base para manter apenas as observações do ano de 2009.
Verifique se a variável
comprimento_bico
da base de dados segue uma distribuição normal através de um histograma e um teste de normalidade de Shapiro-Wilk.Com a função
count()
, verifique a frequência da variávelsexo
na base de dados.Com a função
summarise()
, calcule a média, mediana e desvio padrão da variávelcomprimento_nadadeira
.
Aula 5: Inferência estatística
A partir da base dos pinguins
do pacote dados
:
Calcule a correlação produto momento de Pearson entre o comprimento do bico e a profundidade do bico dos pinguins. Crie um gráfico de pontos (dispersão) com
ggplot2
para acompanhar sua análise exploratória.Rode um teste t de duas amostras para verificar a diferença na média do comprimento da nadadeira entre os pinguins macho e fêmea. Usando as funções
group_by()
esummarise()
do pacotedplyr
, faça um resumo da média e da mediana dos comprimentos das nadadeiras estratificando pelos grupos (lembre-se que a basepinguins
possui onze valores ausentes, os conhecidosNA
, na coluna dosexo
).Crie um modelo de ANOVA de uma via para verificar se há diferenças na massa corporal dos pinguins baseado em sua espécie. Caso sim, rode um teste de Tukey para analisar quais grupos diferenciam entre si.
Aula 6: Modelos de regressão
Ler Capítulo 8 do livro OpenIntro Statistics sobre Introduction to linear regression (caso queira se aprofundar, ler Capítulo 9 sobre Multiple and logistic regression).
A partir dos dados
dados_iris
do pacotedados
, crie um modelo de regressão linear simples e um modelo de regressão linear múltipla com as variáveis da sua escolha (lembre-se que o desfecho deve ser contínuo, ou seja, numérico).Crie um gráfico de dispersão/pontos (scatterplot) para acompanhar sua análise de regressão linear simples.
Aula 7: Introdução ao aprendizado de máquina
- Dica de leitura: An Introduction to Statistical Learning
- Rodar os códigos dos slides para tentar reproduzir o exemplo
- Lembre-se de instalar o pacote
tidymodels
caso não o tenha
- Lembre-se de instalar o pacote