Cálculo dos deltas
Após a importação dos dados processados por meio do presente pacote, os deltas (\(\Delta\)) de cada um dos desfechos da PROMIS é calculado através da seguinte fórmula: \(\Delta_i = pre_i - pos_i\), em que o significado de cada elemento está explicitado no vignette da análise exploratória de dados.
Após a criação destes deltas, novas colunas na base de dados foram criadas, como pode ser visualizado na tabela de exemplo abaixo:
Exemplo com as seis observações após cálculo dos deltas para os desfechos da PROMIS | |||
delta_anx | delta_dep | delta_irr | delta_sat |
---|---|---|---|
10 | 0 | 2 | -5 |
13 | 3 | 4 | 6 |
2 | 1 | 8 | 1 |
6 | 10 | 7 | -9 |
19 | 11 | 5 | 2 |
9 | 6 | 3 | -4 |
Agrupamento da resposta de tratamento
Para as análises de agrupamento (clustering) em geral, a ideia é criar uma partição da nossa amostra \(C_1, \dots, C_k\), tal que:
\(C_1{\cup}C_2\dots{\cup}C_k = \{1, 2, \dots, n\}\), ou seja, deseja-se definir \(k\) subconjuntos que a união dos mesmos seja igual a totalidade da amostra. Em outras palavras, toda observação estará contida em necessariamente um subconjunto/agrupamento;
\(C_i{\cap}C_j = {\emptyset}, {\forall} i \neq j\), ou seja, a intersecção entre os subconjuntos é vazia, logo, cada observação pode fazer parte de apenas um subconjunto.
O algoritmo utilizado nesta etapa foi o K-médias. Este algoritmo supõe a distância Euclidiana como medida de dissimilaridade. Visa buscar o melhor agrupamento, ou seja, busca a partição dos dados que minimize:
\(\sum\limits_{k = 1}^K\frac{1}{|C_k|}\sum\limits_{ij{\in}C_k}d^2(x_i, x_j)\)
Quer dizer que nós somamos para todos os clusters esta quantidade determinada pela fórmula, que é a soma das distâncias 2 a 2 de todos sujeitos pertencentes a um determinado cluster.
Após realizar o agrupamento a partir do algoritmo explicado acima com o número de clusters \(k\) = 2, obteve-se grupos com os seguintes centróides1:
Dois agrupamentos baseados nos deltas (Δ) de todos desfechos avaliados pela PROMIS | ||||
Elaborado com algoritmo de k-means para o agrupamento das observações | ||||
Cluster | Δ médio | |||
---|---|---|---|---|
Ansiedade | Depressão | Irritabilidade | Satisfação com a vida | |
Respondentes piores | 2.7 | 2.4 | 1.5 | 0.94 |
Respondentes melhores | 13.1 | 11.7 | 7.5 | -3.31 |
No grupo de piores respondentes, observou-se uma soma do erro quadrático de 431, e no grupo de melhores respondentes, a medida ficou em 358. Esta medida de erro mede a soma de todas distâncias das observações ao centro de seus clusters (centróides). Logo, poderíamos interpretar estas medidas de soma do erro quadrático por clusters de forma que o grupo dos bons respondentes é ligeiramente mais homogêneo do que o grupo de piores respondentes.