Agrupamento de resposta de tratamento • TelePsi

Cálculo dos deltas

Após a importação dos dados processados por meio do presente pacote, os deltas (\(\Delta\)) de cada um dos desfechos da PROMIS é calculado através da seguinte fórmula: \(\Delta_i = pre_i - pos_i\), em que o significado de cada elemento está explicitado no vignette da análise exploratória de dados.

Após a criação destes deltas, novas colunas na base de dados foram criadas, como pode ser visualizado na tabela de exemplo abaixo:

delta_anx	delta_dep	delta_irr	delta_sat
Exemplo com as seis observações após cálculo dos deltas para os desfechos da PROMIS
10	0	2	-5
13	3	4	6
2	1	8	1
6	10	7	-9
19	11	5	2
9	6	3	-4

Agrupamento da resposta de tratamento

Para as análises de agrupamento (clustering) em geral, a ideia é criar uma partição da nossa amostra \(C_1, \dots, C_k\), tal que:

\(C_1{\cup}C_2\dots{\cup}C_k = \{1, 2, \dots, n\}\), ou seja, deseja-se definir \(k\) subconjuntos que a união dos mesmos seja igual a totalidade da amostra. Em outras palavras, toda observação estará contida em necessariamente um subconjunto/agrupamento;
\(C_i{\cap}C_j = {\emptyset}, {\forall} i \neq j\), ou seja, a intersecção entre os subconjuntos é vazia, logo, cada observação pode fazer parte de apenas um subconjunto.

O algoritmo utilizado nesta etapa foi o K-médias. Este algoritmo supõe a distância Euclidiana como medida de dissimilaridade. Visa buscar o melhor agrupamento, ou seja, busca a partição dos dados que minimize:

\(\sum\limits_{k = 1}^K\frac{1}{|C_k|}\sum\limits_{ij{\in}C_k}d^2(x_i, x_j)\)

Quer dizer que nós somamos para todos os clusters esta quantidade determinada pela fórmula, que é a soma das distâncias 2 a 2 de todos sujeitos pertencentes a um determinado cluster.

Após realizar o agrupamento a partir do algoritmo explicado acima com o número de clusters \(k\) = 2, obteve-se grupos com os seguintes centróides¹:

Cluster	Δ médio
Dois agrupamentos baseados nos deltas (Δ) de todos desfechos avaliados pela PROMIS
Elaborado com algoritmo de k-means para o agrupamento das observações
Cluster	Ansiedade	Depressão	Irritabilidade	Satisfação com a vida
Respondentes piores	2.7	2.4	1.5	0.94
Respondentes melhores	13.1	11.7	7.5	-3.31

No grupo de piores respondentes, observou-se uma soma do erro quadrático de 431, e no grupo de melhores respondentes, a medida ficou em 358. Esta medida de erro mede a soma de todas distâncias das observações ao centro de seus clusters (centróides). Logo, poderíamos interpretar estas medidas de soma do erro quadrático por clusters de forma que o grupo dos bons respondentes é ligeiramente mais homogêneo do que o grupo de piores respondentes.