Цитата(ТаКуст @ 23.08.2014 - 20:55)

Это результаты суммирования баллов ответов по субшкалам. Шкала включала 18 пунктов, соответствующих основным симптомокомплексам расстройства. Выраженность каждого симптома оценивался по 4-балльной системе: 0 - никогда или редко; 1 - иногда; 2 - часто; 3 - очень часто. Результаты оценивались по субшкалам, а также по общему баллу, который представляет собой сумму баллов по выделенным субшкалам. (р) - родительская версия, (уч) - учительская версия
Лучше конечно пройтись непосредственно по субшкалам, поскольку явно есть латентные факторы которые нагружают сразу несколько субшкал.
Но вот если попытаться разобраться с агрегированными данными без выдвижения гипотез, так сказать в чистом виде unsupervised.
За базовый метод (поскольку точек много и заполнили они пространство состояний такого небольшого числа переменных достаточно полно, и у нас две переменных качественные) применим ввиду простоты и эффективности unsupervised random forest. Результат визуализируем методом многомерного шкалирования.
Код
# читаем данные конверитрованные в текстовый вид с разделителем ";"
data<-read.csv2("data.csv")
# загружаем библиотеку с классической реализацией random forest
library(randomForest)
# берем только "первичные" данные и объявляем измеренными в номинальной шкале пол и возрастные группы
data.rf<-data.frame(data[,c(4:5, 7:8)], pol=factor(data[,2]), vozrast=factor(data[,3]))
# подгоняем модель
rf.unsupervised<-randomForest(data.rf, do.trace=T, ntree=2000)
# визуализируем с помощью многомерного шкалирования матрицу расстояний с раскраской по полу
MDSplot(rf.unsupervised, data[,2], k=4)
# с раскраской по возрастным группам
MDSplot(rf.unsupervised, data[,3], k=4)
1) То что подковой изображено на первых двух компонентах, это основное измеряемое качество (его по другому просто "уложить" на плоскость не удается

, мешает дисперсия).
2) После исключения основной зависимости из данных, в пространстве оставшихся шкал, все "естественные группировки" очевидно видны на графиках. Например по полу есть расщепление --- в области ?больших? баллов оба пола не отличаются, в области малых значений у них существенные различия. Наверное "патология" наступает в момент исчезновения гендерных различий. Можно в принципе уровень "отсечения" вывести.
Возраста некоторые явно тяготеют друг к другу.
PS Давайте первичные шкалы, компьютеру всё равно сколько переменных в датасете