Проблема стандартизации теста - Форум врачей-аспирантов

Проблема стандартизации теста

ТаКуст Просмотр профиля	23.08.2014 - 08:53 Сообщение #1
Группа: Пользователи Сообщений: 6 Регистрация: 23.08.2014 Пользователь №: 26611	Здравствуйте, уважаемые форумчане. Помогите "чайнику" от статистики. Есть результаты анкетирования родителей и учителей по симптоматике расстройства на 1730 детей возраста от 6-11 лет. Распределение признака в моей выборке законам нормального распределения не подчиняется, использую непараметрические критерии. По всем показателям статистически значимы гендерные различия и различия по возрасту. Ранжирую выборку по возрасту и полу, стандартизирую тесты, определяю тестовые нормы для своей выборки (критические перцентили и перцентильные кривые). В соответствии с полученными данными, исходя из значений соответствующих значений перцентилей, формирую "свою" группу детей с расстройством. И теперь в растерянности. Как мне между собой сравнивать полученные группы детей с заболеванием, если они были мной изначально ранжированы по возрасту и полу и для каждой возрастной группы отдельно мальчиков, отдельно девочек была определена своя норма? Извиняюсь, если совсем туплю.

Ответов

p2004r Просмотр профиля	23.08.2014 - 10:40 Сообщение #2
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(ТаКуст @ 23.08.2014 - 08:53) Здравствуйте, уважаемые форумчане. Помогите "чайнику" от статистики. Есть результаты анкетирования родителей и учителей по симптоматике расстройства на 1730 детей возраста от 6-11 лет. Распределение признака в моей выборке законам нормального распределения не подчиняется, использую непараметрические критерии. По всем показателям статистически значимы гендерные различия и различия по возрасту. Ранжирую выборку по возрасту и полу, стандартизирую тесты, определяю тестовые нормы для своей выборки (критические перцентили и перцентильные кривые). В соответствии с полученными данными, исходя из значений соответствующих значений перцентилей, формирую "свою" группу детей с расстройством. И теперь в растерянности. Как мне между собой сравнивать полученные группы детей с заболеванием, если они были мной изначально ранжированы по возрасту и полу и для каждой возрастной группы отдельно мальчиков, отдельно девочек была определена своя норма? Извиняюсь, если совсем туплю. Ну такие "вкусные" данные не грех и в library(bnlearn) загрузить, что бы не порождать гипотез самому. А вообще у Вас многомерные данные, наблюдение (да и вообще анкета), это означает необходимость применения методов эксплораторного анализа, а не аппарата проверок статгипотез. Если возможно просто выкладывайте таблицу данных в этот тред. http://r-statistics.livejournal.com/

ТаКуст Просмотр профиля	23.08.2014 - 11:35 Сообщение #3
Группа: Пользователи Сообщений: 6 Регистрация: 23.08.2014 Пользователь №: 26611	Таблица данных Сообщение отредактировал ТаКуст - 23.08.2014 - 11:37 Прикрепленные файлы проверено_все_2.zip ( 92,51 килобайт ) Кол-во скачиваний: 255

p2004r Просмотр профиля	23.08.2014 - 20:20 Сообщение #4
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(ТаКуст @ 23.08.2014 - 11:35) Таблица данных Первично в анкете было только (кроме пола и возраста) "Балл А(р)", "Балл А(уч)", "Балл Б(р)", "БаллБ(уч)" ? Как эти шкалы выставлялись заполнявшими, или это уже результат обработки вопросов анкеты? http://r-statistics.livejournal.com/

ТаКуст Просмотр профиля	23.08.2014 - 20:55 Сообщение #5
Группа: Пользователи Сообщений: 6 Регистрация: 23.08.2014 Пользователь №: 26611	Цитата(p2004r @ 23.08.2014 - 20:20) Первично в анкете было только (кроме пола и возраста) "Балл А(р)", "Балл А(уч)", "Балл Б(р)", "БаллБ(уч)" ? Как эти шкалы выставлялись заполнявшими, или это уже результат обработки вопросов анкеты? Это результаты суммирования баллов ответов по субшкалам. Шкала включала 18 пунктов, соответствующих основным симптомокомплексам расстройства. Выраженность каждого симптома оценивался по 4-балльной системе: 0 - никогда или редко; 1 - иногда; 2 - часто; 3 - очень часто. Результаты оценивались по субшкалам, а также по общему баллу, который представляет собой сумму баллов по выделенным субшкалам. (р) - родительская версия, (уч) - учительская версия

p2004r

23.08.2014 - 21:38

Сообщение #6

Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699

Цитата(ТаКуст @ 23.08.2014 - 20:55)

Это результаты суммирования баллов ответов по субшкалам. Шкала включала 18 пунктов, соответствующих основным симптомокомплексам расстройства. Выраженность каждого симптома оценивался по 4-балльной системе: 0 - никогда или редко; 1 - иногда; 2 - часто; 3 - очень часто. Результаты оценивались по субшкалам, а также по общему баллу, который представляет собой сумму баллов по выделенным субшкалам. (р) - родительская версия, (уч) - учительская версия

Лучше конечно пройтись непосредственно по субшкалам, поскольку явно есть латентные факторы которые нагружают сразу несколько субшкал.

Но вот если попытаться разобраться с агрегированными данными без выдвижения гипотез, так сказать в чистом виде unsupervised.

За базовый метод (поскольку точек много и заполнили они пространство состояний такого небольшого числа переменных достаточно полно, и у нас две переменных качественные) применим ввиду простоты и эффективности unsupervised random forest. Результат визуализируем методом многомерного шкалирования.

Код

# читаем данные конверитрованные в текстовый вид с разделителем ";"
data<-read.csv2("data.csv")
# загружаем библиотеку с классической реализацией random forest
library(randomForest)
# берем только "первичные" данные и объявляем измеренными в номинальной шкале пол и возрастные группы
data.rf<-data.frame(data[,c(4:5, 7:8)], pol=factor(data[,2]), vozrast=factor(data[,3]))
# подгоняем модель
rf.unsupervised<-randomForest(data.rf, do.trace=T, ntree=2000)
# визуализируем с помощью многомерного шкалирования матрицу расстояний с раскраской по полу
MDSplot(rf.unsupervised, data[,2], k=4)
# с раскраской по возрастным группам
MDSplot(rf.unsupervised, data[,3], k=4)

1) То что подковой изображено на первых двух компонентах, это основное измеряемое качество (его по другому просто "уложить" на плоскость не удается

, мешает дисперсия).

2) После исключения основной зависимости из данных, в пространстве оставшихся шкал, все "естественные группировки" очевидно видны на графиках. Например по полу есть расщепление --- в области ?больших? баллов оба пола не отличаются, в области малых значений у них существенные различия. Наверное "патология" наступает в момент исчезновения гендерных различий. Можно в принципе уровень "отсечения" вывести.

Возраста некоторые явно тяготеют друг к другу.

PS Давайте первичные шкалы, компьютеру всё равно сколько переменных в датасете

Эскизы прикрепленных изображений