Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Проблема стандартизации теста
ТаКуст
сообщение 23.08.2014 - 08:53
Сообщение #1





Группа: Пользователи
Сообщений: 6
Регистрация: 23.08.2014
Пользователь №: 26611



Здравствуйте, уважаемые форумчане. Помогите "чайнику" от статистики. Есть результаты анкетирования родителей и учителей по симптоматике расстройства на 1730 детей возраста от 6-11 лет. Распределение признака в моей выборке законам нормального распределения не подчиняется, использую непараметрические критерии. По всем показателям статистически значимы гендерные различия и различия по возрасту. Ранжирую выборку по возрасту и полу, стандартизирую тесты, определяю тестовые нормы для своей выборки (критические перцентили и перцентильные кривые). В соответствии с полученными данными, исходя из значений соответствующих значений перцентилей, формирую "свою" группу детей с расстройством. И теперь в растерянности. Как мне между собой сравнивать полученные группы детей с заболеванием, если они были мной изначально ранжированы по возрасту и полу и для каждой возрастной группы отдельно мальчиков, отдельно девочек была определена своя норма? Извиняюсь, если совсем туплю.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
p2004r
сообщение 23.08.2014 - 10:40
Сообщение #2





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(ТаКуст @ 23.08.2014 - 08:53) *
Здравствуйте, уважаемые форумчане. Помогите "чайнику" от статистики. Есть результаты анкетирования родителей и учителей по симптоматике расстройства на 1730 детей возраста от 6-11 лет. Распределение признака в моей выборке законам нормального распределения не подчиняется, использую непараметрические критерии. По всем показателям статистически значимы гендерные различия и различия по возрасту. Ранжирую выборку по возрасту и полу, стандартизирую тесты, определяю тестовые нормы для своей выборки (критические перцентили и перцентильные кривые). В соответствии с полученными данными, исходя из значений соответствующих значений перцентилей, формирую "свою" группу детей с расстройством. И теперь в растерянности. Как мне между собой сравнивать полученные группы детей с заболеванием, если они были мной изначально ранжированы по возрасту и полу и для каждой возрастной группы отдельно мальчиков, отдельно девочек была определена своя норма? Извиняюсь, если совсем туплю.


Ну такие "вкусные" данные не грех и в library(bnlearn) загрузить, что бы не порождать гипотез самому. smile.gif

А вообще у Вас многомерные данные, наблюдение (да и вообще анкета), это означает необходимость применения методов эксплораторного анализа, а не аппарата проверок статгипотез.

Если возможно просто выкладывайте таблицу данных в этот тред.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ТаКуст
сообщение 23.08.2014 - 11:35
Сообщение #3





Группа: Пользователи
Сообщений: 6
Регистрация: 23.08.2014
Пользователь №: 26611



Таблица данных

Сообщение отредактировал ТаКуст - 23.08.2014 - 11:37
Прикрепленные файлы
Прикрепленный файл  проверено_все_2.zip ( 92,51 килобайт ) Кол-во скачиваний: 246
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 23.08.2014 - 20:20
Сообщение #4





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(ТаКуст @ 23.08.2014 - 11:35) *
Таблица данных


Первично в анкете было только (кроме пола и возраста) "Балл А(р)", "Балл А(уч)", "Балл Б(р)", "БаллБ(уч)" ? Как эти шкалы выставлялись заполнявшими, или это уже результат обработки вопросов анкеты?




Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ТаКуст
сообщение 23.08.2014 - 20:55
Сообщение #5





Группа: Пользователи
Сообщений: 6
Регистрация: 23.08.2014
Пользователь №: 26611



Цитата(p2004r @ 23.08.2014 - 20:20) *
Первично в анкете было только (кроме пола и возраста) "Балл А(р)", "Балл А(уч)", "Балл Б(р)", "БаллБ(уч)" ? Как эти шкалы выставлялись заполнявшими, или это уже результат обработки вопросов анкеты?


Это результаты суммирования баллов ответов по субшкалам. Шкала включала 18 пунктов, соответствующих основным симптомокомплексам расстройства. Выраженность каждого симптома оценивался по 4-балльной системе: 0 - никогда или редко; 1 - иногда; 2 - часто; 3 - очень часто. Результаты оценивались по субшкалам, а также по общему баллу, который представляет собой сумму баллов по выделенным субшкалам. (р) - родительская версия, (уч) - учительская версия
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 23.08.2014 - 21:38
Сообщение #6





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(ТаКуст @ 23.08.2014 - 20:55) *
Это результаты суммирования баллов ответов по субшкалам. Шкала включала 18 пунктов, соответствующих основным симптомокомплексам расстройства. Выраженность каждого симптома оценивался по 4-балльной системе: 0 - никогда или редко; 1 - иногда; 2 - часто; 3 - очень часто. Результаты оценивались по субшкалам, а также по общему баллу, который представляет собой сумму баллов по выделенным субшкалам. (р) - родительская версия, (уч) - учительская версия


Лучше конечно пройтись непосредственно по субшкалам, поскольку явно есть латентные факторы которые нагружают сразу несколько субшкал.

Но вот если попытаться разобраться с агрегированными данными без выдвижения гипотез, так сказать в чистом виде unsupervised.

За базовый метод (поскольку точек много и заполнили они пространство состояний такого небольшого числа переменных достаточно полно, и у нас две переменных качественные) применим ввиду простоты и эффективности unsupervised random forest. Результат визуализируем методом многомерного шкалирования.

Код
# читаем данные конверитрованные в текстовый вид с разделителем ";"
data<-read.csv2("data.csv")
# загружаем библиотеку с классической реализацией random forest
library(randomForest)
# берем только "первичные" данные и объявляем измеренными в номинальной шкале пол и возрастные группы
data.rf<-data.frame(data[,c(4:5, 7:8)], pol=factor(data[,2]), vozrast=factor(data[,3]))
# подгоняем модель
rf.unsupervised<-randomForest(data.rf, do.trace=T, ntree=2000)
# визуализируем с помощью многомерного шкалирования матрицу расстояний с раскраской по полу
MDSplot(rf.unsupervised, data[,2], k=4)
# с раскраской по возрастным группам
MDSplot(rf.unsupervised, data[,3], k=4)


1) То что подковой изображено на первых двух компонентах, это основное измеряемое качество (его по другому просто "уложить" на плоскость не удается smile.gif, мешает дисперсия).

2) После исключения основной зависимости из данных, в пространстве оставшихся шкал, все "естественные группировки" очевидно видны на графиках. Например по полу есть расщепление --- в области ?больших? баллов оба пола не отличаются, в области малых значений у них существенные различия. Наверное "патология" наступает в момент исчезновения гендерных различий. Можно в принципе уровень "отсечения" вывести.

Возраста некоторые явно тяготеют друг к другу.


PS Давайте первичные шкалы, компьютеру всё равно сколько переменных в датасете smile.gif
Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
 


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему