Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >  
Добавить ответ в эту темуОткрыть тему
> сравнение 5 групп по качественному признаку
sanabat
сообщение 7.03.2018 - 02:04
Сообщение #1


Дух форума
*

Группа: Пользователи
Сообщений: 3
Регистрация: 7.02.2018
Пользователь №: 30961



Здравствуйте. Прошу, help.gif. У меня есть 5 независимих групп сравнения респондентов. Они отвечали на несколько вопросов 'да','нет' или 'не знаю'. Сделала таблицу 5х3. Корректно ли сравнивать ети 5 груп используя хи-квадрат? и если есть различия надо ли делать попарние сравнения? какой критерий при етом можно использовать? спасибо
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
leo_biostat
сообщение 7.03.2018 - 08:13
Сообщение #2


Дух форума
*

Группа: Пользователи
Сообщений: 98
Регистрация: 23.11.2016
Пользователь №: 28953



sanabat, hi.gif!

Да, корректно использовать критерий Пирсона Хи-квадрат. При этом желательно использовать 3 основных версии этого критерия:
Chi-Square
Likelihood Ratio Chi-Square
Continuity Adj. Chi-Square

Далее, в таком анализе реальных баз данных, обычно во многих клетках, небольшие частоты создают ненадёжные результаты. Поэтому следует использовать метод Монте-Карло, оценивая 99%-ные доверительные интервалы для уровня статистической значимости критерия Пирсона Хи-квадрат. При использовании этого метода рекомендую применить, как минимум, 100000 выборочных таблиц. В результате можно оценить не только интенсивность взаимосвязи между парой качественных, группирующих признаков, таких как "Phi Coefficient", "Contingency Coefficient", "Cramer's V", но также и структуру этих взаимосвязей. В каких клетках максимальные связи, причём положительные или отрицательные, а в каких клетках реальной связи нет. Подобные аспекты можете прочитать в статье по адресу http://www.biometrica.tomsk.ru/logit_9.htm
Следующий аспект. Поскольку Ваши респонденты отвечали на несколько вопросов 'да','нет' или 'не знаю', то следует не только проводить анализ таблиц сопряжённости для всех пар признаков, но обязательно использовать метод логистической регрессии. Этим методом оцените, какие конкретно признаки (ответы на вопросы) наиболее интенсивно влияют на принадлежность к основным сравниваемым группам респондентов. Примеры подобных подходов можете прочитать в подборке диссертаций на первой странице сайта БИОМЕТРИКА.

Желаю успеха!

Сообщение отредактировал leo_biostat - 7.03.2018 - 08:16
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Rebecca
сообщение 7.03.2018 - 11:20
Сообщение #3


Дух форума
*

Группа: Пользователи
Сообщений: 13
Регистрация: 25.02.2018
Пользователь №: 31030



ого как много интересного. а зачем эти 5 групп нужны? я новичок-любитель и не всегда понимаю, что к чему)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
leo_biostat
сообщение 7.03.2018 - 14:51
Сообщение #4


Дух форума
*

Группа: Пользователи
Сообщений: 98
Регистрация: 23.11.2016
Пользователь №: 28953



Цитата(Rebecca @ 7.03.2018 - 11:20) *
ого как много интересного. а зачем эти 5 групп нужны? я новичок-любитель и не всегда понимаю, что к чему)

Разумно использовать 5 групп. Поскольку при этом можно реализовать 2 основные задачи.
Во-первых, провести анализ по каждой из этих групп раздельно. В результате увидеть, в каких группах имеются взаимосвязи с другими признаками, а в каких - нет связей. А в случае статистически значимой взаимосвязи, установить структуру этих связей. Т.е. какие комбинации значений двух признаков определяют положительную, или отрицательную взаимосвязь. А в каких комбинациях значений пары признаков нет никакой взаимосвязи.
Во-вторых, принадлежность к этим 5 группам можно обозначить новым группирующим признаком. И с помощью метода логистической регрессии установить, какие признаки, и их значения, определяют принадлежность наблюдений базы данных к каждой из этих 5 групп. И эти признаки можно проранжировать, упорядочить по степени их связи с группирующим признаком. А какие признаки - не определяют различие групп сравнения. Т.е. установить практическую идентичность отдельных групп, и сугубую индивидуальность иных групп.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 7.03.2018 - 22:36
Сообщение #5


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(sanabat @ 7.03.2018 - 04:04) *
... У меня есть 5 независимих групп сравнения респондентов. Они отвечали на несколько вопросов 'да','нет' или 'не знаю'. Сделала таблицу 5х3. Корректно ли сравнивать ети 5 груп используя хи-квадрат? и если есть различия надо ли делать попарние сравнения? какой критерий при етом можно использовать? спасибо

1. Как уже было указано выше, в простом варианте задачу можно решать с использованием разных методов. Другое дело что не нужно.
а) Критерий хи-квадрат Пирсона был предложен в 1901 г и до сих пор популярен.
б) Его более современный аналог, известный как джи-квадрат или критерий отношения правдоподобия многократно переоткрывался в 1950-70-е потому известен также как информационный критерий Кульбака, G-критерий Вулфа, хи-квадрат максимального правдоподобия и критерий максимального логправдоподобия. Ввиду отличной теоретической проработанности (в отличие от эмпирического хи-квадрата) Сокалом и Рольфом рекомендуется использовать всегда вместо хи-квадрата.
в) Поскольку а) и б) основаны на теоретическом распределении хи-квадрат для них существует проблема допустимого минимального ожидаемого, которая заключается в том, что для слабонасыщенных таблиц сопряжённости (ТС), критерии плохо аппроксимируются распределением хи-квадрат. Этого недостатка лишён рандомизационный критерий Монте-Карло (Permutation test, Monte Carlo test) который стал практически доступен только с появлением компьютеров уровня 1990-х гг. В нём р-значение получается компьютерным перебором десятков и сотен тысяч вариантов минуя любые распределения.
г) Ещё лучше в) точный рандомизационный критерий (Exact permutation test). Он похож на в), но в ходе проверки генерируются не случайные таблицы с такими же краевыми частотами как у исходной, а в точности все возможные. Для ТС с большим числом наблюдений это может быть непосильной задачей даже для современных компьютеров, но это - самый точный из всех существующих функциональных аналогов.
Теперь, зная это, а также то, что критерий Пирсона корректен, ответьте себе: на каком уровне вы хотите сработать в XXI веке: 1930-х, 1970-х или 1990-х годов?

2. В анализе ТС попарные сравнения не проводят. Если омнибусный критерий пункта 1 отклоняет нулевую гипотезу об отсутствии различий, то далее ищутся ячейки, давшие наибольший и неслучаный вклад в статистику критерия. Это делается с помощью расчёта отклонений Фримана - Тьюки (Freeman-Tukey deviation) или согласованных стандартизованных остатков, называемых также остатками Хабермана (Adjusted residuals). Они дают р-значение для каждой ячейки ТС.

3. Применяя схему 1+2 к каждому вопросу в отдельности вы недоиспользуете имеющуюся информацию. Почитайте про логлинейный анализ (Log-linear analysis) и анализ соответствий (Correspondence analysis). Я бы вообще начал с последнего, а обнаруженные тенденции выборочно подтвердил бы простыми тестами.

4. Варианты 1-3 подразумевают, что категории 'да','нет', 'не знаю' - номинальные. Хотя, возможно, где-то они и порядковые, т.е. "не знаю" может стоять не особняком от "да" и "нет", а между ними. Также для каких-то вопросов "не знаю" может быть почти "да", для каких-то - почти "нет" и т.п. Психологи пользуются многомерными техниками, основанными на преобразовании Джифи (Gifi) , которые позволяют оцифровать порядковые и номинальные данные и разобраться с этим.

Сообщение отредактировал nokh - 7.03.2018 - 22:57
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 7.03.2018 - 23:51
Сообщение #6


Дух форума
*

Группа: Пользователи
Сообщений: 1318
Регистрация: 27.11.2007
Пользователь №: 4573



Цитата(Rebecca @ 7.03.2018 - 11:20) *
ого как много интересного. а зачем эти 5 групп нужны? я новичок-любитель и не всегда понимаю, что к чему)

А, действительно, зачем эти 5 групп нужны?. Какая исследовательская задача стояла при создании этих 5 групп. Нет ли упорядоченности в категории 1 - 5. Например, студенты 1 курса - 5 курса соответствуют 1 - 5 группам. Например, ответ "не знаю" чаще отмечается у первокурсников, а более уверенно отвечают 5- курсники. Если между ответом "да" и "нет" поставить "не знаю", то этот ответ также можно рассматривать как упорядоченную категорию (о, nokh уже добавил эту мысль).

Sanabat, вы задаете вопрос, нужны ли вам попарные сравнения. Но это вопрос к вам. Если вас интересует, чаще ли ответ "не знаю" у первокурсников, чем у пятикурсников, то вы должны провести такое сравнение.

Nokh советует начать с анализа соответствий (Correspondence analysis), с чем я полностью согласна. Метод дает наглядную картину сопряженности признаков, которая хорошо иллюстрируется графически.
Вместо выборочных подтверждений с помощью статистических тестов, я бы рекомендовала посчитать 95% ДИ к долям ( % ) и изобразить их графически.

Сообщение отредактировал DrgLena - 7.03.2018 - 23:55
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nikita_zab
сообщение 5.04.2018 - 09:43
Сообщение #7


Дух форума
*

Группа: Пользователи
Сообщений: 11
Регистрация: 12.03.2017
Пользователь №: 29479



Цитата(nokh @ 7.03.2018 - 22:36) *
в) Поскольку а) и б) основаны на теоретическом распределении хи-квадрат для них существует проблема допустимого минимального ожидаемого, которая заключается в том, что для слабонасыщенных таблиц сопряжённости (ТС), критерии плохо аппроксимируются распределением хи-квадрат. Этого недостатка лишён рандомизационный критерий Монте-Карло (Permutation test, Monte Carlo test) который стал практически доступен только с появлением компьютеров уровня 1990-х гг. В нём р-значение получается компьютерным перебором десятков и сотен тысяч вариантов минуя любые распределения.
г) Ещё лучше в) точный рандомизационный критерий (Exact permutation test). Он похож на в), но в ходе проверки генерируются не случайные таблицы с такими же краевыми частотами как у исходной, а в точности все возможные. Для ТС с большим числом наблюдений это может быть непосильной задачей даже для современных компьютеров, но это - самый точный из всех существующих функциональных аналогов.
Теперь, зная это, а также то, что критерий Пирсона корректен, ответьте себе: на каком уровне вы хотите сработать в XXI веке: 1930-х, 1970-х или 1990-х годов?


Подскажите, пожалуйста, пакет (coin?) и функцию для методов "в" и "г".
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 6.04.2018 - 15:18
Сообщение #8


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(nikita_zab @ 5.04.2018 - 11:43) *
Подскажите, пожалуйста, пакет (coin?) и функцию для методов "в" и "г".

Пока в R такого не делал, но подскажу. Когда я последний раз интересовался этим 3-5 лет назад, в R точным методом можно было обсчитать только таблицы 2 х 2, а пакета coin вроде не было. Я точным методом считал давно в StatXact, а последнее время довольствуюсь Монте-Карло в бесплатном PAST (https://folk.uio.no/ohammer/past/). Когда освоите, можете поделиться функциями здесь; в руководстве coin видел какой-то пример, но не было времени вникать.

Сообщение отредактировал nokh - 6.04.2018 - 15:23
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 6.04.2018 - 15:57
Сообщение #9


Дух форума
*

Группа: Пользователи
Сообщений: 665
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(nikita_zab @ 5.04.2018 - 09:43) *
Подскажите, пожалуйста, пакет (coin?) и функцию для методов "в" и "г".


Судя по всему, да - coin. Что-то, наверное, можно выжать и из perm. Однако, "рабочая лошадка" exact-методов в рамках Фишеровской парадигмы - fisher.test(), применимый не только к таблицам 2х2, но и RxC (в каковом случае он называется критерием Фишера - Фримана - Холтона).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 6.04.2018 - 16:07
Сообщение #10


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(100$ @ 6.04.2018 - 17:57) *
Судя по всему, да - coin. Что-то, наверное, можно выжать и из perm. Однако, "рабочая лошадка" exact-методов в рамках Фишеровской парадигмы - fisher.test(), применимый не только к таблицам 2х2, но и RxC (в каковом случае он называется критерием Фишера - Фримана - Холтона).

Критерий Фишера разработан на основе гипергеометрического распределения, тогда как в реальной жизни мы не имеем фиксированных краевых частот таблицы сопряжённости по всем входам. Т.е. критерий предполагает гипергеометрическое распределение, а мы используем его на практике для анализа би- или полиномиального распределения. С теоретической точки зрения это нехорошо, хотя на практике выводы получаются сходными. Поэтому лучше пытаться реализовать точный рандомизационный критерий или Монте-Карло.

Сообщение отредактировал nokh - 6.04.2018 - 16:07
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 6.04.2018 - 16:58
Сообщение #11


Дух форума
*

Группа: Пользователи
Сообщений: 665
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(nokh @ 6.04.2018 - 16:07) *
Критерий Фишера разработан на основе гипергеометрического распределения, тогда как в реальной жизни мы не имеем фиксированных краевых частот таблицы сопряжённости по всем входам. Т.е. критерий предполагает гипергеометрическое распределение, а мы используем его на практике для анализа би- или полиномиального распределения. С теоретической точки зрения это нехорошо, хотя на практике выводы получаются сходными. Поэтому лучше пытаться реализовать точный рандомизационный критерий или Монте-Карло.


Чистая правда, но я уместил это в два слова: "Фишеровская парадигма". Где и как в популярных пакетах реализован подход Барнарда (на основе би- и поли-) мне не ведомо.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 6.04.2018 - 20:08
Сообщение #12


Дух форума
*

Группа: Пользователи
Сообщений: 665
Регистрация: 23.08.2010
Пользователь №: 22694



А теперь дадим слово разработчикам SPSS:

Monte Carlo Estimation

To compute a Monte Carlo estimate of an exact p-value, PROC FREQ generates a
random sample of tables with the same total sample size, row totals, and column to-
tals as the observed table. PROC FREQ uses the algorithm of Agresti, Wackerly, and
Boyett (1979), which generates tables in proportion to their hypergeometric proba-
bilities conditional on the marginal frequencies.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 7.04.2018 - 08:35
Сообщение #13


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(100$ @ 6.04.2018 - 22:08) *
А теперь дадим слово разработчикам SPSS:...

Логично. Тогда получается, что и в exact permutation тоже гипергеометрическое распределение, т.к. там также все краевые частоты и общая сумма фиксированы. А что нам делать с би- и поли-?
Про критерий Барнарда мне нужно почитать, по-русски было у Гайдышева: http://forum.disser.ru/index.php?showtopic=1464 и в справочном руководстве AtteStat.

PS
Погуглил урывками и к полудню кое-что прояснилось.


1) Все точные (exact) критерии для анализа таблиц сопряжённости (ТС) делятся на условные (conditional) и безусловные (unconditional).

2) Условные фиксируют краевые частоты. Для таблиц 2х2 имеем точный метод Фишера. Распределение - гипергеометрическое. Есть почти везде. Не особо рекомендуется для анализа ТС с би- и полиномиальным происхождением данных вплоть до "The traditional Fisher's exact test should practically never be used" https://onlinelibrary.wiley.com/doi/pdf/10.1002/sim.3531

3) Безусловные точные критерии не фиксируют краевые частоты частично или совсем, а потому мощнее условных.

3а. Если не фиксируются частоты либо по столбцам, либо по строкам. Для таблиц 2х2 имеем критерий Барнарда. Распределение - биномиальное. Получается обычно в исследованиях типа случай-контроль. Есть в старой версии AtteStat, и пакетах под R "Exact" и "Barnard":
https://cran.r-project.org/web/packages/Exact/Exact.pdf
https://cran.r-project.org/web/packages/Barnard/Barnard.pdf

3б. Если краевые частоты не фиксируются совсем. Для ТС 2х2 имеем критерий Бошлу(?) - Boschloo's test. Распределение - полиномиальное. Получается в перекрёстных исследованиях (cross-sectional study). Есть в пакете под R "Exact"
https://cran.r-project.org/web/packages/Exact/Exact.pdf

4) Монте-Карло для ТС можно организовать также по пути условных и безусловных методов. Пакет StatXact считает безусловные Exact и Monte-Carlo. А видимо SPSS - условные, хотя это непонятно, т.к. читал что они используют точные методы по лицензии Cytel Studio (производитель StatXact и LogXact). Что считает пакет PAST - нужно разбираться.

5) Для более крупных двумерных ТС RxC существуют какие-то аналоги этих критериев. Вы дали параллель ТМФ - критерий Фишера-Фримана-Холтона. Должны быть и другие, но пока не искал даже, т.к. итак узнал сегодня много нового:)).

Сообщение отредактировал nokh - 7.04.2018 - 14:13
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 7.04.2018 - 17:07
Сообщение #14


Дух форума
*

Группа: Пользователи
Сообщений: 665
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата
т.к. итак узнал сегодня много нового:)).


Вашими стараниями я - тоже, особенно вот это (из Exact.pdf):

Boschloo:
Uses the p-value from Fisher?s exact test as the test statistic.

Кстати, в Exact.pdf не обошлось без ошибки в самой первой же формуле: в таблице 2х2 не может появиться элемент X13

Вот так, бывало, некритично отнесешься к прочитанному и все - пиши -"пропало"...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 7.04.2018 - 18:12
Сообщение #15


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(100$ @ 7.04.2018 - 19:07) *
Boschloo:
Uses the p-value from Fisher?s exact test as the test statistic.

Автор пакета "Exact" и здесь то же повторяет: https://stats.stackexchange.com/questions/1...hloo-or-barnard
Так что это, в отличие от x13, не ошибка какая-то, но я пока не понимаю что это значит unknw.gif
Поразбираться можно, но очень всё это ресурсозатратно. Видно проще хроники написать, чем нормальный учебник: https://errorstatistics.files.wordpress.com...ston-mielke.pdf

Сообщение отредактировал nokh - 7.04.2018 - 18:22
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V   1 2 >
Добавить ответ в эту темуОткрыть тему