Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Анализ качественных данных
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Scratty
Здравствуйте! Уже несколько недель ломаю голову и переворачиваю Интернет, но так и не могу выбрать нужный стат. критерий...
Если кратко описать тип данных, которые не могу обсчитать: 1 столбец - нормальное значение параметра /повышенное (т.е. 0 / 1), 2 столбец - наличие инфекции/отсутствие (т.е. тоже 0/1)
Понимаю, что задача мега простая, но решить ее не могу (с анализом качественных данных никогда не сталкивалась) (((
Пыталась обсчитать с помощью Хи-квадрат, но ожидаемая частота получается больше 5, если правильно понимаю - необходим критерий Фишера, но так ли это и как и воспользоваться (SPSS, Statistica) я не знаю...
Буду очень признательная за любой совет!
nokh
Цитата(Scratty @ 3.03.2012 - 10:16) *
Здравствуйте! Уже несколько недель ломаю голову и переворачиваю Интернет, но так и не могу выбрать нужный стат. критерий...
Если кратко описать тип данных, которые не могу обсчитать: 1 столбец - нормальное значение параметра /повышенное (т.е. 0 / 1), 2 столбец - наличие инфекции/отсутствие (т.е. тоже 0/1)
Понимаю, что задача мега простая, но решить ее не могу (с анализом качественных данных никогда не сталкивалась) (((
Пыталась обсчитать с помощью Хи-квадрат, но ожидаемая частота получается больше 5, если правильно понимаю - необходим критерий Фишера, но так ли это и как и воспользоваться (SPSS, Statistica) я не знаю...
Буду очень признательная за любой совет!

Подсчитайте количество всех вариантов (0-0, 0-1, 1-0 и 1-1) и полученные абсолютные частоты занесите в четырёхпольную таблицу сопряжённости 2х2. Если ожидаемые больше 5, это наоборот хорошо. Точный метод Фишера - дедовский способ анализировать как раз слабонасыщенные таблицы частот, когда минимальные ожидаемые менее 4-5, и все критерии типа хи-квадрат - хи-квадрат Пирсона, отношение правдоподобия, критерий Фримана-Тьюки - "плохо работают" (современный способ - точный перестановочный (permutation) тест).
Scratty
Спасибо! smile.gif В предыдущем сообщении у меня была опечатка - ожидаемая частота на самом деле МЕНЬШЕ 5...
А можно немного поподробней про перестановочный (permutation) тест?
DoctorStat
Цитата(Scratty @ 3.03.2012 - 09:16) *
необходим критерий Фишера, но так ли это и как и воспользоваться (SPSS, Statistica) я не знаю...
Когда ожидаемые частоты каких-либо качественных факторов становятся слишком малыми, то приближенные методы, типа критерия хи-квадрат могут приводить к большим ошибкам вычисления величины p-value. В этом случае следует воспользоваться точными методами, например, точным критерием Фишера. Этот метод реализован не во всех популярных статистических программах: в пакетах SPSS и Statistica его нет. Он присутствует, например, в коммерческой программе StatXact или в бесплатной программе DoctorStat (см.ссылку внизу сообщения).
nokh
Цитата(Scratty @ 3.03.2012 - 11:03) *
Спасибо! smile.gif В предыдущем сообщении у меня была опечатка - ожидаемая частота на самом деле МЕНЬШЕ 5...
А можно немного поподробней про перестановочный (permutation) тест?

Сильно не вникал. По сути ТМ Фишера тоже является перестановочным, но опирается на гипергеометрическое распределение, а "самые точные" - вроде как на биномиальное, что с вычислительной точки зрения сложнее. Пионер и лидер в этой области компания Cytel (http://www.cytel.com/default.aspx), программные продукты которой содержат много современных вариантов точных тестов. Самый известный из продукт - StatXact (пробная версия не урезана и работает 30 дней - я пользовался несколько раз именно ей). Уже какое-то время ряд вычислительных алгоритмов Cytel по лицензии используются в SPSS. Насколько я помню, на практике ТМФ и точный метод StatXact дают близкие значения р, но которые, в случае слабонасыщенных таблиц сильно отличаются от р критериев, опирающихся на распределение хи-квадрат.
p2004r
Цитата(Scratty @ 3.03.2012 - 08:16) *
Если кратко описать тип данных, которые не могу обсчитать: 1 столбец - нормальное значение параметра /повышенное (т.е. 0 / 1), 2 столбец - наличие инфекции/отсутствие (т.е. тоже 0/1)



а чем не подходит коэффициент корреляции? Вы хотите показать связь между этими двумя явлениями?
Scratty
Цитата(p2004r @ 3.03.2012 - 15:42) *
а чем не подходит коэффициент корреляции? Вы хотите показать связь между этими двумя явлениями?


Как раз таки и хотелось бы отразить наличие или отсутствие связи между данными показателями (влияет ли наличие той или иной инфекции на повышение показателя)... А какой коэффициент корреляции вы имеете ввиду?
p2004r
Цитата(Scratty @ 3.03.2012 - 16:12) *
Как раз таки и хотелось бы отразить наличие или отсутствие связи между данными показателями (влияет ли наличие той или иной инфекции на повышение показателя)... А какой коэффициент корреляции вы имеете ввиду?


Например Kendall rank correlation coefficient.
YVR
Цитата(Scratty @ 3.03.2012 - 10:16) *
Здравствуйте! Уже несколько недель ломаю голову и переворачиваю Интернет, но так и не могу выбрать нужный стат. критерий...
Если кратко описать тип данных, которые не могу обсчитать: 1 столбец - нормальное значение параметра /повышенное (т.е. 0 / 1), 2 столбец - наличие инфекции/отсутствие (т.е. тоже 0/1)
Понимаю, что задача мега простая, но решить ее не могу (с анализом качественных данных никогда не сталкивалась) (((
Пыталась обсчитать с помощью Хи-квадрат, но ожидаемая частота получается больше 5, если правильно понимаю - необходим критерий Фишера, но так ли это и как и воспользоваться (SPSS, Statistica) я не знаю...
Буду очень признательная за любой совет!


Было бы неплохо, если бы вы еще и оба несчастных столбца в сообщении выложили. Может быть там и считать нечего, даже школьнику?
100$
Цитата(Scratty @ 3.03.2012 - 08:16) *
Здравствуйте! Уже несколько недель ломаю голову и переворачиваю Интернет, но так и не могу выбрать нужный стат. критерий...
Если кратко описать тип данных, которые не могу обсчитать: 1 столбец - нормальное значение параметра /повышенное (т.е. 0 / 1), 2 столбец - наличие инфекции/отсутствие (т.е. тоже 0/1)
Понимаю, что задача мега простая, но решить ее не могу (с анализом качественных данных никогда не сталкивалась) (((
Пыталась обсчитать с помощью Хи-квадрат, но ожидаемая частота получается больше 5, если правильно понимаю - необходим критерий Фишера, но так ли это и как и воспользоваться (SPSS, Statistica) я не знаю...
Буду очень признательная за любой совет!


Должен вас огорчить: сравнение двух столбцов нулей и единиц, называемых в статистике бернуллиевскими векторами или люсианами (и представляющих собой объекты НЕчисловой природы) - задача не мега простая. frown.gif
Alex_Z
Подскажите, пожалуйста, как правильно посчитать.
Имею набор данных (ссылка на экселевский файл). Столбцы - три этапа лечения, т.е. выборки связанные. Значения в ячейках - уровни качественной переменной (всего 4 уровня). Если бы переменные были бы дихотомическими, то, вроде бы, можно было проанализировать данные критеринм МакНемара (если две выборки - папарно) или критерием Кохрейна. А если у меня 4 уровня как быть?

Можно оценить связь переменной и факора "этап лечения" фи?

http://zalil.ru/33414839
DrgLena
Цитата(Scratty @ 3.03.2012 - 08:16) *
необходим критерий Фишера, но так ли это и как и воспользоваться (SPSS, Statistica) я не знаю...

В том же модуле, где вы анализируете таблицы сопряженности сделайте нужный выбор, в обеих этих программах есть точный тест Фишера. К сожалению не могу прикрепить файлы с иллюстрацией, израсходован весь объем моего ящика (12 Мгб)
Но если вы хотите показать не просто наличие сопряженности двух признаков, а показать как они связаны, например, что повышенное значение показателя является фактором риска возникновения и наличия инфекции, то воспользуйтесь оценкой OR.
nokh
Цитата(Alex_Z @ 9.06.2012 - 03:34) *
Подскажите, пожалуйста, как правильно посчитать.
Имею набор данных (ссылка на экселевский файл). Столбцы - три этапа лечения, т.е. выборки связанные. Значения в ячейках - уровни качественной переменной (всего 4 уровня). Если бы переменные были бы дихотомическими, то, вроде бы, можно было проанализировать данные критеринм МакНемара (если две выборки - папарно) или критерием Кохрейна. А если у меня 4 уровня как быть?

Можно оценить связь переменной и факора "этап лечения" фи?

http://zalil.ru/33414839

Аналогами критерия МакНемара для более чем двух категорий являются тесты на симметрию: Стюарта-Максвела, Бокера и Бхапкара. Все три есть в программах AtteStat (http://attestatsoft.narod.ru/) и MH (http://www.john-uebersax.com/stat/mh.htm). Хотя, скорее всего, ваши 4 уровня являются не номинальными качественными, а упорядоченными качественными переменными - т.е. их можно анализировать ранговыми критериями. Для трёх зависимых выборок затрудняюсь назвать ранговые методы, но можно и попарно 1 с 2 и 2 с 3 с помощью критерия разностей пар Уилкоксона. Про фи не знаю.
Alex_Z
Ага... Спаисбо за ответ, а то уже почти надежду потерял. Вы совершенно правы - значения переменной - это упорядоченные качественные переменные. Просто анализ один "визуальный" и имеет четыре градации. От "почти нет" до "очень много". Аттестат уже есть. Изучаю документацию и буду таблицы переделывать.

1. Я правильно понимаю, что при попарных сравнениях нужно будет вводить поправку уровня значимости?

2. Если я провожу дополнительные попарные сравнения двух групп на каждом из этапов, то я могу использовать таблицы сопряженности 2х4 и хи-квадрат критерий?

3. И, если позволите, еще вопрос. V Крамера - это аналог точного критерия Фишера для таблиц больше, чем 2Х2?
DrgLena
Если рассматриваются данные до и после лечения, то на 1 срок статистически значимо повышается только доля больных с оценкой 1, а на последующий срок, по сравнению с первым измерением, статистически значимо увеличивается число больных с 1 и 2 оценкой, за счет статистически значимого снижения числа больных с оценкой 3

McNemar Tests for Each Category
---------------------------------------------------------------------
Proportion
Frequency (Base Rate)
Level ---------------- ---------------- Chi-
(k) Rater 1 Rater 2 Rater 1 Rater 2 squared(a) p
---------------------------------------------------------------------
1 2 11 0.037 0.204 exact test 0.0039*
2 7 11 0.130 0.204 1.333 0.2482
3 30 22 0.556 0.407 2.667 0.1025
4 15 10 0.278 0.185 1.190 0.2752
---------------------------------------------------------------------
(a) or exact test
* p < Bonferroni-adjusted significance criterion of 0.017.


Tests of Overall Marginal Homogeneity
------------------------------------------------------------
Bhapkar chi-squared = 13.157 df = 3 p = 0.0043
Stuart-Maxwell chi-squared = 10.579 df = 3 p = 0.0142


Bowker Symmetry Test
----------------------------------------------
Chi-squared = 10.667 df = 6 p = 0.0992

Для второго этапа

McNemar Tests for Each Category
---------------------------------------------------------------------
Proportion
Frequency (Base Rate)
Level ---------------- ---------------- Chi-
(k) Rater 1 Rater 2 Rater 1 Rater 2 squared(a) p
---------------------------------------------------------------------
1 2 14 0.037 0.259 12.000 0.0005*
2 7 19 0.130 0.352 7.200 0.0073*
3 30 11 0.556 0.204 13.370 0.0003*
4 15 10 0.278 0.185 1.316 0.2513
---------------------------------------------------------------------
(a) or exact test
* p < Bonferroni-adjusted significance criterion of 0.017.


Tests of Overall Marginal Homogeneity
------------------------------------------------------------
Bhapkar chi-squared = 39.135 df = 3 p = 0.0000
Stuart-Maxwell chi-squared = 22.691 df = 3 p = 0.0000
Alex_Z
DrgLena, спасибо большое за анализ моих данных!
Теперь должен сам такие же результаты получить - будет как себя проверить.
А в какой программе это посчитано?
DrgLena
Одно и тоже можно сделать по разному. Чтобы содержательно интерпретировать результат нужно рассмотреть изменения (переходы в другие категории) для каждой исходной категории исследуемого показателя. Рассмотрите маргинальные частоты и вы увидите, какие категории прибавились и какие убавились. По этим таблицам также можете посчитать количество положительных переходов, - 14 на первом этапе и 8 негативных результатов, те, 6 улучшений. При этом вы можете оценить разность этих долей, что может рассматриваться как эффективность на этом этапе 11,1% (-5,7%-27,9%), а на втором этапе лечения (третье измерение относительно первого) доля положительных сдвигов составила 42,6% (23,0% - 62,2%).

Я привела расчет критерия М-Н для таблиц более 2х2, где фактически анализируется каждая категория, а также рекомендованные вам nokh тесты на симметрию. Это dos -овская программа, на входе которой задается таблица сопряженности nхn, которую вы получаете в любой программе, строки таблицы для сравнения частот по вашим данным для первого этапа 2000, 0331,36147,6252
becas84
Доброго времени суток! Объясните пожалуйста, как правильно трактовать результаты обсчета качественных номинальных переменных? Прицельно интересует 2-Way Summary Table: Expected Frequencies (ожидаемые частоты??), 2-Way Summary Table: Observed minus Expected Frequencies (минусовые ожидаемые частоты???) и и уровень вероятности хи-квадрат пирсона и МЛ-хи-квадрат относятся к выделенным красным параметрам???
Нажмите для просмотра прикрепленного файла
Нажмите для просмотра прикрепленного файла
Нажмите для просмотра прикрепленного файла
Нажмите для просмотра прикрепленного файла
nokh
Цитата(becas84 @ 18.07.2012 - 19:10) *
Доброго времени суток! Объясните пожалуйста, как правильно трактовать результаты обсчета качественных номинальных переменных? Прицельно интересует 2-Way Summary Table: Expected Frequencies (ожидаемые частоты??), 2-Way Summary Table: Observed minus Expected Frequencies (минусовые ожидаемые частоты???) и и уровень вероятности хи-квадрат пирсона и МЛ-хи-квадрат относятся к выделенным красным параметрам???

1. С первой таблицей всё ясно: пакет считает относительные частоты в %. А поскольку он не знает что вас интересует, то считает все 3 возможных типа %: по строкам, по столбцам, ну и от общего числа наблюдений в таблице.
2. Во второй таблице - ожидаемые частоты, вычисленные в предположении отсутствия взаимодействия входов таблицы частот. Выделенные красным значения более 10 - исключительно эстетические пристрастия разработчиков пакета, т.к. ни число 10, ни красный цвет никому кроме них ни о чём не говорят.
3. Разность наблюдаемой и ожидаемой частоты называется остатком (residual). Число 10 ни о чём не говорит. Да и сама величина остатка особо ни о чём не говорит. Для интерпретации различий между наблюдаемыми и ожидаемыми частотами нужны не простые, а стандартизованные остатки. Ну или отклонения Фримана-Тьюки. Эти показатели помогают оценить значимость вклада каждой ячейки таблицы в итоговое значение статистики хи-квадрат. Эти показатели Statistica считает, правда в другом модуле (логлинейный анализ) и без оценки статистической значимости вклада ячейки - это за пакетом необходимо самостоятельно досчитывать вручную.
4. В последней таблице - несколько критериев и коэффициентов ассоциации, используемых при анализе таблиц частот r x c. Под пирсоновским хи-квадратом - хи-квадрат максимального правдоподобия (M-L это maximum likelihood), который рекомендуется применять вместо пирсоновского критерия (синонимы: отношение правдоподобия, кримтерий максимального лог-правдоподобия, информационный критерий Кульбака, G-критерий Вульфа, критерий G-квадрат).

Чтобы разбираться с пакетом необходимо использовать не свои данные, а данные из того учебника, где этот раздел хорошо написан и всё разжёвано. Лучше даже на таблице 2 x 2. Также необходимо читать книги по пакету и раздел помощи в самом пакете. Для пакета Statistica и то и другое есть в хороших объёмах.
becas84
...хорошо, тогда, о чем говорит уровень p<0,05 в четвертом скрине? Какую гипотезу он считает достоверной и по отношению к чему?
DrgLena
Просто отвергается нулевая гипотеза об отсутствии сопряженности между категориями двух переменных и принимается альтернативная...
becas84
а можно это предложение применить к вложениям и как это будет правильно написано?
DrgLena
Цитата(becas84 @ 22.07.2012 - 18:12) *
а можно это предложение применить к вложениям и как это будет правильно написано?

Чтобы правильно написать, нужно владеть терминологией ?минусовые ожидаемые частоты? и ?уровень вероятности хи-квадрат? - это нельзя вылечить на форуме. Nokh дал вам профессиональную консультацию, к этому могу добавить, возьмите простую книжку для докторов, написанную доктором. Медико-биологическая статистика. Стентон Гланц и прочитайте про таблицы сопряженности.
Альтернативная гипотеза ? сопряженность между двумя переменными есть. Но ведь вам этого вывода явно не достаточно. Вы должны сформулировать и доказать определенную клиническую, а не статистическую гипотезу. Что для вас важно, формулируйте сами. Например, вам можно сделать такой вывод, при определенном уровне одной переменной чаще наблюдаются определенные значения другой переменной. При Наследственность=3 var1=2 наблюдаются чаще, чем var=1 или var=3. Разница долей 71,4% (95% ДИ 42,6% - 84,6% Chi-square = 18,7 DF = 1)
А возможно и наоборот, вас интересует какая наследственность чаще при определенных значениях var1.
becas84
Елена, я это и хотел узнать. Просто в моем случае значения меньше 5 проще отвергнуть, чем проводить дополнительный анализ применяя критерий фишера. nokh написал очень подробно и ему за это отдельное спасибо, но я как раз-таки ищу простой и понятный язык...
DoctorStat
Цитата(becas84 @ 23.07.2012 - 18:43) *
Просто в моем случае значения меньше 5 проще отвергнуть, чем проводить дополнительный анализ применяя критерий фишера
Выбрасывая параметры с ожидаемым числом<5, вы теряете информацию. Точный критерий Фишера анализа таблиц сопряженности есть во многих стат.пакетах (и на моем сайте тоже). Забудьте про критерий хи-квадрат, когда в таблице есть ячейки с малым значением!
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.