Анализ качественных данных |
Здравствуйте, гость ( Вход | Регистрация )
Анализ качественных данных |
3.03.2012 - 08:16
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 3.03.2012 Пользователь №: 23535 |
Здравствуйте! Уже несколько недель ломаю голову и переворачиваю Интернет, но так и не могу выбрать нужный стат. критерий...
Если кратко описать тип данных, которые не могу обсчитать: 1 столбец - нормальное значение параметра /повышенное (т.е. 0 / 1), 2 столбец - наличие инфекции/отсутствие (т.е. тоже 0/1) Понимаю, что задача мега простая, но решить ее не могу (с анализом качественных данных никогда не сталкивалась) ((( Пыталась обсчитать с помощью Хи-квадрат, но ожидаемая частота получается больше 5, если правильно понимаю - необходим критерий Фишера, но так ли это и как и воспользоваться (SPSS, Statistica) я не знаю... Буду очень признательная за любой совет! |
|
3.03.2012 - 08:38
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Здравствуйте! Уже несколько недель ломаю голову и переворачиваю Интернет, но так и не могу выбрать нужный стат. критерий... Если кратко описать тип данных, которые не могу обсчитать: 1 столбец - нормальное значение параметра /повышенное (т.е. 0 / 1), 2 столбец - наличие инфекции/отсутствие (т.е. тоже 0/1) Понимаю, что задача мега простая, но решить ее не могу (с анализом качественных данных никогда не сталкивалась) ((( Пыталась обсчитать с помощью Хи-квадрат, но ожидаемая частота получается больше 5, если правильно понимаю - необходим критерий Фишера, но так ли это и как и воспользоваться (SPSS, Statistica) я не знаю... Буду очень признательная за любой совет! Подсчитайте количество всех вариантов (0-0, 0-1, 1-0 и 1-1) и полученные абсолютные частоты занесите в четырёхпольную таблицу сопряжённости 2х2. Если ожидаемые больше 5, это наоборот хорошо. Точный метод Фишера - дедовский способ анализировать как раз слабонасыщенные таблицы частот, когда минимальные ожидаемые менее 4-5, и все критерии типа хи-квадрат - хи-квадрат Пирсона, отношение правдоподобия, критерий Фримана-Тьюки - "плохо работают" (современный способ - точный перестановочный (permutation) тест). |
|
3.03.2012 - 09:03
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 3.03.2012 Пользователь №: 23535 |
Спасибо! В предыдущем сообщении у меня была опечатка - ожидаемая частота на самом деле МЕНЬШЕ 5...
А можно немного поподробней про перестановочный (permutation) тест? |
|
3.03.2012 - 10:41
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
необходим критерий Фишера, но так ли это и как и воспользоваться (SPSS, Statistica) я не знаю... Когда ожидаемые частоты каких-либо качественных факторов становятся слишком малыми, то приближенные методы, типа критерия хи-квадрат могут приводить к большим ошибкам вычисления величины p-value. В этом случае следует воспользоваться точными методами, например, точным критерием Фишера. Этот метод реализован не во всех популярных статистических программах: в пакетах SPSS и Statistica его нет. Он присутствует, например, в коммерческой программе StatXact или в бесплатной программе DoctorStat (см.ссылку внизу сообщения).
Просто включи мозги => http://doctorstat.narod.ru
|
|
3.03.2012 - 11:26
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Спасибо! В предыдущем сообщении у меня была опечатка - ожидаемая частота на самом деле МЕНЬШЕ 5... А можно немного поподробней про перестановочный (permutation) тест? Сильно не вникал. По сути ТМ Фишера тоже является перестановочным, но опирается на гипергеометрическое распределение, а "самые точные" - вроде как на биномиальное, что с вычислительной точки зрения сложнее. Пионер и лидер в этой области компания Cytel (http://www.cytel.com/default.aspx), программные продукты которой содержат много современных вариантов точных тестов. Самый известный из продукт - StatXact (пробная версия не урезана и работает 30 дней - я пользовался несколько раз именно ей). Уже какое-то время ряд вычислительных алгоритмов Cytel по лицензии используются в SPSS. Насколько я помню, на практике ТМФ и точный метод StatXact дают близкие значения р, но которые, в случае слабонасыщенных таблиц сильно отличаются от р критериев, опирающихся на распределение хи-квадрат. |
|
3.03.2012 - 11:42
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Если кратко описать тип данных, которые не могу обсчитать: 1 столбец - нормальное значение параметра /повышенное (т.е. 0 / 1), 2 столбец - наличие инфекции/отсутствие (т.е. тоже 0/1) а чем не подходит коэффициент корреляции? Вы хотите показать связь между этими двумя явлениями? |
|
3.03.2012 - 16:12
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 3.03.2012 Пользователь №: 23535 |
а чем не подходит коэффициент корреляции? Вы хотите показать связь между этими двумя явлениями? Как раз таки и хотелось бы отразить наличие или отсутствие связи между данными показателями (влияет ли наличие той или иной инфекции на повышение показателя)... А какой коэффициент корреляции вы имеете ввиду? |
|
3.03.2012 - 16:24
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Как раз таки и хотелось бы отразить наличие или отсутствие связи между данными показателями (влияет ли наличие той или иной инфекции на повышение показателя)... А какой коэффициент корреляции вы имеете ввиду? Например Kendall rank correlation coefficient. |
|
20.03.2012 - 15:24
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 63 Регистрация: 20.03.2012 Из: Ташкент Пользователь №: 23582 |
Здравствуйте! Уже несколько недель ломаю голову и переворачиваю Интернет, но так и не могу выбрать нужный стат. критерий... Если кратко описать тип данных, которые не могу обсчитать: 1 столбец - нормальное значение параметра /повышенное (т.е. 0 / 1), 2 столбец - наличие инфекции/отсутствие (т.е. тоже 0/1) Понимаю, что задача мега простая, но решить ее не могу (с анализом качественных данных никогда не сталкивалась) ((( Пыталась обсчитать с помощью Хи-квадрат, но ожидаемая частота получается больше 5, если правильно понимаю - необходим критерий Фишера, но так ли это и как и воспользоваться (SPSS, Statistica) я не знаю... Буду очень признательная за любой совет! Было бы неплохо, если бы вы еще и оба несчастных столбца в сообщении выложили. Может быть там и считать нечего, даже школьнику? Yury V. Reshetov |
|
21.03.2012 - 16:47
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Здравствуйте! Уже несколько недель ломаю голову и переворачиваю Интернет, но так и не могу выбрать нужный стат. критерий... Если кратко описать тип данных, которые не могу обсчитать: 1 столбец - нормальное значение параметра /повышенное (т.е. 0 / 1), 2 столбец - наличие инфекции/отсутствие (т.е. тоже 0/1) Понимаю, что задача мега простая, но решить ее не могу (с анализом качественных данных никогда не сталкивалась) ((( Пыталась обсчитать с помощью Хи-квадрат, но ожидаемая частота получается больше 5, если правильно понимаю - необходим критерий Фишера, но так ли это и как и воспользоваться (SPSS, Statistica) я не знаю... Буду очень признательная за любой совет! Должен вас огорчить: сравнение двух столбцов нулей и единиц, называемых в статистике бернуллиевскими векторами или люсианами (и представляющих собой объекты НЕчисловой природы) - задача не мега простая. Сообщение отредактировал 100$ - 21.03.2012 - 16:48 |
|
9.06.2012 - 01:34
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 59 Регистрация: 23.12.2011 Пользователь №: 23383 |
Подскажите, пожалуйста, как правильно посчитать.
Имею набор данных (ссылка на экселевский файл). Столбцы - три этапа лечения, т.е. выборки связанные. Значения в ячейках - уровни качественной переменной (всего 4 уровня). Если бы переменные были бы дихотомическими, то, вроде бы, можно было проанализировать данные критеринм МакНемара (если две выборки - папарно) или критерием Кохрейна. А если у меня 4 уровня как быть? Можно оценить связь переменной и факора "этап лечения" фи? http://zalil.ru/33414839 Сообщение отредактировал Alex_Z - 9.06.2012 - 01:39 |
|
10.06.2012 - 15:03
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
необходим критерий Фишера, но так ли это и как и воспользоваться (SPSS, Statistica) я не знаю... В том же модуле, где вы анализируете таблицы сопряженности сделайте нужный выбор, в обеих этих программах есть точный тест Фишера. К сожалению не могу прикрепить файлы с иллюстрацией, израсходован весь объем моего ящика (12 Мгб) Но если вы хотите показать не просто наличие сопряженности двух признаков, а показать как они связаны, например, что повышенное значение показателя является фактором риска возникновения и наличия инфекции, то воспользуйтесь оценкой OR. |
|
10.06.2012 - 19:47
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Подскажите, пожалуйста, как правильно посчитать. Имею набор данных (ссылка на экселевский файл). Столбцы - три этапа лечения, т.е. выборки связанные. Значения в ячейках - уровни качественной переменной (всего 4 уровня). Если бы переменные были бы дихотомическими, то, вроде бы, можно было проанализировать данные критеринм МакНемара (если две выборки - папарно) или критерием Кохрейна. А если у меня 4 уровня как быть? Можно оценить связь переменной и факора "этап лечения" фи? http://zalil.ru/33414839 Аналогами критерия МакНемара для более чем двух категорий являются тесты на симметрию: Стюарта-Максвела, Бокера и Бхапкара. Все три есть в программах AtteStat (http://attestatsoft.narod.ru/) и MH (http://www.john-uebersax.com/stat/mh.htm). Хотя, скорее всего, ваши 4 уровня являются не номинальными качественными, а упорядоченными качественными переменными - т.е. их можно анализировать ранговыми критериями. Для трёх зависимых выборок затрудняюсь назвать ранговые методы, но можно и попарно 1 с 2 и 2 с 3 с помощью критерия разностей пар Уилкоксона. Про фи не знаю. |
|
10.06.2012 - 21:34
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 59 Регистрация: 23.12.2011 Пользователь №: 23383 |
Ага... Спаисбо за ответ, а то уже почти надежду потерял. Вы совершенно правы - значения переменной - это упорядоченные качественные переменные. Просто анализ один "визуальный" и имеет четыре градации. От "почти нет" до "очень много". Аттестат уже есть. Изучаю документацию и буду таблицы переделывать.
1. Я правильно понимаю, что при попарных сравнениях нужно будет вводить поправку уровня значимости? 2. Если я провожу дополнительные попарные сравнения двух групп на каждом из этапов, то я могу использовать таблицы сопряженности 2х4 и хи-квадрат критерий? 3. И, если позволите, еще вопрос. V Крамера - это аналог точного критерия Фишера для таблиц больше, чем 2Х2? |
|
10.06.2012 - 22:36
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Если рассматриваются данные до и после лечения, то на 1 срок статистически значимо повышается только доля больных с оценкой 1, а на последующий срок, по сравнению с первым измерением, статистически значимо увеличивается число больных с 1 и 2 оценкой, за счет статистически значимого снижения числа больных с оценкой 3
McNemar Tests for Each Category --------------------------------------------------------------------- Proportion Frequency (Base Rate) Level ---------------- ---------------- Chi- (k) Rater 1 Rater 2 Rater 1 Rater 2 squared(a) p --------------------------------------------------------------------- 1 2 11 0.037 0.204 exact test 0.0039* 2 7 11 0.130 0.204 1.333 0.2482 3 30 22 0.556 0.407 2.667 0.1025 4 15 10 0.278 0.185 1.190 0.2752 --------------------------------------------------------------------- (a) or exact test * p < Bonferroni-adjusted significance criterion of 0.017. Tests of Overall Marginal Homogeneity ------------------------------------------------------------ Bhapkar chi-squared = 13.157 df = 3 p = 0.0043 Stuart-Maxwell chi-squared = 10.579 df = 3 p = 0.0142 Bowker Symmetry Test ---------------------------------------------- Chi-squared = 10.667 df = 6 p = 0.0992 Для второго этапа McNemar Tests for Each Category --------------------------------------------------------------------- Proportion Frequency (Base Rate) Level ---------------- ---------------- Chi- (k) Rater 1 Rater 2 Rater 1 Rater 2 squared(a) p --------------------------------------------------------------------- 1 2 14 0.037 0.259 12.000 0.0005* 2 7 19 0.130 0.352 7.200 0.0073* 3 30 11 0.556 0.204 13.370 0.0003* 4 15 10 0.278 0.185 1.316 0.2513 --------------------------------------------------------------------- (a) or exact test * p < Bonferroni-adjusted significance criterion of 0.017. Tests of Overall Marginal Homogeneity ------------------------------------------------------------ Bhapkar chi-squared = 39.135 df = 3 p = 0.0000 Stuart-Maxwell chi-squared = 22.691 df = 3 p = 0.0000 |
|