Хи-квадрат, запуталась =( |
Здравствуйте, гость ( Вход | Регистрация )
Хи-квадрат, запуталась =( |
31.07.2018 - 10:09
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 8 Регистрация: 18.07.2018 Пользователь №: 31695 |
Пытаясь проанализировать рассчитанные математиком значения хи-квадратов, не могу понять, как их получили. К сожалению, автор расчётов уже никому ничего не объяснит..
Насколько я смогла с нуля изучить хи-квадрат, им проверяют значимость расхождения наблюдаемых и ожидаемых частот (по крайней мере, это нужно было сделать с этими данными). У меня есть таблица данных и есть значения хи и р, но используя изученную в сети формулу, я получаю вообще другие значения Задачей было доказать достоверность разницы между группами. n=приближенные+значимые; точные являются частью приближенных. Кто-нибудь может объяснить, в чём хитрость? Очевидно, я что-то не учитываю, ибо не понимаю =( Сообщение отредактировал CatenaR - 14.08.2018 - 13:36 |
|
31.07.2018 - 11:21
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
Насколько я смогла с нуля изучить хи-квадрат, им проверяют значимость расхождения наблюдаемых и ожидаемых частот (по крайней мере, это нужно было сделать с этими данными). У меня есть таблица данных и есть значения хи и р, но используя изученную в сети формулу, я получаю вообще другие значения Задачей было доказать достоверность разницы между группами. n=приближенные+значимые; точные являются частью приближенных. Кто-нибудь может объяснить, в чём хитрость? Очевидно, я что-то не учитываю, ибо не понимаю =( Вы не только сами запутались, вы и нас хотите запутать. Во-первых,разъясните сию загадочную фразу "точные являются частью приближенных" Как такое может быть?? Данные ЛИБО точные, ЛИБО приближенные. Но предположим, что первая строка нам не нужна (эти же данные вошли во вторую). Тогда у вас в оставшейся части таблице сумма значений по строкам должна быть равной сумме значений по столбцам. По столбцам - получается (приближенные + значимые = n из заголовка). А вот по строкам - "приближенные" сходятся, а "значимые" -нет. Что-то тут не так. Уточните. Ну и что значит фраза "p<0.0001 по сравнению с группой 1" - для меня, по крайней мере, загадка. Уточняйте. Сообщение отредактировал passant - 31.07.2018 - 11:22 |
|
31.07.2018 - 11:58
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 8 Регистрация: 18.07.2018 Пользователь №: 31695 |
"Точные" и "приближенные" - это не данные, это внутренняя терминология) Можно назвать их как угодно, если это снизит степень запутанности, факт только в том, что точные входят в число приближенных. И нужно оценить достоверность различий распределения количества точных, приближенных и значимых между тремя группами.
n каждого столбца - сумма приближенных и значимых. Группы имеют разное n (поэтому и пошли проценты, так как даже мне понятно, что сравнивать 71 с 230 - бессмыслица). Вот зачем нужны были суммы в строках - я не знаю, так как глубоко неискушённой мне кажется, что они не несут в себе какой-либо информации. Так как группы 3, они сравнивались каждая с каждой. Идеалом является группа 1 (и изучая хи я предположила, что математик мог использовать данные этой группы в качестве "ожидаемых значений" - если это применимо). * - сравнения группы 2 с группой 1 и группы 3 с группой 1. # - сравнение группы 3 с группой 2 Зачем разделялись р на <0,05 и <0,001 я тоже не знаю ='(, они ж как ни крути достоверные, если брать уровень значимости 0,05. Спасибо за Ваш отклик! Сообщение отредактировал CatenaR - 31.07.2018 - 12:33 |
|
31.07.2018 - 13:33
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Поскольку маргинальная (краевая) сумма для последней строки таблицы 2+40+95=137 не равна заявленным 141, не вижу смысла обсуждать чьи-то кривые расчеты. Сформулируйте внятно, совместное распределение каких случайных величин породило таблицу сопряженности, и мы попробуем проанализировать уже своими силами. Таблица сопряженности - НЕ дисперсионный комплекс, и там нет пост-хоковых попарных сравнений типа "Группа1 vs. Группа2" etc.
|
|
31.07.2018 - 13:56
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 8 Регистрация: 18.07.2018 Пользователь №: 31695 |
Формулирую внятно: я и не просила обсуждать кривые расчёты математика, я прошу только пояснить, как могли быть получены представленные значения хи-квадрата.
Мне кажется, это не таблица сопряжённости вообще (я могу ошибаться, ясное дело). Целью было получить доказательства, что значения группы 3 достоверно отличаются от значений группы 2 и значений группы 1. Насколько мне известно, таблица сопряжённости получается при наличии двух переменных, и предполагается, что они зависят друг от друга. Здесь этого нет. 141 и впрямь не равны 137, но не могли бы Вы пояснить, нужно ли вообще это значение? Если да, то зачем? Как оно участвует в расчёте хи? Мне необходимо понять, КАКИМ ОБРАЗОМ (методом, формулой, магией) производился расчёт. Что есть "НЕ дисперсионный комплекс" и "пост-хоковые" для меня темнейшая тайна. Поняла только словосочетание "попарные сравнения". Сообщение отредактировал CatenaR - 31.07.2018 - 13:59 |
|
31.07.2018 - 15:00
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Цитата Формулирую внятно: я и не просила обсуждать кривые расчёты математика, я прошу только пояснить, как могли быть получены представленные значения хи-квадрата. Терпеливо поясняю: хи-квадратов в природе существует бесчисленное множество. Даже самый популярный - хи-квадрат Пирсона - ваш математик мог считать с поправкой Йейтса, а мог и без нее. Как это понять по конечному значению? Никак. Только сидеть и методом исключения перебирать варианты. Но для этого нужна безупречная цифирь. А не так, что написано "n=141", а на деле - 137. Далее. Если задача - протестировать возможные отличия 3-й группы от предыдущих двух, то таких попарных сравнений получается всего 2, а у вас - аж 9. Что бы это значило тоже непонятно. Цитата 141 и впрямь не равны 137, но не могли бы Вы пояснить, нужно ли вообще это значение? Если да, то зачем? Как оно участвует в расчёте хи? Через маргинальные суммы рассчитываются ожидаемые (expected) значения ячеек таблицы сопряженности. Цитата Мне необходимо понять, КАКИМ ОБРАЗОМ (методом, формулой, магией) производился расчёт. Если приведенные цифры верны (т.е. в последней строке сумма действительно должна быть 137, и 4 нигде не "загуляло"), то надо сидеть и разбираться. Но лучше решить эту задачу заново. |
|
31.07.2018 - 20:57
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
СatenaR, вам провели 9 сравнений долей представленных в таблице, по 3 сравнения на каждую строку. Доли рассчитаны по группам 1,2 и 3, т.е. из 98, 481 и 381. Первое сравнение 72,4% и 47,8% приведены хи-кв для сравнения долей без поправок на множественность подобных сравнений. Поскольку спросить про корректность такого подхода теперь уже не у кого, то можно и не комментировать.
|
|
1.08.2018 - 09:46
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 8 Регистрация: 18.07.2018 Пользователь №: 31695 |
СatenaR, вам провели 9 сравнений долей представленных в таблице, по 3 сравнения на каждую строку. Доли рассчитаны по группам 1,2 и 3, т.е. из 98, 481 и 381. Первое сравнение 72,4% и 47,8% приведены хи-кв для сравнения долей без поправок на множественность подобных сравнений. Поскольку спросить про корректность такого подхода теперь уже не у кого, то можно и не комментировать. Большое спасибо Вам, уже понятнее!) Не могли бы Вы дать какую-нибудь ссылку, где я могла бы почитать про механизм описанного расчёта? Я тупо сравнила проценты по формуле для хи-квадрата (1): [квадрат разницы (значение группы 2 - значение группы 1), делённый на значение группы 1], но у меня получились совсем другие результаты =( Т.е. предполагается, что такой подход некорректный?.. Сообщение отредактировал CatenaR - 1.08.2018 - 09:48 |
|
1.08.2018 - 10:47
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Я тупо сравнила проценты по формуле для хи-квадрата (1): [квадрат разницы (значение группы 2 - значение группы 1), делённый на значение группы 1], но у меня получились совсем другие результаты =( Т.е. предполагается, что такой подход некорректный?.. Жуть. Кошмар. Хи2=(O-E)^2/E, где O-наблюдаемая частота, E-ожидаемая частота. В формулу хи-квадрата нельзя подставлять %%. Только абсолютные частоты. |
|
1.08.2018 - 10:55
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 8 Регистрация: 18.07.2018 Пользователь №: 31695 |
Жуть. Кошмар. Хи2=(O-E)^2/E, где O-наблюдаемая частота, E-ожидаемая частота. В формулу хи-квадрата нельзя подставлять %%. Только абсолютные частоты. Ой, беда. Подскажите, как сравнить абсолютные значения в группах с разным n? Или каким другим методом сравнить достоверность разницы процентов? |
|
1.08.2018 - 11:54
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Ой, беда. Подскажите, как сравнить абсолютные значения в группах с разным n? Или каким другим методом сравнить достоверность разницы процентов? Подскажу, конечно. Отчего ж не подсказать хорошему человеку. Пусть в выборке объемом n1=10 3 объекта имеют интересующее исследователя свойство. Пусть в выборке n2=20 таковых уже 12. Стряпаем таблицу сопряженности из наблюдаемых частот: 3__7 12_8 Тогда таблица ожидаемых частот 5__5 10_10 Считаем: хи-квадрат=(3-5)^2/5+(7-5)^/5+(12-10)^2/10+(8-10)^2/10=.8+.8+.4+.4=2.4. Степеней свобоы: df=1. Достигаемый уровень значимости:p-value=хи2расп(2,4;1)=,121335. Нулевая гипотеза о равенстве долей не отвергается. В среде статистических расчетов R все то же самое проделывает функция prop.test{stats}. > prop.test(c(3,12),c(10,20),correct=F) 2-sample test for equality of proportions without continuity correction data: c(3, 12) out of c(10, 20) X-squared = 2.4, df = 1, p-value = 0.1213 alternative hypothesis: two.sided 95 percent confidence interval: -0.65604514 0.05604514 sample estimates: prop 1 prop 2 0.3 0.6 |
|
7.08.2018 - 20:36
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 46 Регистрация: 19.07.2013 Из: Украина, Харьков Пользователь №: 25002 |
Я поняла, как считал "математик". Он разбил всю таблицу 3*3 на всевозможные варианты таблицы 2*2, а дальше считал Хи-квадрат с поправкой Йейтса.
Правда, не все цифры у меня сходятся с расчетами (да и не все я проверяла), но вот для 4-й и 6-й строк у меня расчеты сошлись. В любом случае так делать нельзя. |
|
8.08.2018 - 11:04
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 8 Регистрация: 18.07.2018 Пользователь №: 31695 |
Подскажу, конечно. Отчего ж не подсказать хорошему человеку. Пусть в выборке объемом n1=10 3 объекта имеют интересующее исследователя свойство. Пусть в выборке n2=20 таковых уже 12. Стряпаем таблицу сопряженности из наблюдаемых частот: 3__7 12_8 Тогда таблица ожидаемых частот 5__5 10_10 Считаем: хи-квадрат=(3-5)^2/5+(7-5)^/5+(12-10)^2/10+(8-10)^2/10=.8+.8+.4+.4=2.4. Степеней свобоы: df=1. Достигаемый уровень значимости:p-value=хи2расп(2,4;1)=,121335. Нулевая гипотеза о равенстве долей не отвергается. В среде статистических расчетов R все то же самое проделывает функция prop.test{stats}. > prop.test(c(3,12),c(10,20),correct=F) 2-sample test for equality of proportions without continuity correction data: c(3, 12) out of c(10, 20) X-squared = 2.4, df = 1, p-value = 0.1213 alternative hypothesis: two.sided 95 percent confidence interval: -0.65604514 0.05604514 sample estimates: prop 1 prop 2 0.3 0.6 Спасибо, попробую |
|
8.08.2018 - 11:05
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 8 Регистрация: 18.07.2018 Пользователь №: 31695 |
Я поняла, как считал "математик". Он разбил всю таблицу 3*3 на всевозможные варианты таблицы 2*2, а дальше считал Хи-квадрат с поправкой Йейтса. Правда, не все цифры у меня сходятся с расчетами (да и не все я проверяла), но вот для 4-й и 6-й строк у меня расчеты сошлись. В любом случае так делать нельзя. Жизнь - боль В любом случае, спасибо за Ваш отклик! |
|
8.08.2018 - 11:40
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 46 Регистрация: 19.07.2013 Из: Украина, Харьков Пользователь №: 25002 |
Ой, беда. Подскажите, как сравнить абсолютные значения в группах с разным n? Или каким другим методом сравнить достоверность разницы процентов? Вам уже ответили (учтите, что Вам показали пример расчета без поправки Йейтса). Еще советую посмотреть примеры у Гланса "Медико-биологическая статистика". Там "на пальцах" все показано. |
|