Здравствуйте, гость ( Вход | Регистрация )
9.04.2015 - 14:33
Сообщение
#1
|
|
![]() Группа: Пользователи Сообщений: 147 Регистрация: 4.09.2012 Из: г.Дивногорск Пользователь №: 24146 |
Здравствуйте, уважаемые. Существуют две несвязанные выборки, по которым получены: n, Q1, Q2, Q3. Q2 - медиана. Других данных нет. Как по ним проверить гипотезу о значимости различия выборок? Спасибо.
|
|
|
![]() |
![]() |
![]() |
11.04.2015 - 07:39
Сообщение
#2
|
|
![]() Группа: Пользователи Сообщений: 147 Регистрация: 4.09.2012 Из: г.Дивногорск Пользователь №: 24146 |
Собственно практическая задача такая. Известны выборочные параметры распределения количества лейкоцитов для группы здоровых людей объёмом 54:
Q1=5.6; Me=6.8; Q3=9.3. Тоже самое для группы больных людей объёмом 37: Q1=7.0; Me=7.9; Q3=9.7. Ничего нельзя сказать о значимом отличии групп по этим данным? Сообщение отредактировал Диагностик - 11.04.2015 - 07:40 |
|
|
![]() |
![]() |
12.04.2015 - 06:58
Сообщение
#3
|
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Собственно практическая задача такая. Известны выборочные параметры распределения количества лейкоцитов для группы здоровых людей объёмом 54: Q1=5.6; Me=6.8; Q3=9.3. Тоже самое для группы больных людей объёмом 37: Q1=7.0; Me=7.9; Q3=9.7. Ничего нельзя сказать о значимом отличии групп по этим данным? Такие данные можно сравнить с помощью критерия Колмогорова, который находит различия в распределениях. Для этого нужно отложить значения квартилей на кривой накопленных частот (CDF). Максимальное значение разности D между этими кривыми (в нашем случае они достаточно грубые - ломаные) используется далее в расчёте статистики критерия: формулы см. http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test в разделе Two-sample Kolmogorov-Smirnov test. Здесь возможны 2 ситуации: а) Расположение кривых позволяет найти D (рис. а). Вычисления не выходят за пределы заштрихованной области. Максимальные значения высот этой этой фигуры (D) всегда или от Q1 вверх или от Q3 вниз, по крайней мере на тех фигурах, что я накидал за 3 мин было так. Видимо это можно доказать геометрически и алгоритмизировать поиск D. Я думал ситуация а) - это для случая перекрывающихся интервалов, но ваш пример показывает, что нет - и при перекрытии возможна ситуация б). б) Расположение кривых позволяет найти не D, а его нижнюю границу. Т.к. минимумы и максимумы не известны, реальное D тоже не известно: зелёная стрелка упирается в пунктир. Такая ситуация всегда будет при неперекрывании межквартильных размахов. Для такой ситуации если бы были известны минимумы и максимумы, то вместо пунктира продолжилась бы ломаная CDF, что сделало бы определение D также однозначным. Ваша ситуация попадает в категорию б), т.к. возможно, что реальное D будет больше - пунктирная зелёная стрелка с вопросом. Но за неимением большей информации - работаем с тем, что есть. 1) По значениям для группы здоровых (синие точки) находим уравнение прямой, проходящей через медиану Ме (6,8; 50) и Q3 (9,3; 75): у=10х-18. 2) Находим ординату точки пересечения прямой D c этой прямой в точке х=7. у=10х7-18=52. Находим D как 52-25=27, 27/100%=0,27. 3) Подставляем это значение в формулу и находим р интерполяцией по табличным значениям с википедии (интерполировал полиномом 4-ой степени). Для ваших данных р=0,081. Я трактую это как "тенденцию к различиям", хотя знаю что многие ругают такую формулировку. Вот такой мой подход. В "материале и методах" можно писать, что использовали критерий Колмогорова. Нужно сказать, что реальное значение р, возможно, будет меньше, т.к. мы смогли найти только нижнюю границу D. Если реальное D будет больше нашего, значит и С(альфа) будет больше, а р - меньше. А может и не будет больше. Поэтому написал р <=0,081. В общем, критерий Колмогорова D(37; 54)=0,27; р <=0,081. И ещё ремарка по поводу "грубости" такого подхода. Вообще говоря, при вычислении CDF и далее статистики критерия выбор интервала группировки классов строго не регламентируется. Кто-то работает "на глазок", кто-то по формуле Стургеса, кто-то по EM-алгоритму. То, что мы берём такие аршинные интервалы как квартили, конечно не очень хорошо, но почему бы и нет, если это позволяет принимать решения. В данном случае решение о различии распределений. PS. В подходе р2004r не понял откуда выбирать значения, если интервал min-max не определён. Был бы признателен за код с вашим вариантом р. Сообщение отредактировал nokh - 12.04.2015 - 07:28 |
|
|
![]() |
![]() |
12.04.2015 - 09:54
Сообщение
#4
|
|
|
Группа: Пользователи Сообщений: 381 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Максимальное значение разности D между этими кривыми (в нашем случае они достаточно грубые - ломаные) используется далее в расчёте статистики критерия: формулы см. http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test в разделе Two-sample Kolmogorov-Smirnov test. Вам осталось только:1) Доказать, что введенное Вами расстояние D, обозначенное зеленой стрелкой на рисунках, не зависит от вида распределения, 2) Вывести для этого расстояния свои таблицы статистики, а не подставлять D в таблицы Колмогорова-Смирнова, предназначенные для обсчета расстояния между кривыми распределений, а не кривыми процентилей. ![]() Просто включи мозги => http://doctorstat.narod.ru
|
|
|
![]() |
![]() |
19.04.2015 - 12:21
Сообщение
#5
|
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Вам осталось только: 1) Доказать, что введенное Вами расстояние D, обозначенное зеленой стрелкой на рисунках, не зависит от вида распределения, 2) Вывести для этого расстояния свои таблицы статистики, а не подставлять D в таблицы Колмогорова-Смирнова, предназначенные для обсчета расстояния между кривыми распределений, а не кривыми процентилей. 1) Почему же? Нигде не встречал, что критерий Колмогорова - Смирнова требует знания вида распределения. Т.е. если использовать его - ничего доказывать не надо, всё уже доказано! 2) А вот насчёт 2, соглашусь: вопрос дискуссионный. То, что подставлять можно, я не сомневаюсь, но то насколько полученное значение D будет близко к истинному - сказать, действительно, сложно. Понятно, что это - только приближение. К сожалению, я не силён в симуляциях, а то можно было бы оценить различия между истинным и "квартильным" D поигравшись с выборками из разных распределений. В качестве ещё пары аргументов в защиту подхода можно привести то, что: 1) при сравнении эмпирического распределения с теоретическим этим критерием допускается группировка данных, т.е. тоже получается не слишком точно. Раз можно нарезать его, скажем, на децили, почему не нарезать на квартили? 2) функция накопленных частот в области медианы достаточно пологая, по крайней мере изменяется не так круто, как на концах функции. Поэтому погрешность "квартильного" D не должна быть высокой. В качестве ещё большего приближения можно заменить мою исходную ломаную куском параболы, интерполирующей по трём точкам (Q1, Me, Q3). Для примера Диагностика такой способ даст чуть большее D и чуть меньшее р. Пока катастрофически не хватает времени, но найду - ещё повожусь:) |
|
|
![]() |
![]() |
Диагностик Непараметрический метод сравнения выборок 9.04.2015 - 14:33
anserovtv Странная задача.
Понимаю, что интересно сравнить... 10.04.2015 - 08:30
Диагностик Цитата(anserovtv @ 10.04.2015 - 13:3... 10.04.2015 - 14:11
anserovtv Странность в том, что у Вас нет исходных данных, а... 10.04.2015 - 15:26
Диагностик Цитата(anserovtv @ 10.04.2015 - 20:2... 10.04.2015 - 15:56
DoctorStat Цитата(Диагностик @ 10.04.2015 - 15... 10.04.2015 - 19:56
nokh Цитата(Диагностик @ 9.04.2015 - 16:3... 11.04.2015 - 06:30

Диагностик Цитата(nokh @ 12.04.2015 - 11:58) Та... 12.04.2015 - 07:17

p2004r Цитата(nokh @ 12.04.2015 - 06:58) PS... 12.04.2015 - 21:01
Диагностик Цитата(Диагностик @ 11.04.2015 - 12... 21.04.2015 - 15:03
anserovtv Вроде бы понял, почему нельзя проверить гипотезу о... 11.04.2015 - 10:50
p2004r Цитата(Диагностик @ 9.04.2015 - 14:3... 11.04.2015 - 18:05
anserovtv p2004r
Если я правильно понял, Вы предлагаете ... 11.04.2015 - 20:25
p2004r Цитата(anserovtv @ 11.04.2015 - 20:2... 11.04.2015 - 22:48
anserovtv Считаю, что при данном подходе не будет учтена вся... 12.04.2015 - 06:14
100$ Поскольку и медиана и квартили - суть порядковые с... 12.04.2015 - 13:22
anserovtv При таком формальном подходе мощность критерия (Ма... 12.04.2015 - 15:17
100$ Цитата(anserovtv @ 12.04.2015 - 16:1... 12.04.2015 - 20:24
anserovtv Было бы вполне закономерно, если бы топикстартер Д... 15.04.2015 - 09:23
100$ Цитата(anserovtv @ 15.04.2015 - 10:2... 15.04.2015 - 12:30![]() ![]() |