Непараметрический метод сравнения выборок, По медиане и квартильному размаху |
Здравствуйте, гость ( Вход | Регистрация )
Непараметрический метод сравнения выборок, По медиане и квартильному размаху |
9.04.2015 - 14:33
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
Здравствуйте, уважаемые. Существуют две несвязанные выборки, по которым получены: n, Q1, Q2, Q3. Q2 - медиана. Других данных нет. Как по ним проверить гипотезу о значимости различия выборок? Спасибо.
|
|
10.04.2015 - 08:30
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Странная задача.
Понимаю, что интересно сравнить просто из личного любопытства. Считаю, что строго научно сравнить нельзя: нет полной информации. Возможны приближенные методы решения задачи: просто сравнить данные статистики - близки или отличаются, пересекаются интервалы или нет и т.д. Более точный (и сложный) подход: если известен закон распределений (или законы, если известно, что они различны), то можно разыграть обе выборки методом Монте- Карло и затем сравнивать обычными методами. Вычислительный эксперимент следует повторить несколько раз. Для разыгрываний нужна специальная программа. Существует она или нет, не знаю. Сообщение отредактировал anserovtv - 10.04.2015 - 08:47 |
|
10.04.2015 - 14:11
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
|
|
10.04.2015 - 15:26
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Странность в том, что у Вас нет исходных данных, а есть только некоторые статистики.
Так я понял сообщение. Методов сравнения двух независимых выборок очень много. В непараметрическом случае я бы начал с перестановочного теста. Если есть только статистики: средние, дисперсии, объемы, то можно сравнить средние в пакете GRETL / Инструменты/ Проверка гипотез/ ( но только в параметрическом случае!). При выполнении анализа мощности критерия (Post Hoc) также могут возникнуть проблемы. Удачи! Сообщение отредактировал anserovtv - 12.04.2015 - 20:19 |
|
10.04.2015 - 15:56
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
Странность в том, что у Вас нет исходных данных, а есть только некоторые статистики. Да, есть, это среднее и ско для двух независимых выборок с разными объёмами. Но аналоги их, это медиана и междуквартильный размах. Я правильно понял, что вы не знаете как с этим работать? |
|
10.04.2015 - 19:56
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Да, есть, это среднее и ско для двух независимых выборок с разными объёмами. Но аналоги их, это медиана и междуквартильный размах. Я правильно понял, что вы не знаете как с этим работать? Мне кажется, что anserovtv прав: в Вашей задаче недостаточно информации о виде распределения. Нужен еще какой-то параметр, характеризующий тип кривой распределения: нормальное, Релея, пуассона и т.д. Без этой информации невозможно получить численное значение p-value.Просто включи мозги => http://doctorstat.narod.ru
|
|
11.04.2015 - 06:30
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Здравствуйте, уважаемые. Существуют две несвязанные выборки, по которым получены: n, Q1, Q2, Q3. Q2 - медиана. Других данных нет. Как по ним проверить гипотезу о значимости различия выборок? Спасибо. Я не считаю проблему надуманной. Если авторы публикаций приводят среднее и 95% ДИ, то мы, имея те же значения для своих данных, можем сделать вывод о статистической значимости различий по факту наличия или отсутствия перекрывания ДИ. Если же авторы приводят медианы и квартили - у нас нет такой возможности, а в некоторых областях биологии и медицины порядковые статистики очень популярны: достаточно посмотреть сколько коробчатых диаграмм (Box-plot) встречается в журналах. Неплохо было бы иметь возможность сравнить свои данные с опубликованными табличными или графическими значениями порядковых статистик. Погуглил на эту тему, похоже в общем случае по вашему набору проверить гипотезу о значимости различия выборок нельзя. Но у меня есть грубое частное решение задачи для случая перекрывающихся межквартильных размахов. Если к набору показателей добавить ещё минимумы и максимумы будет и грубое общее решение. Нарисую - отпишусь. Сообщение отредактировал nokh - 11.04.2015 - 06:30 |
|
11.04.2015 - 07:39
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
Собственно практическая задача такая. Известны выборочные параметры распределения количества лейкоцитов для группы здоровых людей объёмом 54:
Q1=5.6; Me=6.8; Q3=9.3. Тоже самое для группы больных людей объёмом 37: Q1=7.0; Me=7.9; Q3=9.7. Ничего нельзя сказать о значимом отличии групп по этим данным? Сообщение отредактировал Диагностик - 11.04.2015 - 07:40 |
|
11.04.2015 - 10:50
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Вроде бы понял, почему нельзя проверить гипотезу об однородности двух независимых выборок по этим статистикам /непараметрическими методами.
Во всех этих критериях: Манна -Уитни, Вальда-Вольфовица , Смирнова и др. для проверки гипотезы информация по обеим выборкам не просто объединяется , а специальным способом преобразуется в общую: например, составляется общая упорядоченная ранжированная выборка (с учетом связей!) и др. В данном случае информацию объединить и разумным способом преобразовать в общую, я полагаю, нельзя. Сообщение отредактировал anserovtv - 11.04.2015 - 13:21 |
|
11.04.2015 - 18:05
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Здравствуйте, уважаемые. Существуют две несвязанные выборки, по которым получены: n, Q1, Q2, Q3. Q2 - медиана. Других данных нет. Как по ним проверить гипотезу о значимости различия выборок? Спасибо. При таких данных можно только проверить гипотезу о значимости различия медиан этих двух выборок. Нам известно положение медианы по факту и точки на удалении от медианы в отрезки ограниченные которыми попадает по 25% известного объема n. Случайно перемешиваем эти оба 25% и накапливаем доверительный интервал для медианы (ну или сразу дельту между медианами двух выборок). |
|
11.04.2015 - 20:25
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
p2004r
Если я правильно понял, Вы предлагаете применить рандомизационный тест к 6 (3+3) числам. В таком случае будет получено всего 20 перевыборок: 6!/(3!3!)=20, а cледуя рекомендациям проф. Шитикова В.К., нужно примерно 1000 или больше. Полагаю, что в таком случае мощность критерия будет очень низкой. Сообщение отредактировал anserovtv - 11.04.2015 - 20:29 |
|
11.04.2015 - 22:48
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
p2004r Если я правильно понял, Вы предлагаете применить рандомизационный тест к 6 (3+3) числам. Вы поняли неправильно. Задача представлена как два интервала населенных случайно расположенными числами, кол-во чисел в каждом интервале известно. Положение границы между этими двумя группами в виде медианы будет зависеть от конкретно сложившейся случайной ситуации --- где легли на числовой прямой два крайних соседних числа из обоих выборок. Генерировать эту ситуацию можно бесконечное кол-во раз. |
|
12.04.2015 - 06:14
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Считаю, что при данном подходе не будет учтена вся информация об обеих выборках.
По крайней мере, чтобы генерировать выборки, нужно знать хотя бы законы распределений в каждой из них. И у нас нет никакой информации о "хвостах". Вы ее не будете учитывать? Конечно, можно создавать разные псевдовыборки, используя некоторую информацию о реальных выборках, вопрос лишь в том, насколько можно доверять полученным при этом результатам. |
|
12.04.2015 - 06:58
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Собственно практическая задача такая. Известны выборочные параметры распределения количества лейкоцитов для группы здоровых людей объёмом 54: Q1=5.6; Me=6.8; Q3=9.3. Тоже самое для группы больных людей объёмом 37: Q1=7.0; Me=7.9; Q3=9.7. Ничего нельзя сказать о значимом отличии групп по этим данным? Такие данные можно сравнить с помощью критерия Колмогорова, который находит различия в распределениях. Для этого нужно отложить значения квартилей на кривой накопленных частот (CDF). Максимальное значение разности D между этими кривыми (в нашем случае они достаточно грубые - ломаные) используется далее в расчёте статистики критерия: формулы см. http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test в разделе Two-sample Kolmogorov-Smirnov test. Здесь возможны 2 ситуации: а) Расположение кривых позволяет найти D (рис. а). Вычисления не выходят за пределы заштрихованной области. Максимальные значения высот этой этой фигуры (D) всегда или от Q1 вверх или от Q3 вниз, по крайней мере на тех фигурах, что я накидал за 3 мин было так. Видимо это можно доказать геометрически и алгоритмизировать поиск D. Я думал ситуация а) - это для случая перекрывающихся интервалов, но ваш пример показывает, что нет - и при перекрытии возможна ситуация б). б) Расположение кривых позволяет найти не D, а его нижнюю границу. Т.к. минимумы и максимумы не известны, реальное D тоже не известно: зелёная стрелка упирается в пунктир. Такая ситуация всегда будет при неперекрывании межквартильных размахов. Для такой ситуации если бы были известны минимумы и максимумы, то вместо пунктира продолжилась бы ломаная CDF, что сделало бы определение D также однозначным. Ваша ситуация попадает в категорию б), т.к. возможно, что реальное D будет больше - пунктирная зелёная стрелка с вопросом. Но за неимением большей информации - работаем с тем, что есть. 1) По значениям для группы здоровых (синие точки) находим уравнение прямой, проходящей через медиану Ме (6,8; 50) и Q3 (9,3; 75): у=10х-18. 2) Находим ординату точки пересечения прямой D c этой прямой в точке х=7. у=10х7-18=52. Находим D как 52-25=27, 27/100%=0,27. 3) Подставляем это значение в формулу и находим р интерполяцией по табличным значениям с википедии (интерполировал полиномом 4-ой степени). Для ваших данных р=0,081. Я трактую это как "тенденцию к различиям", хотя знаю что многие ругают такую формулировку. Вот такой мой подход. В "материале и методах" можно писать, что использовали критерий Колмогорова. Нужно сказать, что реальное значение р, возможно, будет меньше, т.к. мы смогли найти только нижнюю границу D. Если реальное D будет больше нашего, значит и С(альфа) будет больше, а р - меньше. А может и не будет больше. Поэтому написал р <=0,081. В общем, критерий Колмогорова D(37; 54)=0,27; р <=0,081. И ещё ремарка по поводу "грубости" такого подхода. Вообще говоря, при вычислении CDF и далее статистики критерия выбор интервала группировки классов строго не регламентируется. Кто-то работает "на глазок", кто-то по формуле Стургеса, кто-то по EM-алгоритму. То, что мы берём такие аршинные интервалы как квартили, конечно не очень хорошо, но почему бы и нет, если это позволяет принимать решения. В данном случае решение о различии распределений. PS. В подходе р2004r не понял откуда выбирать значения, если интервал min-max не определён. Был бы признателен за код с вашим вариантом р. Сообщение отредактировал nokh - 12.04.2015 - 07:28 |
|
12.04.2015 - 07:17
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
|
|