Непараметрический метод сравнения выборок

Непараметрический метод сравнения выборок, По медиане и квартильному размаху

Диагностик Просмотр профиля	9.04.2015 - 14:33 Сообщение #1
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146	Здравствуйте, уважаемые. Существуют две несвязанные выборки, по которым получены: n, Q1, Q2, Q3. Q2 - медиана. Других данных нет. Как по ним проверить гипотезу о значимости различия выборок? Спасибо.

anserovtv Просмотр профиля	10.04.2015 - 08:30 Сообщение #2
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927	Странная задача. Понимаю, что интересно сравнить просто из личного любопытства. Считаю, что строго научно сравнить нельзя: нет полной информации. Возможны приближенные методы решения задачи: просто сравнить данные статистики - близки или отличаются, пересекаются интервалы или нет и т.д. Более точный (и сложный) подход: если известен закон распределений (или законы, если известно, что они различны), то можно разыграть обе выборки методом Монте- Карло и затем сравнивать обычными методами. Вычислительный эксперимент следует повторить несколько раз. Для разыгрываний нужна специальная программа. Существует она или нет, не знаю. Сообщение отредактировал anserovtv - 10.04.2015 - 08:47

Диагностик Просмотр профиля	10.04.2015 - 14:11 Сообщение #3
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146	Цитата(anserovtv @ 10.04.2015 - 13:30) Странная задача. Ну почему-же? Ищется аналог параметрического метода сравнения двух несвязанных выборок. Среднее значения это аналог медианы, квадрат квартильного размаха аналог дисперсии. Его нет, или вы про это ничего не знаете?

anserovtv Просмотр профиля	10.04.2015 - 15:26 Сообщение #4
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927	Странность в том, что у Вас нет исходных данных, а есть только некоторые статистики. Так я понял сообщение. Методов сравнения двух независимых выборок очень много. В непараметрическом случае я бы начал с перестановочного теста. Если есть только статистики: средние, дисперсии, объемы, то можно сравнить средние в пакете GRETL / Инструменты/ Проверка гипотез/ ( но только в параметрическом случае!). При выполнении анализа мощности критерия (Post Hoc) также могут возникнуть проблемы. Удачи! Сообщение отредактировал anserovtv - 12.04.2015 - 20:19

Диагностик Просмотр профиля	10.04.2015 - 15:56 Сообщение #5
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146	Цитата(anserovtv @ 10.04.2015 - 20:26) Странность в том, что у Вас нет исходных данных, а есть только некоторые статистики. Да, есть, это среднее и ско для двух независимых выборок с разными объёмами. Но аналоги их, это медиана и междуквартильный размах. Я правильно понял, что вы не знаете как с этим работать?

DoctorStat Просмотр профиля	10.04.2015 - 19:56 Сообщение #6
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224	Цитата(Диагностик @ 10.04.2015 - 15:56) Да, есть, это среднее и ско для двух независимых выборок с разными объёмами. Но аналоги их, это медиана и междуквартильный размах. Я правильно понял, что вы не знаете как с этим работать? Мне кажется, что anserovtv прав: в Вашей задаче недостаточно информации о виде распределения. Нужен еще какой-то параметр, характеризующий тип кривой распределения: нормальное, Релея, пуассона и т.д. Без этой информации невозможно получить численное значение p-value. Просто включи мозги => http://doctorstat.narod.ru

nokh Просмотр профиля	11.04.2015 - 06:30 Сообщение #7
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Диагностик @ 9.04.2015 - 16:33) Здравствуйте, уважаемые. Существуют две несвязанные выборки, по которым получены: n, Q1, Q2, Q3. Q2 - медиана. Других данных нет. Как по ним проверить гипотезу о значимости различия выборок? Спасибо. Я не считаю проблему надуманной. Если авторы публикаций приводят среднее и 95% ДИ, то мы, имея те же значения для своих данных, можем сделать вывод о статистической значимости различий по факту наличия или отсутствия перекрывания ДИ. Если же авторы приводят медианы и квартили - у нас нет такой возможности, а в некоторых областях биологии и медицины порядковые статистики очень популярны: достаточно посмотреть сколько коробчатых диаграмм (Box-plot) встречается в журналах. Неплохо было бы иметь возможность сравнить свои данные с опубликованными табличными или графическими значениями порядковых статистик. Погуглил на эту тему, похоже в общем случае по вашему набору проверить гипотезу о значимости различия выборок нельзя. Но у меня есть грубое частное решение задачи для случая перекрывающихся межквартильных размахов. Если к набору показателей добавить ещё минимумы и максимумы будет и грубое общее решение. Нарисую - отпишусь. Сообщение отредактировал nokh - 11.04.2015 - 06:30

Диагностик Просмотр профиля	11.04.2015 - 07:39 Сообщение #8
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146	Собственно практическая задача такая. Известны выборочные параметры распределения количества лейкоцитов для группы здоровых людей объёмом 54: Q1=5.6; Me=6.8; Q3=9.3. Тоже самое для группы больных людей объёмом 37: Q1=7.0; Me=7.9; Q3=9.7. Ничего нельзя сказать о значимом отличии групп по этим данным? Сообщение отредактировал Диагностик - 11.04.2015 - 07:40

anserovtv Просмотр профиля	11.04.2015 - 10:50 Сообщение #9
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927	Вроде бы понял, почему нельзя проверить гипотезу об однородности двух независимых выборок по этим статистикам /непараметрическими методами. Во всех этих критериях: Манна -Уитни, Вальда-Вольфовица , Смирнова и др. для проверки гипотезы информация по обеим выборкам не просто объединяется , а специальным способом преобразуется в общую: например, составляется общая упорядоченная ранжированная выборка (с учетом связей!) и др. В данном случае информацию объединить и разумным способом преобразовать в общую, я полагаю, нельзя. Сообщение отредактировал anserovtv - 11.04.2015 - 13:21

p2004r Просмотр профиля	11.04.2015 - 18:05 Сообщение #10
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(Диагностик @ 9.04.2015 - 14:33) Здравствуйте, уважаемые. Существуют две несвязанные выборки, по которым получены: n, Q1, Q2, Q3. Q2 - медиана. Других данных нет. Как по ним проверить гипотезу о значимости различия выборок? Спасибо. При таких данных можно только проверить гипотезу о значимости различия медиан этих двух выборок. Нам известно положение медианы по факту и точки на удалении от медианы в отрезки ограниченные которыми попадает по 25% известного объема n. Случайно перемешиваем эти оба 25% и накапливаем доверительный интервал для медианы (ну или сразу дельту между медианами двух выборок). http://r-statistics.livejournal.com/

anserovtv Просмотр профиля	11.04.2015 - 20:25 Сообщение #11
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927	p2004r Если я правильно понял, Вы предлагаете применить рандомизационный тест к 6 (3+3) числам. В таком случае будет получено всего 20 перевыборок: 6!/(3!3!)=20, а cледуя рекомендациям проф. Шитикова В.К., нужно примерно 1000 или больше. Полагаю, что в таком случае мощность критерия будет очень низкой. Сообщение отредактировал anserovtv - 11.04.2015 - 20:29

p2004r Просмотр профиля	11.04.2015 - 22:48 Сообщение #12
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(anserovtv @ 11.04.2015 - 20:25) p2004r Если я правильно понял, Вы предлагаете применить рандомизационный тест к 6 (3+3) числам. Вы поняли неправильно. Задача представлена как два интервала населенных случайно расположенными числами, кол-во чисел в каждом интервале известно. Положение границы между этими двумя группами в виде медианы будет зависеть от конкретно сложившейся случайной ситуации --- где легли на числовой прямой два крайних соседних числа из обоих выборок. Генерировать эту ситуацию можно бесконечное кол-во раз. http://r-statistics.livejournal.com/

anserovtv Просмотр профиля	12.04.2015 - 06:14 Сообщение #13
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927	Считаю, что при данном подходе не будет учтена вся информация об обеих выборках. По крайней мере, чтобы генерировать выборки, нужно знать хотя бы законы распределений в каждой из них. И у нас нет никакой информации о "хвостах". Вы ее не будете учитывать? Конечно, можно создавать разные псевдовыборки, используя некоторую информацию о реальных выборках, вопрос лишь в том, насколько можно доверять полученным при этом результатам.

nokh

12.04.2015 - 06:58

Сообщение #14

Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704

Цитата(Диагностик @ 11.04.2015 - 09:39)

Собственно практическая задача такая. Известны выборочные параметры распределения количества лейкоцитов для группы здоровых людей объёмом 54:
Q1=5.6; Me=6.8; Q3=9.3.
Тоже самое для группы больных людей объёмом 37:
Q1=7.0; Me=7.9; Q3=9.7.
Ничего нельзя сказать о значимом отличии групп по этим данным?

Такие данные можно сравнить с помощью критерия Колмогорова, который находит различия в распределениях. Для этого нужно отложить значения квартилей на кривой накопленных частот (CDF). Максимальное значение разности D между этими кривыми (в нашем случае они достаточно грубые - ломаные) используется далее в расчёте статистики критерия: формулы см. http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test в разделе Two-sample Kolmogorov-Smirnov test. Здесь возможны 2 ситуации:

а) Расположение кривых позволяет найти D (рис. а). Вычисления не выходят за пределы заштрихованной области. Максимальные значения высот этой этой фигуры (D) всегда или от Q1 вверх или от Q3 вниз, по крайней мере на тех фигурах, что я накидал за 3 мин было так. Видимо это можно доказать геометрически и алгоритмизировать поиск D. Я думал ситуация а) - это для случая перекрывающихся интервалов, но ваш пример показывает, что нет - и при перекрытии возможна ситуация б).

б) Расположение кривых позволяет найти не D, а его нижнюю границу. Т.к. минимумы и максимумы не известны, реальное D тоже не известно: зелёная стрелка упирается в пунктир. Такая ситуация всегда будет при неперекрывании межквартильных размахов. Для такой ситуации если бы были известны минимумы и максимумы, то вместо пунктира продолжилась бы ломаная CDF, что сделало бы определение D также однозначным.

Ваша ситуация попадает в категорию б), т.к. возможно, что реальное D будет больше - пунктирная зелёная стрелка с вопросом. Но за неимением большей информации - работаем с тем, что есть.
1) По значениям для группы здоровых (синие точки) находим уравнение прямой, проходящей через медиану Ме (6,8; 50) и Q3 (9,3; 75): у=10х-18.
2) Находим ординату точки пересечения прямой D c этой прямой в точке х=7. у=10х7-18=52. Находим D как 52-25=27, 27/100%=0,27.
3) Подставляем это значение в формулу и находим р интерполяцией по табличным значениям с википедии (интерполировал полиномом 4-ой степени). Для ваших данных р=0,081. Я трактую это как "тенденцию к различиям", хотя знаю что многие ругают такую формулировку.
Вот такой мой подход. В "материале и методах" можно писать, что использовали критерий Колмогорова. Нужно сказать, что реальное значение р, возможно, будет меньше, т.к. мы смогли найти только нижнюю границу D. Если реальное D будет больше нашего, значит и С(альфа) будет больше, а р - меньше. А может и не будет больше. Поэтому написал р <=0,081. В общем, критерий Колмогорова D_{(37; 54)}=0,27; р <=0,081.

И ещё ремарка по поводу "грубости" такого подхода. Вообще говоря, при вычислении CDF и далее статистики критерия выбор интервала группировки классов строго не регламентируется. Кто-то работает "на глазок", кто-то по формуле Стургеса, кто-то по EM-алгоритму. То, что мы берём такие аршинные интервалы как квартили, конечно не очень хорошо, но почему бы и нет, если это позволяет принимать решения. В данном случае решение о различии распределений.

PS. В подходе р2004r не понял откуда выбирать значения, если интервал min-max не определён. Был бы признателен за код с вашим вариантом р.

Сообщение отредактировал nokh - 12.04.2015 - 07:28

Эскизы прикрепленных изображений

Ответить с цитированием данного сообщения

Диагностик Просмотр профиля	12.04.2015 - 07:17 Сообщение #15
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146	Цитата(nokh @ 12.04.2015 - 11:58) Такие данные можно сравнить с помощью критерия Колмогорова, который находит различия в распределениях. Вы, большая умница!

« Предыдущая тема · Медицинская статистика · Следующая тема »