Форум врачей-аспирантов > Непараметрический метод сравнения выборок

Диагностик

9.04.2015 - 14:33

Здравствуйте, уважаемые. Существуют две несвязанные выборки, по которым получены: n, Q1, Q2, Q3. Q2 - медиана. Других данных нет. Как по ним проверить гипотезу о значимости различия выборок? Спасибо.

anserovtv

10.04.2015 - 08:30

Странная задача.
Понимаю, что интересно сравнить просто из личного любопытства.
Считаю, что строго научно сравнить нельзя: нет полной информации.
Возможны приближенные методы решения задачи:
просто сравнить данные статистики - близки или отличаются, пересекаются интервалы или нет и т.д.
Более точный (и сложный) подход: если известен закон распределений (или законы, если известно, что они различны),
то можно разыграть обе выборки методом Монте- Карло и затем сравнивать обычными методами.
Вычислительный эксперимент следует повторить несколько раз.
Для разыгрываний нужна специальная программа. Существует она или нет, не знаю.

Диагностик

10.04.2015 - 14:11

Цитата(anserovtv @ 10.04.2015 - 13:30)

Странная задача.

Ну почему-же? Ищется аналог параметрического метода сравнения двух несвязанных выборок. Среднее значения это аналог медианы, квадрат квартильного размаха аналог дисперсии.
Его нет, или вы про это ничего не знаете?

anserovtv

10.04.2015 - 15:26

Странность в том, что у Вас нет исходных данных, а есть только некоторые статистики.
Так я понял сообщение. Методов сравнения двух независимых выборок очень много.
В непараметрическом случае я бы начал с перестановочного теста.
Если есть только статистики: средние, дисперсии, объемы, то можно сравнить средние в пакете GRETL / Инструменты/ Проверка гипотез/
( но только в параметрическом случае!).
При выполнении анализа мощности критерия (Post Hoc) также могут возникнуть проблемы.
Удачи!

Диагностик

10.04.2015 - 15:56

Цитата(anserovtv @ 10.04.2015 - 20:26)

Странность в том, что у Вас нет исходных данных, а есть только некоторые статистики.

Да, есть, это среднее и ско для двух независимых выборок с разными объёмами. Но аналоги их, это медиана и междуквартильный размах. Я правильно понял, что вы не знаете как с этим работать?

DoctorStat

10.04.2015 - 19:56

Цитата(Диагностик @ 10.04.2015 - 15:56)

Да, есть, это среднее и ско для двух независимых выборок с разными объёмами. Но аналоги их, это медиана и междуквартильный размах. Я правильно понял, что вы не знаете как с этим работать?

Мне кажется, что anserovtv прав: в Вашей задаче недостаточно информации о виде распределения. Нужен еще какой-то параметр, характеризующий тип кривой распределения: нормальное, Релея, пуассона и т.д. Без этой информации невозможно получить численное значение p-value.

nokh

11.04.2015 - 06:30

Цитата(Диагностик @ 9.04.2015 - 16:33)

Здравствуйте, уважаемые. Существуют две несвязанные выборки, по которым получены: n, Q1, Q2, Q3. Q2 - медиана. Других данных нет. Как по ним проверить гипотезу о значимости различия выборок? Спасибо.

Я не считаю проблему надуманной. Если авторы публикаций приводят среднее и 95% ДИ, то мы, имея те же значения для своих данных, можем сделать вывод о статистической значимости различий по факту наличия или отсутствия перекрывания ДИ. Если же авторы приводят медианы и квартили - у нас нет такой возможности, а в некоторых областях биологии и медицины порядковые статистики очень популярны: достаточно посмотреть сколько коробчатых диаграмм (Box-plot) встречается в журналах. Неплохо было бы иметь возможность сравнить свои данные с опубликованными табличными или графическими значениями порядковых статистик.

Погуглил на эту тему, похоже в общем случае по вашему набору проверить гипотезу о значимости различия выборок нельзя. Но у меня есть грубое частное решение задачи для случая перекрывающихся межквартильных размахов. Если к набору показателей добавить ещё минимумы и максимумы будет и грубое общее решение. Нарисую - отпишусь.

Диагностик

11.04.2015 - 07:39

Собственно практическая задача такая. Известны выборочные параметры распределения количества лейкоцитов для группы здоровых людей объёмом 54:
Q1=5.6; Me=6.8; Q3=9.3.
Тоже самое для группы больных людей объёмом 37:
Q1=7.0; Me=7.9; Q3=9.7.
Ничего нельзя сказать о значимом отличии групп по этим данным?

anserovtv

11.04.2015 - 10:50

Вроде бы понял, почему нельзя проверить гипотезу об однородности двух независимых выборок по этим статистикам /непараметрическими методами.
Во всех этих критериях: Манна -Уитни, Вальда-Вольфовица , Смирнова и др. для проверки гипотезы информация по обеим выборкам не просто объединяется , а специальным способом преобразуется в общую: например, составляется общая упорядоченная ранжированная выборка (с учетом связей!) и др.
В данном случае информацию объединить и разумным способом преобразовать в общую, я полагаю, нельзя.

p2004r

11.04.2015 - 18:05

Цитата(Диагностик @ 9.04.2015 - 14:33)

Здравствуйте, уважаемые. Существуют две несвязанные выборки, по которым получены: n, Q1, Q2, Q3. Q2 - медиана. Других данных нет. Как по ним проверить гипотезу о значимости различия выборок? Спасибо.

При таких данных можно только проверить гипотезу о значимости различия медиан этих двух выборок. Нам известно положение медианы по факту и точки на удалении от медианы в отрезки ограниченные которыми попадает по 25% известного объема n. Случайно перемешиваем эти оба 25% и накапливаем доверительный интервал для медианы (ну или сразу дельту между медианами двух выборок).

anserovtv

11.04.2015 - 20:25

p2004r
Если я правильно понял, Вы предлагаете применить рандомизационный тест к 6 (3+3) числам.
В таком случае будет получено всего 20 перевыборок: 6!/(3!3!)=20,
а cледуя рекомендациям проф. Шитикова В.К., нужно примерно 1000 или больше.
Полагаю, что в таком случае мощность критерия будет очень низкой.

p2004r

11.04.2015 - 22:48

Цитата(anserovtv @ 11.04.2015 - 20:25)

p2004r
Если я правильно понял, Вы предлагаете применить рандомизационный тест к 6 (3+3) числам.

Вы поняли неправильно.

Задача представлена как два интервала населенных случайно расположенными числами, кол-во чисел в каждом интервале известно. Положение границы между этими двумя группами в виде медианы будет зависеть от конкретно сложившейся случайной ситуации --- где легли на числовой прямой два крайних соседних числа из обоих выборок. Генерировать эту ситуацию можно бесконечное кол-во раз.

anserovtv

12.04.2015 - 06:14

Считаю, что при данном подходе не будет учтена вся информация об обеих выборках.
По крайней мере, чтобы генерировать выборки, нужно знать хотя бы законы распределений в каждой из них.
И у нас нет никакой информации о "хвостах". Вы ее не будете учитывать?
Конечно, можно создавать разные псевдовыборки, используя некоторую информацию о реальных выборках, вопрос лишь в том,
насколько можно доверять полученным при этом результатам.

nokh

12.04.2015 - 06:58

Цитата(Диагностик @ 11.04.2015 - 09:39)

Собственно практическая задача такая. Известны выборочные параметры распределения количества лейкоцитов для группы здоровых людей объёмом 54:
Q1=5.6; Me=6.8; Q3=9.3.
Тоже самое для группы больных людей объёмом 37:
Q1=7.0; Me=7.9; Q3=9.7.
Ничего нельзя сказать о значимом отличии групп по этим данным?

Такие данные можно сравнить с помощью критерия Колмогорова, который находит различия в распределениях. Для этого нужно отложить значения квартилей на кривой накопленных частот (CDF). Максимальное значение разности D между этими кривыми (в нашем случае они достаточно грубые - ломаные) используется далее в расчёте статистики критерия: формулы см. http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test в разделе Two-sample Kolmogorov-Smirnov test. Здесь возможны 2 ситуации:

а) Расположение кривых позволяет найти D (рис. а). Вычисления не выходят за пределы заштрихованной области. Максимальные значения высот этой этой фигуры (D) всегда или от Q1 вверх или от Q3 вниз, по крайней мере на тех фигурах, что я накидал за 3 мин было так. Видимо это можно доказать геометрически и алгоритмизировать поиск D. Я думал ситуация а) - это для случая перекрывающихся интервалов, но ваш пример показывает, что нет - и при перекрытии возможна ситуация б).

б) Расположение кривых позволяет найти не D, а его нижнюю границу. Т.к. минимумы и максимумы не известны, реальное D тоже не известно: зелёная стрелка упирается в пунктир. Такая ситуация всегда будет при неперекрывании межквартильных размахов. Для такой ситуации если бы были известны минимумы и максимумы, то вместо пунктира продолжилась бы ломаная CDF, что сделало бы определение D также однозначным.

Ваша ситуация попадает в категорию б), т.к. возможно, что реальное D будет больше - пунктирная зелёная стрелка с вопросом. Но за неимением большей информации - работаем с тем, что есть.
1) По значениям для группы здоровых (синие точки) находим уравнение прямой, проходящей через медиану Ме (6,8; 50) и Q3 (9,3; 75): у=10х-18.
2) Находим ординату точки пересечения прямой D c этой прямой в точке х=7. у=10х7-18=52. Находим D как 52-25=27, 27/100%=0,27.
3) Подставляем это значение в формулу и находим р интерполяцией по табличным значениям с википедии (интерполировал полиномом 4-ой степени). Для ваших данных р=0,081. Я трактую это как "тенденцию к различиям", хотя знаю что многие ругают такую формулировку.
Вот такой мой подход. В "материале и методах" можно писать, что использовали критерий Колмогорова. Нужно сказать, что реальное значение р, возможно, будет меньше, т.к. мы смогли найти только нижнюю границу D. Если реальное D будет больше нашего, значит и С(альфа) будет больше, а р - меньше. А может и не будет больше. Поэтому написал р <=0,081. В общем, критерий Колмогорова D_{(37; 54)}=0,27; р <=0,081.

И ещё ремарка по поводу "грубости" такого подхода. Вообще говоря, при вычислении CDF и далее статистики критерия выбор интервала группировки классов строго не регламентируется. Кто-то работает "на глазок", кто-то по формуле Стургеса, кто-то по EM-алгоритму. То, что мы берём такие аршинные интервалы как квартили, конечно не очень хорошо, но почему бы и нет, если это позволяет принимать решения. В данном случае решение о различии распределений.

PS. В подходе р2004r не понял откуда выбирать значения, если интервал min-max не определён. Был бы признателен за код с вашим вариантом р.

Диагностик

12.04.2015 - 07:17

Цитата(nokh @ 12.04.2015 - 11:58)

Такие данные можно сравнить с помощью критерия Колмогорова, который находит различия в распределениях.

Вы, большая умница!

DoctorStat

12.04.2015 - 09:54

Цитата(nokh @ 12.04.2015 - 06:58)

Максимальное значение разности D между этими кривыми (в нашем случае они достаточно грубые - ломаные) используется далее в расчёте статистики критерия: формулы см. http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test в разделе Two-sample Kolmogorov-Smirnov test.

Вам осталось только:
1) Доказать, что введенное Вами расстояние D, обозначенное зеленой стрелкой на рисунках, не зависит от вида распределения,
2) Вывести для этого расстояния свои таблицы статистики, а не подставлять D в таблицы Колмогорова-Смирнова, предназначенные для обсчета расстояния между кривыми распределений, а не кривыми процентилей.

100$

12.04.2015 - 13:22

Поскольку и медиана и квартили - суть порядковые статистики (члены вариационного ряда), то формально можно применить любой ранговый метод, работающий с ранжировками в объединенном вариационном ряду. Да вот хотя бы и Лемана - Розенблатта, являющегося состоятельным против альтернативы о различиях в распределениях (как и Смирнов). Для него р=,2785.

anserovtv

12.04.2015 - 15:17

При таком формальном подходе мощность критерия (Манна-Уитни-Вилкоксона) всего 0.1443.
Проверка однородности:
критерий Смирнова p=0.3,
рандомизационный тест p=0.6.

100$

12.04.2015 - 20:24

Цитата(anserovtv @ 12.04.2015 - 16:17)

При таком формальном подходе мощность критерия (Манна-Уитни-Вилкоксона) всего 0.1443.
Проверка однородности:
критерий Смирнова p=0.3,
рандомизационный тест p=0.6.

Ну, а о какой мощности можно говорить, имея на руках 6 цифр, причем медиана и квартили не входят в качестве параметров ни в какое параметрическое семейство.
Однако. Через три точки проходит полином степени 2. Нарисуйте через две квартили и медиану что-нибудь симпатичное параболообразное (вместо нокховских ломаных) и спроецируйте на ось абсцисс столько цифирей, сколько не хватет для полного щастья. Мощность тут же возрастет.

p2004r

12.04.2015 - 21:01

Цитата(nokh @ 12.04.2015 - 06:58)

PS. В подходе р2004r не понял откуда выбирать значения, если интервал min-max не определён. Был бы признателен за код с вашим вариантом р.

1. Я сразу сказал, что берусь оценить доверительный интервал только для положения медианы. Подход точно такой же как и в вашем случае, часть выборки нам известно в каких границах лежит. Для этой части мы принимаем предположение (как и у вас) что всё линейно и делаем генерацию точек из униформного распределения с границами заданными квантиляли и медианой. Для получившейся ситуации считаем положение медианы, накапливая такие перевыборок получаем доверительный интервал .

2.

Код

# Восстановим сколько скорее всего попало при расчете в конкретный квантиль
> table(cut(1:54, quantile(1:54),5670252.lowest=T))

   [1,14.2] (14.2,27.5] (27.5,40.8]   (40.8,54]
         14          13          13          14

> table(cut(1:37, quantile(1:37),5670252.lowest=T))

[1,10] (10,19] (19,28] (28,37]
     10       9       9       9

# Перевыборка медианы происходит вот таким образом

> median(c(runif(9, min=7.0, max=7.9), runif(9, min=7.9, max=9.7)))
[1] 7.855721
> median(c(runif(9, min=7.0, max=7.9), runif(9, min=7.9, max=9.7)))
[1] 7.901809
> median(c(runif(9, min=7.0, max=7.9), runif(9, min=7.9, max=9.7)))
[1] 7.775273
> median(c(runif(9, min=7.0, max=7.9), runif(9, min=7.9, max=9.7)))
[1] 8.010139
> median(c(runif(9, min=7.0, max=7.9), runif(9, min=7.9, max=9.7)))
[1] 7.856393

Доверительный интервал для второй выборки

> quantile(replicate(10000, median(c(runif(9, min=7.0, max=7.9), runif(9, min=7.9, max=9.7)))), probs=c(0.025, 0.5, 0.975))
    2.5%      50%    97.5%
7.796376 7.927046 8.167319
> quantile(replicate(100000, median(c(runif(9, min=7.0, max=7.9), runif(9, min=7.9, max=9.7)))), probs=c(0.025, 0.5, 0.975))
    2.5%      50%    97.5%
7.795279 7.928610 8.165428

Для первой выборки

> quantile(replicate(10000, median(c(runif(13, min=5.6, max=6.8), runif(13, min=6.8, max=9.3)))), probs=c(0.025, 0.5, 0.975))
    2.5%      50%    97.5%
6.697030 6.828900 7.062315
> quantile(replicate(100000, median(c(runif(13, min=5.6, max=6.8), runif(13, min=6.8, max=9.3)))), probs=c(0.025, 0.5, 0.975))
    2.5%      50%    97.5%
6.698919 6.828830 7.073703

Медианы генсовокупностей из которых были извлечены выьорки не имеют шанса встретиться если извлечение выборок шло случайно.

Оценка получается более [s]широкой[\s] узкой чем просто бутстреп исходной выборки

Код

# модельная генсовокупность
> x<-rnorm(54, mean=6.8, sd=1.3)
> quantile(x)
      0%      25%      50%      75%     100%
2.716833 6.051314 6.823896 7.658319 9.626783
> quantile(replicate(100000, median(c(runif(13, min=6.051, max=6.823), runif(13, min=6.823, max=7.65)))), probs=c(0.025, 0.5, 0.975))
    2.5%      50%    97.5%
6.748091 6.824059 6.905382

# генсовокупность порождает вот такие варианты выборки в пределе
> quantile(replicate(10000, median(rnorm(54, mean=6.8, sd=1.3)) ), probs=c(0.025, 0.5, 0.975))
    2.5%      50%    97.5%
6.368884 6.799687 7.231649
> quantile(replicate(100000, median(rnorm(54, mean=6.8, sd=1.3)) ), probs=c(0.025, 0.5, 0.975))
    2.5%      50%    97.5%
6.371881 6.800581 7.228905
> quantile(replicate(100000, median(sample(x, )) ), probs=c(0.025, 0.5, 0.975))
x=        size=     replace=  prob=

# настоящий бутстреп медианы выборки
> quantile(replicate(100000, median(sample(x, replace=T)) ), probs=c(0.025, 0.5, 0.975))
    2.5%      50%    97.5%
6.438816 6.823896 7.119538

И поправка плывет от размера sd (и скорее всего вида распределения), хотя и не зависит похоже от размера выборки. Похоже раз такая зависимость есть, то проще фитить в эти процентили какое то семейство распределений и считать уже по нему различия.

Код

> res.butstr <- sapply(20:100, function(n) {x<- rnorm(n, mean=6.8, sd=3.3); q<- quantile(x); qn<- table(q); quantile(replicate(10000, median(c(runif(qn[2], min=q[2], max=q[3]), runif(qn[3], min=q[3], max=q[4]))) ), probs=c(0.025, 0.5, 0.975)) / quantile(replicate(10000, median(sample(x, )) ), probs=c(0.025, 0.5, 0.975)) })
> plot(20:100, t(res.butstr)[,1], ylim=range(as.vector(res.butstr)))
> points(20:100, t(res.butstr)[,2], col="green")
> points(20:100, t(res.butstr)[,3], col="red")

anserovtv

15.04.2015 - 09:23

Было бы вполне закономерно, если бы топикстартер Диагностик подвел итог бурной дискуссии, или Вы про это ничего не знаете?
Лексика - Ваша!

100$

15.04.2015 - 12:30

Цитата(anserovtv @ 15.04.2015 - 10:23)

Было бы вполне закономерно, если бы топикстартер Диагностик подвел итог бурной дискуссии, или Вы про это ничего не знаете?

А он его и подвел в сообщении #15. Даже запятую для солидности воткнул там, где ее быть не должно.

nokh

19.04.2015 - 12:21

Цитата(DoctorStat @ 12.04.2015 - 11:54)

Вам осталось только:
1) Доказать, что введенное Вами расстояние D, обозначенное зеленой стрелкой на рисунках, не зависит от вида распределения,
2) Вывести для этого расстояния свои таблицы статистики, а не подставлять D в таблицы Колмогорова-Смирнова, предназначенные для обсчета расстояния между кривыми распределений, а не кривыми процентилей.

1) Почему же? Нигде не встречал, что критерий Колмогорова - Смирнова требует знания вида распределения. Т.е. если использовать его - ничего доказывать не надо, всё уже доказано!
2) А вот насчёт 2, соглашусь: вопрос дискуссионный. То, что подставлять можно, я не сомневаюсь, но то насколько полученное значение D будет близко к истинному - сказать, действительно, сложно. Понятно, что это - только приближение. К сожалению, я не силён в симуляциях, а то можно было бы оценить различия между истинным и "квартильным" D поигравшись с выборками из разных распределений. В качестве ещё пары аргументов в защиту подхода можно привести то, что:
1) при сравнении эмпирического распределения с теоретическим этим критерием допускается группировка данных, т.е. тоже получается не слишком точно. Раз можно нарезать его, скажем, на децили, почему не нарезать на квартили?
2) функция накопленных частот в области медианы достаточно пологая, по крайней мере изменяется не так круто, как на концах функции. Поэтому погрешность "квартильного" D не должна быть высокой. В качестве ещё большего приближения можно заменить мою исходную ломаную куском параболы, интерполирующей по трём точкам (Q1, Me, Q3). Для примера Диагностика такой способ даст чуть большее D и чуть меньшее р. Пока катастрофически не хватает времени, но найду - ещё повожусь:)

Диагностик

21.04.2015 - 15:03

Цитата(Диагностик @ 11.04.2015 - 12:39)

Собственно практическая задача такая. Известны выборочные параметры распределения количества лейкоцитов для группы здоровых людей объёмом 54:
Q1=5.6; Me=6.8; Q3=9.3.
Тоже самое для группы больных людей объёмом 37:
Q1=7.0; Me=7.9; Q3=9.7.
Ничего нельзя сказать о значимом отличии групп по этим данным?

У меня вопрос чисто медицинский. Распределение количества лейкоцитов для группы здоровых людей никем не исследовалось?
А для больных? Оно по форме должно быть таким же, только с другими параметрами?