Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V  < 1 2  
Добавить ответ в эту темуОткрыть тему
> Непараметрический метод сравнения выборок, По медиане и квартильному размаху
DoctorStat
сообщение 12.04.2015 - 09:54
Сообщение #16





Группа: Пользователи
Сообщений: 381
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(nokh @ 12.04.2015 - 06:58) *
Максимальное значение разности D между этими кривыми (в нашем случае они достаточно грубые - ломаные) используется далее в расчёте статистики критерия: формулы см. http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test в разделе Two-sample Kolmogorov-Smirnov test.
Вам осталось только:
1) Доказать, что введенное Вами расстояние D, обозначенное зеленой стрелкой на рисунках, не зависит от вида распределения,
2) Вывести для этого расстояния свои таблицы статистики, а не подставлять D в таблицы Колмогорова-Смирнова, предназначенные для обсчета расстояния между кривыми распределений, а не кривыми процентилей.


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 12.04.2015 - 13:22
Сообщение #17





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Поскольку и медиана и квартили - суть порядковые статистики (члены вариационного ряда), то формально можно применить любой ранговый метод, работающий с ранжировками в объединенном вариационном ряду. Да вот хотя бы и Лемана - Розенблатта, являющегося состоятельным против альтернативы о различиях в распределениях (как и Смирнов). Для него р=,2785.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
anserovtv
сообщение 12.04.2015 - 15:17
Сообщение #18





Группа: Пользователи
Сообщений: 219
Регистрация: 4.06.2013
Из: Тверь
Пользователь №: 24927



При таком формальном подходе мощность критерия (Манна-Уитни-Вилкоксона) всего 0.1443.
Проверка однородности:
критерий Смирнова p=0.3,
рандомизационный тест p=0.6.

Сообщение отредактировал anserovtv - 12.04.2015 - 15:26
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 12.04.2015 - 20:24
Сообщение #19





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(anserovtv @ 12.04.2015 - 16:17) *
При таком формальном подходе мощность критерия (Манна-Уитни-Вилкоксона) всего 0.1443.
Проверка однородности:
критерий Смирнова p=0.3,
рандомизационный тест p=0.6.


Ну, а о какой мощности можно говорить, имея на руках 6 цифр, причем медиана и квартили не входят в качестве параметров ни в какое параметрическое семейство.
Однако. Через три точки проходит полином степени 2. Нарисуйте через две квартили и медиану что-нибудь симпатичное параболообразное (вместо нокховских ломаных) и спроецируйте на ось абсцисс столько цифирей, сколько не хватет для полного щастья. Мощность тут же возрастет.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 12.04.2015 - 21:01
Сообщение #20





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(nokh @ 12.04.2015 - 06:58) *
PS. В подходе р2004r не понял откуда выбирать значения, если интервал min-max не определён. Был бы признателен за код с вашим вариантом р.


1. Я сразу сказал, что берусь оценить доверительный интервал только для положения медианы. Подход точно такой же как и в вашем случае, часть выборки нам известно в каких границах лежит. Для этой части мы принимаем предположение (как и у вас) что всё линейно и делаем генерацию точек из униформного распределения с границами заданными квантиляли и медианой. Для получившейся ситуации считаем положение медианы, накапливая такие перевыборок получаем доверительный интервал .

2.

Код
# Восстановим сколько скорее всего попало при расчете в конкретный квантиль
> table(cut(1:54, quantile(1:54),5670252.lowest=T))

   [1,14.2] (14.2,27.5] (27.5,40.8]   (40.8,54]
         14          13          13          14

> table(cut(1:37, quantile(1:37),5670252.lowest=T))

[1,10] (10,19] (19,28] (28,37]
     10       9       9       9

# Перевыборка медианы происходит вот таким образом

> median(c(runif(9, min=7.0, max=7.9), runif(9, min=7.9, max=9.7)))
[1] 7.855721
> median(c(runif(9, min=7.0, max=7.9), runif(9, min=7.9, max=9.7)))
[1] 7.901809
> median(c(runif(9, min=7.0, max=7.9), runif(9, min=7.9, max=9.7)))
[1] 7.775273
> median(c(runif(9, min=7.0, max=7.9), runif(9, min=7.9, max=9.7)))
[1] 8.010139
> median(c(runif(9, min=7.0, max=7.9), runif(9, min=7.9, max=9.7)))
[1] 7.856393

Доверительный интервал для второй выборки

> quantile(replicate(10000, median(c(runif(9, min=7.0, max=7.9), runif(9, min=7.9, max=9.7)))), probs=c(0.025, 0.5, 0.975))
    2.5%      50%    97.5%
7.796376 7.927046 8.167319
> quantile(replicate(100000, median(c(runif(9, min=7.0, max=7.9), runif(9, min=7.9, max=9.7)))), probs=c(0.025, 0.5, 0.975))
    2.5%      50%    97.5%
7.795279 7.928610 8.165428

Для первой выборки

> quantile(replicate(10000, median(c(runif(13, min=5.6, max=6.8), runif(13, min=6.8, max=9.3)))), probs=c(0.025, 0.5, 0.975))
    2.5%      50%    97.5%
6.697030 6.828900 7.062315
> quantile(replicate(100000, median(c(runif(13, min=5.6, max=6.8), runif(13, min=6.8, max=9.3)))), probs=c(0.025, 0.5, 0.975))
    2.5%      50%    97.5%
6.698919 6.828830 7.073703


Медианы генсовокупностей из которых были извлечены выьорки не имеют шанса встретиться если извлечение выборок шло случайно.

Оценка получается более [s]широкой[\s] узкой чем просто бутстреп исходной выборки

Код
# модельная генсовокупность
> x<-rnorm(54, mean=6.8, sd=1.3)
> quantile(x)
      0%      25%      50%      75%     100%
2.716833 6.051314 6.823896 7.658319 9.626783
> quantile(replicate(100000, median(c(runif(13, min=6.051, max=6.823), runif(13, min=6.823, max=7.65)))), probs=c(0.025, 0.5, 0.975))
    2.5%      50%    97.5%
6.748091 6.824059 6.905382

# генсовокупность порождает вот такие варианты выборки в пределе
> quantile(replicate(10000, median(rnorm(54, mean=6.8, sd=1.3)) ), probs=c(0.025, 0.5, 0.975))
    2.5%      50%    97.5%
6.368884 6.799687 7.231649
> quantile(replicate(100000, median(rnorm(54, mean=6.8, sd=1.3)) ), probs=c(0.025, 0.5, 0.975))
    2.5%      50%    97.5%
6.371881 6.800581 7.228905
> quantile(replicate(100000, median(sample(x, )) ), probs=c(0.025, 0.5, 0.975))
x=        size=     replace=  prob=    

# настоящий бутстреп медианы выборки
> quantile(replicate(100000, median(sample(x, replace=T)) ), probs=c(0.025, 0.5, 0.975))
    2.5%      50%    97.5%
6.438816 6.823896 7.119538



И поправка плывет от размера sd (и скорее всего вида распределения), хотя и не зависит похоже от размера выборки. Похоже раз такая зависимость есть, то проще фитить в эти процентили какое то семейство распределений и считать уже по нему различия.

Код
> res.butstr <- sapply(20:100, function(n) {x<- rnorm(n, mean=6.8, sd=3.3); q<- quantile(x); qn<- table(q); quantile(replicate(10000, median(c(runif(qn[2], min=q[2], max=q[3]), runif(qn[3], min=q[3], max=q[4]))) ), probs=c(0.025, 0.5, 0.975)) / quantile(replicate(10000, median(sample(x, )) ), probs=c(0.025, 0.5, 0.975)) })
> plot(20:100, t(res.butstr)[,1], ylim=range(as.vector(res.butstr)))
> points(20:100, t(res.butstr)[,2], col="green")
> points(20:100, t(res.butstr)[,3], col="red")



Сообщение отредактировал p2004r - 12.04.2015 - 22:43


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
anserovtv
сообщение 15.04.2015 - 09:23
Сообщение #21





Группа: Пользователи
Сообщений: 219
Регистрация: 4.06.2013
Из: Тверь
Пользователь №: 24927



Было бы вполне закономерно, если бы топикстартер Диагностик подвел итог бурной дискуссии, или Вы про это ничего не знаете?
Лексика - Ваша!

Сообщение отредактировал anserovtv - 15.04.2015 - 14:15
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 15.04.2015 - 12:30
Сообщение #22





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(anserovtv @ 15.04.2015 - 10:23) *
Было бы вполне закономерно, если бы топикстартер Диагностик подвел итог бурной дискуссии, или Вы про это ничего не знаете?


А он его и подвел в сообщении #15. Даже запятую для солидности воткнул там, где ее быть не должно.

Сообщение отредактировал 100$ - 15.04.2015 - 12:33
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 19.04.2015 - 12:21
Сообщение #23





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(DoctorStat @ 12.04.2015 - 11:54) *
Вам осталось только:
1) Доказать, что введенное Вами расстояние D, обозначенное зеленой стрелкой на рисунках, не зависит от вида распределения,
2) Вывести для этого расстояния свои таблицы статистики, а не подставлять D в таблицы Колмогорова-Смирнова, предназначенные для обсчета расстояния между кривыми распределений, а не кривыми процентилей.

1) Почему же? Нигде не встречал, что критерий Колмогорова - Смирнова требует знания вида распределения. Т.е. если использовать его - ничего доказывать не надо, всё уже доказано!
2) А вот насчёт 2, соглашусь: вопрос дискуссионный. То, что подставлять можно, я не сомневаюсь, но то насколько полученное значение D будет близко к истинному - сказать, действительно, сложно. Понятно, что это - только приближение. К сожалению, я не силён в симуляциях, а то можно было бы оценить различия между истинным и "квартильным" D поигравшись с выборками из разных распределений. В качестве ещё пары аргументов в защиту подхода можно привести то, что:
1) при сравнении эмпирического распределения с теоретическим этим критерием допускается группировка данных, т.е. тоже получается не слишком точно. Раз можно нарезать его, скажем, на децили, почему не нарезать на квартили?
2) функция накопленных частот в области медианы достаточно пологая, по крайней мере изменяется не так круто, как на концах функции. Поэтому погрешность "квартильного" D не должна быть высокой. В качестве ещё большего приближения можно заменить мою исходную ломаную куском параболы, интерполирующей по трём точкам (Q1, Me, Q3). Для примера Диагностика такой способ даст чуть большее D и чуть меньшее р. Пока катастрофически не хватает времени, но найду - ещё повожусь:)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 21.04.2015 - 15:03
Сообщение #24





Группа: Пользователи
Сообщений: 147
Регистрация: 4.09.2012
Из: г.Дивногорск
Пользователь №: 24146



Цитата(Диагностик @ 11.04.2015 - 12:39) *
Собственно практическая задача такая. Известны выборочные параметры распределения количества лейкоцитов для группы здоровых людей объёмом 54:
Q1=5.6; Me=6.8; Q3=9.3.
Тоже самое для группы больных людей объёмом 37:
Q1=7.0; Me=7.9; Q3=9.7.
Ничего нельзя сказать о значимом отличии групп по этим данным?

У меня вопрос чисто медицинский. Распределение количества лейкоцитов для группы здоровых людей никем не исследовалось?
А для больных? Оно по форме должно быть таким же, только с другими параметрами?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V  < 1 2
Добавить ответ в эту темуОткрыть тему