Здравствуйте, гость ( Вход | Регистрация )
![]() ![]() |
12.04.2015 - 09:54
Сообщение
#16
|
|
|
Группа: Пользователи Сообщений: 381 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Максимальное значение разности D между этими кривыми (в нашем случае они достаточно грубые - ломаные) используется далее в расчёте статистики критерия: формулы см. http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test в разделе Two-sample Kolmogorov-Smirnov test. Вам осталось только:1) Доказать, что введенное Вами расстояние D, обозначенное зеленой стрелкой на рисунках, не зависит от вида распределения, 2) Вывести для этого расстояния свои таблицы статистики, а не подставлять D в таблицы Колмогорова-Смирнова, предназначенные для обсчета расстояния между кривыми распределений, а не кривыми процентилей. ![]() Просто включи мозги => http://doctorstat.narod.ru
|
|
|
![]() |
![]() |
12.04.2015 - 13:22
Сообщение
#17
|
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Поскольку и медиана и квартили - суть порядковые статистики (члены вариационного ряда), то формально можно применить любой ранговый метод, работающий с ранжировками в объединенном вариационном ряду. Да вот хотя бы и Лемана - Розенблатта, являющегося состоятельным против альтернативы о различиях в распределениях (как и Смирнов). Для него р=,2785.
|
|
|
![]() |
![]() |
12.04.2015 - 15:17
Сообщение
#18
|
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
При таком формальном подходе мощность критерия (Манна-Уитни-Вилкоксона) всего 0.1443.
Проверка однородности: критерий Смирнова p=0.3, рандомизационный тест p=0.6. Сообщение отредактировал anserovtv - 12.04.2015 - 15:26 |
|
|
![]() |
![]() |
12.04.2015 - 20:24
Сообщение
#19
|
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
При таком формальном подходе мощность критерия (Манна-Уитни-Вилкоксона) всего 0.1443. Проверка однородности: критерий Смирнова p=0.3, рандомизационный тест p=0.6. Ну, а о какой мощности можно говорить, имея на руках 6 цифр, причем медиана и квартили не входят в качестве параметров ни в какое параметрическое семейство. Однако. Через три точки проходит полином степени 2. Нарисуйте через две квартили и медиану что-нибудь симпатичное параболообразное (вместо нокховских ломаных) и спроецируйте на ось абсцисс столько цифирей, сколько не хватет для полного щастья. Мощность тут же возрастет. |
|
|
![]() |
![]() |
12.04.2015 - 21:01
Сообщение
#20
|
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
PS. В подходе р2004r не понял откуда выбирать значения, если интервал min-max не определён. Был бы признателен за код с вашим вариантом р. 1. Я сразу сказал, что берусь оценить доверительный интервал только для положения медианы. Подход точно такой же как и в вашем случае, часть выборки нам известно в каких границах лежит. Для этой части мы принимаем предположение (как и у вас) что всё линейно и делаем генерацию точек из униформного распределения с границами заданными квантиляли и медианой. Для получившейся ситуации считаем положение медианы, накапливая такие перевыборок получаем доверительный интервал . 2. Код # Восстановим сколько скорее всего попало при расчете в конкретный квантиль > table(cut(1:54, quantile(1:54),5670252.lowest=T)) [1,14.2] (14.2,27.5] (27.5,40.8] (40.8,54] 14 13 13 14 > table(cut(1:37, quantile(1:37),5670252.lowest=T)) [1,10] (10,19] (19,28] (28,37] 10 9 9 9 # Перевыборка медианы происходит вот таким образом > median(c(runif(9, min=7.0, max=7.9), runif(9, min=7.9, max=9.7))) [1] 7.855721 > median(c(runif(9, min=7.0, max=7.9), runif(9, min=7.9, max=9.7))) [1] 7.901809 > median(c(runif(9, min=7.0, max=7.9), runif(9, min=7.9, max=9.7))) [1] 7.775273 > median(c(runif(9, min=7.0, max=7.9), runif(9, min=7.9, max=9.7))) [1] 8.010139 > median(c(runif(9, min=7.0, max=7.9), runif(9, min=7.9, max=9.7))) [1] 7.856393 Доверительный интервал для второй выборки > quantile(replicate(10000, median(c(runif(9, min=7.0, max=7.9), runif(9, min=7.9, max=9.7)))), probs=c(0.025, 0.5, 0.975)) 2.5% 50% 97.5% 7.796376 7.927046 8.167319 > quantile(replicate(100000, median(c(runif(9, min=7.0, max=7.9), runif(9, min=7.9, max=9.7)))), probs=c(0.025, 0.5, 0.975)) 2.5% 50% 97.5% 7.795279 7.928610 8.165428 Для первой выборки > quantile(replicate(10000, median(c(runif(13, min=5.6, max=6.8), runif(13, min=6.8, max=9.3)))), probs=c(0.025, 0.5, 0.975)) 2.5% 50% 97.5% 6.697030 6.828900 7.062315 > quantile(replicate(100000, median(c(runif(13, min=5.6, max=6.8), runif(13, min=6.8, max=9.3)))), probs=c(0.025, 0.5, 0.975)) 2.5% 50% 97.5% 6.698919 6.828830 7.073703 Медианы генсовокупностей из которых были извлечены выьорки не имеют шанса встретиться если извлечение выборок шло случайно. Оценка получается более [s]широкой[\s] узкой чем просто бутстреп исходной выборки Код # модельная генсовокупность > x<-rnorm(54, mean=6.8, sd=1.3) > quantile(x) 0% 25% 50% 75% 100% 2.716833 6.051314 6.823896 7.658319 9.626783 > quantile(replicate(100000, median(c(runif(13, min=6.051, max=6.823), runif(13, min=6.823, max=7.65)))), probs=c(0.025, 0.5, 0.975)) 2.5% 50% 97.5% 6.748091 6.824059 6.905382 # генсовокупность порождает вот такие варианты выборки в пределе > quantile(replicate(10000, median(rnorm(54, mean=6.8, sd=1.3)) ), probs=c(0.025, 0.5, 0.975)) 2.5% 50% 97.5% 6.368884 6.799687 7.231649 > quantile(replicate(100000, median(rnorm(54, mean=6.8, sd=1.3)) ), probs=c(0.025, 0.5, 0.975)) 2.5% 50% 97.5% 6.371881 6.800581 7.228905 > quantile(replicate(100000, median(sample(x, )) ), probs=c(0.025, 0.5, 0.975)) x= size= replace= prob= # настоящий бутстреп медианы выборки > quantile(replicate(100000, median(sample(x, replace=T)) ), probs=c(0.025, 0.5, 0.975)) 2.5% 50% 97.5% 6.438816 6.823896 7.119538 И поправка плывет от размера sd (и скорее всего вида распределения), хотя и не зависит похоже от размера выборки. Похоже раз такая зависимость есть, то проще фитить в эти процентили какое то семейство распределений и считать уже по нему различия. Код > res.butstr <- sapply(20:100, function(n) {x<- rnorm(n, mean=6.8, sd=3.3); q<- quantile(x); qn<- table(q); quantile(replicate(10000, median(c(runif(qn[2], min=q[2], max=q[3]), runif(qn[3], min=q[3], max=q[4]))) ), probs=c(0.025, 0.5, 0.975)) / quantile(replicate(10000, median(sample(x, )) ), probs=c(0.025, 0.5, 0.975)) }) > plot(20:100, t(res.butstr)[,1], ylim=range(as.vector(res.butstr))) > points(20:100, t(res.butstr)[,2], col="green") > points(20:100, t(res.butstr)[,3], col="red") Сообщение отредактировал p2004r - 12.04.2015 - 22:43 ![]() |
|
|
![]() |
![]() |
15.04.2015 - 09:23
Сообщение
#21
|
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Было бы вполне закономерно, если бы топикстартер Диагностик подвел итог бурной дискуссии, или Вы про это ничего не знаете?
Лексика - Ваша! Сообщение отредактировал anserovtv - 15.04.2015 - 14:15 |
|
|
![]() |
![]() |
15.04.2015 - 12:30
Сообщение
#22
|
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Было бы вполне закономерно, если бы топикстартер Диагностик подвел итог бурной дискуссии, или Вы про это ничего не знаете? А он его и подвел в сообщении #15. Даже запятую для солидности воткнул там, где ее быть не должно. Сообщение отредактировал 100$ - 15.04.2015 - 12:33 |
|
|
![]() |
![]() |
19.04.2015 - 12:21
Сообщение
#23
|
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Вам осталось только: 1) Доказать, что введенное Вами расстояние D, обозначенное зеленой стрелкой на рисунках, не зависит от вида распределения, 2) Вывести для этого расстояния свои таблицы статистики, а не подставлять D в таблицы Колмогорова-Смирнова, предназначенные для обсчета расстояния между кривыми распределений, а не кривыми процентилей. 1) Почему же? Нигде не встречал, что критерий Колмогорова - Смирнова требует знания вида распределения. Т.е. если использовать его - ничего доказывать не надо, всё уже доказано! 2) А вот насчёт 2, соглашусь: вопрос дискуссионный. То, что подставлять можно, я не сомневаюсь, но то насколько полученное значение D будет близко к истинному - сказать, действительно, сложно. Понятно, что это - только приближение. К сожалению, я не силён в симуляциях, а то можно было бы оценить различия между истинным и "квартильным" D поигравшись с выборками из разных распределений. В качестве ещё пары аргументов в защиту подхода можно привести то, что: 1) при сравнении эмпирического распределения с теоретическим этим критерием допускается группировка данных, т.е. тоже получается не слишком точно. Раз можно нарезать его, скажем, на децили, почему не нарезать на квартили? 2) функция накопленных частот в области медианы достаточно пологая, по крайней мере изменяется не так круто, как на концах функции. Поэтому погрешность "квартильного" D не должна быть высокой. В качестве ещё большего приближения можно заменить мою исходную ломаную куском параболы, интерполирующей по трём точкам (Q1, Me, Q3). Для примера Диагностика такой способ даст чуть большее D и чуть меньшее р. Пока катастрофически не хватает времени, но найду - ещё повожусь:) |
|
|
![]() |
![]() |
21.04.2015 - 15:03
Сообщение
#24
|
|
![]() Группа: Пользователи Сообщений: 147 Регистрация: 4.09.2012 Из: г.Дивногорск Пользователь №: 24146 |
Собственно практическая задача такая. Известны выборочные параметры распределения количества лейкоцитов для группы здоровых людей объёмом 54: Q1=5.6; Me=6.8; Q3=9.3. Тоже самое для группы больных людей объёмом 37: Q1=7.0; Me=7.9; Q3=9.7. Ничего нельзя сказать о значимом отличии групп по этим данным? У меня вопрос чисто медицинский. Распределение количества лейкоцитов для группы здоровых людей никем не исследовалось? А для больных? Оно по форме должно быть таким же, только с другими параметрами? |
|
|
![]() |
![]() |
![]() ![]() |