Параметрические или непараметрические методы

Параметрические или непараметрические методы

p2004r Просмотр профиля	8.01.2012 - 12:43 Сообщение #46
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Я иногда заглядывал в википедию (на редкость вменяемое описание статмоделирования касающегося DA) http://en.wikipedia.org/wiki/Analysis_of_v...ptions_of_ANOVA 1) требуется именно нормальность _остатков_ (the distributions of the residuals are normal.) что крайне логично. 2) вот остальные требования куда более существенны, это "Randomization-based analysis". в случае наблюдениея -- "In practice, the estimates of treatment-effects from observational studies generally are often inconsistent. In practice, "statistical models" and observational data are useful for suggesting hypotheses that should be treated very cautiously by the public." Главное в обсуждаемом наблюдении, то что из логики последующие результаты явно зависимы от предыдущих. И надо анализировать данные а не считать в слепую модели. Никакого эксперимента управляемого в случае наблюдения нет, а значит нет и структуры модели параметры которой надо определить. http://r-statistics.livejournal.com/

Olga_ Просмотр профиля	8.01.2012 - 16:30 Сообщение #47
Группа: Пользователи Сообщений: 43 Регистрация: 4.01.2012 Пользователь №: 23400	Цитата(p2004r @ 8.01.2012 - 10:43) Я иногда заглядывал в википедию (на редкость вменяемое описание статмоделирования касающегося DA) http://en.wikipedia.org/wiki/Analysis_of_v...ptions_of_ANOVA 1) требуется именно нормальность _остатков_ (the distributions of the residuals are normal.) что крайне логично. 2) вот остальные требования куда более существенны, это "Randomization-based analysis". в случае наблюдениея -- "In practice, the estimates of treatment-effects from observational studies generally are often inconsistent. In practice, "statistical models" and observational data are useful for suggesting hypotheses that should be treated very cautiously by the public." Главное в обсуждаемом наблюдении, то что из логики последующие результаты явно зависимы от предыдущих. И надо анализировать данные а не считать в слепую модели. Никакого эксперимента управляемого в случае наблюдения нет, а значит нет и структуры модели параметры которой надо определить. Я обычно читаю лекции по биостатистике, рекомендованные книги и статьи. Из той же вики Assumptions to use two-way anova Just like other parametric test, we make the following assumptions when using two-way ANOVA: ?The populations from which the samples are obtained must be normally distributed. ?Sampling is done correctly. Observations for within and between groups must be independent. ?The variances among populations must be equal (homogeneity). ?Data are interval or nominal или же The results of a one-way ANOVA can be considered reliable as long as the following assumptions are met: Response variable must be normally distributed (or approximately normally distributed). Samples are independent. Variances of populations are equal. Responses for a given group are independent and identically distributed normal random variables (not a simple random sample (SRS)). ANOVA is a relatively robust procedure with respect to violations of the normality assumption[3]. If data are ordinal, a non-parametric alternative to this test should be used such as Kruskal-Wallis one-way analysis of variance. Будем продолжать дальше цитировать вики... То что данные зависимые это уже давно обсуждается в ходе нашей дискуссии. А здесь я вас вообще не понимаю)) "И надо анализировать данные а не считать в слепую модели. Никакого эксперимента управляемого в случае наблюдения нет, а значит нет и структуры модели параметры которой надо определить. "

p2004r Просмотр профиля	8.01.2012 - 21:21 Сообщение #48
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(Olga_ @ 8.01.2012 - 16:30) Я обычно читаю лекции по биостатистике, рекомендованные книги и статьи. ................. Будем продолжать дальше цитировать вики... То что данные зависимые это уже давно обсуждается в ходе нашей дискуссии. А здесь я вас вообще не понимаю)) "И надо анализировать данные а не считать в слепую модели. Никакого эксперимента управляемого в случае наблюдения нет, а значит нет и структуры модели параметры которой надо определить. " В той же вики которую цитируем --- помимо требования равенства вариации выборок, независимости случаев и нормальности остатков четко прописано когда имеет смысл ANOVA. Это случай управляемого эксперимента, а для наблюдения (тем более не полного а с неведомой цензурой) смысла подгонять модель нет. Иначе тут мы танцуем получается, а тут уже не танцуем? Какие то ограничения принципиальны, а вторые нет? С нормальностью данных тут вообще смешная ситуация. Вы очевидно считаете первичными группы, но на самом деле первичны факторы, в случае мало мальски сложного дизайна эксперимента это очевидно. Отсюда требование нормальности данных, хотя на самом деле требуется нормальность отклонения от эффекта (в простейшем случае средней для сочетания уровней факторов в модели эти требования эквивалентны). Не понимаю почему это может быть не понятно? Посмотрел в инете кучу руководств по ANOVA и везде пишут об остатках. Вот например типичное http://isogenic.info/html/the_anova.html Assumptions The ANOVA and Student's t-test are so-called "parametric" tests. They depend on the assumptions 1) that the observations are independent, 2) that the residuals (deviations from group means) have a normal distribution, 3) the variation is the same in each group. These last two assumptions should always be examined by studying the "residuals", i.e. deviations from group means. http://r-statistics.livejournal.com/

p2004r Просмотр профиля	8.01.2012 - 21:38 Сообщение #49
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(Olga_ @ 8.01.2012 - 16:30) То что данные зависимые это уже давно обсуждается в ходе нашей дискуссии. А чего тут обсуждать то? В данном наблюдении дизайн можно описать только в рамках Mixed-effects models. Имеет место три фактора: пациент, время и вид лечения. Вот руководство http://lme4.r-forge.r-project.org/book/ пакета lme. http://r-statistics.livejournal.com/

nokh Просмотр профиля	9.01.2012 - 11:49 Сообщение #50
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Alex_Z @ 7.01.2012 - 23:30) "Если омнибусный тест не показывает межгрупповых различий - нечего дальше и ковыряться. Если показывает - тогда далее разбираемся за счёт каких групп или их сочетаний в ходе апостериорных сравнений специальными тестами." Какими например (если можно, то применительно к SPSS)? Шеффе, Тьюки? Читайте внимательнее то, что я уже вам разложил в соседней теме по ДА. Ну и книги. Цитата(Alex_Z @ 7.01.2012 - 23:30) И, если позволите, еще пару вопросов. 1. Если Краскел-Уоллис (или Фридман) не нашел различий, а ДА нашел (или наоборот) что делать, кому верить? 2. Однофакторный ДА применим, когда сравниваются 3-4 связанные выборки? 1. Любой статистический метод - это определённая математическая модель, которую мы пытаемся приспособить для анализа конкретных данных. Соответственно верить нужно той модели, которая лучше приспособлена для анализа таких данных. Если выборки извлечены из генеральных совокупностей (ГС) с нормальным распределением, то Краскел-Уоллис только на 5% уступает в мощности однофакторному ДА, т.е. на практике почти всегда приводит к таким-же выводам. Если же анализируются выборки из ГС с ненормальными, но однотипными распределениями, то "верить нужно" К_У. 2. Это будет уже однофакторный ДА с повторными измерениями, т.е. по сути смешанная модель двухфакторного анализа с фиксированным фактором "Группа" и случайным "Индивид внутри Группы". Сообщение отредактировал nokh - 9.01.2012 - 11:51

nokh

9.01.2012 - 12:16

Сообщение #51

Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704

Цитата(100$ @ 8.01.2012 - 00:16)

-> Nokh, а у Вас совершенно случайно нет ссылочки на тест Неменьи (63 г) с таблицей критических значений при N>25? А то что-то попадаются только до 25 включительно.

Если вы имеете в виду тот же, что и я - ранговый аналог критерия Шеффе для post-hoc анализа, то его не рекомендуют использовать ввиду высокой консервативности. Самым либеральным и простым для апостериорных сравнений внутри Краскелла-Уоллиса является критерий Коновера-Инмана - ранговый аналог Fisher's LCD), самым строгим - критерий Стила-Двасса (Steel-Dwass) - ранговый аналог Tukey's HSD. Чтобы не рыскать по таблицам, я сделал в Excel расчётную таблицу, в которую ввожу суммы рангов для групп, полученные в анализе Краскела-Уоллиса и автоматически получаю значения р для тестов Коновера-Инмана, Данна и Неменьи. Там простые формулы. Для Неменьи при больших выборках используют распределение хи-квадрат (см. ниже). Наверное выложу файл на форум когда перепроверю и справку допишу. Для расчёта Стила-Двасса нужны оригинальные данные, т.к. там используется не совместная ранжировка, а попарная. Поэтому его считаю в пакете KyPlot (v.2 beta 15).

Кусочек из Hochberg, Tamhane (1987) Multiple Comparison Procedures:

Сообщение отредактировал nokh - 9.01.2012 - 12:20

Эскизы прикрепленных изображений

Ответить с цитированием данного сообщения

Olga_ Просмотр профиля	9.01.2012 - 14:05 Сообщение #52
Группа: Пользователи Сообщений: 43 Регистрация: 4.01.2012 Пользователь №: 23400	Уважаемый nokh, Тест Краскелла-Уоллиса предназначен для сравнения независимых выборок. А у топикстартера зависимые выборки, и игнорирование этого факта уже ошибка.

100$ Просмотр профиля	9.01.2012 - 14:11 Сообщение #53
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(nokh @ 9.01.2012 - 12:16) Если вы имеете в виду тот же, что и я - ранговый аналог критерия Шеффе для post-hoc анализа, то его не рекомендуют использовать ввиду высокой консервативности. Самым либеральным и простым для апостериорных сравнений внутри Краскелла-Уоллиса является критерий Коновера-Инмана - ранговый аналог Fisher's LCD), самым строгим - критерий Стила-Двасса (Steel-Dwass) - ранговый аналог Tukey's HSD. Чтобы не рыскать по таблицам, я сделал в Excel расчётную таблицу, в которую ввожу суммы рангов для групп, полученные в анализе Краскела-Уоллиса и автоматически получаю значения р для тестов Коновера-Инмана, Данна и Неменьи. Там простые формулы. Для Неменьи при больших выборках используют распределение хи-квадрат (см. ниже). Наверное выложу файл на форум когда перепроверю и справку допишу. Для расчёта Стила-Двасса нужны оригинальные данные, т.к. там используется не совместная ранжировка, а попарная. Поэтому его считаю в пакете KyPlot (v.2 beta 15). Кусочек из Hochberg, Tamhane (1987) Multiple Comparison Procedures: > Nokh, спасибо, если пожелаете выложить файл на форуме, это будет очень кстати. И, если позволите, несколько вопросов: 1. Компания AddInSoft в своем довеске к Excel по названием XLStat использует Неменью в качестве пост-хока внутри Фридмана. Хохберг и Тамхейн, судя по картинке, лепят его в Краскела-Уоллиса. Формула критерия, правда, отличается. Кобзарь дает версию Неменьи для случая выборок равного объема (как при ДА со связанными выборками). Что, существуют две его версии: для "связанного" ДА и для "независимого"? 2. Hochberg, Tamhane (1987) Multiple Comparison Procedures: есть в сети? 3. Чисто филологический вопрос: Иман из словосочетания "Иман-Давенпорт" и Инман из словосочетания "Коновер-Инман" - это разные люди или один и тот же человек? Заранее спасибо. Сообщение отредактировал 100$ - 9.01.2012 - 22:45

Alex_Z Просмотр профиля	9.01.2012 - 22:35 Сообщение #54
Группа: Пользователи Сообщений: 59 Регистрация: 23.12.2011 Пользователь №: 23383	Спасибо большое за помощь. Что-то начало вырисовываться.

nokh Просмотр профиля	29.01.2012 - 08:03 Сообщение #55
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	> Olga_ Цитата(Olga_ @ 9.01.2012 - 16:05) Уважаемый nokh, Тест Краскелла-Уоллиса предназначен для сравнения независимых выборок. А у топикстартера зависимые выборки, и игнорирование этого факта уже ошибка. В посте #42 топикстартер писал: "И, если позволите, еще пару вопросов. 1. Если Краскел-Уоллис (или Фридман) не нашел различий, а ДА нашел (или наоборот) что делать, кому верить? 2. Однофакторный ДА применим, когда сравниваются 3-4 связанные выборки?" Чтобы делать как можно меньше ошибок и не путать читателей форума впредь не разрешайте топикстартерам задавать вопросы, не имеющие прямого отношения к вопросу, вынесенному им в тему ветки. А то одни спрашивают всё подряд, другие пытаются на это отвечать... Бардак какой-то! > 100$ Цитата(100$ @ 9.01.2012 - 16:11) 1. Компания AddInSoft в своем довеске к Excel по названием XLStat использует Неменью в качестве пост-хока внутри Фридмана. Хохберг и Тамхейн, судя по картинке, лепят его в Краскела-Уоллиса. Формула критерия, правда, отличается. Кобзарь дает версию Неменьи для случая выборок равного объема (как при ДА со связанными выборками). Что, существуют две его версии: для "связанного" ДА и для "независимого"? 2. Hochberg, Tamhane (1987) Multiple Comparison Procedures: есть в сети? 3. Чисто филологический вопрос: Иман из словосочетания "Иман-Давенпорт" и Инман из словосочетания "Коновер-Инман" - это разные люди или один и тот же человек? 1. По поводу Фридмана я уже где-то писал Вам, что он - непараметрический аналог двухфакторного дисперсионного анализа (ДА) с рандомизированными блоками, а под это попадает и дизайн с зависимыми группами. Ну вот, например, такой дизайн: (1) 5 доноров и 5 способов консервации крови. Это - классический пример дизайна с зависимыми выборками, доноры - связанные выборки, а рандамизированные блоки не упоминаются вообще. (2) Урожайность 5 сортов культуры на 5 участках - классический пример ДА с рандомизированными блоками, хотя раз участки одни и те же - нужно говорить о зависимых выборках. (3) Прочность бетона при 5 температурах и 5 давлениях. Здесь связанных групп вроде как и нет или обе взаимосвязаны. Во всех трёх примерах имеем таблицу 5 х 5 = 25 ячеек и обрабатываем её параметрикой по схеме ДА с рандомизированными блоками, а непараметрикой - по Фридману, хотя он и не позволяет разложить всё одновременно как ДА. По Фридману в примере (1) мы можем сравнить 5 способов консервации при усреднении данных по донорам, а в примере (3) можем сравнить 5 вариантов давления при усреднении данных по температуре. Но если нас в примере (1) интересуют не столько способы консервации, сколько индивидуальная изменчивость - мы можем сравнить 5 доноров при усреднении способов. Аналогично в примере (3) сравним 5 вариантов температур при усреднении давления. Если такой омнибусный тест обнаруживает различия, до далее имеет смысл разбираться за счёт чего. Для этого и используем Неменьи. Получается что не нужно двух версий Неменьи для зависимых и независимых выборок, т.к. во Фридмане у нас могут быть как те, так и другие. Я недавно думал, что есть другие 2 версии Неменьи: для однофакторного Краскела-Уоллиса и для двухфакторного Фридмана. Сейчас получается, что это - один и тот же тест. Он используется во Фридмане, но не рекомендуется для К-У ввиду высокой консервативности. А в книгах, которые вы назвали и которые сам посмотрел противоречий нет. Там формулы другие, т.к. авторы дают какие-то вспомогательные таблицы и формулы "завязывают" на эти свои таблицы. 2. Есть. Я находил в pdf, 8 Мб. 3. Скорее всего один и тот же, но не проверял Сообщение отредактировал nokh - 29.01.2012 - 08:27

100$ Просмотр профиля	29.01.2012 - 13:53 Сообщение #56
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Nokh, Вас понял, спасибо.

« Предыдущая тема · Медицинская статистика · Следующая тема »