Доверительный интервал или критерий Стьюдента? |
Здравствуйте, гость ( Вход | Регистрация )
Доверительный интервал или критерий Стьюдента? |
29.10.2008 - 16:25
Сообщение
#31
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
У уважаемых форумчан (по крайней мере, у некоторых из них), возник не вопрос, можно или нельзя применить доверительные интервалы для проверки гипотез, а как правильно их применять. Поэтому некотрые из уважаемых и привели ряд примеров, когда предлагаемый неким Рецензентом (назовем его так) подход оказывается несостоятельным. Что делает Рецензент? Строит ДИ. Правильно? Ну конечно, молодец! Далее, берет точечные оценки для других популяций и смотрит, попадают ли они в данный ДИ. Попадают? Попадают. Вывод - различий нет! Полный бред! В пору просить уважаемого В.П. Леонова написать статью типа "Итоги становления отечественной доказательной медицины: от неправильного применения критерия Стьюдента - к неправильному применению доверительных интервалов". Вот тут написано, как правильно использовать ДИ для проверки гипотез. Не сравнение ДИ одной популяции и точечной оценки другой популяции, не смотреть, перекрываются ли интервалы, а анализировать, на СКОЛЬКО и КАК именно они перекрываются! Smith R.W. Visual hypothesis testing with confidence intervals // SAS Users Group International Online Proceedings (SUGI-22), March 16-19, 1997, San Diego, California. Paper 270-22, pp. 1252-1257. http://www2.sas.com/proceedings/sugi22/STATS/PAPER270.PDF А я все-таки не понял, почему Рецензент не прав. Итак у нас есть выборка. На ее основании построили интервал в котором (с определенной вероятностью) содержится популяциионное значение (точнее, популяционные значения, совместимые с данным набором результатов - определение ДИ, сделанного по максимальному правдоподобию). Затем берется популяционное значение (другой вопрос, откуда мы знаем, что оно популяционное) и смотрится, укладывается ли оно в интервал. Если его в этом интервале нет, значит эта популяция вряд ли породила данную выборку. Другое дело, что Рецензенту можно задать вопрос, а почему он данные по регистрации считает популяционными, а не выборочными тоже. Если не соглашаться с ним в этом, то Игорь абсолютно прав и тогда надо было сравнивать два выборочных значения. Просто мы пытаемся ответить на разные вопросы |
|
29.10.2008 - 16:33
Сообщение
#32
|
|
Группа: Пользователи Сообщений: 20 Регистрация: 29.10.2008 Из: Челябинск Пользователь №: 5459 |
Простите, что вмешиваюсь, но формулировка вопроса нехороша. Вы и так уже знаете, что рабочие этого завода живут в свердловской области. Смысл решать - принадлежат они популяции, или нет.
Вопрос стоит ведь не в этом. Спасибо за интересные ссылки помещенные в этой теме. Сообщение отредактировал Varta - 29.10.2008 - 16:44 |
|
29.10.2008 - 16:51
Сообщение
#33
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Простите, что вмешиваюсь, но формулировка вопроса нехороша. Вы и так уже знаете, что рабочие этого завода живут в свердловской области. Смысл решать - принадлежат они популяции, или нет. Вопрос стоит ведь не в этом. Спасибо за интересные ссылки помещенные в этой теме. Не, вопрос в другом - являются ли так называемые "популяционные" данные по Свердловской области действительно популяционными. Тот факт, что это данные регистрации всех случаев еще не делает их популяционными. Если бы было проведено обследование всех лиц в Свердловской области и было выявлено наличие или отсутствие БА у каждого из них, можно было бы говорить о популяционной величине распространенности БА. А так... |
|
30.10.2008 - 10:12
Сообщение
#34
|
|
Группа: Пользователи Сообщений: 20 Регистрация: 29.10.2008 Из: Челябинск Пользователь №: 5459 |
Вы правы, тут некорректное использование понятий.
В любом случае, основная проблема этого исследования не в статистике, а в правильно подобранном контроле и в том, что оно одномоментное. Корректнее было бы брать не распространенность, а частоту новых случаев, тогда бы не было таких парадоксальных результатов. Тут все равно нельзя однозначно утверждать, что рабочие завода меньше болеют. более вероятно скорее то, что те кто болеет астмой на этом заводе не работают. Сообщение отредактировал Varta - 30.10.2008 - 10:16 |
|
15.12.2011 - 11:23
Сообщение
#35
|
|
Группа: Пользователи Сообщений: 19 Регистрация: 15.12.2011 Пользователь №: 23369 |
А можно ли при помощи ДИ устанавливать есть ли различия в нижеприведенных данных (разные штаммы) и как это сделать?
И второй вопрос, при помощи какого метода/методов эти возможные различия лучше оценить и почему? Желательно привести пример расчета и вывод, чтобы легче было разобраться. Итак, данные. Бактерии-продуценты штаммов Ш1 и Ш2 подкармливали смесью углеводов в концентрации С1, С2 и С3 и определяли процент усваивания углевода1 и коэффициент k общего остатка углеводов. Опыт повторили трижды и вычислили среднее арифм. c ошибкой и коэффициент: Ш1: С1: 27,3 +/- 0,52 k=0,7 С2: 25,8 +/- 0,56 k=2,2 C3: 23,2 +/- 0,57 k=4,8 Ш2: С1: 27,4 +/- 0,56 k=0,6 С2: 26,2 +/- 0,58 k=1,8 С3: 25,3 +/- 0,55 k=2,7 |
|
15.12.2011 - 12:19
Сообщение
#36
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
А можно ли при помощи ДИ устанавливать есть ли различия в нижеприведенных данных (разные штаммы) и как это сделать? И второй вопрос, при помощи какого метода/методов эти возможные различия лучше оценить и почему? Желательно привести пример расчета и вывод, чтобы легче было разобраться. Итак, данные. Бактерии-продуценты штаммов Ш1 и Ш2 подкармливали смесью углеводов в концентрации С1, С2 и С3 и определяли процент усваивания углевода1 и коэффициент k общего остатка углеводов. Опыт повторили трижды и вычислили среднее арифм. c ошибкой и коэффициент: Ш1: С1: 27,3 +/- 0,52 k=0,7 С2: 25,8 +/- 0,56 k=2,2 C3: 23,2 +/- 0,57 k=4,8 Ш2: С1: 27,4 +/- 0,56 k=0,6 С2: 26,2 +/- 0,58 k=1,8 С3: 25,3 +/- 0,55 k=2,7 0) зачем вы тролите поднимая покрытые мохом темы? 1) это задача из учебника? 2) а что за "ошибка" у матожидания имеется в виду? почему нет "ошибки" у коэффициента? Сообщение отредактировал p2004r - 15.12.2011 - 12:24 |
|
15.12.2011 - 13:05
Сообщение
#37
|
|
Группа: Пользователи Сообщений: 19 Регистрация: 15.12.2011 Пользователь №: 23369 |
0) мне сказали, что различия значимы и их можно посчитать через ДИ, хочется убедиться что это так
1) реальные данные 2) ошибка ср. арифм., а вторую ошибку не считали (типа и так все понятно). Так что с ответом? |
|
15.12.2011 - 14:45
Сообщение
#38
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Ни ДИ, ни критерий Стьюдента. Нужны оригинальные данные, которые нужно обработать дисперсионным анализом.
(1) Почему нельзя ДИ. Потому что из представленных данных вы их не сможете грамотно получить. Из представленных данных их можно получить только одним способом: умножить величину стандартной ошибки на критическое значение t-распределения для числа степеней свободы df=n-1=3-1=2 и альфа (двусторонняя)=0,95, т.е. на число 4,303. Далее прибавить и отнять полученное значение из среднего с получением ДИ. Однако у вас нет ни правильного значения среднего, ни правильного значения стандартной ошибки: проценты априори распределены ненормально, а среднее арифметическое и ст. ошибка у вас вычислены для нормального распределения. В литературе можно найти, что % распределены близко к нормальному вблизи 50%, на худой конец - между 30 и 70%. Но это - не ваш случай. (2) Почему ДИ вообще нежелательно. ДИ для каждого случая вычисляются на основании информации только об одной единственной выборке. В то время как сравнение двух выборок с помощью статистического критерия использует информацию сразу о нескольких выборках. Поэтому сравнение с помощью ДИ - крайне консервативная процедура, которая годится либо только в качестве прикидки перед корректным сравнением, либо в ситуациях, когда доступа к оригинальным данным нет - например при сравнении собственных данных с цифрами из литературных источников. (3) Почему нельзя критерием Стьюдента. (а) Потому что этот критерий требует нормального распределения, а проценты распределены ненормально. (б) Потому что критерий Стьюдента используется только для сравнения двух выборок, а у вас их несколько. Т.о. в вашем случае нужно использовать двухфакторный дисперсионный анализ (факторы: штамм и концентрация), после которого можно делать попарные сравнения в рамках дисперсионного комплекса: или запланированные сравнения через контрасты, или апостериорные (post-hoc) сравнения. Учитывая, что дисперсионный анализ (ANOVA) - также параметрический метод, исходные данные (частоты) нужно предварительно преобразовать с помощью какого-либо углового преобразования, например преобразованием арксинуса. Это будет (1) статистически корректный анализ и (2) почти самый мощный вариант анализа, обладающий высокой разрешающей способностью. Ещё большей мощности можно добиться только если описать три точки концентраций регрессией, т.е. в рамках ковариационного анализа (ANCOVA). И ANOVA, и ANCOVA требуют исходных, необобщённых данных. Сообщение отредактировал nokh - 15.12.2011 - 14:46 |
|
15.12.2011 - 16:09
Сообщение
#39
|
|
Группа: Пользователи Сообщений: 19 Регистрация: 15.12.2011 Пользователь №: 23369 |
Огромное спасибо за пояснения, главный вопрос выяснен.
(1-2) С ДИ все вроде понятно и доступно изложено. За исключением того, что непонятно почему проценты 23,2-27,4% ненормально распределены - какая разница какие там цифры? Ну да ладно. (3) А я-то думала, что достаточно сравнить попарно 27,3 с 27,4 ну и так все пары по Стьюденту (ошибка же есть) и затем обсуждать различия если t>=4,303. А вот ДА (ANOVА и тем более ANCOVA) подозреваю мне не провести по причине слабого понимания метода контрастов или post-hoc сравнений. Да еще и преобразование арксинуса. Или может где-то найдется пример таких рассчетов? |
|