Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Доверительный интервал или критерий Стьюдента?

Автор: Naum 2.10.2008 - 08:20

Здравствуйте!
привожу отрывок из рецензии на статью: "При сопоставлении распространенности БА необходимо сравнивать известные популяционные величины и доверительный интервал данного исследования, а не точечную оценку. Так, 95% ДИ для распространенности БА 37/567=6.53% составляет 4.75-8.89. Данный интервал включает величины распространенности БА в городах Свердловской области (5.7-5.9%), следовательно, различий в распространенности БА в сравниваемых регионах нет.
Аналогично следует сопоставлять распространенность БА у работников комбината и других жителей города (различий нет)."

С распространенностью 6,5% Вы мне помогли разобраться. Спасибо! Следующий вопрос у меня появляется при сравнении распространенности БА у работников завода и других жителей города. Всего больных получилось 37, из них 17 работников завода и 20 других жителей города. На заводе всего заполнили анкеты 355 человек, в городе 212. Таким образом распространенность на заводе у меня получилась 4,8%, а в городе 9,4%. Я сравнила с помощью критерия Стьюдента - различия достоверны p=0,045. Но рецензент пишет, что сравнивать нужно с помощью доверительных интервалов. Я посчитала - получилось 38,38-68,97 и 31,03-61,62, следовательно различий нет. ????? так есть или нет различия?

Заранее спасибо!

Автор: DrgLena 2.10.2008 - 10:06

Различий действительно нет, критерий Стьюдента не анализирует разность двух пропорций. 95% ДИ для завода по методу Вальда (не откорректированно), спасибо Плаву за информацию, составляет 2,6-7,0 (по Вилсону 3,0-7,5), а для города 5,5-13,4 или по Вилсону 6,2-14,1. Т.е. ДИ пересекаются. Чтобы указанные проценты 4,8 и 9,4 различались с допустимой ошибкой альфа 5% и бета 20% нужно иметь минимум 486 наблюдений в каждой группе.

Автор: DoctorStat 2.10.2008 - 13:24

Ранее Вы сравнивали заболеваемость на заводе и в большой популяции (генеральной совокупности), заболеваемость в которой была известна с большой точностью (т.к. объем популяции много больше численности рабочих) . Для заболеваемости на заводе вычислялся доверительный интервал. Потом смотрели, попадает ли в этот интервал частота в популяции. Если попадает, то делался вывод, что заболеваемости на заводе и в популяции не отличаются.
Теперь перед Вами стоит ДРУГАЯ задача, т.к. частота в популяции (городе) неизвестна. Следовательно, нужно применить другие методы сравнения:
--------------------------------
МЕТОД 1. Критерий хи-квадрат.
Получается таблица 2Х2, в 1-ом столбце завод, во 2-ом город:
17 20
338 192
Значение хи-квадрат (БЕЗ ПОПРАВКИ Йетса на непрерывность) для этой таблицы равно=4,69,
поэтому значимость p-value=0,030<0,050.
Значение хи-квадрат (С ПОПРАВКОЙ Йетса на непрерывность) для этой таблицы равно=3,97,
поэтому значимость p-value=0,046<0,050.
ВЫВОД: на уровне значимости 5% заболеваемость на заводе отличается (меньше), чем в городе.
Заболеваемость на заводе: p_з=17/(17+338)*100=4,7%
Заболеваемость в городе: p_г=20/(20+192)*100=9,4%.
Разность заболеваний равна: p_з - p_г=0,047-0,094=-0,046
95%-ый доверительный интервал для разности=[-0.09,-0.004]
---------------------------------
МЕТОД 2. Двухсторонний точный критерий Фишера.
P-value=0,035<0,05. ВЫВОД: на уровне значимости 5% заболеваемости на заводе и в городе отличаются.

Все тесты дали ОДИНАКОВЫЕ результаты: заболеваемости отличаются.

Автор: плав 2.10.2008 - 19:11

Выше приведены правильные цифры, но не совсем правильные объяснения.
Всегда речь идет о выборке по которой Вы хотите оценить популяционные параметры. Доверительный интервал как раз отражает тот факт, что работаете Вы с выборками (жителей города и работников завода).
Действительно в качестве ориентировочного теста можно рассчитать доверительные интервалы и сравнить их, если они не будут перекрываться можно сделать вывод, что выборки пришли из разных популяций. Однако этот тест не рекомендуется, поскольку у него невысокая мощность (т.е. можно пропустить различия, когда они действительно существуют, но небольшие).
Именно эта ситуация и наблюдается в данном случае. Тест со сравнением доверительных интервалов оказывается недостаточно мощным и не позволяет отвергнуть нулевую гипотезу о равенстве популяций (Проблема этого теста заключается в том, что для оценки ошибки в каждом случае используется только часть данных), а вот тесты, которые используют все данные (типы хи2) демонстрируют возможность отвергнуть гипотезу о принадлежность двух выборок одной популяции на уровне 0,05.
Кстати, на уровне 0,01 уже отвергнуть гипотезу о принадлежности выборок одной популяции будет нельзя.
Тут, однако, возникает другая серьезная проблема: а аналогичны ли жители города работникам завода? Давно известный "парадокс здорового работника" говорит о том, что сравнивать работников предприятий (где работают более молодые и здоровые люди) с общим населением нельзя. Обычно общее население более больное. В данном случае наблюдается как раз эта ситуация, поэтому сильно увлекаться найденными различиями я бы не стал.

Автор: DrgLena 2.10.2008 - 21:12

Да, с точки зрения статистики верно, приведенный Плавом статистический анализ показал, что на заводе распространенность БА ниже, чем в городе. Можно было бы и дальше пойти в применении стат методов. Тогда вообще можно прийти к выводу, что шанс иметь БА в 2,07 (OR) раза выше у жителей города не работающих на данном предприятии, т.е. там нужно устроить санаторий. Цель исследования, которую можно понять из замечаний рецензента, сравнить распространенность на заводе и в городе с приведенной для городов Свердловской области, т.е. с 5.7-5.9%. Поэтому рецензент рекомендует сделать такие же сравнения, т.е. посредством доверительных интервалов, что для эпидемиологических исследований более логично, чем статистическая проверка гипотез. Тогда и вывод будет простой: на заводе и в этом городе распространенность БА (процент выявленных) аналогична популяционной для Свердловской области.

Автор: Игорь 3.10.2008 - 15:37

Цитата(Naum @ 2.10.2008 - 08:20) *
... При сопоставлении распространенности БА необходимо сравнивать известные популяционные величины и доверительный интервал данного исследования, а не точечную оценку. Так, 95% ДИ для распространенности БА 37/567=6.53% составляет 4.75-8.89. Данный интервал включает величины распространенности БА в городах Свердловской области (5.7-5.9%), следовательно, различий в распространенности БА в сравниваемых регионах нет.

Вопрос интересный, т.к. данный вывод предполагает, к примеру, следующее: в одном регионе распространенность 4.76, в другом 8.88. Между ними нет различия на основании того, что оба значения входят в доверительный интервал для 6.53. Несмотря на то, что различия между точечными оценками значений - двукратные. И это - реальные заболевшие люди, а не некий интервал. Т.е., реально, мы утверждаем, что двукратная разница в распространенности заболеваний - не основание, чтобы считать, что различия в заболеваниях имеют место.

Чтобы понятнее было, немного гротеска. У меня пусть запрлата 20 000 рублей, у naum - 10 000. Но разницы между нашими зарплатами нет никакой, т.к. обе они укладываются в доверительный интервал зарплаты Ивана Ивановича. Да, и еще - я работаю на ставку, и naum - на ставку. Но можно вполне заставить naum работать еще на 1 ставку (за те же деньги), т.к. обе ставки укладываются в доверительный интервал для 1,5 ставок Петра Петровича, и, значит, различий между ними нет.

Поэтому хотелось бы обоснования и ссылок на источники. Уважаемый(ая) naum, просьба сообщить ссылку на источник, на основании которого сделан данный вывод. Вероятно, рецензент дал Вам такую ссылку?

Уважаемый(ая) DrgLena, а где тут разность пропорций? Тут доли. А никаких пропорций нет. Английское proportion в ряде русскоязычных публикаций неадекватно переводится, как пропорция, а должно - как доля. Пропорцией, как нас еще в школе учили, называют равенство отношений двух пар величин - a/b = c/d. Вот пропорция. А если у вас a/b - какая же это пропорция?

Кстати, для долей можно посчитать дисперсии и формально составить для них аналог критерия Стьюдента.

Тут вообще явно что-то не то. Могу хоть сейчас привести пару выборок, медиана которой вместе с доверительными интервалами полностью укладывается в ДИ медианы другой выборки, а p-значение по Вилкоксону весьма мало.

Автор: DrgLena 3.10.2008 - 20:12

Да, используя англоязычные программы, я не точно использую термин, а именно proportion ? действительно доля в процентах, а не пропорция. Во всем остальном я с Игорем не согласна. Пример с зарплатой не корректен, у Ив.Ив зарплата без ДИ. Различия в 2 раз по зарплате у двух человек будет действительно в 2 раза. А вот в эпидемиологических или клинических исследованиях различия в 2 раза могут вовсе никого не устроить. Например, один препарат снижает вес на 1%, а другой за то же время на 2%, вы при этом тоже можете утверждать, что эффект в 2 раза больше и если группы будут не менее 2316, то это будет статистически значимое различие и фирма с радостью заплатит за такое исследование. Однако, с клинической точки зрения доказательства не убедительны. Клиницист должен оценить нижнюю границу ДИ, достаточен ли достигнутый эффект? Для эпидемиологических исследований ДИ дает возможность сравнивать распространенность заболеваний с уже опубликованными данными, например с другими регионами или с другими производствами.
Хорошо написано о «вероятности и доверии» в книгах: Триша Гринхальх «Основы доказательной медицины» М.2006, которая ссылается на работу Гордона Гайатта «Основы статистики для клиницистов». Книга Гайатта «Путеводитель читателя медицинской литературы. Принципы клинической практики основанной на доказанном». М 2003, есть на русском языке.
Цитата из Гайатта «Зачем использовать одно критическое значение (для статистической значимости ) , когда выбор такой точки спорен? Зачем делать вопрос, эффективно ли лечение дихотомичным (решение «да» или «нет»), когда правильнее наблюдать это как непрерывный континуум?

По поводу медиан, их представляют не с доверительными интервалами, а с квартилями и сравнивают соответствующими критериями.

Также не считаю разумным "для долей считать дисперсию и составлять для них аналог критерия Стьюдента".

В статье проверялась гипотеза (медицинская) о том, влияет ли работа на вредном производстве на заболеваемость БА?. Первое сравнение город с городами Свердловской области, второе завод с городом. Все значения - в интервале области. Вывод - работа на заводе не приводит к увеличению больных БА. А если уж использовать "р", то тут два сравнения, поэтому достигрутый уровень значимости нужно умножить на 2 и тогда санаторий на заводе можно не устраивать.


Автор: Игорь 4.10.2008 - 09:57

Цитата(DrgLena @ 3.10.2008 - 21:12) *
Во всем остальном я с Игорем не согласна.

Да и правильно. Это же художественный образ. Принципиальных возражений у меня нет. Моя аргументация похожа на ту, которой пользовался недавно в [неофициально-дружеском] разговоре со мной один из организаторов науки (д.м.н., профессор), обосновывая свою позицию, почему в клинических исследованиях статистика вообще не нужна.
Цитата(DrgLena @ 3.10.2008 - 21:12) *
По поводу медиан, их представляют не с доверительными интервалами, а с квартилями и сравнивают соответствующими критериями.

Вот тут уже я не согласен. Медианы представляют с ДИ. И это - не квартили. Формулы вычисления ДИ медиан имеются. Это не в тему, но если нужны ссылки, сообщу.
Цитата(DrgLena @ 3.10.2008 - 21:12) *
Также не считаю разумным "для долей считать дисперсию и составлять для них аналог критерия Стьюдента".

Не вижу препятствий. Например, для энтропий мы же так может поступить (называется - критерий Хатчесона).

Автор: DrgLena 4.10.2008 - 10:54

Первична, все же, научная идея, а статистика помогает ее подтвердить или опровергнуть. А у нас часто получается, что сначала собирают данные, потом пытаются найти где-нибудь какое-нибуть статистически достоверное различие, а потом думают, как его объяснить, а отсюда и вывод, что полезно работать на вредном производстве. В свое время вы и Плав мне очень помогли со ссылками по теории информации. По поводу медиан, аналогичная просьба, поскольку у меня данные, которые приводятся в иностранных публикациях, а также Реброва рекомендует и графически представляет медиану и в качестве характеристики рассеяния объектов мин макс, 25 и 75 процентиль, 10, 90 процентиль. В стандартных статистичесикх пакетах тоже нет ДИ к медиане. Т.о. если в публикации приводят медиану и квартили, то можно самостоятельно провести сравнение своих данных или данных других публикаций.

Автор: Игорь 4.10.2008 - 12:03

Цитата(DrgLena @ 4.10.2008 - 11:54) *
Первична, все же, научная идея, а статистика помогает ее подтвердить или опровергнуть. А у нас часто получается, что сначала собирают данные, потом пытаются найти где-нибудь какое-нибуть статистически достоверное различие, а потом думают, как его объяснить, а отсюда и вывод, что полезно работать на вредном производстве. В свое время вы и Плав мне очень помогли со ссылками по теории информации. По поводу медиан, аналогичная просьба, поскольку у меня данные, которые приводятся в иностранных публикациях, а также Реброва рекомендует и графически представляет медиану и в качестве характеристики рассеяния объектов мин макс, 25 и 75 процентиль, 10, 90 процентиль. В стандартных статистичесикх пакетах тоже нет ДИ к медиане. Т.о. если в публикации приводят медиану и квартили, то можно самостоятельно провести сравнение своих данных или данных других публикаций.

Есть пара ссылок по ДИ медианы:
1. Орлов А.И. Непараметрическое точечное и интервальное оценивание характеристик распределения // Заводская лаборатория. Диагностика материалов, 2004, т. 70, № 5, с. 65-70. Благодаря любезности автора, работа доступна в Интернете бесплатно http://orlovs.pp.ru/stat/s1p4rasp.zip
2. Монография, к которой, что бы мы не исследовали, но возвращаемся всегда, как к Библии: Холлендер М., Вулф Д. Непараметрические методы статистики. - М.: Финансы и статистика, 1983. Страницу сейчас не скажу, т.к. моя библиотека лежит на работе, а я в отпуске.

Считает ДИ медианы (не поручусь только, правильно или нет) программа AtteStat.

Автор: DrgLena 4.10.2008 - 12:16

Спасибо, но это ссылки, как можно посчитать, я не сомневаюсь в том, что это можно посчитать, и на этом форуме Плав об этом писал. Я же спрашиваю, зачем это считать. Какие преимущества это дает в восприятии данных. Поэтому, я и прошу ссылки на медицинские журналы, где приводят ДИ к медиане.

Автор: Игорь 4.10.2008 - 12:40

Цитата(DrgLena @ 4.10.2008 - 13:16) *
Я же спрашиваю, зачем это считать. Какие преимущества это дает в восприятии данных. Поэтому, я и прошу ссылки на медицинские журналы, где приводят ДИ к медиане.

Зачем считать ДИ медианы? - Чтобы получить интервальную оценку.
Реброва не велела, т.к. в программе STATISTICA их нет? - Ну, не считайте.
Словом, выбор за исследователем.

Ссылку на медицинские журналы дать не могу - не искал специально. Может, их и нет. Помните, в "Собачьем сердце" что ответил профессор по кафедре кожных болезней Бундарев на просьбу профессора Преображенского прокомментировать создание Существа? Он сказал буквально: "Случай не описан в литературе". В этом и сила медицинской науки (всегда можно на кого-то сослаться), и слабость (кто-то должен быть первым).

Автор: DrgLena 4.10.2008 - 13:40

Да, ваша логика железная, все согласны, что первым быть трудно. Но в данном случае и не нужно. Поскольку, если вспомнимть, как пост назывался "Доверительный интервал или критерий Стьюдента", то станет ясно, что автору вообще не до медианы, а ДИ ему нужно к доле. С рецензентом я абсолютно согласна, поскольку распространенность должна оцениваться не точечно, а интервально и этот интервал нужен к доле, а не к медиане.

Автор: Игорь 4.10.2008 - 13:52

И все-таки вопрос открыт. Автор темы затронул важную проблему. И она шире доли с ДИ. А именно: почему статистический критерий показывает результаты, отличные от результатов сравнения параметров с ДИ? Естественно, критерий соотвествует данным. Тут автор немного ошибся (доли и Стьюдент). Если поправить - доли с ДИ и ТМФ, либо медианы с ДИ и Вилкоксон, либо средние с ДИ и Стьюдент. Не суть важно - соотношения закономерны. Всегда по параметру с ДИ отличий нет, по критерию - есть.

И хотелось бы получить ответ на данный вопрос. Иначе - хотим различия - берем критерий проверки гипотез. Не хотим различий - смотрим ДИ. В конкретном случае - хотим доказать, что различия есть - берем ТМФ. Хотим завалить статью - берем ДИ и доказываем, что различий нет.

Автор: DrgLena 4.10.2008 - 14:54

Цитата
Всегда по параметру с ДИ отличий нет, по критерию - есть.

Вот это уж точно не так! Про Ди к медианам я утверждать не стану, а по поводу анализа различий средних значений количественных показателей по критерию Стьюдента и демонстрация этих различий посредством ДИ, под рукой сколько угодно примеров. Если вы выбрали 5% уровень значимости и построили 95% ДИ, то ДИ пересекутся, если различия не доказаны с помощью критерия. К оценке рисков ДИ к RR или OR также не будут пересекаться, если по таблице сопряженности, оцененной по хи-кв различия доказаны.

Автор: Игорь 4.10.2008 - 15:06

Как оказалось, можно подтвердить и ту, и другую точки зрения. Есть масса данных, подтверждающих точку зрения DrgLena. А вот, к примеру
Выборка 1
0,18
0,27
0,19
0,36
0,43
Выборка 2
0,41
0,38
0,73
0,49
0,58

Критерий Вилкоксона
Статистика
17,00
P-значение (двустороннее)
0,0184
Параметры выборок с доверительными интервалами
Выборка 1
Медиана 0,27
Нижний 95% 0,18
Верхний 95% 0,43
Выборка 2
Медиана 0,49
Нижний 95% 0,38
Верхний 95% 0,73

ДИ пересеклись

Критерий Стьюдента для независимых выборок
2,91
P-значение (двустороннее)
0,0196
Параметры выборок с доверительными интервалами
Выборка 1
Среднее 0,29
Нижний 95% 0,15
Верхний 95% 0,42
Выборка 2
Среднее 0,52
Нижний 95% 0,34
Верхний 95% 0,69

ДИ пересеклись

Автор: плав 4.10.2008 - 18:24

Так я же вышел писал, что разная мощность критериев. Можно взять одни и те же данные (главное, небольшую выборку), использовать критерий знаков и критерий Вилкоксона и получить разные значения р - один выше 0,05 (для знаков), другой - ниже. Тут ничего удивительного нет.
По поводу доверительных интервалов медианы - их не считают поскольку формулы для рассчета базируются на разных допущениях и единого мнения по поводу адекватности допущений нет. Вспомните проблемы (в другой ветке) формулы ДИ для долей и все станет понятно - то же самое. Формула ДИ медианы, которую я люблю использовать, например, базируется на биномиальном распределении (а многие формулы вообще использую нормальную аппроксимацию).

Автор: DrgLena 4.10.2008 - 21:01

Для примера Игоря вряд ли целесообразно считать 95% ДИ для средних из 5 наблюдений. Какой смысл указывать диапазон, в котором будет находиться 95% из 5 наблюдений.
Медианы и квартили дают полное представление о данных, что и представленно на рисунке. Но рисунки похоже не грузятся.

Автор: Игорь 5.10.2008 - 14:09

Цитата(DrgLena @ 4.10.2008 - 21:01) *
Для примера Игоря вряд ли целесообразно считать 95% ДИ для средних из 5 наблюдений. Какой смысл указывать диапазон, в котором будет находиться 95% из 5 наблюдений.
Медианы и квартили дают полное представление о данных, что и представленно на рисунке. Но рисунки похоже не грузятся.

Это просто очень хороший, по нашему мнению, пример для иллюстрации того факта, что метод ДИ и любой из методов проверки гипотез (в сопоставимой шкале, естественно) не всегда дают эквивалентные результаты. Т.о., имеется возможность для манипуляции выводами так, как это необходимо исследователю (зачем это ему нужно - отдельный вопрос). В результате снижается доверие к статистическим методам исследования. Если не дать объяснение данному факту, сторонники отрицания статистических методов получают мощный козырь в своих логических построениях, вплоть до полного отрицания возможности их применения в медико-биологических исследованиях.

Автор: DoctorStat 5.10.2008 - 14:42

Как уже было замечено в этой ветке дискуссии, разные методы сравнения обладают разной мощностью (другое название - чувствительностью). Мощность - это вероятность обнаружения различий (болезни). Хи-квадрат и Фишер показали, что заболеваемость в 2-х выборках - завода и города отличается, а метод пересечения доверительных интервалов не уловил отличий. Следовательно, первые два метода обладают бОльшей мощностью. Задача исследователя в данной ситуации не выбирать метод, результаты которого его устраивают, а воспользоваться методом с наибольшей МОЩНОСТЬЮ.

Автор: Игорь 5.10.2008 - 15:43

Цитата(DoctorStat @ 5.10.2008 - 14:42) *
Задача исследователя в данной ситуации не выбирать метод, результаты которого его устраивают, а воспользоваться методом с наибольшей МОЩНОСТЬЮ.

К сожалению, данная фраза обратима. На деле справедливо и обратное: можно выбрать метод, обладающей той мощностью, которая обеспечит подгонку выводов под требуемый результат.

Относительно приведенных выше данных. Если в статье требуется показать, что нет оснований отвергнуть гипотезу о различиях, используем Стьюдента или Вилкоксона. Если наоборот - используем метод ДИ.

Автор: Игорь 9.10.2008 - 07:49

Доверительные интервалы стали модной темой, и это следует признать. От неправильного применения критерия Стьюдента исследователи плавно перешли к неправильному применению доверительных интервалов.

Вообще, что означает, скажем, 95% доверительный интервал? Он означает, что 95% значений популяции (при условии нормального распределения ошибки) будет находиться в пределах данного интервала. И нечего более. Построить 95% интервал, затем брать случайные величины и смотреть, попадают ли они в этот интервал. Если попадают - делать вывод об некоем отсутствии различия между данной величиной и центром интервала - полная [если не сказать еще грубее] профанация идеи доверительных интервалов.

Обратите также внимание, что нормальность ошибки никто не тестировал! А ДИ построены в предположении нормальности.

Попытка "создать" метод проверки гипотез по названием "метод доверительных интервалов" вызывает, мягко говоря, удивление, ибо данный метод, на ходу "созданный" неким рецензентом в попытке найти метод получить заранее заданный результат (написать отрицательную рецензию) и так горячо поддержанный некоторыми участниками форума не имеет:
1. Сформулированных нулевой и альтернативной гипотез.
2. Статистики критерия.
3. P-значения.
Нет тут никого критерия и никакой "мощности". О профанации см. выше.

Во-вторых, "положения" случайных величин из двух популяций в пределах их доверительных интервала не равноценны. Если уж пользоваться для сравнения (очень примерного - сказал бы, глазомерного) случайных величин новоявленным методом, то следует изображать их не в виде подобия ящика с усами, а в виде функций [нормального] распределения ошибки, причем на одном поле графика. Тогда по крайней мере будет видно, расположена величина близко к центру распределения или на его хвосте (на пересечении хвостов). Можно будет также вычислить P-значение.

Собственно, вот мы и пришли к критерию Стьюдента. И автор темы был совершенно прав. И критерий такой есть - похожий на Стьюдента. Называется Z-критерий для долей и представлен в литературе.

Автор: плав 10.10.2008 - 19:03

Цитата(Игорь @ 9.10.2008 - 08:49) *
Доверительные интервалы стали модной темой, и это следует признать. От неправильного применения критерия Стьюдента исследователи плавно перешли к неправильному применению доверительных интервалов.

Вообще, что означает, скажем, 95% доверительный интервал? Он означает, что 95% значений популяции (при условии нормального распределения ошибки) будет находиться в пределах данного интервала. И нечего более. Построить 95% интервал, затем брать случайные величины и смотреть, попадают ли они в этот интервал. Если попадают - делать вывод об некоем отсутствии различия между данной величиной и центром интервала - полная [если не сказать еще грубее] профанация идеи доверительных интервалов.

Обратите также внимание, что нормальность ошибки никто не тестировал! А ДИ построены в предположении нормальности.

Попытка "создать" метод проверки гипотез по названием "метод доверительных интервалов" вызывает, мягко говоря, удивление, ибо данный метод, на ходу "созданный" неким рецензентом в попытке найти метод получить заранее заданный результат (написать отрицательную рецензию) и так горячо поддержанный некоторыми участниками форума не имеет:
1. Сформулированных нулевой и альтернативной гипотез.
2. Статистики критерия.
3. P-значения.
Нет тут никого критерия и никакой "мощности". О профанации см. выше.

Во-вторых, "положения" случайных величин из двух популяций в пределах их доверительных интервала не равноценны. Если уж пользоваться для сравнения (очень примерного - сказал бы, глазомерного) случайных величин новоявленным методом, то следует изображать их не в виде подобия ящика с усами, а в виде функций [нормального] распределения ошибки, причем на одном поле графика. Тогда по крайней мере будет видно, расположена величина близко к центру распределения или на его хвосте (на пересечении хвостов). Можно будет также вычислить P-значение.

Собственно, вот мы и пришли к критерию Стьюдента. И автор темы был совершенно прав. И критерий такой есть - похожий на Стьюдента. Называется Z-критерий для долей и представлен в литературе.

Не могу не встрять, поскольку критика доверительного интервала основана на не совсем правильном его описании.
1) доверительный интервал интервалу рознь. Чаще всего рассчитываются доверительные интервалы выборочных средних (медиан и т.п.) А вот тут интервал - это интервал в котором с 95% вероятностью содержатся все возможные выборочные средние. Так что если два интервала не перекрываются в первом приближении можно считать, что общих выборочных средних у них быть не должно, поскольку они из разных популяций (для пуристов добавлю, что я знаю, что в реальности доверительный интервал - это такой интервал, который, будучи построен на выборочных средних будет пересекаться у 95% всех возможных выборок из данной популяции). Соответственно, нормальное распределение тут - по центральной предельной теореме - ни при чем, при достаточно большой выборке средние (медианы) будут всегда распределены нормально.
2) доверительные интервалы более информативны, чем р-оценка по причине демонстрации читателю (через ширину интервала, которая отражает ошибку) качества исследования
3) z-критерий и t-критерий различны по одной простой причине. Z-критерий предполагает нормальное распределение параметра (в данном случае долей) с известной дисперсией - это в описанном выше случае явно не выполнялось. T-критерий предполагает оценку дисперсии на основании выборочной дисперсии. Иными словами, предлагая z-критерий делается предположение о нормальном распределении выборочных долей, которое критикуется абзацем выше для доверительного интервала.
4) Учитывая все выше сказанное, рецензент был абсолютно прав, предлагая использование доверительных интервалов, но сранвение выборок путем сравнения доверительных интервалов имеет меньшую мощность, хотя так же закономерно, как использование аппроксимационных методов типа z-критерия и хуже и хуже, чем использование методов не предполагающих нормальность распределение выборочных долей (т.е. не так зависящих от размера выборки) как критерии хи2 или Фишера.

Автор: Игорь 11.10.2008 - 17:44

Цитата(плав @ 10.10.2008 - 20:03) *
в первом приближении можно считать, что ...

Именно. Предлагаемый рецензентом метод имеет мощность глазомерного метода - т.е. никакую. Такой же или еще большей мощности результат можно получить гораздо проще. Подойти к какой-нибудь бабушке на лавочке возле дома и спросить: "Какая у Вас распространенность такого-то заболевания по региону?" - "6,7%, милок!" А ведь тоже критерий. И мощность у него какая-то есть. А уж стоимость исследования вне конкуренции.

Я совсем не отрицаю полезности доверительных интервалов в конкретном случае. Их можно, по крайней мере, красиво изобразить, увеличив наглядность восприятия.

Мы немного позабыли, о чем речь в первом посте инициатора темы. Некто строит доверительные интервалы для некоторого параметра популяции - Свердловской области. Потом берет точечные оценки этого же, как он предполагает, параметра по некоторым частям этой популяции и смотрит, попадают ли эти точечные оценки в интервал. Не сравнение двух интервальных оценок - бог с ними (в принципе можно, хотя и не нужно - есть более годные методы), а сравнение интервальной оценки с точечной оценкой.

Теперь пример (модельный, т.к. реальные данные не полные)
Пусть есть 76 случаев и 1000 неслучаев.
Тогда рассчитанная доля 0,07063197
Дисперсия доли 0,007810672
Доверительный интервал доли
Нижний 95% 0,056050251
Верхний 95% 0,087611659

Пользуясь логикой рецензента, 0,05 и 0,09 не входят в 95% интервал. Следовательно, отличаются от доли.

Теперь будет фокус. Посчитаем 99% интервал
Нижний 99% 0,051988615
Верхний 99% 0,09318096

О чудо: 0,05 и 0,09 входят в 99% интервал. Следовательно, не отличаются от доли.

Теперь ее круче. Посчитаем 99,9% интервал.
Нижний 99,9% 0,047520516
Верхний 99,9% 0,099895701

Нет. Это просто фантастика. Возможности метода безграничны!
Почему так? Да метод - прошу прощения, некорректен.

Даже простая логика показывает, что заболеваемость (тем более в Свердловской или иной области за Уралом) будет различаться в различных ее регионах или на предприятиях, или в рабочих поселках при этих предприятиях. Например, большой завод или, к примеру, отделение дороги, имеет свою, часто мощную, санчасть: регулярные профосмотры, диспансеризация, санатории позволяют нейтрализовать воздействие вредных факторов, даже если они имеют место. С другой стороны - обычное население, здоровье которого - их личное дело, когда даже простого направления в областной кардиодиспансер (который без направление не принимает) обычные пенсионеры добиваются от участкового терапевта по полтора года!

Автор: плав 12.10.2008 - 19:01

Честно говоря, я этого возражения просто не понял. Если мы берем 99% доверительный интервал, то он шире, чем 95%. А если мы берем р-оценку, то 0,01 меньше, чем 0,05. В чем тут различия и в чем фантастика.
По-моему тут начинается путаница с вообще представлением о том, на какие вопросы отвечает статистика. Мы всегда пытаемся определить степень ошибочности наших заключений. Взяв выборку и рассчитав ДИ (95%) мы считаем, что скорее всего эта выборка пришла из иной популяции, нежели общее население области (гомогенное население). А если мы возьмем 100% ДИ, то любые (популяционные) значения будут совместными с данной выборкой ибо, как известно, возможно все кроме проезда на лыжах сквозь вращающуюся дверь.
Подчеркну, чтобы не было недопониманий. НИКАКИХ различий (теоретических) в использовании ДИ для тестирования статистических гипотез в отличии от методов, основанных на расчете статистик НЕТ. Соответственно, мощность, не умозрительная, а также легко оцениваемая, как для t-теста или критерия хи2.
Метод абсолютно корректен, более того, обратите внимания на простейшую ситуацию:
ДИ=m+/-t*s => (1/2ДИ - m)= t*s => t=(X-m)/s,
т.е. нижняя граница ДИ для (непрерывной величины) - это значения, которому соответствует р=0,05.
Еще раз - ДИ и расчеты статистик одинаковы с точки зрения оценки результатов.

Автор: hongma 13.10.2008 - 07:48

Цитата(Игорь @ 4.10.2008 - 14:52) *
И все-таки вопрос открыт. Автор темы затронул важную проблему. И она шире доли с ДИ. А именно: почему статистический критерий показывает результаты, отличные от результатов сравнения параметров с ДИ? Естественно, критерий соотвествует данным. Тут автор немного ошибся (доли и Стьюдент). Если поправить - доли с ДИ и ТМФ, либо медианы с ДИ и Вилкоксон, либо средние с ДИ и Стьюдент. Не суть важно - соотношения закономерны. Всегда по параметру с ДИ отличий нет, по критерию - есть.

И хотелось бы получить ответ на данный вопрос. Иначе - хотим различия - берем критерий проверки гипотез. Не хотим различий - смотрим ДИ. В конкретном случае - хотим доказать, что различия есть - берем ТМФ. Хотим завалить статью - берем ДИ и доказываем, что различий нет.

Здравствуйте smile.gif
Ну, во-первых, не всегда вообще очень хорошо работать с доверит.интервалом. Тут как раз такой случай и есть - считается интервал для сравнительно небольшой выборки и распространяется повсюду. Если уж им пользоваться, то лучше наоборот - брать значение доверит. интервала из наибольшей выборки. Далее. Общая стратегия оценки различий - стараться использовать несколько критериев и если хоть один из них дает высокую вероятность - отличия есть. Там, правда, есть некоторые тонкости,но они пока здесь не нужны. Поэтому здесь раз Стьюдент дал отличие - оно значимо и точка. Подозреваю, что если почитать, скажем, Вилкоксона - тоже будут значимые различия выборок. Для полной очистки совести стоит попробовать так и сделать.

Автор: плав 13.10.2008 - 09:20

Цитата(hongma @ 13.10.2008 - 08:48) *
Здравствуйте smile.gif
Ну, во-первых, не всегда вообще очень хорошо работать с доверит.интервалом. Тут как раз такой случай и есть - считается интервал для сравнительно небольшой выборки и распространяется повсюду. Если уж им пользоваться, то лучше наоборот - брать значение доверит. интервала из наибольшей выборки. Далее. Общая стратегия оценки различий - стараться использовать несколько критериев и если хоть один из них дает высокую вероятность - отличия есть. Там, правда, есть некоторые тонкости,но они пока здесь не нужны. Поэтому здесь раз Стьюдент дал отличие - оно значимо и точка. Подозреваю, что если почитать, скажем, Вилкоксона - тоже будут значимые различия выборок. Для полной очистки совести стоит попробовать так и сделать.

И с чего это такой совет? Итак, доверительный интервал - это интервал, который рассчитывается на основании ВЫБОРОЧНЫХ данных и показывает множество точечных значений, совместимых с этой выборкой. А Вы предлагаете взять и использовать точечное значение как будто оно является постоянной величиной, а не точной.
То, что написано как стратегия оценки является - скажем мягко - не совсем верно. Тест выбирается на основе знания особенностей популяции и предположений о характере популяционных данных. Предложение использовать несколько тестов и смотреть на тот, что дает наибольшие различия (кстати, с высокой вероятностью - как раз не даст различий, р=0,07 > р=0,03) является, опять-таки мягко говоря, не вполне профессиональным.
Кроме того, автор поста, похоже, не читал ветку - речь идет о сравнении долей. Если же он читал и в этом случае его рекомендация "Поэтому здесь раз Стьюдент дал отличие - оно значимо и точка", то подобные "революционные" заявления требуют подкрепления ссылками.

Автор: Nikita 27.10.2008 - 01:53

Цитата(Игорь @ 4.10.2008 - 13:52) *
И все-таки вопрос открыт. Автор темы затронул важную проблему. И она шире доли с ДИ. А именно: почему статистический критерий показывает результаты, отличные от результатов сравнения параметров с ДИ? Естественно, критерий соотвествует данным. Тут автор немного ошибся (доли и Стьюдент). Если поправить - доли с ДИ и ТМФ, либо медианы с ДИ и Вилкоксон, либо средние с ДИ и Стьюдент. Не суть важно - соотношения закономерны. Всегда по параметру с ДИ отличий нет, по критерию - есть. И хотелось бы получить ответ на данный вопрос. Иначе - хотим различия - берем критерий проверки гипотез. Не хотим различий - смотрим ДИ. В конкретном случае - хотим доказать, что различия есть - берем ТМФ. Хотим завалить статью - берем ДИ и доказываем, что различий нет.

Уважаемые господа! Надо все-таки расставить точки над i в вопросе о применимости ИН - интервалов накрытия (синонимы: интервалы доверия или доверительные интервалы) при проверках статистических гипотез. Ответ этот известен давно (не мной придуман) и однозначен. Да, ИН не только можно, но крайне желательно применять наряду с P-значением (или даже вместо него). Потому что между интервалом накрытия и проверкой статистических гипотез имеет место наитеснейшая связь, фактически однозначное соответствие. Это общеизвестный факт.
Логика в этом деле предельно проста. Судите сами: 1-a есть вероятность накрытия (синонимы: вероятность доверия, доверительная вероятность, доверительный уровень), где ее дополнение "a" выбирается по возможности (разумно) малым и называется уровнем значимости. Вот и все: процедура проверки статистических гипотез фактически равноценна процедуре интервального оценивания. Вероятность накрытия неизвестного (оцениваемого) параметра соответствующим интервалом накрытия и уровень значимости суть две стороны одной медали. Ибо вероятность НЕНАКРЫТИЯ и есть уровень значимости. Об этом написаны статьи и книги, масса информации в Интернете. Наберите, например, в Amazon ключевые слова confidence intervals, и Вы увидите, сколько в мире книг на эту тему. Для биомедиков основным руководством очевидно следует признать книгу с удачным названием Statistics with Confidence («Статистика с доверием"). См. также популярные статьи внизу. На русском языке кратко об этом можно прочитать у Бикела-Доксама, Королева (и многих других).
Вопрос только в том, для каких (неизвестных оцениваемых) параметров надо строить интервалы накрытия (ИН), чтобы с их помощью можно было бы проверять статистические гипотезы. Понятно, что строить ИН для (неизвестной) доли р1* - параметра распределения (Бернулли), из которого извлечена первая выборка и для (тоже неизвестной) доли р2* - тоже параметра распределения (Бернулли), из которого извлечена вторая выборка, и смотреть, перекрываются ли они или нет, - не лучший вариант. Конечно, если они не перекрываются, то это - довольно убедительное свидетельство о различии этих параметров. Мы, однако же, обычно проверяем нулевую гипотезу Но об отсутствии различий между р1* и р2*, т.е. гипотезу о том, что их разность (как соответствующий параметр совместного распределения) равна нулю: Но: d* = р1* - р2* = 0 (отсюда и название гипотезы - «нулевая»). Это значит, что ИН надо строить для параметра d*. Соответствующие процедуры (как точные, так и приближенные, асимптотические) тоже давно известны.
На ум приходит пример Naum, который она всем нам любезно представила на обсуждение . Здесь мы имеем точечную оценку для искомой разности d* (оцениваемой по имеющимся двум независимым выборкам) d = p1 - p2 = 0,094 - 0,048 = 0,046. Левая (нижняя) и правая (верхняя) границы точного 95%-го ИН для d* суть d(left) = 0,00076 и d(right) = 0,097. Границы точного 99%-го ИН суть d(left) = -0,0097 и d(right) = 0,11, и границы точного 99,9%-го ИН суть d(left) = -0,025 и d(right) = 0,14. (Не путать созвучные слова «точечный» и «точный»).
Теперь остается самая малость. Удобно не полениться и сделать проверку гипотезы Но с помощью интервала накрытия (ИН) наглядной (визуализировать такую проверку). Для этого на листе клетчатой бумаги стоит провести горизонтальную линию со стрелочкой на правом конце, которая будет отражать числовую ось для возможных значений d*, и разметить ее в подходящем арифметическом масштабе. Например, для нашего примера слева от нуля можно пометить значения -0,03; -0,02 и -0,01. А справа - значения 0,1; 0,2 и 0,3 (все шесть точек в одном и том же масштабе). Обязательно надо отметить рисочкой значение d=0. Для пущей важности от этого значения d = 0 можно провести вниз стрелочку и подписать «Но», что означает, что это значение постулируется нулевой гипотезой Но: d=0. Теперь над этой числовой осью можно нарисовать друг над другом три отрезка с границами, соответствующими границам трех полученных ИН. Ну вот и все. Логика предельно проста.
Если (1-a)х100%-й интервал накрытия накрывает значение d=0, постулируемое нулевой гипотезой (Но: d*=0), то у нас нет оснований полагать, что неизвестное нам значение разности d*, которое мы оцениваем с помощью данного интервала, статистически значимо отличается от значения d=0. Иными словами, в этом случае у нас нет оснований сомневаться в гипотезе Но (на уровне значимости ?a?). На основании того, что наш ИН накрывает значение d=0, нам ничего не остается, как признать, что разность между изучаемыми долями d*= p1*- p2* не отличается статистически значимо от нуля, т.е. наблюдаемые между двумя сравниваемыми долями различия статистически незначимы: неизвестные p1* и р2* практически неразличимы.
Ежели (1-a)х100%-й ИН не накрывает значение d=0, постулируемое гипотезой Но, то у нас появляется основание сомневаться в правильности этой гипотезы (на уровне значимости ?a?). Иными словами, в таком случае у нас появляется основание полагать, что оцениваемое с помощью данного ИН неизвестное нам значение параметра d* скорее всего отличается от значения d=0 (статистически значимо на уровне ?a?), т.е. скорее всего неизвестное нам значение разности d*=p1*-p2* статистически значимо отличается от нуля. Итак, мы совершаем акт интеллектуальной смелости: на основании того, что наш ИН (для d*) не накрывает значение d=0, мы берем на себя ответственность утверждать, что d* не равно 0, что различия между долями p1* и p2* статистически значимы на уровне "a", т.е. скорее всего неизвестные нам p1* и p2* не равны.
Итак, критерий очень простой. Накрывает ИН «нулевое значении» - нет оснований засомневаться в Но и попытаться ее отклонить. Не накрывает - появляется сомнение в Но и, соответственно, основание отклонить Но. Аналогичным образом, можно использовать такие показатели, как OR (отношение "шансов" - odds ratio) и RR (отношение рисков или относительный риск - risk ratio, relative risk). Их точечные оценки суть: OR=2,07 и RR=1,97. Для OR точные границы 95%-го ИН суть OR(left) = 1,002 и OR(right) = 4,315. Границы точного 99%-го ИН суть OR(left) = 0,81 и OR(right) = 5,38, и границы точного 99,9%-го ИН суть OR(left) = 0,63 и OR(right) = 7,00. Для RR точные границы 95%-го ИН суть RR(left) = 1,046 и RR(right) = 4,46. Границы точного 99%-го ИН суть RR(left) = 0,83 и RR(right) = 4,65, и границы точного 99,9%-го ИН суть RR(left) = 0,66 и RR(right) = 6,00. Для них также рекомендуется не полениться и произвести визуализацию, т.е. построить числовые оси, на которых надо отметить значения 1, соответствующие значениям OR или RR при условии справедливости нулевых гипотез: Но: OR*=1 и Ho: RR*=1. Над этими числовыми осями следует отобразить все три ИН для каждого из трех доверительных уровней. Критерий, естественно все тот же: накрытие или ненакрытие значений OR*=1 или RR*=1, постулируемых нулевыми гипотезами. Для всех трех показателей (d, OR и RR) результаты и выводы идеально согласуются. 95%-е интервалы накрытия (ИН) не накрывают значения, постулируемые нулевыми гипотезами (d*=0, OR*=1 и RR=1). Соответственно (чисто формально) можно выразить сомнение в этих гипотезах и отклонить их, но только на уровне значимости a=0,05. Но уже на уровне a= 0,01 нет оснований сомневаться в этих нулевые гипотезах и отклонять их, поскольку 99%-е (и уж тем более 99,9%-е) ИН накрывают значения, постулируемые нулевыми гипотезами. Этот вывод согласуется и с наблюдаемыми точными Р-значениями: Р{d}=0,0410; P{OR}=0,0493 и P{RR}=0,0357. Все они меньше критического уровня a=0,05, но больше 0,01 (и 0,001).
Может встать вопрос, почему эти три Р-значения немного различаются? Да потому что для нахождения каждого из них используются разные меры отклонения от ожидаемых значений, постулируемых Но: d, OR и RR, соответственно. В этом нет ничего удивительного. Точное Р-значение для точного критерия Фишера тоже немного другое: P{Fisher} = 0,0350 (оно основано на вычислении вероятностей для каждой из всех возможных таблиц 2х2). Точное Р-значение на основе статистики критерия хи-квадрат (X2) тоже несколько иное: P{X2}=0,0352. Точное Р-значение на основе статистики G2 (синонимы: статистика информационного критерия или статистики критерия отношения правдоподобий) вообще оказывается немного большим критического 0,05: P{G2}=0,052, а Р-значение для критерия Барнарда получается немного меньше всех других: P{Barnard}=0,030.
Только я бы не зацикливался на этих скромных различиях и не радовался бы, что вот, мол, критерий Барнарда как наиболее мощный якобы дает мне основание отклонить Но (Ура!). Во многих руководствах говорится, что значимость (различий, эффектов, корреляций и т.п.) на уровне 0,05 не следует воспринимать со звериной серьезностью. В нашем учебнике (с. 92), например, сказано, что «если 0,01 < P < 0,05, то результат считается неопределенным».
Между ИН и Р-значением действительно имеется строго однозначное соответствие. Когда обе процедуры выполнены корректно, то если вместо одного из традиционных значений альфа (0,05; 0,01 или 0,001) подставить наблюдаемое Р-значение (P{набл.}) и построить ИН с доверительным уровнем (1-Р{набл.}), то «по определению» левая (нижняя) граница такого ИН должна равняться нулю. В данном случае точное наблюдаемое Р{набл.} = 0,041, соответственно, строим 95,9%-й ИН. Получаем, что левая (нижняя) граница интервала накрытия для неизвестного параметра d* получается равной d(left) = 5,6x10-7, что практически не отличается от нуля. Аналогичным образом ведут себя и ИН для OR и RR. Для OR точное Р=0,0493. Левая (нижняя) граница соответствующего 95,07%-го ИН оказывается равной в точности 1 (d(left) = 1). Для RR точное Р=0,0357. Левая (нижняя) граница соответствующего 96,43%-го ИН опять-таки оказывается в точности равной 1: d(left) = 1. Понятно, что в данных случаях значения OR=1 и RR=1 соответствуют нулевой гипотезе о независимости между двумя выборками (или об их статистической однородности). Практически концы с концами (в прямом и переносном смыслах) сошлись. Ч.т.д. - что и требовалось доказать. Вот и вся любовь.
Все приведенные цифры получены с помощью известного пакета точных непараметрических методов анализа статистических данных StatXact-8 (Cytel, Inc. USA). Этот пакет (и его ответвления типа LogXact, Egret, East, производимые той же фирмой Cytel) в частности рекомендован FDA для анализа результатов клинических испытаний. Конечно, если использовать грубые асимптотические методы, такого идеального согласования заведомо не будет получено. Не отсюда ли у наших форумчан возникает заблуждение-убеждение, что интервалы накрытия (ИН) якобы не пригодны для проверки статистических гипотез? Отнюдь, именно ИН фактически позволяют оценить не только статистическую значимость различий (эффектов и т.п.), но и осознать практическую (клиническую, эпидемиологическую и проч.) ценность (важность) наблюдаемых эффектов (размер эффекта).
Confidence intervals rather than P values: estimation rather than hypothesis testing. MARTIN J GARDNER, DOUGLAS G ALTMAN. BMJ V. 292 (1986) p. 746-750. Interpreting statistics with confidence. Martin Bland, Janet Peacock. The Obstetrician & Gynaecologist, 2002, V. 4, No. 3, p. 176-180. Confidence Intervals and Hypothesis Testing. Greg Kochanski. http://kochanski.org/gpk
Confidence intervals rather than P values: estimation rather than hypothesis testing. M J Gardner and D G Altman. BMJ (Clin Res Ed.) 1986, 292(6522):746-750.

Автор: Игорь 27.10.2008 - 07:27

У уважаемых форумчан (по крайней мере, у некоторых из них), возник не вопрос, можно или нельзя применить доверительные интервалы для проверки гипотез, а как правильно их применять. Поэтому некотрые из уважаемых и привели ряд примеров, когда предлагаемый неким Рецензентом (назовем его так) подход оказывается несостоятельным.

Что делает Рецензент? Строит ДИ. Правильно? Ну конечно, молодец! Далее, берет точечные оценки для других популяций и смотрит, попадают ли они в данный ДИ. Попадают? Попадают. Вывод - различий нет! Полный бред!

В пору просить уважаемого В.П. Леонова написать статью типа "Итоги становления отечественной доказательной медицины: от неправильного применения критерия Стьюдента - к неправильному применению доверительных интервалов".

Вот тут написано, как правильно использовать ДИ для проверки гипотез. Не сравнение ДИ одной популяции и точечной оценки другой популяции, не смотреть, перекрываются ли интервалы, а анализировать, на СКОЛЬКО и КАК именно они перекрываются!

Smith R.W. Visual hypothesis testing with confidence intervals // SAS Users Group International Online Proceedings (SUGI-22), March 16-19, 1997, San Diego, California. Paper 270-22, pp. 1252-1257. http://www2.sas.com/proceedings/sugi22/STATS/PAPER270.PDF

Автор: DrgLena 29.10.2008 - 00:43

Не уверена, что Леонову нужно писать статью с таким названием, можно скомпроментировать этот простой и наглядный метод сравнения. И ответ рецензента вряд ли можно назвать «бредом». Доказательная медицина - это совсем не про критерий Стьюдента. Кто не только считает, но и много читает, знает, что в международных медицинских журналах, в эпидемиологических исследованиях принято распространенность заболеваний приводить с доверительными интервалами. В этом случае, читатель сам может провести сравнения, если конечно, он понимает, что такое CI. А если не понимает, то станет утверждать, что у нас заболеваемость «К» (составляющая 4,7 на тыс.населения) ниже, чем в Германии (5,1), но выше чем в Греции (4,2) поскольку не обратил внимание на величину ДИ к точечной оценке распространенности в Германии и Греции, а к своей оценке вообще не знает, что его нужно было посчитать. А на сколько и как Ди перекрываются, вы как раз и увидите на соответствующих графиках.

Автор: плав 29.10.2008 - 16:25

Цитата(Игорь @ 27.10.2008 - 07:27) *
У уважаемых форумчан (по крайней мере, у некоторых из них), возник не вопрос, можно или нельзя применить доверительные интервалы для проверки гипотез, а как правильно их применять. Поэтому некотрые из уважаемых и привели ряд примеров, когда предлагаемый неким Рецензентом (назовем его так) подход оказывается несостоятельным.

Что делает Рецензент? Строит ДИ. Правильно? Ну конечно, молодец! Далее, берет точечные оценки для других популяций и смотрит, попадают ли они в данный ДИ. Попадают? Попадают. Вывод - различий нет! Полный бред!

В пору просить уважаемого В.П. Леонова написать статью типа "Итоги становления отечественной доказательной медицины: от неправильного применения критерия Стьюдента - к неправильному применению доверительных интервалов".

Вот тут написано, как правильно использовать ДИ для проверки гипотез. Не сравнение ДИ одной популяции и точечной оценки другой популяции, не смотреть, перекрываются ли интервалы, а анализировать, на СКОЛЬКО и КАК именно они перекрываются!

Smith R.W. Visual hypothesis testing with confidence intervals // SAS Users Group International Online Proceedings (SUGI-22), March 16-19, 1997, San Diego, California. Paper 270-22, pp. 1252-1257. http://www2.sas.com/proceedings/sugi22/STATS/PAPER270.PDF

А я все-таки не понял, почему Рецензент не прав. Итак у нас есть выборка. На ее основании построили интервал в котором (с определенной вероятностью) содержится популяциионное значение (точнее, популяционные значения, совместимые с данным набором результатов - определение ДИ, сделанного по максимальному правдоподобию). Затем берется популяционное значение (другой вопрос, откуда мы знаем, что оно популяционное) и смотрится, укладывается ли оно в интервал. Если его в этом интервале нет, значит эта популяция вряд ли породила данную выборку.
Другое дело, что Рецензенту можно задать вопрос, а почему он данные по регистрации считает популяционными, а не выборочными тоже. Если не соглашаться с ним в этом, то Игорь абсолютно прав и тогда надо было сравнивать два выборочных значения.
Просто мы пытаемся ответить на разные вопросы smile.gif

Автор: Varta 29.10.2008 - 16:33

Простите, что вмешиваюсь, но формулировка вопроса нехороша. Вы и так уже знаете, что рабочие этого завода живут в свердловской области. Смысл решать - принадлежат они популяции, или нет.
Вопрос стоит ведь не в этом.
Спасибо за интересные ссылки помещенные в этой теме.

Автор: плав 29.10.2008 - 16:51

Цитата(Varta @ 29.10.2008 - 16:33) *
Простите, что вмешиваюсь, но формулировка вопроса нехороша. Вы и так уже знаете, что рабочие этого завода живут в свердловской области. Смысл решать - принадлежат они популяции, или нет.
Вопрос стоит ведь не в этом.
Спасибо за интересные ссылки помещенные в этой теме.

Не, вопрос в другом - являются ли так называемые "популяционные" данные по Свердловской области действительно популяционными. Тот факт, что это данные регистрации всех случаев еще не делает их популяционными. Если бы было проведено обследование всех лиц в Свердловской области и было выявлено наличие или отсутствие БА у каждого из них, можно было бы говорить о популяционной величине распространенности БА. А так...

Автор: Varta 30.10.2008 - 10:12

Вы правы, тут некорректное использование понятий.
В любом случае, основная проблема этого исследования не в статистике, а в правильно подобранном контроле и в том, что оно одномоментное. Корректнее было бы брать не распространенность, а частоту новых случаев, тогда бы не было таких парадоксальных результатов. Тут все равно нельзя однозначно утверждать, что рабочие завода меньше болеют. более вероятно скорее то, что те кто болеет астмой на этом заводе не работают.

Автор: Света K 15.12.2011 - 11:23

А можно ли при помощи ДИ устанавливать есть ли различия в нижеприведенных данных (разные штаммы) и как это сделать?
И второй вопрос, при помощи какого метода/методов эти возможные различия лучше оценить и почему?
Желательно привести пример расчета и вывод, чтобы легче было разобраться.

Итак, данные. Бактерии-продуценты штаммов Ш1 и Ш2 подкармливали смесью углеводов в концентрации С1, С2 и С3 и определяли процент усваивания углевода1 и коэффициент k общего остатка углеводов.
Опыт повторили трижды и вычислили среднее арифм. c ошибкой и коэффициент:
Ш1:
С1: 27,3 +/- 0,52 k=0,7
С2: 25,8 +/- 0,56 k=2,2
C3: 23,2 +/- 0,57 k=4,8
Ш2:
С1: 27,4 +/- 0,56 k=0,6
С2: 26,2 +/- 0,58 k=1,8
С3: 25,3 +/- 0,55 k=2,7

Автор: p2004r 15.12.2011 - 12:19

Цитата(Света K @ 15.12.2011 - 11:23) *
А можно ли при помощи ДИ устанавливать есть ли различия в нижеприведенных данных (разные штаммы) и как это сделать?
И второй вопрос, при помощи какого метода/методов эти возможные различия лучше оценить и почему?
Желательно привести пример расчета и вывод, чтобы легче было разобраться.

Итак, данные. Бактерии-продуценты штаммов Ш1 и Ш2 подкармливали смесью углеводов в концентрации С1, С2 и С3 и определяли процент усваивания углевода1 и коэффициент k общего остатка углеводов.
Опыт повторили трижды и вычислили среднее арифм. c ошибкой и коэффициент:
Ш1:
С1: 27,3 +/- 0,52 k=0,7
С2: 25,8 +/- 0,56 k=2,2
C3: 23,2 +/- 0,57 k=4,8
Ш2:
С1: 27,4 +/- 0,56 k=0,6
С2: 26,2 +/- 0,58 k=1,8
С3: 25,3 +/- 0,55 k=2,7


0) зачем вы тролите поднимая покрытые мохом темы?

1) это задача из учебника?

2) а что за "ошибка" у матожидания имеется в виду? почему нет "ошибки" у коэффициента?


Автор: Света K 15.12.2011 - 13:05

0) мне сказали, что различия значимы и их можно посчитать через ДИ, хочется убедиться что это так
1) реальные данные
2) ошибка ср. арифм., а вторую ошибку не считали (типа и так все понятно).

Так что с ответом?

Автор: nokh 15.12.2011 - 14:45

Ни ДИ, ни критерий Стьюдента. Нужны оригинальные данные, которые нужно обработать дисперсионным анализом.
(1) Почему нельзя ДИ. Потому что из представленных данных вы их не сможете грамотно получить. Из представленных данных их можно получить только одним способом: умножить величину стандартной ошибки на критическое значение t-распределения для числа степеней свободы df=n-1=3-1=2 и альфа (двусторонняя)=0,95, т.е. на число 4,303. Далее прибавить и отнять полученное значение из среднего с получением ДИ. Однако у вас нет ни правильного значения среднего, ни правильного значения стандартной ошибки: проценты априори распределены ненормально, а среднее арифметическое и ст. ошибка у вас вычислены для нормального распределения. В литературе можно найти, что % распределены близко к нормальному вблизи 50%, на худой конец - между 30 и 70%. Но это - не ваш случай.
(2) Почему ДИ вообще нежелательно. ДИ для каждого случая вычисляются на основании информации только об одной единственной выборке. В то время как сравнение двух выборок с помощью статистического критерия использует информацию сразу о нескольких выборках. Поэтому сравнение с помощью ДИ - крайне консервативная процедура, которая годится либо только в качестве прикидки перед корректным сравнением, либо в ситуациях, когда доступа к оригинальным данным нет - например при сравнении собственных данных с цифрами из литературных источников.
(3) Почему нельзя критерием Стьюдента.
(а) Потому что этот критерий требует нормального распределения, а проценты распределены ненормально.
(б) Потому что критерий Стьюдента используется только для сравнения двух выборок, а у вас их несколько.

Т.о. в вашем случае нужно использовать двухфакторный дисперсионный анализ (факторы: штамм и концентрация), после которого можно делать попарные сравнения в рамках дисперсионного комплекса: или запланированные сравнения через контрасты, или апостериорные (post-hoc) сравнения. Учитывая, что дисперсионный анализ (ANOVA) - также параметрический метод, исходные данные (частоты) нужно предварительно преобразовать с помощью какого-либо углового преобразования, например преобразованием арксинуса. Это будет (1) статистически корректный анализ и (2) почти самый мощный вариант анализа, обладающий высокой разрешающей способностью. Ещё большей мощности можно добиться только если описать три точки концентраций регрессией, т.е. в рамках ковариационного анализа (ANCOVA). И ANOVA, и ANCOVA требуют исходных, необобщённых данных.

Автор: Света K 15.12.2011 - 16:09

Огромное спасибо за пояснения, главный вопрос выяснен.

(1-2) С ДИ все вроде понятно и доступно изложено. За исключением того, что непонятно почему проценты 23,2-27,4% ненормально распределены - какая разница какие там цифры? Ну да ладно.

(3) А я-то думала, что достаточно сравнить попарно 27,3 с 27,4 ну и так все пары по Стьюденту (ошибка же есть) и затем обсуждать различия если t>=4,303.

А вот ДА (ANOVА и тем более ANCOVA) подозреваю мне не провести по причине слабого понимания метода контрастов или post-hoc сравнений. Да еще и преобразование арксинуса. Или может где-то найдется пример таких рассчетов?

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)