Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >  
Добавить ответ в эту темуОткрыть тему
> Сравнение частоты встречаемости
ple
сообщение 21.12.2007 - 10:13
Сообщение #1


Дух форума
*

Группа: Пользователи
Сообщений: 7
Регистрация: 21.12.2007
Пользователь №: 4639



Есть две выборки (100 здоровых и 105 с ожирением) - мужчины, одного возраста - хочется узнать достоверны ли различия в частоте встречаемости гипертрофии левого желудочка (здоровых 10%, ожирелых 30%) - скажите, пожалуйста, какой критерий оптимальнее использовать для сравнения этих групп? Большое спасибо.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 21.12.2007 - 11:09
Сообщение #2


Дух форума
*

Группа: Пользователи
Сообщений: 968
Регистрация: 10.04.2007
Из: Россия
Пользователь №: 4040



Точный метод Фишера
Статистика критерия 4,03442937357569
Двустороннее P-значение 0,0000775509967784656
Вывод: различия значимы, P < 0,001

Можно также критерий Барнарда
Статистика критерия 4,03442937357569
Двустороннее P-значение 0,0000501632487705436
Вывод: различия значимы, P < 0,001

Немного техники. Статистика обоих тестов одинакова, т.к. в ее качестве используется т.н. статистика Вальда. Для критерия Барнарда считается также оптимальный параметр распределения, равный в данном случае 0,35. Критерий Барнарда, ввиду поиска оптимального значения данного параметра, считается примерно в 100 раз медленнее точного метода Фишера. На моем компьютере (Celeron 1200, память 256 Мб, Windows XP Home) расчет критерия Барнарда занял примерно полминуты. Исходя из таких сложностей, если данный критерий удается посчитать, то его результатами пользоваться предпочтительнее, чем результатами точного метода Фишера.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 21.12.2007 - 20:35
Сообщение #3


Дух форума
*

Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



В подобных случаях предпочтительней использовать не статистические критерии связи, а клинически более ясный подход, основанный на доверительных интервалах к указанным процентам. Тогда легко формулируется вывод. У пациентов с ожирением дистрофия...... диагностируется у 30% (95% ДИ 22%-39%), а без ожирения только у 10% (4-16%). Т.к. ДИ не пересекаются, то делается вывод о том, что ожирение статистически достоверно приводит к повышению частоты развития дистофии.....
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ple
сообщение 24.12.2007 - 09:42
Сообщение #4


Дух форума
*

Группа: Пользователи
Сообщений: 7
Регистрация: 21.12.2007
Пользователь №: 4639



Спасибо за Ваш ответ.
Вот только у меня почему-то программка Биостатистика не хочет счетать Фишера при общем количестве наблюдение более 100 frown.gif
"Статистику" - пока не освоил, хотя пиратская версия есть.
Как воспользоваться этой программой для подсчета с помощью критерия Фишера в моем примере?
Еще раз спасибо.
П.С. Можно ли исползовать хи-квардарт? (программа Биостаттика пишет, что слишком много наблюдений для точного критерия Фишера, используйте хи-квадрат)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 24.12.2007 - 09:52
Сообщение #5


Дух форума
*

Группа: Пользователи
Сообщений: 968
Регистрация: 10.04.2007
Из: Россия
Пользователь №: 4040



На Томском сайте "Биометрика" В.П. Леонова бесплатно предоставляется искомая программа по вычислению точного критерия Фишера. Вот прямая ссылка http://www.biometrica.tomsk.ru/programm/FisherExact.exe. Вот пример http://www.biometrica.tomsk.ru/programm_stat.htm.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ple
сообщение 24.12.2007 - 10:26
Сообщение #6


Дух форума
*

Группа: Пользователи
Сообщений: 7
Регистрация: 21.12.2007
Пользователь №: 4639



Еще раз больше Вам спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ple
сообщение 24.12.2007 - 11:04
Сообщение #7


Дух форума
*

Группа: Пользователи
Сообщений: 7
Регистрация: 21.12.2007
Пользователь №: 4639



А вот еще вопрос - не могу разобрать, какие значения вносить в столбики и строчки (в программу):
1) если хочу сравнить, что брюнетов в популяции россиян достоверно больше, чем блондинов? (n=120, блондинов-20, рыжих - 20, брюнетов - 40, русых - 40)
2) блондины-белоруссы достоверно чаще встречаются, чем блондины-россияне?
(россияне: n=120, блондинов-20, рыжих - 20, брюнетов - 40, русых - 40
белоруссы: n=130, блондинов - 40, рыжих -30, брюнетов - 30, русых - 20)
Спасибо

Вероятнее всего для первой ситуаци в таблицу внесем (скажем для программки, использующей точный криетрий Фишера):
40 - 80
20 - 100
---------
а для второй задачи:
40 - 90
20 - 100
-------
так правильно?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 24.12.2007 - 12:29
Сообщение #8


Дух форума
*

Группа: Пользователи
Сообщений: 968
Регистрация: 10.04.2007
Из: Россия
Пользователь №: 4040



Вот здесь еще программа есть http://www.med.uio.no/imb/stat/two-by-two/manual.html.

Называется она Two-by-two - A software package that calculates exact, mid-p values and asymptotic p-values in 2x2 contingency tables. Both unconditional and conditional test statistics are available.

Многие даже из "больших" программ имеют (имели?) непонятные сложности при расчете точного метода Фишера. Об этом даже статья попадалась. Задача совершенно тривиальная для программиста.

Наверное, при исследовании блондинов и брюнетов Вы поступили правильно во втором случае. А в первом вроде бы нет.

А вот если поставите задачу выяснить, отличаются ли по цвету волос русские и белорусы, то [в рассматриваемом примере исходных данных] получится таблица сопряженности 2 х 4. Для ее исследования уже потребуется применить специальный метод для такого рода данных. Например, критерий Фримана-Холтона (Фишера-Фримана-Холтона). Он есть в ПО StatXact. Это точный критерий. Авторы StatXact придумали интересный оригинальный алгоритм вычисления данного критерия, о чем есть несколько статей.

Можно также применить критерии, основанные на хи-квадрат Пирсона либо на отношении правдоподобия. Кроме непосредственно данных тестов, перечисленных в предыдущем предложении, это также: критерий Кресси-Рида, критерий Хеллингера, критерий Зелтермана.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 24.12.2007 - 21:40
Сообщение #9


Дух форума
*

Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



А вот мне непонятно, зачем пытаться использовать критерий Фишера если при большом числе наблюдений асимптотический критерий хи2 (т.е. обычный) дает то же самое значение р? Нет в ячейках таблицы ожидаемых частот менее пяти, и слава Богу, пользуйтесь хи2. Тем более, что для таблиц размерности больше 2*2 (т.е. 2*4 как в вопросе выше) хи2 очень даже подходит.
Что же касается сложности расчета критерия Фишера - факториалы - очень большие числа, если же программсит логарифмирует, он начинает работать реальными числами и натыкается на все проблемы округления. Длинные целые немного улучшают ситуацию, но до определенного предела, однако опять-же, а зачем пользоваться более вычислительно сложным методом, если более простой (и классический) дает тот же результат?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 24.12.2007 - 23:54
Сообщение #10


Дух форума
*

Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Это не Two-by-two задача.
Хи квадрат Пирсона даст оценку сопряженности двух признаков. Потом все равно нужно показать какова эта сопряженность. Поэтому, повторюсь, предпочтительней не искать критерии, особенно с тяжелыми для медицинских советов названиями, а дать графически проценты с соответствующими доверительными интревалами.

n всего % m 95% ДИ
популяции россиян
блондинов 20 120 16,7 3,4 10,0 23,3
рыжих 20 120 16,7 3,4 10,0 23,3
брюнетов 40 120 33,3 4,3 24,9 41,8
русых 40 120 33,3 4,3 24,9 41,8
Популяция белоруссов
блондинов 40 130 30,8 4,0 22,8 38,7
рыжих 30 130 23,1 3,7 15,8 30,3
брюнетов 30 130 23,1 3,7 15,8 30,3
русых 20 130 15,4 3,2 9,2 21,6

Если 95% ДИ, вычисленные к процентам, не пересекаются, различия статистически достоверны. Процент блондинов в популяции белорусов выше, но доказаны только различия в численности русых, которых достоверно больше в популяции россиян, чем белоруссов.
Интересно, это реальные данные или студенческая задачка?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 25.12.2007 - 06:42
Сообщение #11


Дух форума
*

Группа: Пользователи
Сообщений: 968
Регистрация: 10.04.2007
Из: Россия
Пользователь №: 4040



Главная сложность или, если хотите, изюминка при вычислении точного критерия Фишера, а также и других перестановочных тестов, - не вычисление факториалов (а их действительно нужно логарифмировать, но предпринять меры против потери точности), а перебор вариантов заполнения таблицы сопряженности.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ple
сообщение 25.12.2007 - 12:31
Сообщение #12


Дух форума
*

Группа: Пользователи
Сообщений: 7
Регистрация: 21.12.2007
Пользователь №: 4639



Да - нет - студенческая задачка )

Интересно, предусмотрено ли в программе для расчета хи-квадрата (к примеру, Биостатистика) поправка, когда признак принимает только два значения?
Наверное нет?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 26.12.2007 - 11:31
Сообщение #13


Дух форума
*

Группа: Пользователи
Сообщений: 968
Регистрация: 10.04.2007
Из: Россия
Пользователь №: 4040



Сегодня остановился бы на двух вопросах.

1. Зачем использовать асимптотику, если можно посчитать точно? Вопрос риторический. Скажем, если имеется программа, которая генерирует 1 миллион уникальных таблиц сопряженности в секунду (для среднего размера задач), то зачем тут еще нужен хи-квадрат? Хотя, в принципе, можно и хи-квадрат.

2. Трудных для советов и страшных для диссертантов названий бояться не нужно, т.к. упомянутым выше методам уже лет по 10-15. И не наша вина, что в русскоязычных руководствах они не упоминаются. За рубежом данные эффективные методы находят применение. Давно реализованы они и в программном обеспечении. Например, критерий Фримана-Холтона реализован в StatXact и еще в нескольких программах.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 26.12.2007 - 23:20
Сообщение #14


Дух форума
*

Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Ответ "можно использовать" не совсем на вопрос "зачем?". Ноутбуком Toughbook можно заколачивать гвозди. Но надо ли это делать? Еще раз повторю, если знакомый всем, описанный более века назад хи2 дает тот же результат, что и критерий Фишера-Фримана-Холтона, зачем использовать последний? Каков выигрыш? Не случайно ведь, например в SAS критерий Фишера-Фримана-Холтона не вызывается по умолчанию при анализе таблиц сопряженности, хотя и он и есть в стандартной процедуре анализа таблиц. Его надо специально заказывать в тех случаях, когда в этом есть необходимость. Вот это, с моей точки зрения, адекватный подход: если все допущения выполняются. пользуемся всем известными критериями. А уж если не выполняются. вот тогда деваться некуда - используем другие критерии.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 26.12.2007 - 23:28
Сообщение #15


Дух форума
*

Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(ple @ 25.12.2007 - 12:31) *
Да - нет - студенческая задачка )

Интересно, предусмотрено ли в программе для расчета хи-квадрата (к примеру, Биостатистика) поправка, когда признак принимает только два значения?
Наверное нет?

Не совсем понятно, какая поправка нужна?
Формула хи2=Sum((O-E)^2/E), где О - наблюдаемое количество наблюдений, Е - ожидаемое. Это если задача отлична от описанной Вами ранее.
В описанной ранее у Вас следующие частоты 10 90 у нормальных и 32 и 73 у лиц с ожирением. Ожидаемые частоты у Вас явно больше 5 (минимальная ожидаемая частота 20), соответственно обычный критерий хи2 (из любой программы и рассчитанный вручную) пойдет...
Если использовать обычный хи2, то р=0,0003 (точное значение Фишера и точное значение хи2 макимального правдоподобия 0,000269, кстати отличается от данных Игоря выше - это SAS). Т.е. никаких различий - интерпретация - есть достоверные отличия в распространенности ГЛЖ у лиц с ожирением и без (без анализа распространенности в группах АГ, а она явно выше среди лиц с ожирением, результат статистически значимый, но с научной точки зрения бессмысленный)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V   1 2 >
Добавить ответ в эту темуОткрыть тему