Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Критерий Фишера для таблиц NxM при малых выборках
Camel1000
сообщение 4.03.2013 - 19:25
Сообщение #1





Группа: Пользователи
Сообщений: 17
Регистрация: 3.02.2013
Пользователь №: 24599



Всем добрый день!

Такая ситуация: есть экспрессия некоего гена, оцененная ИГХ в баллах от 1 до 5. Строим таблицу для клинического фактора Z - первая и вторая степени, условно. Получаем таблицу сопряженности 5x2:

Э Z1 Z2
1 2 1
2 2 8
3 6 3
4 3 1
5 0 3

Расчет точного критерия Фишера (в SPSS) дает 0,065 (допустим, нас интересуют случаи < 0,1).
Но как при попытках свести это к любой таблице 2x2, так и при попытках попарных сравнений (довольно беспомощных, потому что на самом деле я не очень понимаю, как делать post hoc попарные сравнения в таком случае) ничего осмысленного не выходит.
Вопрос: можно ли, как думают уважаемые форумчане, дальше пытаться что-то из этого выжать, или при таком объеме данных все это не имеет физического смысла?

Андрей АКА Camel1000

Сообщение отредактировал Camel1000 - 4.03.2013 - 19:28
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 4.03.2013 - 20:41
Сообщение #2





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Camel1000 @ 4.03.2013 - 20:25) *
можно ли, как думают уважаемые форумчане, дальше пытаться что-то из этого выжать?
Выжать дополнительную информацию не только можно, но я бы даже сказал нужно! Для этого необходимо воспользоваться волшебной программой "Электронная таблица" на моем сайте. Способ, который группирует качественные факторы по степени риска описан на том же сайте в разделе "Технологии". Из вывода программы (см.приложенный к тексту рисунок) видно все уровни экспрессии группируются в два кластера в зависимости от риска попадания в состояния Z1 или Z2. Уровни Э5 и Э2 (кластер 1) характерны для клинической фазы Z2, остальные Э1,Э3,Э4 (кластер 2) - для фазы Z1. Отношение шансов (Odds ratio) в последней таблице=12,1 . Это значит, что если у больного уровень экспрессии попал в кластер 1, то шанс нахождения больного в клиническом состоянии Z2 в 12,1 раз, больше, чем в состоянии Z1. Грубо говоря, на уровне значимости p=0,065 (вероятность точного критерия Фишера исходной таблицы, которая чуть-чуть не дотянула до желаемого стандарта p=0,05) уровень экспрессии гена является отличным (OR=12,1) маркером клинической фазы болезни.

Сообщение отредактировал DoctorStat - 5.03.2013 - 10:08
Эскизы прикрепленных изображений
Прикрепленное изображение
 


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 11.03.2013 - 21:25
Сообщение #3





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Camel1000 @ 4.03.2013 - 22:25) *
Всем добрый день!

Такая ситуация: есть экспрессия некоего гена, оцененная ИГХ в баллах от 1 до 5. Строим таблицу для клинического фактора Z - первая и вторая степени, условно. Получаем таблицу сопряженности 5x2:

Э Z1 Z2
1 2 1
2 2 8
3 6 3
4 3 1
5 0 3

Расчет точного критерия Фишера (в SPSS) дает 0,065 (допустим, нас интересуют случаи < 0,1).
Но как при попытках свести это к любой таблице 2x2, так и при попытках попарных сравнений (довольно беспомощных, потому что на самом деле я не очень понимаю, как делать post hoc попарные сравнения в таком случае) ничего осмысленного не выходит.
Вопрос: можно ли, как думают уважаемые форумчане, дальше пытаться что-то из этого выжать, или при таком объеме данных все это не имеет физического смысла?

Андрей АКА Camel1000

1. Я не сталкивался с оценкой экспрессии в баллах. Она измеряется иначе и имеет конкретное числовое выражение. С этими цифрами и нужно работать - именно они и есть ваши данные, а не баллы. Если по каким-то причинам в ходе анализа предпочтительнее уйти к баллам - это допустимо, но это есть огрубление исходных данных и сопряжено с потерей информации. С вашими объёмами выборок лучше эту информацию не терять.
2. Попытки анализировать таблицы сопряжённости без учёта упорядоченного характера категорий - потеря информации. Т.е. здесь ни хи-квадрат, ни ТМФ не годятся.
3. Критерий Фишера - дедовский способ. Я не говорю, что им не работают; работают, но это от недостатка знания. В основе этого критерия лежит гипергеометрическое распределение, которое практически никогда не встречается в способе получения тех данных, которые пытаются с помощью этого критерия обсчитать. За неимением компьютеров это был неплохой вариант хоть как-то справиться со слабонасыщенными таблицами сопряжённости. Современный и технически грамотный подход - точный перестановочный метод (exact permutation test), основанный на биномиальном распредлении.
4. Кластеризация - мощный, но равно и опасный инструмент. При желании найти кластеры - они будут обнаружены по любому! Но не всегда за этими кластерами стоит что-то реальное. Применительно к Вашим данным крайне маловероятно, что кластеры удастся объяснить. Это - один ген. У одного экспрессируется сильно, у другого ещё сильнее, у третьего слабее и т.д. В другой группе такая-же чехарда, причём никаких различий в среднем уровне экспрессии нет даже на уровне тенденции. Полагаю, что единственное что можно сделать с вашими данными - попробовать доказать и просто констатировать различный характер распределения экспрессии в группах с помощью сериального критерия типа Вальда-Вольфовица.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Camel1000
сообщение 22.03.2013 - 14:07
Сообщение #4





Группа: Пользователи
Сообщений: 17
Регистрация: 3.02.2013
Пользователь №: 24599



Цитата(nokh @ 11.03.2013 - 22:25) *
1. Я не сталкивался с оценкой экспрессии в баллах. Она измеряется иначе и имеет конкретное числовое выражение. С этими цифрами и нужно работать - именно они и есть ваши данные, а не баллы. Если по каким-то причинам в ходе анализа предпочтительнее уйти к баллам - это допустимо, но это есть огрубление исходных данных и сопряжено с потерей информации. С вашими объёмами выборок лучше эту информацию не терять.
2. Попытки анализировать таблицы сопряжённости без учёта упорядоченного характера категорий - потеря информации. Т.е. здесь ни хи-квадрат, ни ТМФ не годятся.
3. Критерий Фишера - дедовский способ. Я не говорю, что им не работают; работают, но это от недостатка знания. В основе этого критерия лежит гипергеометрическое распределение, которое практически никогда не встречается в способе получения тех данных, которые пытаются с помощью этого критерия обсчитать. За неимением компьютеров это был неплохой вариант хоть как-то справиться со слабонасыщенными таблицами сопряжённости. Современный и технически грамотный подход - точный перестановочный метод (exact permutation test), основанный на биномиальном распредлении.
4. Кластеризация - мощный, но равно и опасный инструмент. При желании найти кластеры - они будут обнаружены по любому! Но не всегда за этими кластерами стоит что-то реальное. Применительно к Вашим данным крайне маловероятно, что кластеры удастся объяснить. Это - один ген. У одного экспрессируется сильно, у другого ещё сильнее, у третьего слабее и т.д. В другой группе такая-же чехарда, причём никаких различий в среднем уровне экспрессии нет даже на уровне тенденции. Полагаю, что единственное что можно сделать с вашими данными - попробовать доказать и просто констатировать различный характер распределения экспрессии в группах с помощью сериального критерия типа Вальда-Вольфовица.


1. Экспрессия - это очень обширное понятие, она бывает разная и измеряется по-разному. Вы можете ее оценивать с помощью ИФА вроде Elisa, с помощью Вестерн-блоттинга, еще много чем. В данном случае оценивается экспрессия на срезах с помощью ИГХ окрашивания. Есть разные методы ее квантификации (учитываются площадь окраски, интенсивность окраски и др.), но очень часто вообще применяют древнюю систему "три креста" - +, ++, +++. Уверяю вас, что так ее оценивают более чем в половине лабораторий России, что, наверное, не здорово, но так уж есть.
В данном случае баллы - это именно исходные данные, поступившие от гистопатолога (сам я этого не делал). Никаких "более первичных" цифр, к сожалению, нету.

2. А хи-квадрат для трендов? И потом, при работе с упорядоченными категориями мы делаем совсем что-то неправильное, или просто теряем в мощности критерия?

3. Понял, интересно, надо будет почитать. Кстати говоря, имеет ли это какое-то отношение к точным методам расчета, наподобие тех, что предлагает, скажем SPSS при расчете критерия Фишера?

4. Вот здесь скорее согласен с вами, чем с автором предыдущего коммента. Да и биологическая осмысленность таких кластеров, какие были предложены, под большим вопросом...

Большое спасибо за комментарии и вам, и DoctorStat!

Сообщение отредактировал Camel1000 - 22.03.2013 - 14:12
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Choledochus
сообщение 25.05.2020 - 13:36
Сообщение #5





Группа: Пользователи
Сообщений: 97
Регистрация: 14.03.2006
Из: Москва
Пользователь №: 870



Программист спрашивает: в каких пределах изменяется a?
Понятно, что до min(a+b, a+c). Но не всегда, наверное? И не от 0 всегда тоже.
Спасибо.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему