Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

6 страниц V  « < 3 4 5 6 >  
Добавить ответ в эту темуОткрыть тему
> Как создать формулу для расчета прогноза?
DoctorStat
сообщение 12.12.2008 - 11:49
Сообщение #61





Группа: Пользователи
Сообщений: 381
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(DrgLena @ 11.12.2008 - 22:42) *
Вы, почему то, упорно игнорируете тот факт, что у одного больного имеется только одно сочетание двух аллелей для одного гена, а не все 10 сочетаний вместе.
Я ищу кластеры или группы генотипов, поэтому приходится объединять генотипы разных пациентов.
Цитата(DrgLena @ 11.12.2008 - 22:42) *
по гену С я дала вам вчера ранжированный ряд по увеличению "болезненности" гена, от "самых здоровых" 4\10 (сумма J=-10,78), до самых больных 1\2 (сумма J =+15,36).
Как Вы определяете "болезненность" гена?


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
autumn
сообщение 12.12.2008 - 13:35
Сообщение #62





Группа: Пользователи
Сообщений: 6
Регистрация: 12.12.2008
Пользователь №: 5615



Уважаемый DrStat
Я коллега Anny_K.
Мы провели анализ вашей информации. по исходному
файлу Stenokardia.xls с использованием
а) методов Рраспознования
около 10 методов
б) перестановочного теста на бинарных показателях, соответствующих встречаемости номеров аллелей
и их парных сочетаниях
Вывод
Довольно высокая прогностическая способность
группы бинарных показателей, соответствующих гену C
От 80 до 96% в группе здоровых
и от 66 до 92% в группе больных.
Режим скользящий контроль (Leave-one-out)

По группе показателей для генов А и B для
всех методов результат нулевой.
Либо относят в один класс, либо около 50%
для обоих.
Тот же самый результат для парных сочетаний
бинарных показателей для аллелей
Значимые различия в распределениях больных-здоровых на уровне <0.001 на 1000 случайных перестановок
для пар
С_a2_10 C_a2_4
C_a1_2 C_a2_10
То есть всё соответствует тому, что говорит Ваш предыдущий оппонент
У вас достаточно необычный результат.
Насколько я понимаю вы делаете кластерный анализ парных значений аллелей?
Regards

Прикрепленные файлы
Прикрепленный файл  bestpartitions.doc ( 271,5 килобайт ) Кол-во скачиваний: 447
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 12.12.2008 - 14:09
Сообщение #63





Группа: Пользователи
Сообщений: 381
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(autumn @ 12.12.2008 - 13:35) *
Мы провели анализ вашей информации. по исходному
файлу Stenokardia.xls с использованием
а) методов Рраспознования
около 10 методов
б) перестановочного теста на бинарных показателях, соответствующих встречаемости номеров аллелей
и их парных сочетаниях
Вот это - хорошая работа!
Цитата(autumn @ 12.12.2008 - 13:35) *
То есть всё соответствует тому, что говорит Ваш предыдущий оппонент
DrgLena, это комплимент в Вашу сторону!
Цитата(autumn @ 12.12.2008 - 13:35) *
Насколько я понимаю вы делаете кластерный анализ парных значений аллелей?
Грубо говоря, я объединяю генотипы (парные сочетания аллелей), чаще встречающиеся у больных, в «больной» кластер, а чаще встречающиеся у здоровых в «здоровый» кластер. Потом сравниваю эти 2 кластера в таблице сопряженности размером 2Х2 критерием хи-квадрат, чтобы проверить значимость отличий кластеров.

Сообщение отредактировал DoctorStat - 12.12.2008 - 14:34


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
autumn
сообщение 12.12.2008 - 15:51
Сообщение #64





Группа: Пользователи
Сообщений: 6
Регистрация: 12.12.2008
Пользователь №: 5615



Цитата(DoctorStat @ 12.12.2008 - 15:09) *
Вот это - хорошая работа!
DrgLena, это комплимент в Вашу сторону!
Грубо говоря, я объединяю генотипы (парные сочетания аллелей), чаще встречающиеся у больных, в «больной» кластер, а чаще встречающиеся у здоровых в «здоровый» кластер. Потом сравниваю эти 2 кластера в таблице сопряженности размером 2Х2 критерием хи-квадрат, чтобы проверить значимость отличий кластеров.

Что вы ставите в ячейки таблицы сопряжённости?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 12.12.2008 - 16:08
Сообщение #65





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



DoctorStat, всю технологию описал на своем сайте http://doctorstat.narod.ru/doc/gen_d.html#p2 в таблицах сопряженности то, что я назвала в нашей дискуссии "кучками" т.е. объединено в одну группу все что немножко хуже по любым сочетаниям одного гена, а что чуть-чуть лучше - в другую и все - таблица 2х2 готова к употреблению.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 12.12.2008 - 16:13
Сообщение #66





Группа: Пользователи
Сообщений: 381
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(autumn @ 12.12.2008 - 15:51) *
Что вы ставите в ячейки таблицы сопряжённости?
Структура финальной таблицы сопряженности размерности 2Х2.
1-ый столбец таблицы - группа пациентов «Здоровые», 2-ой столбец - группа «Больные».
1-ая строка таблицы - генотипы кластера «Здоровый», 2-ая строка - кластера «Больной»
Значение ячейки (1,1) - количество здоровых пациентов, у которых генотип принадлежит кластеру «Здоровый».

Сообщение отредактировал DoctorStat - 12.12.2008 - 16:13


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 12.12.2008 - 20:41
Сообщение #67





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Autumn, не могу сказать, чтобы я разобралась, почему из ваших графиков можно сделать такие выводы. А по сему, прошу вас уточнить какие сочетания C1 и С2 наиболее неблагоприятные, или какие из них являются по результатам вашего анализа факторами риска развития болезни. На первых двух рис. у вас одна и та же аллель в двух значениях 2\10 и 2\4, а сочетаться может только одна из первой и одна из второй аллели.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
autumn
сообщение 12.12.2008 - 21:21
Сообщение #68





Группа: Пользователи
Сообщений: 6
Регистрация: 12.12.2008
Пользователь №: 5615



Извините, я как-то забыл про комментарии.
Квадранты пронумерованы по часовой стрелке.
И Квадрант-1 -это левый верхний. Совпадению двух значений аллели у испытуемого
соответствует попадание в квадрант 2. Как видите, на рисунке 1 он пуст и именного из-за того, что
два значения одной аллели не могут сочетаться.
Отсутствие у испытуемого значений 4 и 10 (то есть значение аллели№2 должно быть не 4 и не 10)
соответствует наиболее тяжёлому случаю (из 28 таких испытуемых 22 болеют стенокардией и только 6 здоровы).
Если у испытуемого значение аллели№2 равно 10, то здоровы все десять испытуемых с таким значением аллели№2.

Если у испытуемого значение аллели№2 равно 4, то здоровы 38 испытуемых с таким значением аллели№2 и только 1 болен.
Случайно перемешивая индикатор наличия заболевания относительно фиксированных значений аллелей.
мы убеждаемся, что простой игрой случая, такой уровень разделения быть не может
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 12.12.2008 - 22:52
Сообщение #69





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Большое спасибо, я поняла. Теперь я вижу, что результаты совпали.
Свой результат, который я представила выше, я получила ранжируя суммарные информационные меры по двум аллелям. Но дерево (Classification Trees) выдало решение используя только вторую аллель 4,5,6,10 - хорошие и 1,2,3,4,7 -плохие и 95,65% больных имеют их и только 4 здоровых (7,4%)
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
autumn
сообщение 13.12.2008 - 12:38
Сообщение #70





Группа: Пользователи
Сообщений: 6
Регистрация: 12.12.2008
Пользователь №: 5615



Цитата(DoctorStat @ 12.12.2008 - 17:13) *
Структура финальной таблицы сопряженности размерности 2Х2.
1-ый столбец таблицы - группа пациентов «Здоровые», 2-ой столбец - группа «Больные».
1-ая строка таблицы - генотипы кластера «Здоровый», 2-ая строка - кластера «Больной»
Значение ячейки (1,1) - количество здоровых пациентов, у которых генотип принадлежит кластеру «Здоровый».

Позвольте. Но мне кажется, что получается следующее. Вы одну случайную величину вычисляете по другой и затем
проверяете гипотезу о независимости этих двух величин. Конечно она будет
отвергнута с высоким уровнем значимости.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 13.12.2008 - 14:22
Сообщение #71





Группа: Пользователи
Сообщений: 381
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(autumn @ 13.12.2008 - 12:38) *
Вы одну случайную величину вычисляете по другой и затем
проверяете гипотезу о независимости этих двух величин. Конечно она будет
отвергнута с высоким уровнем значимости.
Есть таблица сопряженности, см.приложенный рисунок. В столбце ВЫБ.1 - количество здоровых пациентов. В столбце ВЫБ.2 - количество пациентов со стенокардией. Строки таблицы соответствуют генотипам гена С. Для генотипов 1\1 и 1\2 здоровых пациентов нет, зато есть 7 больных по каждому генотипу. Эти два генотипа я объединяю в один и отношу его к «больному» кластеру. Генотип 2\4 и 2\10 встречается только у здоровых пациентов в количестве 10 и 11 человек соответственно. Эти два генотипа я объединяю в один и отношу его к «здоровому» кластеру. Продолжаю эту процедуру (кластеризацию) до тех пор, пока все генотипы не будут объединены в 2 больших кластера - «больной» и «здоровый». Эта процедура объединения строк таблицы сопряженности аналогична описанной в книге: Стентон Гланц «Медико-биологическая статистика», стр. 147, раздел «Преобразование таблиц сопряженности». Объединяются группы генотипов, не отличающиеся между собой по критерию хи-квадрат.

Сообщение отредактировал DoctorStat - 13.12.2008 - 14:23
Эскизы прикрепленных изображений
Прикрепленное изображение
 


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
autumn
сообщение 13.12.2008 - 16:09
Сообщение #72





Группа: Пользователи
Сообщений: 6
Регистрация: 12.12.2008
Пользователь №: 5615



Цитата(DoctorStat @ 13.12.2008 - 15:22) *
Есть таблица сопряженности, см.приложенный рисунок. В столбце ВЫБ.1 - количество здоровых пациентов. В столбце ВЫБ.2 - количество пациентов со стенокардией. Строки таблицы соответствуют генотипам гена С. Для генотипов 1\1 и 1\2 здоровых пациентов нет, зато есть 7 больных по каждому генотипу. Эти два генотипа я объединяю в один и отношу его к «больному» кластеру. Генотип 2\4 и 2\10 встречается только у здоровых пациентов в количестве 10 и 11 человек соответственно. Эти два генотипа я объединяю в один и отношу его к «здоровому» кластеру. Продолжаю эту процедуру (кластеризацию) до тех пор, пока все генотипы не будут объединены в 2 больших кластера - «больной» и «здоровый». Эта процедура объединения строк таблицы сопряженности аналогична описанной в книге: Стентон Гланц «Медико-биологическая статистика», стр. 147, раздел «Преобразование таблиц сопряженности». Объединяются группы генотипов, не отличающиеся между собой по критерию хи-квадрат.

Хорошо. Но представим такую ситуацию. У вас относительно небольшие группы больных и здоровых одинаковым образом и чисто случайно рассеяны по большому числу генотипов. Вы в один кластер отнесёте все генотипы, в которые попали больные, а в другой кластер все генотипы, в который попали здоровые. В вашей схеме это, насколько я понял, допускается. И вы спокойно получаете, что исход зависит от гена с огромной значимостью, которой по сценарию заведомо и в помине быть не может.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 13.12.2008 - 16:43
Сообщение #73





Группа: Пользователи
Сообщений: 381
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(autumn @ 13.12.2008 - 16:09) *
Хорошо. Но представим такую ситуацию. У вас относительно небольшие группы больных и здоровых одинаковым образом и чисто случайно рассеяны по большому числу генотипов. Вы в один кластер отнесёте все генотипы, в которые попали больные, а в другой кластер все генотипы, в который попали здоровые. В вашей схеме это, насколько я понял, допускается. И вы спокойно получаете, что исход зависит от гена с огромной значимостью, которой по сценарию заведомо и в помине быть не может.
1. СЛУЧАЙНЫЕ ГЕНОТИПЫ.
Если генотипы случайным образом рассеяны между 2-мя группами, то их частоты встречаемости в 2-х выборках будут приблизительно равны, поэтому значимость p-value отличия «больного» кластера от «здорового» будет невелика. Мы не найдем ни «плохих», ни «хороших» генотипов.

2. МАЛЫЙ ОБЪЕМ ВЫБОРОК.
Алгоритм отсеивает и не учитывает редкие, малочисленные генотипы. Если группы окажутся слишком малы, а ген, наоборот, высокополиморфен (как, например, ген В), то все генотипы станут редкими, и кластеризация, а стало быть, и выявление «особых» генов станет невозможной. Существует минимальный объем выборок, связанный с полиморфизмом и распределением частот генотипов, ниже которого алгоритм не работает.


Сообщение отредактировал DoctorStat - 13.12.2008 - 16:50


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 13.12.2008 - 19:15
Сообщение #74





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Очевидно, моих аргументов не хватило для того, чтобы убедить DoctorStat в том, что он проделал, называется манипуляция данными с целью получить p<0,05. Почему манипуляция, потому что гены А и Б в результате анализа объявлены ответственными за развитие болезни, а на самом деле этот не так. Это как раз яркий пример того, как ошибки в статистике приводят к неверным выводам.

Гланц объединил в одну группу физкультурниц и спортсменок, назвал их бегуньи, и относительно контрольной группы анализировал обращаемость и доказал различия между бегуньями и контролем. Вы же объединили в одну группу несколько худшие сочетания двух аллелей одного и того же гена и назвали их больными (при этом каждый из них в отдельности больным не является), как будто они могут сразу все быть у больных, а другую группу сочетаний аллелей по одному и тому же гену назвали здоровыми , как будто они все сразу могут быть у здоровых. С точки зрения генетики - это чистый бред, как и игнорирование вами редких или полиморфных генов. Именно они могут быть ответственными за болезнь.

С точки зрения статистики, вы почему то упорно желаете, чтобы между больным кластером и здоровым кластером (в кавычках как больные, так и кластеры) было p<0,05. А нужно показать, что между определенным генотипом (пусть пока по одному гену) и болезнью есть сопряженность. Если вы хотите использовать кластерный анализ, то с его помощью в пространстве многих генов и их алеллей находят группы схожих по многим признакам т.е. по генетическим признакам, выделяют и описывают их особенности, а потом ищут связь определенного генотипа с заболеванием.
То, что результат полученный разными методами анализа сходится, говорит о том, что в ваших данных он был заложен, но извлекали мы его по разному, я очень старым методом, меня научили здесь на этом сайте, год назад я пришла сюда с вопросом, Плав и Игорь мне очень помогли, познакомив с методами теории информации, второй ваш аппонент применил другой алгоритм извлечения данных data-mining. Вы продолжаете настаивать на своих выводах по первому набору данных ?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Анна_К
сообщение 13.12.2008 - 20:05
Сообщение #75





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430



С файлом Stenocardia.xls разобрались. Но мне так и не ответили, почему файлы с тем же название под номерами 2 и 3 такие различные. Где же все-таки настоящие реальные данные по стенокардии?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

6 страниц V  « < 3 4 5 6 >
Добавить ответ в эту темуОткрыть тему