Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

6 страниц V  < 1 2 3 4 5 > »   
Добавить ответ в эту темуОткрыть тему
> Как создать формулу для расчета прогноза?
DrgLena
сообщение 10.12.2008 - 14:36
Сообщение #31





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Это план исследования или уже есть результаты? Чаще ли у них те же генотипы по гену С?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 10.12.2008 - 14:42
Сообщение #32





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(DrgLena @ 10.12.2008 - 14:36) *
Это план исследования или уже есть результаты? Чаще ли у них те же генотипы по гену С?

был задан вопрос, как найти гены внезапной смерти. Я предложил свой вариант поиска. Плав предложил другой вариант. Результатов генотипирования по внезапной смерти нет.


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Анна_К
сообщение 10.12.2008 - 15:09
Сообщение #33





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430



Цитата(DrgLena @ 10.12.2008 - 00:36) *
Так, наибольшая информативность относительно стенокардии обладает ген С, его генотип 1, 2, имеют только больные стенокардией, далее по убыванию 1, 1 тоже встречается только у больных стенокардией, 1,3 - у 3-х со стенокардией, но у одного - без стенокардии. ... Другие гены малоинформативны по сравнению с геном С и сделаны у других больных, поэтому сочетание самих генов и их аллелей проанализировать нельзя. Я в генетике слаба. Возможно, генотип С при рождении определен и не меняется, тогда можно прогнозировать развитие стенокардии к этому возрасту.

Но эти результаты совпадают с теми, которые я выявила нашими методами. Просто в данном случае для гена С значимые генотипы оказались близки по числовым значениям, поэтому и получилось так хорошо распознать, поставив границы 1.5 и 3.5 по аллелям А1 и А2 соответственно. Почему же вы не сказали, что результаты счета у меня и DoctorStat полностью совпали?
А для других генов еще надо доказать их неинформативность. Вдруг там значимые аллели имеют разбросанные значения и не поддаются такому простому разделению. Перевод этих данных в бинарный вид позволит доказать наличие или отсутствие их информативности.
Кстати, очень жаль, что не проверяется связь между генами (между собой) и патологией. Никто же не доказал, что этой связи нет. И если сбор информации проводили у всех пациентов, наши методы позволили бы дать ответ о наличии или отсутствии этой связи.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Анна_К
сообщение 10.12.2008 - 15:12
Сообщение #34





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430



Цитата(плав @ 9.12.2008 - 22:44) *
Ну вообщем-то все понятно.
1) Про 30 я не случайно спросил - общее место, после этого числа объектов стабилизируется выборочная дисперсия (точнее после 25-30 объектов), соответственно, речь идет об обычной статистике, так что отсутствие обоснованного ответа на этот вопрос уже о многом говорит. Так что "оправдало на практике" это веселое объяснение.

Я рада, что мы приближаемся к взаимопониманию. Если это, конечно, не иллюзия понимания. На самом деле, речь не идет об обычной статистике. Статистика отличается от DataMining'а как алгебра отличается от геометрии (стереометрии, гиперметрии). Вы используете формулы, средние, дисперсии, отклонения от среднего, оценки, ошибки? В ДМ (при использовании всех статистических достижений) строятся описания гипер-облаков, характеризующих группы объектов. Это описание может быть гиперкубом, гипер-эллипсоидом, сложной гипер-поверхностью. И точность распознавания зависит от того, насколько хорошо учтены все информативные признаки (измерения) и удалены все лишние неинформативные признаки (шум). И только практика свидетельствует об эффективности построенной модели. Сами помните из марксистской философии: «Практика - критерий истины», поэтому и нечего грустить.
Цитата(плав @ 9.12.2008 - 22:44) *
2) Насчет коэффициента корреляции я тоже спросил не случайно. Вообще-то его квадрат показывает процент дисперсии, который объясняет данная модель. С точки зрения предсказания коэффициент корреляции раный +1 и -1 одинаково хороши, просто во втором случае перепутали группы. Но Вы на этот подвох тоже не обратили внимания - и это говорит о многом.

В нашем подходе такой перевертыш исключается. Точность распознавания близка к нулю, если распознавание невозможно (все перемешано), или точность распознавания стремится к 1 (100% распознавание), если информативные признаки существуют. Еще лучше просто посчитать, сколько объектов при распознавании на скользящем контроле попало в свою родную группу, сколько попало в зону отказа (которая вычисляется в зависимости от числа объектов в группах), и сколько являются ошибками. При этом зону отказов можно учитывать или не учитывать. В ней мы просто не можем ничего сказать о принадлежности объекта к определенной группе.

Цитата(плав @ 9.12.2008 - 22:44) *
2) Насчет того, что Ваши методы лучше среднего врача, я вообще не понял. Итак нейронные сети дали 99% точности и Вы считаете это подгонкой. Ваши методы дали 85-90% и это прекрасно. Чего-то я логику не понял. Или методика была одна и тогда Ваши методы проиграли или же проверка опять была не проспективная, но а тогда и 99% и 85% подозрительны.

Речь о том же, что я писала выше: нейронные сети, построенные на данных, предварительно обработанных генетическими алгоритмами, это модель, точно описывающая именно те данные, которые пошли на обучение. Любое добавление объектов полностью перестраивает решающее правило, которое содержит очень большое число отобранных признаков. То есть этот подход неустойчив вследствие того, что число предполагаемых прогностических переменных очень велико. Цитата: «Поиск оптимального набора признаков путем максимизации функционала, характеризующего качество распознавания, неизбежно ведет к эффекту "overfitting" - сверхобучение, когда оценка точности распознавания на тех данных, которые использовались для обучения значительно завышается. Правильная оценка точности должна производится на абсолютно новых данных, которые ранее никак не использовались. Объем контрольной выборки должен быть достаточно большим для того, чтобы оценка точности распознавания была близка к настоящей точности». В данном случае скользящий контроль если и проводился, то при удалении объекта решающее правило не строили заново. Объект просто распознавали (при этом до того он участвовал в обучении алгоритма). В нашем случае при удалении объекта, заново строится решающее правило. То есть проверяемый объект не участвует в обучении. Кроме того, каждый признак, отобранный для решающего правила как информативный, проверяли методом Монте-Карло на значимость. В нейронных сетях этого естественно не делалали. У них получился набор из 30 признаков. В нашем случае информативными оказались только 11. Но каждый из них работал на распознавание. Такие методы, при работе в приемном покое будут хорошим подспорьем врачу. Тем более, что для них не нужны мощные машины с дорогущими лицензионными зарубежными пакетами. Нужно только ввести показатели 11 симптомов, получить результат распознавания и дальше делать вывод, соглашаться с ним или нет.

Цитата(плав @ 9.12.2008 - 22:44) *
Вы то ли не хотите, то ли не можете понять основного: (а) проверка метода на той же популяции, на которой строится модель порочна. Модель постоянно строится на одних и тех же данных, соответственно ее параметры будут одинаковыми.
... Иными словами, при таком подходе система не может учитывать редкие события - а частые события мозг человека будет учитывать значительно лучше. Нельзя одновременно уменьшить объем входящей информации и получить больше информации на выходе.

В медицине редко можно собрать слишком большие массивы данных. Их всегда - ограниченное число. И наши методы позволяют выявлять закономерности, которые не всегда видны невооруженным глазом. И при любой модели будут такие пациенты, которые не вписываются о «свою» группу. Любой хирург вам расскажет, что иногда выживают самые безнадежные больные, а благополучные (вроде бы) вдруг не выдерживают операции. Тоннельный эффект в медицине случается также часто как и в микромире, когда электрон оказывается там, где ему теоретически быть не положено.
А насчет уменьшения информации Вы абсолютны неправы! Как раз уменьшение шума дает возможность найти только информативные показатели, помогающие распознаванию.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Анна_К
сообщение 10.12.2008 - 15:14
Сообщение #35





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430



Цитата(плав @ 9.12.2008 - 22:44) *
3) Новое название не значит новый метод. Вы так и не пояснили обоснование Вашего метода "оптимального разделения", чем он отличается от всех остальных методов "неоптимального" разделения. Дело в том, что большинство т.н. новых методов не являются новыми, а являются модификацией старых, расширением их возможностей - например, кластерный анализ это дисперсионный анализ "наоборот", CART - модицикация регрессии, нейронные сети - множественная нелинейная регрессия и т.п.

Почитайте статьи, здесь нет смысла их воспроизводить. Естественно, что ничто на пустом месте не возникает. Все имеет своих идеологических предков. Но и растет из них, скрещивается, преобразуется, использует новые возможности техники?
Цитата(плав @ 9.12.2008 - 22:44) *
Отсутствие признания каких-то методов свидетельствует об их дефектах - почему-то по методам data mining в медицине было много публикаций в конце 80х-90х (когда много компьютеров стало), а затем все сошло на нет. Почему бы это? А вот логистическая регрессия живет...

Конкуренция, она и в Америке конкуренция. Вот например совсем недавняя история, как статья в зарубежный журнал не была принята, поскольку редакция затребовала работающий листинг программы (!!!!). При таком подходе вряд ли публикации вообще возможны.
Цитата(плав @ 9.12.2008 - 22:44) *
В целом, повторюсь, мне все понятно, тему закрывать не буду, но далее дискутировать и ходить по кругу смысла нет. Да, и проверьте Ваши ссылки, а то статья не находится и на фамилию автора сайт отвечает Match Not Found

Да, вот поправленная ссылка.
http://interstat.statjournals.net/YEAR/200...les/0604002.pdf - The Optimal Valid Partitioning Procedures. Senko Oleg V., Kuznetsova A.V.
Добавлю к той ссылке еще несколько:
http://www.springerlink.com/content/175687p6p487r033/ - The use of pattern recognition methods in tasks of biomedical diagnostics and forecasting. Yu.I. Zhuravlev, A.V. Kuznetsova, V.V. Ryazanov, O.V. Senkо, M.A. Botvin
http://azfor.ucoz.ru/_ld/0/5_2Vrach38-46.pdf - Возможности использования методов Data Mining при медико-лабораторных исследованиях. Журнал "Врач и Информационные Технологии"
http://azfor.ucoz.ru/load/4-1-0-6 - Прогноз динамики депрессивных синдромов, Журнал «Социальная и клиническая психиатрия». 2003, №4, с.18-24.
Буду благодарна за конструктивные критические замечания. Нам очень нужна обратная связь специалистов и позитивный диалог.
И не надо слишком цепляться к мелочам, я же не пеняю Вам на два пункта под номером 2. smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 10.12.2008 - 15:17
Сообщение #36





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Анна_К @ 10.12.2008 - 15:09) *
Но эти результаты совпадают с теми, которые я выявила нашими методами. Просто в данном случае для гена С значимые генотипы оказались близки по числовым значениям, поэтому и получилось так хорошо распознать, поставив границы 1.5 и 3.5 по аллелям А1 и А2 соответственно. Почему же вы не сказали, что результаты счета у меня и DoctorStat полностью совпали?

На уровне значимости р=0,05 мне НЕ УДАЛОСЬ выделить генотипы гена С, достоверно отличающиеся в группе больных стенокардией и группе контроля.
Цитата(Анна_К @ 10.12.2008 - 15:09) *
Кстати, очень жаль, что не проверяется связь между генами (между собой) и патологией. Никто же не доказал, что этой связи нет. И если сбор информации проводили у всех пациентов, наши методы позволили бы дать ответ о наличии или отсутствии этой связи.

Установление связи между генами - более трудная задача, чем выделение генотипов. Я могу предоставить генотипические данные по пациентам. Т.е. для каждого пациента известны генотипы по всем генам. Только объем выборки больных в 26 человек слишком мал для изучения связи генов.

Сообщение отредактировал DoctorStat - 10.12.2008 - 15:24


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 10.12.2008 - 15:25
Сообщение #37





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



DoctorStat,
Да, я упустила пару ответов. Одновременно в форуме быть и свою задачку делать сложно. Но дискуссия интересная, такие исследования - основа медицины будущего. Генотип человека почти известен, длительные наблюдения и статистический анализ его сопряженности с болезнями - даст ответ на многие вопросы, это выход на профилактику. Проект IBM, госпиталь Майя, коргда то была такая информация, сейчас о проекте ничего не слышно.
Вопрос к DoctorStat, получила ли я тот же результат по вашим данным, выложите свой вариант. Я не использовала кластерный анализ.

Анна_К, мое решение построено не на количественных данных, а на частотном анализе, оно не может с вашим совпасть даже случайно. Т.е. вы предложите решение своими методами, уже зная, что аллели - не числа. И чтобы незначимость генов тоже была доказана. А что такое 1.5 или 3.5 что это за границы мне не ясно.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 10.12.2008 - 15:33
Сообщение #38





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(DrgLena @ 10.12.2008 - 15:25) *
Вопрос к DoctorStat, получила ли я тот же результат по вашим данным, выложите свой вариант. Я не использовала кластерный анализ.

Нет, наши результаты НЕ СОВПАЛИ. Ген С не влияет на болезнь. Влияют только гены А и В. Полное решение проблемы смотрите на моем сайте http://doctorstat.narod.ru/doc/gen_d.html#p2 в разделе "Генетический анализ предрасположенности к заболеваниям - Выявление генотипов для одного гена".


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Анна_К
сообщение 10.12.2008 - 15:55
Сообщение #39





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430



Цитата(DrgLena @ 10.12.2008 - 15:25) *
Анна_К, мое решение построено не на количественных данных, а на частотном анализе, оно не может с вашим совпасть даже случайно. Т.е. вы предложите решение своими методами, уже зная, что аллели - не числа. И чтобы незначимость генов тоже была доказана. А что такое 1.5 или 3.5 что это за границы мне не ясно.

Ответ из разряда "это не может быть, потому что не может быть никогда". Тем не менее, если подумать: назывные (номинальные) признаки, характеризующие патологию, случайно по числам близки (1, 2, 3), остальные признаки (контрольная группа) выше границы 3,5. Что и отражено на рисунках. См. мой пост от Вчера, 18:41, Сообщение #17. Не забудьте заглянуть на красивые картинки. Когда я прочитала Ваш пост с результатами (кстати, куда он делся?), я была уверена, что Вы обсуждаете результаты, полученные мной.
Вопрос, почему наши (совпавшие) результаты не совпали с результатами DoctorStat?
Конечно, хотелось бы иметь данные по каждому пациенту - отдельной записью. Пусть и 26 - это ничего. И такую же контрольную группу (можно побольше объектов). Дело в том, что наши методы выявляют как раз сочетания информативных признаков. Следовательно для группы со стенокардией мы получим набор значимых аллелей и их генов.
Пронумеруйте, пожалуйста пациентов, чтобы можно было их обсуждать прицельно. После скользящего контроля.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 10.12.2008 - 16:05
Сообщение #40





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Дождаться "полного ответа" мне не удалось, что то не грузится. Но возражения об отсутствии сопряженности (не влияния) генотипа СА1 и СА2 со стенокардией готовы. По этому гену генотипы 1.1;1.2; и 1.3 имеют 17 из 23 больных (73.9%) и 1 из 54 здоровых (1.85%). Простая таблица сопряженности дает р=0.00000. gr=1 больные, 0 - здоровые. Представлены все встречающиеся в базе данных варианты сочетания C_A1 и C_A2. В первой колонке номер по порядку в ранжированном ряду, в конце самые зловредные сочетания. В последней колонке - принадлежность к группе.
C_A1 C_A2 gr
1 4 10 0
2 4 10 0
3 4 10 0
4 4 10 0
5 4 10 0
6 4 10 0
7 4 10 0
8 4 10 0
9 4 10 0
10 4 10 0
11 4 10 0
12 4 10 0
13 4 10 0
14 4 10 0
15 4 10 0
16 4 10 0
17 4 10 0
18 4 10 1
19 2 10 0
20 2 10 0
21 2 10 0
22 2 10 0
23 2 10 0
24 2 10 0
25 2 10 0
26 2 10 0
27 2 10 0
28 2 10 0
29 2 10 0
30 3 10 0
31 3 10 0
32 3 10 0
33 3 10 0
34 3 10 0
35 5 10 0
36 6 10 0
37 6 10 0
38 7 10 0
39 7 10 0
40 4 6 0
41 4 5 0
42 2 4 0
43 2 7 0
44 2 4 0
45 2 4 0
46 2 4 0
47 2 4 0
48 2 4 0
49 2 4 0
50 2 4 0
51 2 4 0
52 2 4 0
53 2 3 1
54 2 3 0
55 3 7 1
56 6 7 1
57 2 2 1
58 2 2 1
59 1 7 0
60 1 3 0
61 1 3 1
62 1 3 1
63 1 3 1
64 1 1 1
65 1 1 1
66 1 1 1
67 1 1 1
68 1 1 1
69 1 1 1
70 1 1 1
71 1 2 1
72 1 2 1
73 1 2 1
74 1 2 1
75 1 2 1
76 1 2 1
77 1 2 1
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 10.12.2008 - 16:23
Сообщение #41





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(DrgLena @ 10.12.2008 - 16:05) *
Но возражения об отсутствии сопряженности (не влияния) генотипа СА1 и СА2 со стенокардией готовы. По этому гену генотипы 1.1;1.2; и 1.3 имеют 17 из 23 больных (73.9%) и 1 из 54 здоровых (1.85%). Простая таблица сопряженности дает р=0.00000. gr=1 больные, 0 - здоровые.


Я вам дал НЕ ТЕ данные, см.рисунки: на них разные данные. На левом рисунке - данные с моего сайта. Различий в частотах генотипов С не видно. На правом рисунке данные, которые я дал на этом форуме. Различие частот генотипов на правом рисунке бросается в глаза. Сейчас буду разбираться, откуда взялись НЕПРАВИЛЬНЫЕ данные ???

Сообщение отредактировал DoctorStat - 10.12.2008 - 16:28
Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
 


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 10.12.2008 - 16:46
Сообщение #42





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Вы дали пример, его и решайте. Бог с ним с сайтом про подробности, он еще грузится. Там такие подробности, что вы не только гены у разных людей делали, но и аллели для конкретного гена анализируете без связи со второй т.е. отдельно CA1 в группе больных и здоровых и отдельно CA2. А важно только их сочетание. Или вы опять нам про генетику плохо рассказали.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 10.12.2008 - 16:54
Сообщение #43





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(DrgLena @ 10.12.2008 - 16:46) *
Вы дали пример, его и решайте. Бог с ним с сайтом про подробности, он еще грузится. Там такие подробности, что вы не только гены у разных людей делали, но и аллели для конкретного гена анализируете без связи со второй т.е. отдельно CA1 в группе больных и здоровых и отдельно CA2. А важно только их сочетание. Или вы опять нам про генетику плохо рассказали.

В приложенном файле Stenocardia2.rar ПРАВИЛЬНЫЕ данные по генотипам.

На моем сайте, кроме анализа генотипов, выполнялся поиск "плохих" аллелей. Т.е. искали не генотипы или сочетания аллелей (А1, А2), а оба аллеля объединялись в один (А1+А2) и вычленялись полиморфизмы гена, встречающиеся с различной частотой у здоровых и больных.

Сообщение отредактировал DoctorStat - 10.12.2008 - 17:10
Прикрепленные файлы
Прикрепленный файл  Stenocardia2.rar ( 3,5 килобайт ) Кол-во скачиваний: 343
 


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 10.12.2008 - 17:03
Сообщение #44





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Анна_К @ 10.12.2008 - 15:55) *
Конечно, хотелось бы иметь данные по каждому пациенту - отдельной записью. Пусть и 26 - это ничего. И такую же контрольную группу (можно побольше объектов). Дело в том, что наши методы выявляют как раз сочетания информативных признаков. Следовательно для группы со стенокардией мы получим набор значимых аллелей и их генов.
Пронумеруйте, пожалуйста пациентов, чтобы можно было их обсуждать прицельно. После скользящего контроля.

Анна, специально для Вас сделал файл Excel по каждому пациенту отдельной строкой (см.приложенный файл Stenocardia3.rar). Извините, что ввел Вас в заблуждение неправильными данными. Но, как говорится, и на DoctorStat-а бывает проруха. Больных получилось всего 15 человек, здоровых 54 чел.

Сообщение отредактировал DoctorStat - 10.12.2008 - 17:06
Прикрепленные файлы
Прикрепленный файл  Stenocardia3.rar ( 1,98 килобайт ) Кол-во скачиваний: 341
 


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Анна_К
сообщение 10.12.2008 - 20:23
Сообщение #45





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430



Цитата(DoctorStat @ 10.12.2008 - 17:03) *
Анна, специально для Вас сделал файл Excel по каждому пациенту отдельной строкой (см.приложенный файл Stenocardia3.rar). Извините, что ввел Вас в заблуждение неправильными данными. Но, как говорится, и на DoctorStat-а бывает проруха. Больных получилось всего 15 человек, здоровых 54 чел.

А где же обещанные 26 пациентов? Вы "специально для меня" отобрали только нераспознаваемые объекты?
Может все-таки найдутся все имеющиеся в наличии данные?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

6 страниц V  < 1 2 3 4 5 > » 
Добавить ответ в эту темуОткрыть тему