Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

6 страниц V  « < 2 3 4 5 6 >  
Добавить ответ в эту темуОткрыть тему
> Как создать формулу для расчета прогноза?
DoctorStat
сообщение 10.12.2008 - 20:32
Сообщение #46





Группа: Пользователи
Сообщений: 381
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Анна_К @ 10.12.2008 - 20:23) *
А где же обещанные 26 пациентов? Вы "специально для меня" отобрали только нераспознаваемые объекты?
Может все-таки найдутся все имеющиеся в наличии данные?

Анна, Вы просили генотипические данные по 3-м генам для КАЖДОГО пациента. В моей базе данных таких пациентов в группе больных только 15 человек. В файле Stenocardia2.rar пациентов в группе стенокардия больше (гены А.В -24 чел., ген С - 15 чел.), но не все из них генотипированы по всем 3-м генам. Других данных у меня нет. Как говорится, чем богаты, тем и рады.

Сообщение отредактировал DoctorStat - 10.12.2008 - 20:42


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 10.12.2008 - 21:24
Сообщение #47





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Предлагаю "правильными" данными считать первый набор данных, они уже пронумерованны в моем предыдущем посте, и ответ по ним я дала. Теперь это же могут сделать DoctorStat и Анна_К. Меня другой набор данных уже не вдохновляет, тем более, что так и нет уверенности, что данные о всех генах получены у одних и тех же пациентов.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 10.12.2008 - 21:36
Сообщение #48





Группа: Пользователи
Сообщений: 381
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(DrgLena @ 10.12.2008 - 21:24) *
Предлагаю "правильными" данными считать первый набор данных

Я не возражаю. Задача участников "соревнования" за звание "лучшего дата минера" - дать исчерпывающие ответы по генотипическим данным. Какие генотипы скорее всего повинны в развитии стенокардии? Можно ли среди этих "кандидатных" генотипов выделить однородные группы? С чем эти группы могут быть связаны? Насколько увеличивается шанс заболеть стенокардией обладателя "плохих" генотипов по сравнению с обладателем "хороших" генотипов? Есть ли взаимодествие между генами? Какую часть больных стенокардией можно объяснить "плохими генами"?

Сообщение отредактировал DoctorStat - 10.12.2008 - 21:58


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 10.12.2008 - 22:13
Сообщение #49





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Доктор DoctorStar, вы главный участник битвы гигантов, если ответите на все свои вопросы, получите Нобелевскую премию.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Анна_К
сообщение 10.12.2008 - 23:21
Сообщение #50





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430



Цитата(DoctorStat @ 10.12.2008 - 20:32) *
Анна, Вы просили генотипические данные по 3-м генам для КАЖДОГО пациента. В моей базе данных таких пациентов в группе больных только 15 человек. В файле Stenocardia2.rar пациентов в группе стенокардия больше (гены А.В -24 чел., ген С - 15 чел.), но не все из них генотипированы по всем 3-м генам. Других данных у меня нет. Как говорится, чем богаты, тем и рады.

Да, с данными какая-то неразбериха.
Вот я совместила все три таблицы Stenocardia1-2-3:
ни одной нет одинаковой пары таблиц.
все три файла отличаются то по здоровым, то по больным, то по двум последним столбцам.
Меня вполне устраивает предложение DrLena - сравнивать по первому файлу. Если, конечно, выяснили, откуда он взялся...
Его перекодировку в бинарные мы уже сделали и получены предварительные результаты.
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 11.12.2008 - 11:59
Сообщение #51





Группа: Пользователи
Сообщений: 381
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Данные взяты из самого первого файла Stenocardia.rar
С помощью моей программы получены "больные" и "здоровые" генотипы, связанные со стенокардией (см.ниже). Для вычисления значимости p-value (показана справа от гена), "больные" и "здоровые" генотипы объединялись в отдельные группы (кластеры) и сравнивались критерием хи-квадрат эти 2 кластера с учетом множественных сравнений.

ген А (рис.справа): (p-value=9e-6)
больные: 1\4, 2\5, 1\7, 5\7, 2\4, 2\6, 3\4, 2\9, 3\9, 3\7
здоровые: 1\2, 1\3, 1\5, 1\6, 2\3, 2\7, 3\5, 4\5, 4\7, 5\9

ген B (рис.в центре): (p-value=1e-9)
больные: 1\4, 1\9, 2\8, 3\14, 5\10, 9\14, 2\3, 2\14, 2\17, 2\4, 3\8, 4\14, 1\17, 8\13, 13\16, 3\6, 10\13, 5\15
здоровые: 1\2, 1\3, 1\7, 1\8, 1\10, 1\12, 1\13, 1\14, 1\15, 2\5, 2\6, 2\7, 2\10, 2\12, 2\13, 2\15, 3\4, 3\5, 3\10, 4\5, 4\6, 4\7, 4\9, 4\10, 4\15, 4\17, 5\7, 5\14, 7\10, 7\11, 7\14, 7\15, 8\9, 8\10, 8\12, 8\14, 8\17, 9\17, 10\14, 10\15, 11\17, 13\14, 13\15, 14/15, 14\17

ген С (рис.слева): (p-value=1e-12)
больные: 1\1, 1\2
здоровые: 2\4, 2\10, 3\10, 4\10

Генотипы, не вошедшие в кластеры "больных" или "здоровых" считаются малочисленными (редкими). Они не учитывались при вычислении p-value (значимость отличий кластеров генотипов).

Сообщение отредактировал DoctorStat - 11.12.2008 - 14:01
Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
Прикрепленное изображение
 


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 11.12.2008 - 14:06
Сообщение #52





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Чего только не сделает доктор, чтобы получить желанное p<0,05. Я считала, что генетика - самая точная наука среди других медицинских наук. Из ликбеза ясно, что объект исследования - человек и он может иметь к конкретному гену только сочетание А_А1 и А_А2. Т.о. объявляя "больным" 1\4 для гена А вы должны доказать что это сочетание у больных встречается достоврено чаще, чем у здоровых. В группе больных (24) это сочетание встречается у двух больных (8,3%) и у 6 (2,5%) в группе контроля. При этом даже размер группы контроля 236 не дает вам желанного результата по таблице сопряженности, а только р=0,14. Не получая желанного результата вы стали объединять плохие аллели.

Сложили в кучку все не очень хорошие сочетания, как будто они могут присутствовать у одного больного, и это назвали фактором риска, рассчитывая для такого абстрактрого субъекта, который имеет всю эту кучку сочетаний по одному гену, шанс развития стенокардии. Раскрашивание одним цветом объекты не дают основания называть это кластерами, кластер должен появиться из кластерного анализа и от группы должен отличаться таким, например, свойством, как межкластерное расстояние.
По гену С ситуация другая там, действительно есть сочетания например 1\2 или 1\1, которые встречаются только у больных стенокардией и наличие любого из них дотоверно выше, чем группе контроля р=0,0000.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 11.12.2008 - 14:35
Сообщение #53





Группа: Пользователи
Сообщений: 381
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(DrgLena @ 11.12.2008 - 14:06) *
Не получая желанного результата вы стали объединять плохие аллели.

Размеры выборок слишком малы, чтобы хи-квадрат по отдельным генотипам дал значимые отличия. Поэтому применяется кластерный анализ, объединяющий "похожие" генотипы в группы.
Цитата(DrgLena @ 11.12.2008 - 14:06) *
Раскрашивание одним цветом объекты не дают основания называть это кластерами, кластер должен появиться из кластерного анализа и от группы должен отличаться таким, например, свойством, как межкластерное расстояние.

Кластеры - это группы приблизительно одинаковых генотипов, объединяемых с помощью кластерного анализа. Кластеры характеризуются внутригрупповой однородностью ( внутрикластерной вероятностью отличий p-value>>0,05 ) и межкластерным расстоянием (p-value<0,05, которую я приводил в предыдущем сообщении, справа от гена).
Цитата(DrgLena @ 11.12.2008 - 14:06) *
По гену С ситуация другая

На практике легко разделяющихся данных (как в случае гена С) не встречается.

Сообщение отредактировал DoctorStat - 11.12.2008 - 14:40


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 11.12.2008 - 15:32
Сообщение #54





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Да, я посетила ваш сайт и проследила за ходом выполнения анализа. Вы меня не убедили.
Если размер выборки не достаточный для получения желаемого для вас вывода, то это не дает вам основание прибегать к явным манипуляциям данными с целью достижения нужного результата. Это не служит ни интересам генетики, ни интересам статистики. Нужно искать другой путь.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 11.12.2008 - 15:45
Сообщение #55





Группа: Пользователи
Сообщений: 381
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(DrgLena @ 11.12.2008 - 15:32) *
Нужно искать другой путь.

Какой? Предложите свой алгоритм.

Сообщение отредактировал DoctorStat - 11.12.2008 - 15:46


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 11.12.2008 - 16:57
Сообщение #56





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Если данные содержат информацию, которая может быть полезной в прогнозе, то ее можно извлечь различными методами. Алгоритмические, например, логистическая регрессия и дискриминантный анализ на одной и той же базе данных дает похожий результат, процент верной классификации 72% и 71%, нейронные сети по тем же данным дали мне 74% - не алгоритмический метод, а тот самый черный ящик, который как то там обучился и выдает результат ( при этом выборка разделяется на 3 - обучающая, тестовая и контрольная, с возможным перемешиванием данных). На проверочной выборке, однако эти проценты снижаются примерно до 60-62 для всех этих методов. Это говорит о том, что имеющийся набор данных позволяет именно с такой точностью делать прогноз. Если данные, которые вы собрали не могут дать прогноз, собирайте дальше, возможно появятся другие более мощные предикторы. Использование кластерного анализа именно в генетических исследованиях - это мощный инструмент поиска возможных причин заболеваний, кажется за что то подобное была присуждена Нобелевская премия.
Красивая работа с применением кластерного анализа:

http://www.nslij-genetics.org/wli/pub/jim06.pdf
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 11.12.2008 - 17:45
Сообщение #57





Группа: Пользователи
Сообщений: 381
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(DrgLena @ 11.12.2008 - 16:57) *
Если данные содержат информацию, которая может быть полезной в прогнозе, то ее можно извлечь различными методами.
Может быть, Анна_К предложит что-нибудь новенькое ?


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 11.12.2008 - 17:54
Сообщение #58





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Вы, очевидно не поняли, что дело не в новых методах извлечения, которые может предложить Анна_К, а в том, что в ваших данных пока нечего извлекать. А что было в них заложено, я вам выдала по гену С.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 11.12.2008 - 20:18
Сообщение #59





Группа: Пользователи
Сообщений: 381
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(DrgLena @ 11.12.2008 - 17:54) *
в ваших данных пока нечего извлекать
Я думаю, что приведенных мною данных достаточно для извлечения информации о «больных» и «здоровых» генотипах по всем 3-м генам. Мой подход к добыче таких данных - метод кластеризации генотипов на основе статистического критерия хи-квадрат. Разумеется, этот подход неединственный. Разговор в этой ветке форума и был затеян для того, чтобы дать возможность всем желающим продемонстрировать свои методы добычи информации. Ваш подход на основе обычного анализа таблиц сопряженности на практике не работает из-за малого объема выборки больных и большого полиморфизма (разнообразия) генов (см., например, количество аллелей гена В). Требуются новые подходы...

Сообщение отредактировал DoctorStat - 11.12.2008 - 20:31


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 11.12.2008 - 22:42
Сообщение #60





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Да, вы извлекли какую- то информацию. А именно, например для гена А «больными» названы 10 сочетаний двух аллелей, которые вы назвали кластером, утверждая, что они имеют больше схожести внутри кластера (при этом, роль метрики близости и расстояния между кластерами у вас выступает выражение типа р<0.0000). Однако вся их схожесть заключается только в некотором преобладании в частоте встречаемости у больных по сравнению со здоровыми (на несколько %). Вы, почему то, упорно игнорируете тот факт, что у одного больного имеется только одно сочетание двух аллелей для одного гена, а не все 10 сочетаний вместе.
Я использовала другой подход, конечно не банальный анализ таблиц сопряженности, хотя на первом этапе он дает предварительную информацию о распределении аллелей у больных и здоровых. Но дальше я использую суммарную информативность по всем генам сделанным у каждого пациента, при этом гены А и В ни в каких сочетаниях аллелей на дали мне дополнительной к гену С информации относительно дифференциации двух состояний.
А по гену С я дала вам вчера ранжированный ряд по увеличению "болезненности" гена, от "самых здоровых" 4\10 (сумма J=-10,78), до самых больных 1\2 (сумма J =+15,36). Могу привести информативность всех других сочетаний по гену С. Но, видимо интереса к этой дискуссии нет, даже Solo получила ответы в другой ветке.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

6 страниц V  « < 2 3 4 5 6 >
Добавить ответ в эту темуОткрыть тему