![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() ![]() |
![]() |
![]()
Сообщение
#46
|
|
Группа: Пользователи Сообщений: 381 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 ![]() |
А где же обещанные 26 пациентов? Вы "специально для меня" отобрали только нераспознаваемые объекты? Может все-таки найдутся все имеющиеся в наличии данные? Анна, Вы просили генотипические данные по 3-м генам для КАЖДОГО пациента. В моей базе данных таких пациентов в группе больных только 15 человек. В файле Stenocardia2.rar пациентов в группе стенокардия больше (гены А.В -24 чел., ген С - 15 чел.), но не все из них генотипированы по всем 3-м генам. Других данных у меня нет. Как говорится, чем богаты, тем и рады. Сообщение отредактировал DoctorStat - 10.12.2008 - 20:42 ![]() Просто включи мозги => http://doctorstat.narod.ru
|
|
![]() |
![]() |
![]()
Сообщение
#47
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Предлагаю "правильными" данными считать первый набор данных, они уже пронумерованны в моем предыдущем посте, и ответ по ним я дала. Теперь это же могут сделать DoctorStat и Анна_К. Меня другой набор данных уже не вдохновляет, тем более, что так и нет уверенности, что данные о всех генах получены у одних и тех же пациентов.
|
|
![]() |
![]() |
![]()
Сообщение
#48
|
|
Группа: Пользователи Сообщений: 381 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 ![]() |
Предлагаю "правильными" данными считать первый набор данных Я не возражаю. Задача участников "соревнования" за звание "лучшего дата минера" - дать исчерпывающие ответы по генотипическим данным. Какие генотипы скорее всего повинны в развитии стенокардии? Можно ли среди этих "кандидатных" генотипов выделить однородные группы? С чем эти группы могут быть связаны? Насколько увеличивается шанс заболеть стенокардией обладателя "плохих" генотипов по сравнению с обладателем "хороших" генотипов? Есть ли взаимодествие между генами? Какую часть больных стенокардией можно объяснить "плохими генами"? Сообщение отредактировал DoctorStat - 10.12.2008 - 21:58 ![]() Просто включи мозги => http://doctorstat.narod.ru
|
|
![]() |
![]() |
![]()
Сообщение
#49
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Доктор DoctorStar, вы главный участник битвы гигантов, если ответите на все свои вопросы, получите Нобелевскую премию.
|
|
![]() |
![]() |
![]()
Сообщение
#50
|
|
Группа: Пользователи Сообщений: 18 Регистрация: 23.10.2008 Пользователь №: 5430 ![]() |
Анна, Вы просили генотипические данные по 3-м генам для КАЖДОГО пациента. В моей базе данных таких пациентов в группе больных только 15 человек. В файле Stenocardia2.rar пациентов в группе стенокардия больше (гены А.В -24 чел., ген С - 15 чел.), но не все из них генотипированы по всем 3-м генам. Других данных у меня нет. Как говорится, чем богаты, тем и рады. Да, с данными какая-то неразбериха. Вот я совместила все три таблицы Stenocardia1-2-3: ни одной нет одинаковой пары таблиц. все три файла отличаются то по здоровым, то по больным, то по двум последним столбцам. Меня вполне устраивает предложение DrLena - сравнивать по первому файлу. Если, конечно, выяснили, откуда он взялся... Его перекодировку в бинарные мы уже сделали и получены предварительные результаты. |
|
![]() |
![]() |
![]()
Сообщение
#51
|
|
Группа: Пользователи Сообщений: 381 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 ![]() |
Данные взяты из самого первого файла Stenocardia.rar
С помощью моей программы получены "больные" и "здоровые" генотипы, связанные со стенокардией (см.ниже). Для вычисления значимости p-value (показана справа от гена), "больные" и "здоровые" генотипы объединялись в отдельные группы (кластеры) и сравнивались критерием хи-квадрат эти 2 кластера с учетом множественных сравнений. ген А (рис.справа): (p-value=9e-6) больные: 1\4, 2\5, 1\7, 5\7, 2\4, 2\6, 3\4, 2\9, 3\9, 3\7 здоровые: 1\2, 1\3, 1\5, 1\6, 2\3, 2\7, 3\5, 4\5, 4\7, 5\9 ген B (рис.в центре): (p-value=1e-9) больные: 1\4, 1\9, 2\8, 3\14, 5\10, 9\14, 2\3, 2\14, 2\17, 2\4, 3\8, 4\14, 1\17, 8\13, 13\16, 3\6, 10\13, 5\15 здоровые: 1\2, 1\3, 1\7, 1\8, 1\10, 1\12, 1\13, 1\14, 1\15, 2\5, 2\6, 2\7, 2\10, 2\12, 2\13, 2\15, 3\4, 3\5, 3\10, 4\5, 4\6, 4\7, 4\9, 4\10, 4\15, 4\17, 5\7, 5\14, 7\10, 7\11, 7\14, 7\15, 8\9, 8\10, 8\12, 8\14, 8\17, 9\17, 10\14, 10\15, 11\17, 13\14, 13\15, 14/15, 14\17 ген С (рис.слева): (p-value=1e-12) больные: 1\1, 1\2 здоровые: 2\4, 2\10, 3\10, 4\10 Генотипы, не вошедшие в кластеры "больных" или "здоровых" считаются малочисленными (редкими). Они не учитывались при вычислении p-value (значимость отличий кластеров генотипов). Сообщение отредактировал DoctorStat - 11.12.2008 - 14:01 ![]() Просто включи мозги => http://doctorstat.narod.ru
|
|
![]() |
![]() |
![]()
Сообщение
#52
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Чего только не сделает доктор, чтобы получить желанное p<0,05. Я считала, что генетика - самая точная наука среди других медицинских наук. Из ликбеза ясно, что объект исследования - человек и он может иметь к конкретному гену только сочетание А_А1 и А_А2. Т.о. объявляя "больным" 1\4 для гена А вы должны доказать что это сочетание у больных встречается достоврено чаще, чем у здоровых. В группе больных (24) это сочетание встречается у двух больных (8,3%) и у 6 (2,5%) в группе контроля. При этом даже размер группы контроля 236 не дает вам желанного результата по таблице сопряженности, а только р=0,14. Не получая желанного результата вы стали объединять плохие аллели.
Сложили в кучку все не очень хорошие сочетания, как будто они могут присутствовать у одного больного, и это назвали фактором риска, рассчитывая для такого абстрактрого субъекта, который имеет всю эту кучку сочетаний по одному гену, шанс развития стенокардии. Раскрашивание одним цветом объекты не дают основания называть это кластерами, кластер должен появиться из кластерного анализа и от группы должен отличаться таким, например, свойством, как межкластерное расстояние. По гену С ситуация другая там, действительно есть сочетания например 1\2 или 1\1, которые встречаются только у больных стенокардией и наличие любого из них дотоверно выше, чем группе контроля р=0,0000. |
|
![]() |
![]() |
![]()
Сообщение
#53
|
|
Группа: Пользователи Сообщений: 381 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 ![]() |
Не получая желанного результата вы стали объединять плохие аллели. Размеры выборок слишком малы, чтобы хи-квадрат по отдельным генотипам дал значимые отличия. Поэтому применяется кластерный анализ, объединяющий "похожие" генотипы в группы. Раскрашивание одним цветом объекты не дают основания называть это кластерами, кластер должен появиться из кластерного анализа и от группы должен отличаться таким, например, свойством, как межкластерное расстояние. Кластеры - это группы приблизительно одинаковых генотипов, объединяемых с помощью кластерного анализа. Кластеры характеризуются внутригрупповой однородностью ( внутрикластерной вероятностью отличий p-value>>0,05 ) и межкластерным расстоянием (p-value<0,05, которую я приводил в предыдущем сообщении, справа от гена). По гену С ситуация другая На практике легко разделяющихся данных (как в случае гена С) не встречается. Сообщение отредактировал DoctorStat - 11.12.2008 - 14:40 ![]() Просто включи мозги => http://doctorstat.narod.ru
|
|
![]() |
![]() |
![]()
Сообщение
#54
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Да, я посетила ваш сайт и проследила за ходом выполнения анализа. Вы меня не убедили.
Если размер выборки не достаточный для получения желаемого для вас вывода, то это не дает вам основание прибегать к явным манипуляциям данными с целью достижения нужного результата. Это не служит ни интересам генетики, ни интересам статистики. Нужно искать другой путь. |
|
![]() |
![]() |
![]()
Сообщение
#55
|
|
Группа: Пользователи Сообщений: 381 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 ![]() |
Нужно искать другой путь. Какой? Предложите свой алгоритм. Сообщение отредактировал DoctorStat - 11.12.2008 - 15:46 ![]() Просто включи мозги => http://doctorstat.narod.ru
|
|
![]() |
![]() |
![]()
Сообщение
#56
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Если данные содержат информацию, которая может быть полезной в прогнозе, то ее можно извлечь различными методами. Алгоритмические, например, логистическая регрессия и дискриминантный анализ на одной и той же базе данных дает похожий результат, процент верной классификации 72% и 71%, нейронные сети по тем же данным дали мне 74% - не алгоритмический метод, а тот самый черный ящик, который как то там обучился и выдает результат ( при этом выборка разделяется на 3 - обучающая, тестовая и контрольная, с возможным перемешиванием данных). На проверочной выборке, однако эти проценты снижаются примерно до 60-62 для всех этих методов. Это говорит о том, что имеющийся набор данных позволяет именно с такой точностью делать прогноз. Если данные, которые вы собрали не могут дать прогноз, собирайте дальше, возможно появятся другие более мощные предикторы. Использование кластерного анализа именно в генетических исследованиях - это мощный инструмент поиска возможных причин заболеваний, кажется за что то подобное была присуждена Нобелевская премия.
Красивая работа с применением кластерного анализа: http://www.nslij-genetics.org/wli/pub/jim06.pdf |
|
![]() |
![]() |
![]()
Сообщение
#57
|
|
Группа: Пользователи Сообщений: 381 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 ![]() |
Если данные содержат информацию, которая может быть полезной в прогнозе, то ее можно извлечь различными методами. Может быть, Анна_К предложит что-нибудь новенькое ?![]() Просто включи мозги => http://doctorstat.narod.ru
|
|
![]() |
![]() |
![]()
Сообщение
#58
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Вы, очевидно не поняли, что дело не в новых методах извлечения, которые может предложить Анна_К, а в том, что в ваших данных пока нечего извлекать. А что было в них заложено, я вам выдала по гену С.
|
|
![]() |
![]() |
![]()
Сообщение
#59
|
|
Группа: Пользователи Сообщений: 381 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 ![]() |
в ваших данных пока нечего извлекать Я думаю, что приведенных мною данных достаточно для извлечения информации о «больных» и «здоровых» генотипах по всем 3-м генам. Мой подход к добыче таких данных - метод кластеризации генотипов на основе статистического критерия хи-квадрат. Разумеется, этот подход неединственный. Разговор в этой ветке форума и был затеян для того, чтобы дать возможность всем желающим продемонстрировать свои методы добычи информации. Ваш подход на основе обычного анализа таблиц сопряженности на практике не работает из-за малого объема выборки больных и большого полиморфизма (разнообразия) генов (см., например, количество аллелей гена В). Требуются новые подходы...
Сообщение отредактировал DoctorStat - 11.12.2008 - 20:31 ![]() Просто включи мозги => http://doctorstat.narod.ru
|
|
![]() |
![]() |
![]()
Сообщение
#60
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Да, вы извлекли какую- то информацию. А именно, например для гена А «больными» названы 10 сочетаний двух аллелей, которые вы назвали кластером, утверждая, что они имеют больше схожести внутри кластера (при этом, роль метрики близости и расстояния между кластерами у вас выступает выражение типа р<0.0000). Однако вся их схожесть заключается только в некотором преобладании в частоте встречаемости у больных по сравнению со здоровыми (на несколько %). Вы, почему то, упорно игнорируете тот факт, что у одного больного имеется только одно сочетание двух аллелей для одного гена, а не все 10 сочетаний вместе.
Я использовала другой подход, конечно не банальный анализ таблиц сопряженности, хотя на первом этапе он дает предварительную информацию о распределении аллелей у больных и здоровых. Но дальше я использую суммарную информативность по всем генам сделанным у каждого пациента, при этом гены А и В ни в каких сочетаниях аллелей на дали мне дополнительной к гену С информации относительно дифференциации двух состояний. А по гену С я дала вам вчера ранжированный ряд по увеличению "болезненности" гена, от "самых здоровых" 4\10 (сумма J=-10,78), до самых больных 1\2 (сумма J =+15,36). Могу привести информативность всех других сочетаний по гену С. Но, видимо интереса к этой дискуссии нет, даже Solo получила ответы в другой ветке. |
|
![]() |
![]() |
![]() ![]() |