Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

6 страниц V  < 1 2 3 4 > »   
Добавить ответ в эту темуОткрыть тему
> Как создать формулу для расчета прогноза?
DrgLena
сообщение 9.12.2008 - 18:25
Сообщение #16





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Если уж наблюдать битву гигантов, то давайте вспомним, о чем шла речь в посте Solo, необходимо получить прогноз вероятности положительного результата лечения на конкретных данных. Т.е. это не задача дискриминации в два класса - результат достигнут, - не достигнут. Хорошо, чтобы именно эта задача и решалась различными методами, а не другая задача. Т.о. можно будет увидеть альтернативу логистической регрессии. Поэтому, просьба к Solo, выложить данные, закодировав признаки, как угодно. Отклик - 0 ,1 и все остальные А,Б,С... Волонтеры займутся полезным делом.... Но Анна_К может ничего и не заработает, но привлечет внимание, т.е. получит бесплатную рекламу.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Анна_К
сообщение 9.12.2008 - 18:41
Сообщение #17





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430



Цитата(DoctorStat @ 9.12.2008 - 16:28) *
Насколько Ваши результаты поиска больных генотипов будут отличаться от моих. Вопрос в том, чей алгоритм окажется лучше - мой (простой, как 5 копеек) или Ваш (продвинутый-дата-мининг)?

Предварительный счет методом оптимальных разбиений дал такой результат:
значимых для распознавания признаков только 2: C_A1 и C_A2.
Граница градации по C_A1 = 1,5, при этом ниже границы оказывается всего 2 наблюдения из контроля и 17 наблюдения - больных,
выше границы 52 наблюдения здоровых и 6 наблюдений больных.
Граница градации по C_A2 = 3,5 , соответственно ниже границы 2 здоровых/20 больных, выше границы 52 здоровых / 3 больных.
Таким образом, простейшее решающее правило: для больных характерны гены со значениями по C_A1<1,5 и по C_A2<3,5.
Коэффициент корреляции по распознаванию сделаю позже (программа в другом месте).
Цитата(DoctorStat @ 9.12.2008 - 16:28) *
Существенно увеличить объем выборки больных стенокардией я не могу. Могу только увеличить объем контрольной выборки, но она и так много больше выборки больных! Если Вы очень настаиваете на увеличении объема выборки, то я могу предоставить генотипические данные по другой болезни.

Присылайте, но только по данной задаче. Другая болезнь - это другая задача.
Я так и думала, что под контролем Вы будете считать только здоровую группу.
Я же писала в прошлом посте: контроль (для нас) - это объекты, не входившие ранее в обучающую выборку. smile.gif
Вот что значит привычка к определенному словарю.
Прикрепляю картины, которые делаются при работе метода оптимальных разбиений. Крестики - здоровые, нолики - стенокардия.
Наглядно видно преобладание одной группы ниже границы и другой группы - выше границы.
Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Анна_К
сообщение 9.12.2008 - 18:55
Сообщение #18





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430



Цитата(DrgLena @ 9.12.2008 - 18:25) *
Если уж наблюдать битву гигантов, то давайте вспомним, о чем шла речь в посте Solo, необходимо получить прогноз вероятности положительного результата лечения на конкретных данных. ... Т.о. можно будет увидеть альтернативу логистической регрессии. Поэтому, просьба к Solo, выложить данные, закодировав признаки, как угодно. Отклик - 0 ,1 и все остальные А,Б,С... Волонтеры займутся полезным делом.... Но Анна_К может ничего и не заработает, но привлечет внимание, т.е. получит бесплатную рекламу.

Спасибо, DrgLena, за поддержку. Ничего не имею против такого пиара. wink.gif Очень хочется, чтобы врачебно-аспирантская аудитория знала все возможности анализа данных.
Только группы лучше нумеровать 1 и 2.
Наши методы дают как раз прогноз вероятности, т.к. на скользящем контроле мы получаем какой-то процент правильного распознавания. Например, 88%. Это означает, что с такой вероятностью данное решающее правило относит конкретного пациенту в 1 или 2 группу.
Solo! А Вам интересно, кто победит в споре: логистическая регрессия (как достойный представитель data mining, правда в сильно зрелом возрасте) или альтернативные методы интеллектуального анализа данных (горячие, как пирожки из печки)?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Анна_К
сообщение 9.12.2008 - 19:35
Сообщение #19





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430



Извините, plav, Вам отвечаю позже всех. Слишком много надо было писать.
Начну отвечать с конца. Там наиболее фундаментальные и общие возражения.
Цитата(плав @ 8.12.2008 - 22:38) *
В целом сдается, что Вы думаете, что Ваши методы какое-то откровение, а не просто новояз окружающий комбинацию из хорошо известных регрессионных подходов (пусть и нелинейной регрессии), кластерного и факторного анализов. Кстати, методы MCMC, на который Вы так часто ссылаетесь, как на новое слово, в классической статистике используются уже давно, да вообщем-то и методы с интенсивным использованием ЭВМ (bootstrap), тоже с повторными выборками, для оценки коэффициентов регрессии никто не отменял. Вообще-то на такой полемический задор смотреть смешно, ну, понятно, есть увлечения, но не стоит считать, что вокруг все лаптем щи хлебают, а тут "дао снизошло". Лучше посмотрите книги по Data Mining, не в Москве изданные, а там, где термин зародился, тут интересу ради просто повернулся и сборник под ред. Bozdogan'а посмотрел - штуки четыре статьи об использовании логистической регрессии в DM. А Вы о "нашей логистической регрессии".

Это, действительно, НЕ "новояз окружающий комбинацию из хорошо известных регрессионных подхоов"...! Методы существуют не 20 лет, а около 40 - с 70-х гг. прошлого столетия. Начиналось все с прогноза полезных ископаемых по пробам грунта.
Жизнь не стоит на месте. И теоретические методы, которые были сочинены давно, но не могли применяться в связи колоссальной трудоемкостью, теперь спокойно программируются и работают. 10 лет назад мы ждали результата счета сутками, сейчас на пентиуме4 = всего минут 20-30. Хотя при большом числе объектов и признаков (несколько сотен) счет все-таки приходится оставлять на ночь. Никто не унижает Ваши, plav, глубокие познания в статистике, просто захотелось рассказать о том, что создается у меня на глазах (в ВЦ РАН). У нас в России есть странная привычка "молиться" на зарубежье, и не замечать, пренебрегать достижениями наших ученых-математиков. Работа идет, и это, пожалуй, одна из немногих областей, где не нужны электронные микроскопы и дорогостоящие реактивы, поэтому лаборатории остаются и функционируют в полную силу. Короче, кроме "логистической регрессии", существуют разные подходы
Цитата(плав @ 8.12.2008 - 22:38) *
6) Вы не ошиблись насчет коэффициента корреляции как показателя точности распознавания? С квадратом коэффициента не перепутали? Или не понимаете о чем это я? И расскажите, как Вы считаете коэффициент корреляции между "реальным номером группы ... и его функцией номера класса". Какой коэффициент корреляции Вы считаете? Реальный номер группы он у Вас всегда ординальный? Или, не побоюсь этого слова, интервальный? Или? А если "реальный номер группы" 1 или 0 (т.е. болен - не болен), какой корреляционный коэффициент используете?

Это простой привычный коэффициент корреляции. Не перепутала. Понимаю. Формулу можно посмотреть в наших ранних публикациях. Реальный номер группы всегда натуральный: 1, 2, 3... Если группа 0, меняем ее на 2. rolleyes.gif И работаем как всегда.
Поймите, что мы ищем коэффициент корреляции не между номерами исследуемых групп, а между истинным номером группы и результатом его прогноза (после работы алгоритма распознавания).
Цитата(плав @ 8.12.2008 - 22:38) *
5) Если Вы кому-то рекомендуете составлять диагностические алгоритмы на 30 пациентах, мне очень жаль пациентов, которые потом будут получать помощь от таких "разработчиков" и я сильно надеюсь, что в случае судебных исков за ненадлежащее врачевание в адрес "разработчиков" уйдет частное определение.

Никогда диагноз не ставится на основе какого-либо компьютерного решения. Диагноз ставит врач. Вся ответственность лежит на нем. Компьютерные методы только рекомендуют, и их точность равна вероятности, с которой работает данный метод.
Цитата(плав @ 8.12.2008 - 22:38) *
4) Как Вы думаете, если я не представляю себе, как работает "скользящий контроль", почему я упоминаю leave-one-out?

На этот вопрос мой коллега (автор алгоритма оптимальных разбиений) ответил так:
«Вы не знаете термин ?скользящий контроль? !? Это абсолютно базовое понятие в современном прогнозировании. Прочитайте любую статью. Это вовсе не jackknife.
Leave-one-out ? частный случай скользящего контроля.
Смысл данного понятия именно в проверке точности прогноза. Выборка последовательно делится на подвыборки; обучающую и контрольную. На одной происходит обучение, на другой контроль. Процесс повторяется многократно. Где же здесь подгонка? Максимизация точности в режиме скользящий контроль действительно иногда производится путём манипулирования параметрами модели. Но это абсолютная ПРОФАНАЦИЯ метода. Вероятно, вы именно это имели в виду, когда писали: «при помощи методов leave-one-out обычно проводится ПОСТРОЕНИЕ модели». Результатам скользящего контроля в этом случае нельзя доверять. Кстати, вы можете с таким же успехом добиваться максимизации точности на контрольной выборке (другом наборе данных), меняя параметры модели».

Цитата(плав @ 8.12.2008 - 22:38) *
3) Как эти доказательства были получены.
И знаете, работает, хотя функция получена в Америке 1960х, а проверена на российской популяции 1980х. Предсказывает.
А Вы можете такое же? Проверку на другой, не связанной с первой популяцией, другой группе больных.

Доказательства, например, по распознаванию типа инсульта. В приемном покое врач с точностью 60% проводит дифференциальный диагноз между ишемическим и геморрагическим типами инсульта. Наше распознающее правило дало 85-90%. Нейронные сети с отладкой по генетическому алгоритму дали 99%, о чем и была защищена докторская диссертация. Но мы считаем, что это как раз и была подгонка. И наши результаты дающие не столь высокий результат ? намного устойчивее, и не боятся поступления в выборку новых данных.
Все голословные утверждения ничего не стоят, пока не будет проведено честное сравнение результатов распознавания.
Цитата(плав @ 8.12.2008 - 22:38) *
2) Будьте добры - в общих чертах - теоретическое обоснование метода, а то из всех возражений этот кусок (особенно с достоверностями, он как раз базируется на знании классической статистики) был проигнорирован.

Senko O.V., Kuznetsova A.V. The Optimal Valid Partitioning Procedures, Электронный рецензируемый журнал «InterStat», http://ip.statjournals.net:2002/InterStat/...les/0604002.pdf, http://interstat.statjournals.net/
Может быть, это Вам поможет.
Цитата(плав @ 8.12.2008 - 22:38) *
1) Почему именно на 30 объектах. Будьте добры теоретическое обоснование.

Просто так нас учили на кафедре математики на медико-биологическом факультете РГМУ (Бывшего II МОЛГМИ им. Н.И.Пирогова), отделении медицинская кибернетика. И это оправдало себя на практике. Хотя с меньшим числом объектов и приходилось работать, но мы всегда знали, что это первоначальный алгоритм, требующий пополнения выборки.

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 9.12.2008 - 19:55
Сообщение #20





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Анна_К @ 9.12.2008 - 18:41) *
Предварительный счет методом оптимальных разбиений дал такой результат:
значимых для распознавания признаков только 2: C_A1 и C_A2.
Граница градации по C_A1 = 1,5, при этом ниже границы оказывается всего 2 наблюдения из контроля и 17 наблюдения - больных,
выше границы 52 наблюдения здоровых и 6 наблюдений больных.

Прошу простить за напоминание, что номера аллелей, как 1-го, так и 2-го для каждого из 3-х генов, это не количественные и не ординальные (упорядочиваемые) переменные, а качественные (номинальные) признаки, которые нельзя упорядочить. Значит, метод оптимальных разбиений для этих переменных не подходит. В методе оптимальных разбиений проводится граница в области изменения переменных, сравниваются значения этих переменных с числами, а это НЕВЕРНО для качественных признаков, таких как номер аллеля какого-либо гена.

Сообщение отредактировал DoctorStat - 9.12.2008 - 20:01


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 9.12.2008 - 20:19
Сообщение #21





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(DrgLena @ 9.12.2008 - 18:25) *
необходимо получить прогноз вероятности положительного результата лечения на конкретных данных. Т.е. это не задача дискриминации в два класса - результат достигнут, - не достигнут.

Задача исследователя - установить связь генотипа с изучаемой болезнью. Если мы знаем, что такая связь (предрасположенность) существует, то можем с определенной долей уверенности предположить, что к определенному возрасту, пациент с данным генотипом заболеет этим заболеванием. Таким образом, мы предсказываем, делаем прогноз заболеваемости для конкретного пациента. В этом смысле (вычисления рисков) наш метод аналогичен логистической регрессии. Разница в том, что в регрессии в качестве независимых признаков используется: лечение (есть/нет), а в алгоритме выделения генотипов используется: «плохой генотип» (есть/нет).

Сообщение отредактировал DoctorStat - 9.12.2008 - 20:21


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Анна_К
сообщение 9.12.2008 - 21:50
Сообщение #22





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430



Цитата(DoctorStat @ 9.12.2008 - 19:55) *
Прошу простить за напоминание, что номера аллелей, как 1-го, так и 2-го для каждого из 3-х генов, это не количественные и не ординальные (упорядочиваемые) переменные, а качественные (номинальные) признаки, которые нельзя упорядочить. Значит, метод оптимальных разбиений для этих переменных не подходит. В методе оптимальных разбиений проводится граница в области изменения переменных, сравниваются значения этих переменных с числами, а это НЕВЕРНО для качественных признаков, таких как номер аллеля какого-либо гена.

Прошу прощения в свою очередь, но Вы нигде не упоминали о том, что характер признаков номинальный. Можете убедиться сами:
///////////
В качестве проверки Вашего алгоритма, предлагаю вычленить больные генотипы отдельных генов (всего 3 гена) для 2-х выборок больные+контроль всего 78 человек. С помощью алгоритма кластеризации и хи-квадрат я нашел генотипы, значимо чаще встречающиеся у больных. Можете ли Вы своими суперметодами типа дата-мининг обнаружить генотипы - признаки болезни ??! Файл Excel с данными по генотипам в группе контроля и больных стенокардией прикреплен к данному сообщению. Всего 3 гена: A, B, C. Для каждого гена 2 аллеля: A1, A2 и т.д. Необходимо вычленить "плохие" сочетания аллелей по каждому из 3-х генов.
//////////
Поэтому я и анализировала числа, как числа. Если же это номинальные признаки, то надо их преобразовывать в бинарные. И тогда они опять станут информативными. То есть, если признак имеет значение от 1 до 8 (или до 17), то надо формировать 8 признаков со значением 1, если значение равно определенному числу, и 0, если не равно ему. Красивых картинок в этом случае не получится. Но результат будет скорее всего не менее красивый.

Еще: объясните, пожалуйста, в файле представлены две группы: у здоровых 136 записей, у больных - 24.
Как можно понять, какие данные относятся к упомянутым вами 78 пациентам? Желательно пометить их хотя бы номерами.
Конечно, из чистого любопытства хотелось бы знать, что означают числа в признаках. Легкий генетический ликбез, если не трудно...
В общем, главное - корректно поставленная задача. Дубль 2.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 9.12.2008 - 22:03
Сообщение #23





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Анна_К @ 9.12.2008 - 21:50) *
Еще: объясните, пожалуйста, в файле представлены две группы: у здоровых 136 записей, у больных - 24.
Как можно понять, какие данные относятся к упомянутым вами 78 пациентам?

Группа здоровых - 3 гена.
Ген А - 236 чел
Ген В - 236 чел
Ген С - 54 чел

Группа со стенокардией - 3 гена
Ген А - 24 чел
Ген В - 24 чел
Ген С - 23 чел

Можно считать, что для разных генов набраны разные пациенты, т.к. мы не анализируем взаимодействия генов. Реально в базе данных не все пациенты генотипированы по всем генам. Из-за этого возникло отличие в количестве пациентов для разных генов.
Цитата(Анна_К @ 9.12.2008 - 21:50) *
Конечно, из чистого любопытства хотелось бы знать, что означают числа в признаках. Легкий генетический ликбез, если не трудно...

Номер аллеля обозначает номер полиморфизма этого гена. Например, в гене А на месте 100-го нуклеотида может стоять A или С, на месте 150 может стоять А, С или G. Обозначим эти варианты номерами 1, 2, 3, 4, 5. Один ген мы получаем от отца, другой от матери. Следовательно, у нас 2 варианта одного гена. Эти 2 варианта называются аллелями. Т.к. аллели одного гена человек получает от разных родителей, то и полиморфизмы у аллелей могут отличаться. Генотипом по какому-то гену называется сочетание 2-х аллелей данного гена. Например, если у Вас для гена А аллели 3 и 5, то Ваш генотип по гену А обозначается 1,5.

Сообщение отредактировал DoctorStat - 9.12.2008 - 23:09


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 9.12.2008 - 22:44
Сообщение #24





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Анна_К @ 9.12.2008 - 19:35) *
Может быть, это Вам поможет.
Просто так нас учили на кафедре математики на медико-биологическом факультете РГМУ (Бывшего II МОЛГМИ им. Н.И.Пирогова), отделении медицинская кибернетика. И это оправдало себя на практике. Хотя с меньшим числом объектов и приходилось работать, но мы всегда знали, что это первоначальный алгоритм, требующий пополнения выборки.


Ну вообщем-то все понятно.
1) Про 30 я не случайно спросил - общее место, после этого числа объектов стабилизируется выборочная дисперсия (точнее после 25-30 объектов), соответственно, речь идет об обычной статистике, так что отсутствие обоснованного ответа на этот вопрос уже о многом говорит. Так что "оправдало на практике" это веселое объяснение.

2) Насчет коэффициента корреляции я тоже спросил не случайно. Вообще-то его квадрат показывает процент дисперсии, который объясняет данная модель. С точки зрения предсказания коэффициент корреляции раный +1 и -1 одинаково хороши, просто во втором случае перепутали группы. Но Вы на этот подвох тоже не обратили внимания - и это говорит о многом.

2) Насчет того, что Ваши методы лучше среднего врача, я вообще не понял. Итак нейронные сети дали 99% точности и Вы считаете это подгонкой. Ваши методы дали 85-90% и это прекрасно. Чего-то я логику не понял. Или методика была одна и тогда Ваши методы проигралиили же проверка опять была не проспективная, но а тогда и 99% и 85% подозрительны. Вы то ли не хотите, то ли не можете понять основного: (а) проверка метода на той же популяции, на которой строится модель порочна. Модель постоянно строится на одних и тех же данных, соответственно ее параметры будут одинаковыми. Таким методом можно уменьшит влияние вылетающих наблюдений. но не более. (б) невозможно построить модель, которая будет использовать данные, отсутствующие в обучающей выборке. Если Вы берете 30 человек, то вероятность того, что в эту выборку попадет человек с фактором риска, имеющимся у 3% популяции всего около 60%. А 3% довольно высокая частота для многих прогностических факторов. А для обучения нужен не один объект... Иными словами, при таком подходе система не может учитывать редкие события - а частые события мозг человека будет учитывать значительно лучше.
Более того, обычная статистика позволяет делать выводы потому, что она базируется в своих выводах на прочном теоретическом фундаменте. Именно он позволяет применять методы на относительно небольших выборках (при этом возражения относительно гетерогенности популяции и пропуска факторов остаются. поэтому я вообще против создания решающих алгоритмов на малых выборках). Все методы data mining по своей природе не делают предположения о характере распределения, поэтому они требуют большего количества информации для тех же выводов, к которым классическая статистика приходит с меньшим объемом данных. Чудес на свете не бывает. Если вы делаете предположение о том, например, что ваша заивисмость - линейная, вам достаточно двух точек, чтобы провести линию. Если же Вы говорите, что это кривая любой формы, то Вам никакого количества точек не хватит. Нельзя одновременно уменьшить объем входящей информации и получить больше информации на выходе.

3) Новое название не значит новый метод. Вы так и не пояснили обоснование Вашего метода "оптимального разделения", чем он отличается от всех остальных методов "неоптимального" разделения. Дело в том, что большинство т.н. новых методов не являются новыми, а являются модификацией старых, расширением их возможностей - например, кластерный анализ это дисперсионный анализ "наоборот", CART - модицикация регрессии, нейронные сети - множественная нелинейная регрессия и т.п.

Чо же касается Вашего праведного гнева по поводу забывания отечественных ученых, то замечу, что (а) на произведения отечественных "ученых" в области машинного обучения в медицине насмотрелись в 80х годах. В результате нормальной биостатистики нет, зато полно шаманства с попытками предсказать непредсказуемое. Результат союза людей не понимающих медицину с теми, кто не понимает статистику...; (б) многие из тех отечественных ученых, кто занимался машинным обучением (вне медицины) уже работают в тех университетах, работы которых я смотрю, а теперь давайте угадаем с трех раз, кого приглашают с более высокой вероятностью в MIT - того, кто известен своими публикациями и кого цитируют или автора, работы которого кроме пожимания плеч ничего не вызывают? Наука штука интернациональная. Те, кто делает действительно новое быстро обнаруживаются (специалистов по машинному обучению из бСССР в Силиконовой долине много) и эти методы становятся принятыми. Отсутствие признания каких-то методов свидетельствует об их дефектах - почему-то по методам data mining в медицине было много публикаций в конце 80х-90х (когда много компьютеров стало), а затем все сошло на нет. Почему бы это? А вот логистическая регрессия живет...

В целом, повторюсь, мне все понятно, тему закрывать не буду, но далее дискутировать и ходить по кругу смысла нет. Да, и проверьте Ваши ссылки, а то статья не находится и на фамилию автора сайт отвечает Match Not Found
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 9.12.2008 - 22:52
Сообщение #25





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(DoctorStat @ 9.12.2008 - 20:19) *
Задача исследователя - установить связь генотипа с изучаемой болезнью. Если мы знаем, что такая связь (предрасположенность) существует, то можем с определенной долей уверенности предположить, что к определенному возрасту, пациент с данным генотипом заболеет этим заболеванием.


А вот и нет. Представьте себе следующую ситуацию. Ген убивает носителя при развитии заболевания (например, ИБС). Тогда в популяции здоровых он встречается с частотой р, а в популяции больных ИБС отсутствует. Обычный вывод в этом случае - ген протективный. Ан нет. Он летальный. Аналогичным образом, если частота гена в популяции р, а среди больных р1>р, то вполне может быть
А) Ген является фактором риска (люди с ним заболели)
Б) Ген является протективным (люди без него с заболеванием умерли)
В) Ген сцеплен в данной группе с другим геном (см. А или Б), а сам не имеет никакого отношения к заболеванию. В другой популяции, где это сцпеление отсутствует, это можно будет увидеть.

Отсюда вывод - никакая статистическая связь не может дать причинно-следственную связь. С проблемой вариантов А/Б можно справиться используя длительное наблюдение за здоровыми людьми (проспективные когортные исследования), с проблемой В - используя многоцентровые исследования (опять-таки проспективные когортные). И то останутся сомнения. А если просто смотреть генотип больных и здоровых, то возможны все три варианта...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 10.12.2008 - 00:36
Сообщение #26





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Да, действительно, DoktorStat, на основании представленных данных не может делать прогноз, в отношении развития стенокардии, но он доказал, что у больных стенокардией имеется к моменту развития заболевания определенные особенности сочетания аллелей гена С, отличающие их от здоровых людей того же возраста. Так, наибольшая информативность относительно стенокардии обладает ген С, его генотип 1, 2, имеют только больные стенокардией, далее по убыванию 1, 1 тоже встречается только у больных стенокардией, 1,3 - у 3-х со стенокардией, но у одного - без стенокардии. 4, 10 не характерно для этих больных, но у одного больного все же встречается. По другим сочетаниям мало данных вообще, например, сочетание 2,3 встречается в двух случаях, у одного есть стенокардия, у другого нет. Если фактором риска считать генотип 1,1;1,2 и 1,3 то от встречается в 73,9% больных (и у 6 здоровых), другие сочетания генотипа по этому гену встречается в 98,15% здоровых (и у одного больного). Другие гены малоинформативны по сравнению с геном С и сделаны у других больных, поэтому сочетание самих генов и их аллелей проанализировать нельзя. Я в генетике слаба. Возможно, генотип С при рождении определен и не меняется, тогда можно прогнозировать развитие стенокардии к этому возрасту.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 10.12.2008 - 12:39
Сообщение #27





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(DrgLena @ 10.12.2008 - 00:36) *
Да, действительно, DoktorStat, на основании представленных данных не может делать прогноз, в отношении развития стенокардии, но он доказал, что у больных стенокардией имеется к моменту развития заболевания определенные особенности сочетания аллелей гена С, отличающие их от здоровых людей того же возраста. Так, наибольшая информативность относительно стенокардии обладает ген С, его генотип 1, 2, имеют только больные стенокардией, далее по убыванию 1, 1 тоже встречается только у больных стенокардией, 1,3 - у 3-х со стенокардией, но у одного - без стенокардии. 4, 10 не характерно для этих больных, но у одного больного все же встречается. По другим сочетаниям мало данных вообще, например, сочетание 2,3 встречается в двух случаях, у одного есть стенокардия, у другого нет. Если фактором риска считать генотип 1,1;1,2 и 1,3 то от встречается в 73,9% больных (и у 6 здоровых), другие сочетания генотипа по этому гену встречается в 98,15% здоровых (и у одного больного). Другие гены малоинформативны по сравнению с геном С и сделаны у других больных, поэтому сочетание самих генов и их аллелей проанализировать нельзя. Я в генетике слаба. Возможно, генотип С при рождении определен и не меняется, тогда можно прогнозировать развитие стенокардии к этому возрасту.

Да вот в том-то и дело, что нет! Генотип С определен при рождении - тут сомнений нет. Но особенность исследования заключается в том, что сказать, что он ВЫЗЫВАЕТ стенокардию, а не ЗАЩИЩАЕТ от смерти при ней - нельзя. Прогнозировать на этих данных ничего нельзя. Можно только сказать, что генотип С КАК-ТО СВЯЗАН со стенокардией. А вот как - это вопрос, который является ключевым и на него ответить по этим данным нельзя. Подумайте, есть разница между утверждением "без этого генотипа у Вас стенкоардии не будет" и "при отсутствии этого генотипа у Вас стенкардии не будет - Вы умрете от первого же приступа" - они оба следуют из представленных данных.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 10.12.2008 - 13:05
Сообщение #28





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Да, логика железная!
У умерших от первого приступа генотип С пока не известен, в этом исследовании во всяком случае, таких данных нет. Но у здоровых людей более молодого возраста с неблагоприятным генотипом более высокий шанс ее развития, поэтому они могут составлять группу риска и профилактика может им помочь.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 10.12.2008 - 13:48
Сообщение #29





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(DrgLena @ 10.12.2008 - 13:05) *
У умерших от первого приступа генотип пока не известен

Делаем выборку из умерших от 1-ого приступа людей. Генотипируем их по исследуемому гену. Выясням, что частота определенного генотипа в этой выборке значимо больше, чем в популяции. Делаем вывод, что данный генотип вызывает смерть пациента при первом приступе болезни.


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 10.12.2008 - 14:32
Сообщение #30





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



А вот это сделать сложно. Люди просто умерли (внезапная смерть) и сделать выборку их уже удет сложно. Проще набрать группу здоровых людей, прогенотипировать их, а затем наблюдать за ними несколько лет и посмотреть, какой генотип связан. Когортное исследование, другие факторы риска ИБС именно так изучали
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

6 страниц V  < 1 2 3 4 > » 
Добавить ответ в эту темуОткрыть тему