Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Как создать формулу для расчета прогноза?

Автор: Solo... 15.10.2008 - 21:08

Всем здравствуйте. Прошу опять помощи.
Стоит такая задача. Как создать формулу, с помощью которой можно вычислить вероятность положительного исхода лечения у конкретного больного. Т.е. формулу, в которую можно подставлять данные (признаки, разные показатели и пр.) конкретного обратившегося за помощью больного, далее получать с помощью этой формулы какую то цифру - % (70%, или 60, или 95 ... и т.д.). Эта цифра и будет отражать вероятность положительного исхода лечения этого больного.

Имеются результаты лечения около 100 больных, известны все их показатели, влияющие на результат лечения. Этих показателей - около 5-6. Все они должны входить в формулу.

Я слышала, что этой формулой является дискриминантное уравнение. Но как его построить? В Экселе или в Статистике?

Автор: DoctorStat 16.10.2008 - 10:50

1. Выявление клинически значимых параметров и их вклада.
С помощью логистической регрессии (программы SPSS, Statistica) для 2-х выборок пациентов: с удачным и неудачным исходом лечения найти клинические параметры, значимо влияющие на исход лечения. Исключить малозначимые параметры (с помощью выбора метода Backward LR) и выбора уровня значимости SIG=0,05. Для оставшихся значимых параметров вычислить их важность (коэффициенты регрессии Bi,i=1,M) и константу сдвига Constant.
2. Вычисление вероятности успешности лечения.
Для конкретного пациента вычислим успешность лечения. Пусть его клинические параметры принимают значения A1, A2 и т.д. Вычислим для этого пациента регрессию Z с помощью найденных коэффициентов регрессии Bi:
Z= Constant+B1*A1+...+ BM*AM
Тогда вероятность успеха лечения равна: P=1/(1+exp(−Z))

Автор: Игорь 20.10.2008 - 09:18

Цитата(Solo... @ 15.10.2008 - 21:08) *
Всем здравствуйте. Прошу опять помощи.
Стоит такая задача. Как создать формулу, с помощью которой можно вычислить вероятность положительного исхода лечения у конкретного больного. Т.е. формулу, в которую можно подставлять данные (признаки, разные показатели и пр.) конкретного обратившегося за помощью больного, далее получать с помощью этой формулы какую то цифру - % (70%, или 60, или 95 ... и т.д.). Эта цифра и будет отражать вероятность положительного исхода лечения этого больного.

Имеются результаты лечения около 100 больных, известны все их показатели, влияющие на результат лечения. Этих показателей - около 5-6. Все они должны входить в формулу.

Я слышала, что этой формулой является дискриминантное уравнение. Но как его построить? В Экселе или в Статистике?

На компьютере обычно имеется Excel. Поэтому загрузите бесплатное программное обеспечение AtteStat, функционирующее на базе Excel. В модуле "Распознавание образов с обучением" имеется целый набор методов, включая логистическую и пробит регрессию. В Справочной системе написано, как ими пользоваться. Подставляйте данные и получайте нужные формулы.

Дискриминантный анализ не дает значения вероятности (он предназначен для другой задачи), поэтому в Вашем случае его применить не удастся.

Автор: Анна_К 23.10.2008 - 13:16

Цитата(Solo... @ 15.10.2008 - 22:08) *
Я слышала, что этой формулой является дискриминантное уравнение. Но как его построить? В Экселе или в Статистике?

Вы совершенно правы, Solo. Эта задача - решается методами теории распознавания образов. Дискриминантный анализ - один из этих методов. Но он подходит только для данных, которые хорошо разделяются плоскостью. Т.е. линейно.
Для нелинейных данных - существует много других методов. Иностранное название их Data Mining. Слыхали?
Приходите на форум
http://azfor.ucoz.ru/
или пишите мне в личные сообщения.
Посмотрим Ваши данные.
smile.gif

Автор: Solo... 7.12.2008 - 18:42

Я побывала на вашем форуме. Но , если честно, не разобралась. Статистика и Эксель для расчетов как то роднее.

Автор: плав 7.12.2008 - 20:22

Ну, во-первых создать на 100 больных формулу, которая бы реально работала вряд ли возможно. Про Data Mining можно спокойно забыть, поскольку и регрессионные деревья и нейронные сети (т.е. многофакторная нелинейная регрессия) требуют обучающей и модельной выборок, а у Вас будет по 50 человек в каждой, уже и простейшую модель не построить. Data Mining должен использоваться там, где он и зародился - в анализе бизнес-процессов на основании тысяч наблюдений.
Если Вы хотите строить предиктивную формулу все равно надо делить группы на подвыборки (т.е. по 50), поскольку иначе не проверить качества предсказания.
Все модели Вам смогут дать только формулу для данной популяции, при небольшом изменении априорной вероятности она начнет безбожно "врать".
Соответственно, прежде, чем делать "формулу" прочитайте, про те методы, которые Вам выше советовали (логистическую регрессию в особенности), затем познакомьтесь с теоремой Байеса (возьмите книги Власова и Флетчера), затем почитайте здесь на форуме ветки, где это уже разбиралось.

Автор: Анна_К 8.12.2008 - 11:28

Цитата(Solo... @ 7.12.2008 - 18:42) *
Я побывала на вашем форуме. Но , если честно, не разобралась. Статистика и Эксель для расчетов как то роднее.

Ну, там на форуме информации немного, а в помещенных статьях описание общее для большого числа методов. Для ясного понимания надо прочитать описание конкретного метода. Это можно сделать здесь:
http://azfor.narod.ru/datmin/datmin.htm
(правда мне уже присылали предупреждения про недопустимость ссылок, хотя не понятно, как без ссылок можно что-то вообще рассказать в интернете, разве что публикую тут все содержание страницы). Можно, конечно, и перенести сюда описание метода. Но попробуем пока традиционным способом - путем ссылки.
rolleyes.gif
Читайте дальше - мои ответы оппоненту наших методов. Он как раз возражает по привычному алгоритму. И очень дельные говорит вещи, с точки зрения непонимающего суть методов. Как говористя, "спасибо за вопрос".

Автор: Анна_К 8.12.2008 - 12:26

Цитата(плав @ 7.12.2008 - 20:22) *
Ну, во-первых создать на 100 больных формулу, которая бы реально работала вряд ли возможно. Про Data Mining можно спокойно забыть, поскольку и регрессионные деревья и нейронные сети (т.е. многофакторная нелинейная регрессия) требуют обучающей и модельной выборок, а у Вас будет по 50 человек в каждой, уже и простейшую модель не построить. Data Mining должен использоваться там, где он и зародился - в анализе бизнес-процессов на основании тысяч наблюдений.

Data Mining с успехом используется более 20 лет в медико-биологических исследованиях именно на малых выборках. С его помощью создаются алгоритмы диагностики и прогнозирования. Известные Вам, и вошедшие в модные пакеты регрессионные деревья и нейронные сети - это вчерашний день Data MIning'a. Существует большое количество других методов, например:
Голосование по тупиковым тестам ?
Линейный дискриминант Фишера ?
Q ближайших соседей ?
Метод опорных векторов ?
Статистически взвешенные синдромы ?
Алгоритмы вычисления оценок ?
Линейная машина ?
Логические закономерности ?
Двумерные линейные разделители ?
Genesis-
Цитата(плав @ 7.12.2008 - 20:22) *
Если Вы хотите строить предиктивную формулу все равно надо делить группы на подвыборки (т.е. по 50), поскольку иначе не проверить качества предсказания.

Проверка эффективности формулы (на самом деле - это называется решающее правило) осуществляется с помощью скользящего контроля, когда каждый объект удаляется из выборки и позже распознается по созданному решающему правилу. Число правильно распознанных объектов выборки и характеризует эффективность решающего правила.
Цитата(плав @ 7.12.2008 - 20:22) *
Все модели Вам смогут дать только формулу для данной популяции, при небольшом изменении априорной вероятности она начнет безбожно "врать".

Это совершенно верно для нейронных сетей, генетических алгоритмов, включенных в настоящее время в стандартные статистические пакеты.
В описываемых мною методах верификация делается путем метода Монте-Карло (генерации большого числа таблиц и применения к ним решающего правила, при выявлении закономерностей не более, чем на 5 таких таблицах из 2000 считаем, что выявленная закономерность на реальных данных - не случайна).
Цитата(плав @ 7.12.2008 - 20:22) *
Соответственно, прежде, чем делать "формулу" прочитайте, про те методы, которые Вам выше советовали (логистическую регрессию в особенности), затем познакомьтесь с теоремой Байеса (возьмите книги Власова и Флетчера), затем почитайте здесь на форуме ветки, где это уже разбиралось.

Все это полезно для самообразования. А нам пришлите данные и мы на их примере покажем, как работают методы. smile.gif

Автор: Анна_К 8.12.2008 - 12:30

Для обсуждаемых данных, вероятно, подойдет метод СВС (статистически взвешенных синдромов):
http://azfor.narod.ru/datmin/rasp-ob.htm

Автор: плав 8.12.2008 - 13:35

Цитата(Анна_К @ 8.12.2008 - 12:26) *
Data Mining с успехом используется более 20 лет в медико-биологических исследованиях именно на малых выборках. С его помощью создаются алгоритмы диагностики и прогнозирования. Известные Вам, и вошедшие в модные пакеты регрессионные деревья и нейронные сети - это вчерашний день Data MIning'a. Существует большое количество других методов, например:
Голосование по тупиковым тестам ?
Линейный дискриминант Фишера ?
Q ближайших соседей ?
Метод опорных векторов ?
Статистически взвешенные синдромы ?
Алгоритмы вычисления оценок ?
Линейная машина ?
Логические закономерности ?
Двумерные линейные разделители ?
Genesis-

Проверка эффективности формулы (на самом деле - это называется решающее правило) осуществляется с помощью скользящего контроля, когда каждый объект удаляется из выборки и позже распознается по созданному решающему правилу. Число правильно распознанных объектов выборки и характеризует эффективность решающего правила.

Это совершенно верно для нейронных сетей, генетических алгоритмов, включенных в настоящее время в стандартные статистические пакеты.
В описываемых мною методах верификация делается путем метода Монте-Карло (генерации большого числа таблиц и применения к ним решающего правила, при выявлении закономерностей не более, чем на 5 таких таблицах из 2000 считаем, что выявленная закономерность на реальных данных - не случайна).

Все это полезно для самообразования. А нам пришлите данные и мы на их примере покажем, как работают методы. smile.gif

Это тоже, повторяемые на протяжении последних 20 лет идеи, которые базируются на слабом понимании сути научного поиска в медицине (кстати, забыли самоорганизующиеся карты Кохонена и еще с десяток терминов).
Итак "верификация делается по методу Монте-Карло" или "скользящего контроля" (видимо, имеется ввиду jacknife). Все это очень здорово, но правило проверяется на той же выборке, что и создается. leave-one-out ничего не меняет. ОДНИ И ТЕ ЖЕ объекты используются для создания решающего правила и его проверки. Здорово! Иными словами, модель подгоняется под данные - модель будет прекрасно описывать имеющийся набор данных, но больше - ничего. Собственно говоря поэтому и существует требование проверки на тестовом наборе данных. Кстати, при помощи методов leave-one-out обычно проводится ПОСТРОЕНИЕ модели, а ее верификация проводится на другом наборе данных.
Далее - если бы речь шла о базе данных в несколько тысяч объектов - с чего и начинался data mining, то тогда да, можно предположить, что правило будет работать на популяции в целом. А тут 100 человек. Представьте себе ситуацию, у Вы создаете "решающее правило" на 10 пациентах с ИБС и АГ по выбору терапии. И у Вас не попался человек с недавним ИМ, как Вы (алгоритм) установит, что ему нельзя давать нифедипин, что тот вызывает выраженное падение АД? А? А ведь строится "решающее правило" звучит-то как серьезно! И сотня человек в этом отношении ничего не решит, поэтому методы data mining и находятся на периферии в медицине - нет данных для распознавания образов, теоретически не применимы методы.
Далее вопрос в связи с этим к Анне_К, а как Вы определяете выборочную ошибку? Какой используете показатель? Как формулируете альтернативные гипотезы?
Между прочим, реакция на упоминание теоремы Байеса просто демонстрирует незнакомство с реальностью диагностики в клинике (да, вобщем-то и истории статистики). Никакой метод Монте-Карло (т.е. повторного взятия выборок с повторами из имеющихся данных) не позволит Вам проанализировать ситуацию с иными априорными вероятностями заболевания в другой клинике - а ведь наука делается именно в расчете на воспроизводимость результата в других условиях.
Кстати, а как Вы планируете показать, что методы, которые Вы рекламируете "работают", выйдете в клинику и продемонстрируете, что на новой выборке "решающее правило" дает хорошие результаты, или пришлете набор цифр, которые показывают, что Ваши алгоритмы могут их выдавать? Второе не является доказательством "работы" алгоритма, это просто свидетельствует о том, что он может что-то выдать. Докажите, что результат воспроизводим и тогда будет основа для дискуссии.

Для остальных. (1) Никакая статистическая обработка не может компенсировать плохой дизайн исследования. Чудес на свете не бывает, если есть 100 больных не стоит пытаться перевернуть мир на небольшой выборке. (2) Задайте себе вопрос, почему, если методы хороши (работам Эфрона и Тибширани уже более 30 лет, работе Тьюки с его "исследовательским анализом данных" уже под 50), они не применяются широко при обработке результатов клинических испытаний (там просто заняты профессиональные статистики и есть большие деньги). Ответ прост - у них есть своя ниша, но они не панацея. Причем все, что было предложено другого - уже вошло в повседневный обиход (коробчатые графики Тьюки используются сплошь и рядом, так же, как и тест HSD). Наверное, и тут причина есть. Будет 10000 пациентов, тогда смело занимайтесь data mining, а со 100, формулируйте адекватную гипотезу а приори и проверяйет ее.

Автор: Анна_К 8.12.2008 - 21:50

Цитата(плав @ 8.12.2008 - 13:35) *
Это тоже, повторяемые на протяжении последних 20 лет идеи, которые базируются на слабом понимании сути научного поиска в медицине
Итак "верификация делается по методу Монте-Карло" или "скользящего контроля" (видимо, имеется ввиду jacknife). Все это очень здорово, но правило проверяется на той же выборке, что и создается. leave-one-out ничего не меняет. ОДНИ И ТЕ ЖЕ объекты используются для создания решающего правила и его проверки. Здорово! Иными словами, модель подгоняется под данные - модель будет прекрасно описывать имеющийся набор данных, но больше - ничего. Собственно говоря поэтому и существует требование проверки на тестовом наборе данных.

Вероятно, плав, речь идет о чистом контроле - на контрольной выборке.
Цитата(плав @ 8.12.2008 - 13:35) *
Кстати, при помощи методов leave-one-out обычно проводится ПОСТРОЕНИЕ модели, а ее верификация проводится на другом наборе данных.

Если данных много, то обычно какую-то часть оставляют на контроль, и она не участвует в построении решающего правила. Если число объектов 100, а число в каждой из сравниваемых групп должно быть НЕ МЕНЕЕ 30, то соответственно на контроль идет изрядная выборка в 40 объектов. На ней можно сделать вывод об эффективности полученного решающего правила. Скользящий контроль, конечно, дает гораздо лучший результат. Но! Если различия в группах нет, то распознавания просто не получится ни в том, ни в другом случае. Дальнейшее добавление объектов в обучающую выборку, естественно, может повлиять на то, как выглядит решающее правило, но вряд ли сильно.
Цитата(плав @ 8.12.2008 - 13:35) *
Далее - если бы речь шла о базе данных в несколько тысяч объектов - с чего и начинался data mining, то тогда да, можно предположить, что правило будет работать на популяции в целом. А тут 100 человек. Представьте себе ситуацию, у Вы создаете "решающее правило" на 10 пациентах .

Простите, сударь, не надо передергивать! Почему это на 10 объектах Вы начали что-то строить. Мы же говорим о выборке не менее 30! Думаю, ни один статистический подход не даст Вам гарантии на таком числе объектов.
Цитата(плав @ 8.12.2008 - 13:35) *
И сотня человек в этом отношении ничего не решит, поэтому методы data mining и находятся на периферии в медицине - нет данных для распознавания образов, теоретически не применимы методы.

Уверяю Вас, решит. И таких задач решено уже много. И алгоритмы работают на уровне диагностики выше, чем средний врач. И разваливаются алгоритмы только при использовании нейронных сетей и генетических алгоритмов, вшитых (без скользящего контроля) в стандартные пухлые пакеты из-зарубежа. Они-то и работают на подгонке, и после добавления новых объектов сыпятся, как карточный домик.
Цитата(плав @ 8.12.2008 - 13:35) *
Кстати, а как Вы планируете показать, что методы, которые Вы рекламируете "работают", выйдете в клинику и продемонстрируете, что на новой выборке "решающее правило" дает хорошие результаты, или пришлете набор цифр, которые показывают, что Ваши алгоритмы могут их выдавать? Второе не является доказательством "работы" алгоритма, это просто свидетельствует о том, что он может что-то выдать. Докажите, что результат воспроизводим и тогда будет основа для дискуссии.

Вы, наверное, не четко представляете, как работает скользящий контроль. Рассказываю: после того, как каждый объект распознается с помощью полученного решающего правила, мы считаем коэффициент корреляции между реальным номером группы каждого распознанного объекта и его функцией номера класса (полученной в результате распознавания). Полученный коэффициент корреляции и есть коэффициент эффективности распознавания. По нему судят о том, можно ли вообще строить на данной обучающей выборке алгоритм распознавания.
Проще всего на конкретных данных (хотя бы и данных Solo, если решится) провести параллельную работу по созданию решающего правила с нашей стороны и формулы, основанной на логистической регрессии или подходе Байеса - с Вашей.
Чем Вы рискуете, если ваши возражения не блеф?

Автор: DoctorStat 8.12.2008 - 22:25

Цитата(Анна_К @ 8.12.2008 - 21:50) *
Проще всего на конкретных данных (хотя бы и данных Solo, если решится) провести параллельную работу по созданию решающего правила

Анна, я Вас обожаю за Вашу смелость и ум))). В качестве проверки Вашего алгоритма, предлагаю вычленить больные генотипы отдельных генов (всего 3 гена) для 2-х выборок больные+контроль всего 78 человек. С помощью алгоритма кластеризации и хи-квадрат я нашел генотипы, значимо чаще встречающиеся у больных. Можете ли Вы своими суперметодами типа дата-мининг обнаружить генотипы - признаки болезни ??! Файл Excel с данными по генотипам в группе контроля и больных стенокардией прикреплен к данному сообщению. Всего 3 гена: A, B, C. Для каждого гена 2 аллеля: A1, A2 и т.д. Необходимо вычленить "плохие" сочетания аллелей по каждому из 3-х генов. Если объем выборки Вам кажется малым, я могу его увеличить...

 Stenocardia.rar ( 3,5 килобайт ) : 519
 

Автор: плав 8.12.2008 - 22:38

Цитата(Анна_К @ 8.12.2008 - 21:50) *
Простите, сударь, не надо передергивать! Почему это на 10 объектах Вы начали что-то строить. Мы же говорим о выборке не менее 30! Думаю, ни один статистический подход не даст Вам гарантии на таком числе объектов.

Уверяю Вас, решит. И таких задач решено уже много. И алгоритмы работают на уровне диагностики выше, чем средний врач. И разваливаются алгоритмы только при использовании нейронных сетей и генетических алгоритмов, вшитых (без скользящего контроля) в стандартные пухлые пакеты из-зарубежа. Они-то и работают на подгонке, и после добавления новых объектов сыпятся, как карточный домик.

Вы, наверное, не четко представляете, как работает скользящий контроль. Рассказываю: после того, как каждый объект распознается с помощью полученного решающего правила, мы считаем коэффициент корреляции между реальным номером группы каждого распознанного объекта и его функцией номера класса (полученной в результате распознавания). Полученный коэффициент корреляции и есть коэффициент эффективности распознавания. По нему судят о том, можно ли вообще строить на данной обучающей выборке алгоритм распознавания.
Проще всего на конкретных данных (хотя бы и данных Solo, если решится) провести параллельную работу по созданию решающего правила с нашей стороны и формулы, основанной на логистической регрессии или подходе Байеса - с Вашей.
Чем Вы рискуете, если ваши возражения не блеф?

1) Почему именно на 30 объектах. Будьте добры теоретическое обоснование.
2) Будьте добры - в общих чертах - теоретическое обоснование метода, а то из всех возражений этот кусок (особенно с достоверностями, он как раз базируется на знании классической статистики) был проигнорирован.
3) У Вас много публикаций, судя по сайту (не буду указывать на то, что там обилие тезисов) - приведите доказательства (проверку в рамках клинических испытаний) "алгоритмы работают на уровне диагностики выше, чем средний врач" и как эти доказательства были получены. Вы пишете, что "И таких задач решено уже много". Доказательства, пожалуйста (проверку на не связанной с первой выборкой - методологию и результаты). Зачем данные Solo, за логистическую регрессию - могу дать ссылку - работу конца 80х в "Кардиологии" по проверке такой функции сделанной Kannell на основе данных исследования во Фрамингеме (США). И знаете, работает, хотя функция получена в Америке 1960х, а проверена на российской популяции 1980х. Предсказывает. По поводу CART могу дать ссылки на работы (более 10 лет назад) по диагностике стенокардии с факторами риска в виде продуктов ПОЛ - относительно высокая точность (около 90%) классификации на совершенной иной популяции. А Вы можете такое же? Проверку на другой, не связанной с первой популяцией, другой группе больных.
4) Как Вы думаете, если я не представляю себе, как работает "скользящий контроль", почему я упоминаю leave-one-out?
5) Если Вы кому-то рекомендуете составлять диагностические алгоритмы на 30 пациентах, мне очень жаль пациентов, которые потом будут получать помощь от таких "разработчиков" и я сильно надеюсь, что в случае судебных исков за ненадлежащее врачевание в адрес "разработчиков" уйдет частное определение.
6) Вы не ошиблись насчет коэффициента корреляции как показателя точности распознавания? С квадратом коэффициента не перепутали? Или не понимаете о чем это я? И расскажите, как Вы считаете коэффициент корреляции между "реальным номером группы ... и его функцией номера класса". Какой коэффициент корреляции Вы считаете? Реальный номер группы он у Вас всегда ординальный? Или, не побоюсь этого слова, интервальный? Или? А если "реальный номер группы" 1 или 0 (т.е. болен - не болен), какой корреляционный коэффициент используете?
В целом сдается, что Вы думаете, что Ваши методы какое-то откровение, а не просто новояз окружающий комбинацию из хорошо известных регрессионных подхоов (пусть и нелинейной регрессии), кластерного и факторного анализов. Кстати, методы MCMC, на который Вы так часто ссылаетесь, как на новое слово, в классической статистике используются уже давно, да вообщем-то и методы с интенсивным использованием ЭВМ (bootstrap), тоже с повторными выборками, для оценки коэффициентов регрессии никто не отменял. Вообще-то на такой полемический задор смотреть смешно, ну, понятно, есть увлечения, но не стоит считать, что вокруг все лаптем щи хлебают, а тут "дао снизошло". Лучше посмотрите книги по Data Mining, не в Москве изданные, а там, где термин зародился, тут интересу ради просто повернулся и сборник под ред. Bozdogan'а посмотрел - штуки четыре статьи об использовании логистической регрессии в DM. А Вы о "нашей логистической регрессии".

Автор: Анна_К 9.12.2008 - 14:27

Цитата(DoctorStat @ 8.12.2008 - 22:25) *
Анна, я Вас обожаю за Вашу смелость и ум))).
Спасибо, я Вас тоже уже почти люблю за смелость доверить нам свои данные. Сделаем все, что в наших силах.
Цитата(DoctorStat @ 8.12.2008 - 22:25) *
В качестве проверки Вашего алгоритма, предлагаю вычленить больные генотипы отдельных генов (всего 3 гена) для 2-х выборок ... Необходимо вычленить "плохие" сочетания аллелей по каждому из 3-х генов. Если объем выборки Вам кажется малым, я могу его увеличить...

Хорошо. Мы располагаем несколькими методами кластерного анализа. Можно посмотреть, какие варианты кластеров получатся. Выборку, конечно, лучше максимально увеличить. Оставить какую-то часть на контроль (не в смысле "здоровые", а в смысле контрольная группа с данными обеих выборок для оценки эффективности метода кластерного анализа).


Автор: DoctorStat 9.12.2008 - 16:28

Цитата(Анна_К @ 9.12.2008 - 14:27) *
Спасибо, я Вас тоже уже почти люблю за смелость доверить нам свои данные.

Данные получены не мной, а одной московской клиникой. Все гены связаны к иммунной системой человека. Мне интересно сравнить, насколько Ваши результаты поиска больных генотипов будут отличаться от моих. Вопрос в том, чей алгоритм окажется лучше - мой (простой, как 5 копеек) или Ваш (продвинутый-дата-мининг)?
Цитата(Анна_К @ 9.12.2008 - 14:27) *
Выборку, конечно, лучше максимально увеличить.

Существенно увеличить объем выборки больных стенокардией я не могу. Могу только увеличить объем контрольной выборки, но она и так много больше выборки больных! Если Вы очень настаиваете на увеличении объема выборки, то я могу предоставить генотипические данные по другой болезни.

Автор: DrgLena 9.12.2008 - 18:25

Если уж наблюдать битву гигантов, то давайте вспомним, о чем шла речь в посте Solo, необходимо получить прогноз вероятности положительного результата лечения на конкретных данных. Т.е. это не задача дискриминации в два класса - результат достигнут, - не достигнут. Хорошо, чтобы именно эта задача и решалась различными методами, а не другая задача. Т.о. можно будет увидеть альтернативу логистической регрессии. Поэтому, просьба к Solo, выложить данные, закодировав признаки, как угодно. Отклик - 0 ,1 и все остальные А,Б,С... Волонтеры займутся полезным делом.... Но Анна_К может ничего и не заработает, но привлечет внимание, т.е. получит бесплатную рекламу.

Автор: Анна_К 9.12.2008 - 18:41

Цитата(DoctorStat @ 9.12.2008 - 16:28) *
Насколько Ваши результаты поиска больных генотипов будут отличаться от моих. Вопрос в том, чей алгоритм окажется лучше - мой (простой, как 5 копеек) или Ваш (продвинутый-дата-мининг)?

Предварительный счет методом оптимальных разбиений дал такой результат:
значимых для распознавания признаков только 2: C_A1 и C_A2.
Граница градации по C_A1 = 1,5, при этом ниже границы оказывается всего 2 наблюдения из контроля и 17 наблюдения - больных,
выше границы 52 наблюдения здоровых и 6 наблюдений больных.
Граница градации по C_A2 = 3,5 , соответственно ниже границы 2 здоровых/20 больных, выше границы 52 здоровых / 3 больных.
Таким образом, простейшее решающее правило: для больных характерны гены со значениями по C_A1<1,5 и по C_A2<3,5.
Коэффициент корреляции по распознаванию сделаю позже (программа в другом месте).
Цитата(DoctorStat @ 9.12.2008 - 16:28) *
Существенно увеличить объем выборки больных стенокардией я не могу. Могу только увеличить объем контрольной выборки, но она и так много больше выборки больных! Если Вы очень настаиваете на увеличении объема выборки, то я могу предоставить генотипические данные по другой болезни.

Присылайте, но только по данной задаче. Другая болезнь - это другая задача.
Я так и думала, что под контролем Вы будете считать только здоровую группу.
Я же писала в прошлом посте: контроль (для нас) - это объекты, не входившие ранее в обучающую выборку. smile.gif
Вот что значит привычка к определенному словарю.
Прикрепляю картины, которые делаются при работе метода оптимальных разбиений. Крестики - здоровые, нолики - стенокардия.
Наглядно видно преобладание одной группы ниже границы и другой группы - выше границы.

 

Автор: Анна_К 9.12.2008 - 18:55

Цитата(DrgLena @ 9.12.2008 - 18:25) *
Если уж наблюдать битву гигантов, то давайте вспомним, о чем шла речь в посте Solo, необходимо получить прогноз вероятности положительного результата лечения на конкретных данных. ... Т.о. можно будет увидеть альтернативу логистической регрессии. Поэтому, просьба к Solo, выложить данные, закодировав признаки, как угодно. Отклик - 0 ,1 и все остальные А,Б,С... Волонтеры займутся полезным делом.... Но Анна_К может ничего и не заработает, но привлечет внимание, т.е. получит бесплатную рекламу.

Спасибо, DrgLena, за поддержку. Ничего не имею против такого пиара. wink.gif Очень хочется, чтобы врачебно-аспирантская аудитория знала все возможности анализа данных.
Только группы лучше нумеровать 1 и 2.
Наши методы дают как раз прогноз вероятности, т.к. на скользящем контроле мы получаем какой-то процент правильного распознавания. Например, 88%. Это означает, что с такой вероятностью данное решающее правило относит конкретного пациенту в 1 или 2 группу.
Solo! А Вам интересно, кто победит в споре: логистическая регрессия (как достойный представитель data mining, правда в сильно зрелом возрасте) или альтернативные методы интеллектуального анализа данных (горячие, как пирожки из печки)?

Автор: Анна_К 9.12.2008 - 19:35

Извините, plav, Вам отвечаю позже всех. Слишком много надо было писать.
Начну отвечать с конца. Там наиболее фундаментальные и общие возражения.

Цитата(плав @ 8.12.2008 - 22:38) *
В целом сдается, что Вы думаете, что Ваши методы какое-то откровение, а не просто новояз окружающий комбинацию из хорошо известных регрессионных подходов (пусть и нелинейной регрессии), кластерного и факторного анализов. Кстати, методы MCMC, на который Вы так часто ссылаетесь, как на новое слово, в классической статистике используются уже давно, да вообщем-то и методы с интенсивным использованием ЭВМ (bootstrap), тоже с повторными выборками, для оценки коэффициентов регрессии никто не отменял. Вообще-то на такой полемический задор смотреть смешно, ну, понятно, есть увлечения, но не стоит считать, что вокруг все лаптем щи хлебают, а тут "дао снизошло". Лучше посмотрите книги по Data Mining, не в Москве изданные, а там, где термин зародился, тут интересу ради просто повернулся и сборник под ред. Bozdogan'а посмотрел - штуки четыре статьи об использовании логистической регрессии в DM. А Вы о "нашей логистической регрессии".

Это, действительно, НЕ "новояз окружающий комбинацию из хорошо известных регрессионных подхоов"...! Методы существуют не 20 лет, а около 40 - с 70-х гг. прошлого столетия. Начиналось все с прогноза полезных ископаемых по пробам грунта.
Жизнь не стоит на месте. И теоретические методы, которые были сочинены давно, но не могли применяться в связи колоссальной трудоемкостью, теперь спокойно программируются и работают. 10 лет назад мы ждали результата счета сутками, сейчас на пентиуме4 = всего минут 20-30. Хотя при большом числе объектов и признаков (несколько сотен) счет все-таки приходится оставлять на ночь. Никто не унижает Ваши, plav, глубокие познания в статистике, просто захотелось рассказать о том, что создается у меня на глазах (в ВЦ РАН). У нас в России есть странная привычка "молиться" на зарубежье, и не замечать, пренебрегать достижениями наших ученых-математиков. Работа идет, и это, пожалуй, одна из немногих областей, где не нужны электронные микроскопы и дорогостоящие реактивы, поэтому лаборатории остаются и функционируют в полную силу. Короче, кроме "логистической регрессии", существуют разные подходы
Цитата(плав @ 8.12.2008 - 22:38) *
6) Вы не ошиблись насчет коэффициента корреляции как показателя точности распознавания? С квадратом коэффициента не перепутали? Или не понимаете о чем это я? И расскажите, как Вы считаете коэффициент корреляции между "реальным номером группы ... и его функцией номера класса". Какой коэффициент корреляции Вы считаете? Реальный номер группы он у Вас всегда ординальный? Или, не побоюсь этого слова, интервальный? Или? А если "реальный номер группы" 1 или 0 (т.е. болен - не болен), какой корреляционный коэффициент используете?

Это простой привычный коэффициент корреляции. Не перепутала. Понимаю. Формулу можно посмотреть в наших ранних публикациях. Реальный номер группы всегда натуральный: 1, 2, 3... Если группа 0, меняем ее на 2. rolleyes.gif И работаем как всегда.
Поймите, что мы ищем коэффициент корреляции не между номерами исследуемых групп, а между истинным номером группы и результатом его прогноза (после работы алгоритма распознавания).
Цитата(плав @ 8.12.2008 - 22:38) *
5) Если Вы кому-то рекомендуете составлять диагностические алгоритмы на 30 пациентах, мне очень жаль пациентов, которые потом будут получать помощь от таких "разработчиков" и я сильно надеюсь, что в случае судебных исков за ненадлежащее врачевание в адрес "разработчиков" уйдет частное определение.

Никогда диагноз не ставится на основе какого-либо компьютерного решения. Диагноз ставит врач. Вся ответственность лежит на нем. Компьютерные методы только рекомендуют, и их точность равна вероятности, с которой работает данный метод.
Цитата(плав @ 8.12.2008 - 22:38) *
4) Как Вы думаете, если я не представляю себе, как работает "скользящий контроль", почему я упоминаю leave-one-out?

На этот вопрос мой коллега (автор алгоритма оптимальных разбиений) ответил так:
«Вы не знаете термин ?скользящий контроль? !? Это абсолютно базовое понятие в современном прогнозировании. Прочитайте любую статью. Это вовсе не jackknife.
Leave-one-out ? частный случай скользящего контроля.
Смысл данного понятия именно в проверке точности прогноза. Выборка последовательно делится на подвыборки; обучающую и контрольную. На одной происходит обучение, на другой контроль. Процесс повторяется многократно. Где же здесь подгонка? Максимизация точности в режиме скользящий контроль действительно иногда производится путём манипулирования параметрами модели. Но это абсолютная ПРОФАНАЦИЯ метода. Вероятно, вы именно это имели в виду, когда писали: «при помощи методов leave-one-out обычно проводится ПОСТРОЕНИЕ модели». Результатам скользящего контроля в этом случае нельзя доверять. Кстати, вы можете с таким же успехом добиваться максимизации точности на контрольной выборке (другом наборе данных), меняя параметры модели».

Цитата(плав @ 8.12.2008 - 22:38) *
3) Как эти доказательства были получены.
И знаете, работает, хотя функция получена в Америке 1960х, а проверена на российской популяции 1980х. Предсказывает.
А Вы можете такое же? Проверку на другой, не связанной с первой популяцией, другой группе больных.

Доказательства, например, по распознаванию типа инсульта. В приемном покое врач с точностью 60% проводит дифференциальный диагноз между ишемическим и геморрагическим типами инсульта. Наше распознающее правило дало 85-90%. Нейронные сети с отладкой по генетическому алгоритму дали 99%, о чем и была защищена докторская диссертация. Но мы считаем, что это как раз и была подгонка. И наши результаты дающие не столь высокий результат ? намного устойчивее, и не боятся поступления в выборку новых данных.
Все голословные утверждения ничего не стоят, пока не будет проведено честное сравнение результатов распознавания.
Цитата(плав @ 8.12.2008 - 22:38) *
2) Будьте добры - в общих чертах - теоретическое обоснование метода, а то из всех возражений этот кусок (особенно с достоверностями, он как раз базируется на знании классической статистики) был проигнорирован.

Senko O.V., Kuznetsova A.V. The Optimal Valid Partitioning Procedures, Электронный рецензируемый журнал «InterStat», http://ip.statjournals.net:2002/InterStat/ARTICLES/2006/articles/0604002.pdf, http://interstat.statjournals.net/
Может быть, это Вам поможет.
Цитата(плав @ 8.12.2008 - 22:38) *
1) Почему именно на 30 объектах. Будьте добры теоретическое обоснование.

Просто так нас учили на кафедре математики на медико-биологическом факультете РГМУ (Бывшего II МОЛГМИ им. Н.И.Пирогова), отделении медицинская кибернетика. И это оправдало себя на практике. Хотя с меньшим числом объектов и приходилось работать, но мы всегда знали, что это первоначальный алгоритм, требующий пополнения выборки.


Автор: DoctorStat 9.12.2008 - 19:55

Цитата(Анна_К @ 9.12.2008 - 18:41) *
Предварительный счет методом оптимальных разбиений дал такой результат:
значимых для распознавания признаков только 2: C_A1 и C_A2.
Граница градации по C_A1 = 1,5, при этом ниже границы оказывается всего 2 наблюдения из контроля и 17 наблюдения - больных,
выше границы 52 наблюдения здоровых и 6 наблюдений больных.

Прошу простить за напоминание, что номера аллелей, как 1-го, так и 2-го для каждого из 3-х генов, это не количественные и не ординальные (упорядочиваемые) переменные, а качественные (номинальные) признаки, которые нельзя упорядочить. Значит, метод оптимальных разбиений для этих переменных не подходит. В методе оптимальных разбиений проводится граница в области изменения переменных, сравниваются значения этих переменных с числами, а это НЕВЕРНО для качественных признаков, таких как номер аллеля какого-либо гена.

Автор: DoctorStat 9.12.2008 - 20:19

Цитата(DrgLena @ 9.12.2008 - 18:25) *
необходимо получить прогноз вероятности положительного результата лечения на конкретных данных. Т.е. это не задача дискриминации в два класса - результат достигнут, - не достигнут.

Задача исследователя - установить связь генотипа с изучаемой болезнью. Если мы знаем, что такая связь (предрасположенность) существует, то можем с определенной долей уверенности предположить, что к определенному возрасту, пациент с данным генотипом заболеет этим заболеванием. Таким образом, мы предсказываем, делаем прогноз заболеваемости для конкретного пациента. В этом смысле (вычисления рисков) наш метод аналогичен логистической регрессии. Разница в том, что в регрессии в качестве независимых признаков используется: лечение (есть/нет), а в алгоритме выделения генотипов используется: «плохой генотип» (есть/нет).

Автор: Анна_К 9.12.2008 - 21:50

Цитата(DoctorStat @ 9.12.2008 - 19:55) *
Прошу простить за напоминание, что номера аллелей, как 1-го, так и 2-го для каждого из 3-х генов, это не количественные и не ординальные (упорядочиваемые) переменные, а качественные (номинальные) признаки, которые нельзя упорядочить. Значит, метод оптимальных разбиений для этих переменных не подходит. В методе оптимальных разбиений проводится граница в области изменения переменных, сравниваются значения этих переменных с числами, а это НЕВЕРНО для качественных признаков, таких как номер аллеля какого-либо гена.

Прошу прощения в свою очередь, но Вы нигде не упоминали о том, что характер признаков номинальный. Можете убедиться сами:
///////////
В качестве проверки Вашего алгоритма, предлагаю вычленить больные генотипы отдельных генов (всего 3 гена) для 2-х выборок больные+контроль всего 78 человек. С помощью алгоритма кластеризации и хи-квадрат я нашел генотипы, значимо чаще встречающиеся у больных. Можете ли Вы своими суперметодами типа дата-мининг обнаружить генотипы - признаки болезни ??! Файл Excel с данными по генотипам в группе контроля и больных стенокардией прикреплен к данному сообщению. Всего 3 гена: A, B, C. Для каждого гена 2 аллеля: A1, A2 и т.д. Необходимо вычленить "плохие" сочетания аллелей по каждому из 3-х генов.
//////////
Поэтому я и анализировала числа, как числа. Если же это номинальные признаки, то надо их преобразовывать в бинарные. И тогда они опять станут информативными. То есть, если признак имеет значение от 1 до 8 (или до 17), то надо формировать 8 признаков со значением 1, если значение равно определенному числу, и 0, если не равно ему. Красивых картинок в этом случае не получится. Но результат будет скорее всего не менее красивый.

Еще: объясните, пожалуйста, в файле представлены две группы: у здоровых 136 записей, у больных - 24.
Как можно понять, какие данные относятся к упомянутым вами 78 пациентам? Желательно пометить их хотя бы номерами.
Конечно, из чистого любопытства хотелось бы знать, что означают числа в признаках. Легкий генетический ликбез, если не трудно...
В общем, главное - корректно поставленная задача. Дубль 2.

Автор: DoctorStat 9.12.2008 - 22:03

Цитата(Анна_К @ 9.12.2008 - 21:50) *
Еще: объясните, пожалуйста, в файле представлены две группы: у здоровых 136 записей, у больных - 24.
Как можно понять, какие данные относятся к упомянутым вами 78 пациентам?

Группа здоровых - 3 гена.
Ген А - 236 чел
Ген В - 236 чел
Ген С - 54 чел

Группа со стенокардией - 3 гена
Ген А - 24 чел
Ген В - 24 чел
Ген С - 23 чел

Можно считать, что для разных генов набраны разные пациенты, т.к. мы не анализируем взаимодействия генов. Реально в базе данных не все пациенты генотипированы по всем генам. Из-за этого возникло отличие в количестве пациентов для разных генов.
Цитата(Анна_К @ 9.12.2008 - 21:50) *
Конечно, из чистого любопытства хотелось бы знать, что означают числа в признаках. Легкий генетический ликбез, если не трудно...

Номер аллеля обозначает номер полиморфизма этого гена. Например, в гене А на месте 100-го нуклеотида может стоять A или С, на месте 150 может стоять А, С или G. Обозначим эти варианты номерами 1, 2, 3, 4, 5. Один ген мы получаем от отца, другой от матери. Следовательно, у нас 2 варианта одного гена. Эти 2 варианта называются аллелями. Т.к. аллели одного гена человек получает от разных родителей, то и полиморфизмы у аллелей могут отличаться. Генотипом по какому-то гену называется сочетание 2-х аллелей данного гена. Например, если у Вас для гена А аллели 3 и 5, то Ваш генотип по гену А обозначается 1,5.

Автор: плав 9.12.2008 - 22:44

Цитата(Анна_К @ 9.12.2008 - 19:35) *
Может быть, это Вам поможет.
Просто так нас учили на кафедре математики на медико-биологическом факультете РГМУ (Бывшего II МОЛГМИ им. Н.И.Пирогова), отделении медицинская кибернетика. И это оправдало себя на практике. Хотя с меньшим числом объектов и приходилось работать, но мы всегда знали, что это первоначальный алгоритм, требующий пополнения выборки.


Ну вообщем-то все понятно.
1) Про 30 я не случайно спросил - общее место, после этого числа объектов стабилизируется выборочная дисперсия (точнее после 25-30 объектов), соответственно, речь идет об обычной статистике, так что отсутствие обоснованного ответа на этот вопрос уже о многом говорит. Так что "оправдало на практике" это веселое объяснение.

2) Насчет коэффициента корреляции я тоже спросил не случайно. Вообще-то его квадрат показывает процент дисперсии, который объясняет данная модель. С точки зрения предсказания коэффициент корреляции раный +1 и -1 одинаково хороши, просто во втором случае перепутали группы. Но Вы на этот подвох тоже не обратили внимания - и это говорит о многом.

2) Насчет того, что Ваши методы лучше среднего врача, я вообще не понял. Итак нейронные сети дали 99% точности и Вы считаете это подгонкой. Ваши методы дали 85-90% и это прекрасно. Чего-то я логику не понял. Или методика была одна и тогда Ваши методы проигралиили же проверка опять была не проспективная, но а тогда и 99% и 85% подозрительны. Вы то ли не хотите, то ли не можете понять основного: (а) проверка метода на той же популяции, на которой строится модель порочна. Модель постоянно строится на одних и тех же данных, соответственно ее параметры будут одинаковыми. Таким методом можно уменьшит влияние вылетающих наблюдений. но не более. (б) невозможно построить модель, которая будет использовать данные, отсутствующие в обучающей выборке. Если Вы берете 30 человек, то вероятность того, что в эту выборку попадет человек с фактором риска, имеющимся у 3% популяции всего около 60%. А 3% довольно высокая частота для многих прогностических факторов. А для обучения нужен не один объект... Иными словами, при таком подходе система не может учитывать редкие события - а частые события мозг человека будет учитывать значительно лучше.
Более того, обычная статистика позволяет делать выводы потому, что она базируется в своих выводах на прочном теоретическом фундаменте. Именно он позволяет применять методы на относительно небольших выборках (при этом возражения относительно гетерогенности популяции и пропуска факторов остаются. поэтому я вообще против создания решающих алгоритмов на малых выборках). Все методы data mining по своей природе не делают предположения о характере распределения, поэтому они требуют большего количества информации для тех же выводов, к которым классическая статистика приходит с меньшим объемом данных. Чудес на свете не бывает. Если вы делаете предположение о том, например, что ваша заивисмость - линейная, вам достаточно двух точек, чтобы провести линию. Если же Вы говорите, что это кривая любой формы, то Вам никакого количества точек не хватит. Нельзя одновременно уменьшить объем входящей информации и получить больше информации на выходе.

3) Новое название не значит новый метод. Вы так и не пояснили обоснование Вашего метода "оптимального разделения", чем он отличается от всех остальных методов "неоптимального" разделения. Дело в том, что большинство т.н. новых методов не являются новыми, а являются модификацией старых, расширением их возможностей - например, кластерный анализ это дисперсионный анализ "наоборот", CART - модицикация регрессии, нейронные сети - множественная нелинейная регрессия и т.п.

Чо же касается Вашего праведного гнева по поводу забывания отечественных ученых, то замечу, что (а) на произведения отечественных "ученых" в области машинного обучения в медицине насмотрелись в 80х годах. В результате нормальной биостатистики нет, зато полно шаманства с попытками предсказать непредсказуемое. Результат союза людей не понимающих медицину с теми, кто не понимает статистику...; (б) многие из тех отечественных ученых, кто занимался машинным обучением (вне медицины) уже работают в тех университетах, работы которых я смотрю, а теперь давайте угадаем с трех раз, кого приглашают с более высокой вероятностью в MIT - того, кто известен своими публикациями и кого цитируют или автора, работы которого кроме пожимания плеч ничего не вызывают? Наука штука интернациональная. Те, кто делает действительно новое быстро обнаруживаются (специалистов по машинному обучению из бСССР в Силиконовой долине много) и эти методы становятся принятыми. Отсутствие признания каких-то методов свидетельствует об их дефектах - почему-то по методам data mining в медицине было много публикаций в конце 80х-90х (когда много компьютеров стало), а затем все сошло на нет. Почему бы это? А вот логистическая регрессия живет...

В целом, повторюсь, мне все понятно, тему закрывать не буду, но далее дискутировать и ходить по кругу смысла нет. Да, и проверьте Ваши ссылки, а то статья не находится и на фамилию автора сайт отвечает Match Not Found

Автор: плав 9.12.2008 - 22:52

Цитата(DoctorStat @ 9.12.2008 - 20:19) *
Задача исследователя - установить связь генотипа с изучаемой болезнью. Если мы знаем, что такая связь (предрасположенность) существует, то можем с определенной долей уверенности предположить, что к определенному возрасту, пациент с данным генотипом заболеет этим заболеванием.


А вот и нет. Представьте себе следующую ситуацию. Ген убивает носителя при развитии заболевания (например, ИБС). Тогда в популяции здоровых он встречается с частотой р, а в популяции больных ИБС отсутствует. Обычный вывод в этом случае - ген протективный. Ан нет. Он летальный. Аналогичным образом, если частота гена в популяции р, а среди больных р1>р, то вполне может быть
А) Ген является фактором риска (люди с ним заболели)
Б) Ген является протективным (люди без него с заболеванием умерли)
В) Ген сцеплен в данной группе с другим геном (см. А или Б), а сам не имеет никакого отношения к заболеванию. В другой популяции, где это сцпеление отсутствует, это можно будет увидеть.

Отсюда вывод - никакая статистическая связь не может дать причинно-следственную связь. С проблемой вариантов А/Б можно справиться используя длительное наблюдение за здоровыми людьми (проспективные когортные исследования), с проблемой В - используя многоцентровые исследования (опять-таки проспективные когортные). И то останутся сомнения. А если просто смотреть генотип больных и здоровых, то возможны все три варианта...

Автор: DrgLena 10.12.2008 - 00:36

Да, действительно, DoktorStat, на основании представленных данных не может делать прогноз, в отношении развития стенокардии, но он доказал, что у больных стенокардией имеется к моменту развития заболевания определенные особенности сочетания аллелей гена С, отличающие их от здоровых людей того же возраста. Так, наибольшая информативность относительно стенокардии обладает ген С, его генотип 1, 2, имеют только больные стенокардией, далее по убыванию 1, 1 тоже встречается только у больных стенокардией, 1,3 - у 3-х со стенокардией, но у одного - без стенокардии. 4, 10 не характерно для этих больных, но у одного больного все же встречается. По другим сочетаниям мало данных вообще, например, сочетание 2,3 встречается в двух случаях, у одного есть стенокардия, у другого нет. Если фактором риска считать генотип 1,1;1,2 и 1,3 то от встречается в 73,9% больных (и у 6 здоровых), другие сочетания генотипа по этому гену встречается в 98,15% здоровых (и у одного больного). Другие гены малоинформативны по сравнению с геном С и сделаны у других больных, поэтому сочетание самих генов и их аллелей проанализировать нельзя. Я в генетике слаба. Возможно, генотип С при рождении определен и не меняется, тогда можно прогнозировать развитие стенокардии к этому возрасту.

Автор: плав 10.12.2008 - 12:39

Цитата(DrgLena @ 10.12.2008 - 00:36) *
Да, действительно, DoktorStat, на основании представленных данных не может делать прогноз, в отношении развития стенокардии, но он доказал, что у больных стенокардией имеется к моменту развития заболевания определенные особенности сочетания аллелей гена С, отличающие их от здоровых людей того же возраста. Так, наибольшая информативность относительно стенокардии обладает ген С, его генотип 1, 2, имеют только больные стенокардией, далее по убыванию 1, 1 тоже встречается только у больных стенокардией, 1,3 - у 3-х со стенокардией, но у одного - без стенокардии. 4, 10 не характерно для этих больных, но у одного больного все же встречается. По другим сочетаниям мало данных вообще, например, сочетание 2,3 встречается в двух случаях, у одного есть стенокардия, у другого нет. Если фактором риска считать генотип 1,1;1,2 и 1,3 то от встречается в 73,9% больных (и у 6 здоровых), другие сочетания генотипа по этому гену встречается в 98,15% здоровых (и у одного больного). Другие гены малоинформативны по сравнению с геном С и сделаны у других больных, поэтому сочетание самих генов и их аллелей проанализировать нельзя. Я в генетике слаба. Возможно, генотип С при рождении определен и не меняется, тогда можно прогнозировать развитие стенокардии к этому возрасту.

Да вот в том-то и дело, что нет! Генотип С определен при рождении - тут сомнений нет. Но особенность исследования заключается в том, что сказать, что он ВЫЗЫВАЕТ стенокардию, а не ЗАЩИЩАЕТ от смерти при ней - нельзя. Прогнозировать на этих данных ничего нельзя. Можно только сказать, что генотип С КАК-ТО СВЯЗАН со стенокардией. А вот как - это вопрос, который является ключевым и на него ответить по этим данным нельзя. Подумайте, есть разница между утверждением "без этого генотипа у Вас стенкоардии не будет" и "при отсутствии этого генотипа у Вас стенкардии не будет - Вы умрете от первого же приступа" - они оба следуют из представленных данных.

Автор: DrgLena 10.12.2008 - 13:05

Да, логика железная!
У умерших от первого приступа генотип С пока не известен, в этом исследовании во всяком случае, таких данных нет. Но у здоровых людей более молодого возраста с неблагоприятным генотипом более высокий шанс ее развития, поэтому они могут составлять группу риска и профилактика может им помочь.

Автор: DoctorStat 10.12.2008 - 13:48

Цитата(DrgLena @ 10.12.2008 - 13:05) *
У умерших от первого приступа генотип пока не известен

Делаем выборку из умерших от 1-ого приступа людей. Генотипируем их по исследуемому гену. Выясням, что частота определенного генотипа в этой выборке значимо больше, чем в популяции. Делаем вывод, что данный генотип вызывает смерть пациента при первом приступе болезни.

Автор: плав 10.12.2008 - 14:32

А вот это сделать сложно. Люди просто умерли (внезапная смерть) и сделать выборку их уже удет сложно. Проще набрать группу здоровых людей, прогенотипировать их, а затем наблюдать за ними несколько лет и посмотреть, какой генотип связан. Когортное исследование, другие факторы риска ИБС именно так изучали

Автор: DrgLena 10.12.2008 - 14:36

Это план исследования или уже есть результаты? Чаще ли у них те же генотипы по гену С?

Автор: DoctorStat 10.12.2008 - 14:42

Цитата(DrgLena @ 10.12.2008 - 14:36) *
Это план исследования или уже есть результаты? Чаще ли у них те же генотипы по гену С?

был задан вопрос, как найти гены внезапной смерти. Я предложил свой вариант поиска. Плав предложил другой вариант. Результатов генотипирования по внезапной смерти нет.

Автор: Анна_К 10.12.2008 - 15:09

Цитата(DrgLena @ 10.12.2008 - 00:36) *
Так, наибольшая информативность относительно стенокардии обладает ген С, его генотип 1, 2, имеют только больные стенокардией, далее по убыванию 1, 1 тоже встречается только у больных стенокардией, 1,3 - у 3-х со стенокардией, но у одного - без стенокардии. ... Другие гены малоинформативны по сравнению с геном С и сделаны у других больных, поэтому сочетание самих генов и их аллелей проанализировать нельзя. Я в генетике слаба. Возможно, генотип С при рождении определен и не меняется, тогда можно прогнозировать развитие стенокардии к этому возрасту.

Но эти результаты совпадают с теми, которые я выявила нашими методами. Просто в данном случае для гена С значимые генотипы оказались близки по числовым значениям, поэтому и получилось так хорошо распознать, поставив границы 1.5 и 3.5 по аллелям А1 и А2 соответственно. Почему же вы не сказали, что результаты счета у меня и DoctorStat полностью совпали?
А для других генов еще надо доказать их неинформативность. Вдруг там значимые аллели имеют разбросанные значения и не поддаются такому простому разделению. Перевод этих данных в бинарный вид позволит доказать наличие или отсутствие их информативности.
Кстати, очень жаль, что не проверяется связь между генами (между собой) и патологией. Никто же не доказал, что этой связи нет. И если сбор информации проводили у всех пациентов, наши методы позволили бы дать ответ о наличии или отсутствии этой связи.

Автор: Анна_К 10.12.2008 - 15:12

Цитата(плав @ 9.12.2008 - 22:44) *
Ну вообщем-то все понятно.
1) Про 30 я не случайно спросил - общее место, после этого числа объектов стабилизируется выборочная дисперсия (точнее после 25-30 объектов), соответственно, речь идет об обычной статистике, так что отсутствие обоснованного ответа на этот вопрос уже о многом говорит. Так что "оправдало на практике" это веселое объяснение.

Я рада, что мы приближаемся к взаимопониманию. Если это, конечно, не иллюзия понимания. На самом деле, речь не идет об обычной статистике. Статистика отличается от DataMining'а как алгебра отличается от геометрии (стереометрии, гиперметрии). Вы используете формулы, средние, дисперсии, отклонения от среднего, оценки, ошибки? В ДМ (при использовании всех статистических достижений) строятся описания гипер-облаков, характеризующих группы объектов. Это описание может быть гиперкубом, гипер-эллипсоидом, сложной гипер-поверхностью. И точность распознавания зависит от того, насколько хорошо учтены все информативные признаки (измерения) и удалены все лишние неинформативные признаки (шум). И только практика свидетельствует об эффективности построенной модели. Сами помните из марксистской философии: «Практика - критерий истины», поэтому и нечего грустить.
Цитата(плав @ 9.12.2008 - 22:44) *
2) Насчет коэффициента корреляции я тоже спросил не случайно. Вообще-то его квадрат показывает процент дисперсии, который объясняет данная модель. С точки зрения предсказания коэффициент корреляции раный +1 и -1 одинаково хороши, просто во втором случае перепутали группы. Но Вы на этот подвох тоже не обратили внимания - и это говорит о многом.

В нашем подходе такой перевертыш исключается. Точность распознавания близка к нулю, если распознавание невозможно (все перемешано), или точность распознавания стремится к 1 (100% распознавание), если информативные признаки существуют. Еще лучше просто посчитать, сколько объектов при распознавании на скользящем контроле попало в свою родную группу, сколько попало в зону отказа (которая вычисляется в зависимости от числа объектов в группах), и сколько являются ошибками. При этом зону отказов можно учитывать или не учитывать. В ней мы просто не можем ничего сказать о принадлежности объекта к определенной группе.

Цитата(плав @ 9.12.2008 - 22:44) *
2) Насчет того, что Ваши методы лучше среднего врача, я вообще не понял. Итак нейронные сети дали 99% точности и Вы считаете это подгонкой. Ваши методы дали 85-90% и это прекрасно. Чего-то я логику не понял. Или методика была одна и тогда Ваши методы проиграли или же проверка опять была не проспективная, но а тогда и 99% и 85% подозрительны.

Речь о том же, что я писала выше: нейронные сети, построенные на данных, предварительно обработанных генетическими алгоритмами, это модель, точно описывающая именно те данные, которые пошли на обучение. Любое добавление объектов полностью перестраивает решающее правило, которое содержит очень большое число отобранных признаков. То есть этот подход неустойчив вследствие того, что число предполагаемых прогностических переменных очень велико. Цитата: «Поиск оптимального набора признаков путем максимизации функционала, характеризующего качество распознавания, неизбежно ведет к эффекту "overfitting" - сверхобучение, когда оценка точности распознавания на тех данных, которые использовались для обучения значительно завышается. Правильная оценка точности должна производится на абсолютно новых данных, которые ранее никак не использовались. Объем контрольной выборки должен быть достаточно большим для того, чтобы оценка точности распознавания была близка к настоящей точности». В данном случае скользящий контроль если и проводился, то при удалении объекта решающее правило не строили заново. Объект просто распознавали (при этом до того он участвовал в обучении алгоритма). В нашем случае при удалении объекта, заново строится решающее правило. То есть проверяемый объект не участвует в обучении. Кроме того, каждый признак, отобранный для решающего правила как информативный, проверяли методом Монте-Карло на значимость. В нейронных сетях этого естественно не делалали. У них получился набор из 30 признаков. В нашем случае информативными оказались только 11. Но каждый из них работал на распознавание. Такие методы, при работе в приемном покое будут хорошим подспорьем врачу. Тем более, что для них не нужны мощные машины с дорогущими лицензионными зарубежными пакетами. Нужно только ввести показатели 11 симптомов, получить результат распознавания и дальше делать вывод, соглашаться с ним или нет.

Цитата(плав @ 9.12.2008 - 22:44) *
Вы то ли не хотите, то ли не можете понять основного: (а) проверка метода на той же популяции, на которой строится модель порочна. Модель постоянно строится на одних и тех же данных, соответственно ее параметры будут одинаковыми.
... Иными словами, при таком подходе система не может учитывать редкие события - а частые события мозг человека будет учитывать значительно лучше. Нельзя одновременно уменьшить объем входящей информации и получить больше информации на выходе.

В медицине редко можно собрать слишком большие массивы данных. Их всегда - ограниченное число. И наши методы позволяют выявлять закономерности, которые не всегда видны невооруженным глазом. И при любой модели будут такие пациенты, которые не вписываются о «свою» группу. Любой хирург вам расскажет, что иногда выживают самые безнадежные больные, а благополучные (вроде бы) вдруг не выдерживают операции. Тоннельный эффект в медицине случается также часто как и в микромире, когда электрон оказывается там, где ему теоретически быть не положено.
А насчет уменьшения информации Вы абсолютны неправы! Как раз уменьшение шума дает возможность найти только информативные показатели, помогающие распознаванию.

Автор: Анна_К 10.12.2008 - 15:14

Цитата(плав @ 9.12.2008 - 22:44) *
3) Новое название не значит новый метод. Вы так и не пояснили обоснование Вашего метода "оптимального разделения", чем он отличается от всех остальных методов "неоптимального" разделения. Дело в том, что большинство т.н. новых методов не являются новыми, а являются модификацией старых, расширением их возможностей - например, кластерный анализ это дисперсионный анализ "наоборот", CART - модицикация регрессии, нейронные сети - множественная нелинейная регрессия и т.п.

Почитайте статьи, здесь нет смысла их воспроизводить. Естественно, что ничто на пустом месте не возникает. Все имеет своих идеологических предков. Но и растет из них, скрещивается, преобразуется, использует новые возможности техники?
Цитата(плав @ 9.12.2008 - 22:44) *
Отсутствие признания каких-то методов свидетельствует об их дефектах - почему-то по методам data mining в медицине было много публикаций в конце 80х-90х (когда много компьютеров стало), а затем все сошло на нет. Почему бы это? А вот логистическая регрессия живет...

Конкуренция, она и в Америке конкуренция. Вот например совсем недавняя история, как статья в зарубежный журнал не была принята, поскольку редакция затребовала работающий листинг программы (!!!!). При таком подходе вряд ли публикации вообще возможны.
Цитата(плав @ 9.12.2008 - 22:44) *
В целом, повторюсь, мне все понятно, тему закрывать не буду, но далее дискутировать и ходить по кругу смысла нет. Да, и проверьте Ваши ссылки, а то статья не находится и на фамилию автора сайт отвечает Match Not Found

Да, вот поправленная ссылка.
http://interstat.statjournals.net/YEAR/2006/articles/0604002.pdf - The Optimal Valid Partitioning Procedures. Senko Oleg V., Kuznetsova A.V.
Добавлю к той ссылке еще несколько:
http://www.springerlink.com/content/175687p6p487r033/ - The use of pattern recognition methods in tasks of biomedical diagnostics and forecasting. Yu.I. Zhuravlev, A.V. Kuznetsova, V.V. Ryazanov, O.V. Senkо, M.A. Botvin
http://azfor.ucoz.ru/_ld/0/5_2Vrach38-46.pdf - Возможности использования методов Data Mining при медико-лабораторных исследованиях. Журнал "Врач и Информационные Технологии"
http://azfor.ucoz.ru/load/4-1-0-6 - Прогноз динамики депрессивных синдромов, Журнал «Социальная и клиническая психиатрия». 2003, №4, с.18-24.
Буду благодарна за конструктивные критические замечания. Нам очень нужна обратная связь специалистов и позитивный диалог.
И не надо слишком цепляться к мелочам, я же не пеняю Вам на два пункта под номером 2. smile.gif

Автор: DoctorStat 10.12.2008 - 15:17

Цитата(Анна_К @ 10.12.2008 - 15:09) *
Но эти результаты совпадают с теми, которые я выявила нашими методами. Просто в данном случае для гена С значимые генотипы оказались близки по числовым значениям, поэтому и получилось так хорошо распознать, поставив границы 1.5 и 3.5 по аллелям А1 и А2 соответственно. Почему же вы не сказали, что результаты счета у меня и DoctorStat полностью совпали?

На уровне значимости р=0,05 мне НЕ УДАЛОСЬ выделить генотипы гена С, достоверно отличающиеся в группе больных стенокардией и группе контроля.
Цитата(Анна_К @ 10.12.2008 - 15:09) *
Кстати, очень жаль, что не проверяется связь между генами (между собой) и патологией. Никто же не доказал, что этой связи нет. И если сбор информации проводили у всех пациентов, наши методы позволили бы дать ответ о наличии или отсутствии этой связи.

Установление связи между генами - более трудная задача, чем выделение генотипов. Я могу предоставить генотипические данные по пациентам. Т.е. для каждого пациента известны генотипы по всем генам. Только объем выборки больных в 26 человек слишком мал для изучения связи генов.

Автор: DrgLena 10.12.2008 - 15:25

DoctorStat,
Да, я упустила пару ответов. Одновременно в форуме быть и свою задачку делать сложно. Но дискуссия интересная, такие исследования - основа медицины будущего. Генотип человека почти известен, длительные наблюдения и статистический анализ его сопряженности с болезнями - даст ответ на многие вопросы, это выход на профилактику. Проект IBM, госпиталь Майя, коргда то была такая информация, сейчас о проекте ничего не слышно.
Вопрос к DoctorStat, получила ли я тот же результат по вашим данным, выложите свой вариант. Я не использовала кластерный анализ.

Анна_К, мое решение построено не на количественных данных, а на частотном анализе, оно не может с вашим совпасть даже случайно. Т.е. вы предложите решение своими методами, уже зная, что аллели - не числа. И чтобы незначимость генов тоже была доказана. А что такое 1.5 или 3.5 что это за границы мне не ясно.

Автор: DoctorStat 10.12.2008 - 15:33

Цитата(DrgLena @ 10.12.2008 - 15:25) *
Вопрос к DoctorStat, получила ли я тот же результат по вашим данным, выложите свой вариант. Я не использовала кластерный анализ.

Нет, наши результаты НЕ СОВПАЛИ. Ген С не влияет на болезнь. Влияют только гены А и В. Полное решение проблемы смотрите на моем сайте http://doctorstat.narod.ru/doc/gen_d.html#p2 в разделе "Генетический анализ предрасположенности к заболеваниям - Выявление генотипов для одного гена".

Автор: Анна_К 10.12.2008 - 15:55

Цитата(DrgLena @ 10.12.2008 - 15:25) *
Анна_К, мое решение построено не на количественных данных, а на частотном анализе, оно не может с вашим совпасть даже случайно. Т.е. вы предложите решение своими методами, уже зная, что аллели - не числа. И чтобы незначимость генов тоже была доказана. А что такое 1.5 или 3.5 что это за границы мне не ясно.

Ответ из разряда "это не может быть, потому что не может быть никогда". Тем не менее, если подумать: назывные (номинальные) признаки, характеризующие патологию, случайно по числам близки (1, 2, 3), остальные признаки (контрольная группа) выше границы 3,5. Что и отражено на рисунках. См. мой пост от Вчера, 18:41, Сообщение #17. Не забудьте заглянуть на красивые картинки. Когда я прочитала Ваш пост с результатами (кстати, куда он делся?), я была уверена, что Вы обсуждаете результаты, полученные мной.
Вопрос, почему наши (совпавшие) результаты не совпали с результатами DoctorStat?
Конечно, хотелось бы иметь данные по каждому пациенту - отдельной записью. Пусть и 26 - это ничего. И такую же контрольную группу (можно побольше объектов). Дело в том, что наши методы выявляют как раз сочетания информативных признаков. Следовательно для группы со стенокардией мы получим набор значимых аллелей и их генов.
Пронумеруйте, пожалуйста пациентов, чтобы можно было их обсуждать прицельно. После скользящего контроля.

Автор: DrgLena 10.12.2008 - 16:05

Дождаться "полного ответа" мне не удалось, что то не грузится. Но возражения об отсутствии сопряженности (не влияния) генотипа СА1 и СА2 со стенокардией готовы. По этому гену генотипы 1.1;1.2; и 1.3 имеют 17 из 23 больных (73.9%) и 1 из 54 здоровых (1.85%). Простая таблица сопряженности дает р=0.00000. gr=1 больные, 0 - здоровые. Представлены все встречающиеся в базе данных варианты сочетания C_A1 и C_A2. В первой колонке номер по порядку в ранжированном ряду, в конце самые зловредные сочетания. В последней колонке - принадлежность к группе.
C_A1 C_A2 gr
1 4 10 0
2 4 10 0
3 4 10 0
4 4 10 0
5 4 10 0
6 4 10 0
7 4 10 0
8 4 10 0
9 4 10 0
10 4 10 0
11 4 10 0
12 4 10 0
13 4 10 0
14 4 10 0
15 4 10 0
16 4 10 0
17 4 10 0
18 4 10 1
19 2 10 0
20 2 10 0
21 2 10 0
22 2 10 0
23 2 10 0
24 2 10 0
25 2 10 0
26 2 10 0
27 2 10 0
28 2 10 0
29 2 10 0
30 3 10 0
31 3 10 0
32 3 10 0
33 3 10 0
34 3 10 0
35 5 10 0
36 6 10 0
37 6 10 0
38 7 10 0
39 7 10 0
40 4 6 0
41 4 5 0
42 2 4 0
43 2 7 0
44 2 4 0
45 2 4 0
46 2 4 0
47 2 4 0
48 2 4 0
49 2 4 0
50 2 4 0
51 2 4 0
52 2 4 0
53 2 3 1
54 2 3 0
55 3 7 1
56 6 7 1
57 2 2 1
58 2 2 1
59 1 7 0
60 1 3 0
61 1 3 1
62 1 3 1
63 1 3 1
64 1 1 1
65 1 1 1
66 1 1 1
67 1 1 1
68 1 1 1
69 1 1 1
70 1 1 1
71 1 2 1
72 1 2 1
73 1 2 1
74 1 2 1
75 1 2 1
76 1 2 1
77 1 2 1

Автор: DoctorStat 10.12.2008 - 16:23

Цитата(DrgLena @ 10.12.2008 - 16:05) *
Но возражения об отсутствии сопряженности (не влияния) генотипа СА1 и СА2 со стенокардией готовы. По этому гену генотипы 1.1;1.2; и 1.3 имеют 17 из 23 больных (73.9%) и 1 из 54 здоровых (1.85%). Простая таблица сопряженности дает р=0.00000. gr=1 больные, 0 - здоровые.


Я вам дал НЕ ТЕ данные, см.рисунки: на них разные данные. На левом рисунке - данные с моего сайта. Различий в частотах генотипов С не видно. На правом рисунке данные, которые я дал на этом форуме. Различие частот генотипов на правом рисунке бросается в глаза. Сейчас буду разбираться, откуда взялись НЕПРАВИЛЬНЫЕ данные ???

 

Автор: DrgLena 10.12.2008 - 16:46

Вы дали пример, его и решайте. Бог с ним с сайтом про подробности, он еще грузится. Там такие подробности, что вы не только гены у разных людей делали, но и аллели для конкретного гена анализируете без связи со второй т.е. отдельно CA1 в группе больных и здоровых и отдельно CA2. А важно только их сочетание. Или вы опять нам про генетику плохо рассказали.

Автор: DoctorStat 10.12.2008 - 16:54

Цитата(DrgLena @ 10.12.2008 - 16:46) *
Вы дали пример, его и решайте. Бог с ним с сайтом про подробности, он еще грузится. Там такие подробности, что вы не только гены у разных людей делали, но и аллели для конкретного гена анализируете без связи со второй т.е. отдельно CA1 в группе больных и здоровых и отдельно CA2. А важно только их сочетание. Или вы опять нам про генетику плохо рассказали.

В приложенном файле Stenocardia2.rar ПРАВИЛЬНЫЕ данные по генотипам.

На моем сайте, кроме анализа генотипов, выполнялся поиск "плохих" аллелей. Т.е. искали не генотипы или сочетания аллелей (А1, А2), а оба аллеля объединялись в один (А1+А2) и вычленялись полиморфизмы гена, встречающиеся с различной частотой у здоровых и больных.

 Stenocardia2.rar ( 3,5 килобайт ) : 342
 

Автор: DoctorStat 10.12.2008 - 17:03

Цитата(Анна_К @ 10.12.2008 - 15:55) *
Конечно, хотелось бы иметь данные по каждому пациенту - отдельной записью. Пусть и 26 - это ничего. И такую же контрольную группу (можно побольше объектов). Дело в том, что наши методы выявляют как раз сочетания информативных признаков. Следовательно для группы со стенокардией мы получим набор значимых аллелей и их генов.
Пронумеруйте, пожалуйста пациентов, чтобы можно было их обсуждать прицельно. После скользящего контроля.

Анна, специально для Вас сделал файл Excel по каждому пациенту отдельной строкой (см.приложенный файл Stenocardia3.rar). Извините, что ввел Вас в заблуждение неправильными данными. Но, как говорится, и на DoctorStat-а бывает проруха. Больных получилось всего 15 человек, здоровых 54 чел.

 Stenocardia3.rar ( 1,98 килобайт ) : 341
 

Автор: Анна_К 10.12.2008 - 20:23

Цитата(DoctorStat @ 10.12.2008 - 17:03) *
Анна, специально для Вас сделал файл Excel по каждому пациенту отдельной строкой (см.приложенный файл Stenocardia3.rar). Извините, что ввел Вас в заблуждение неправильными данными. Но, как говорится, и на DoctorStat-а бывает проруха. Больных получилось всего 15 человек, здоровых 54 чел.

А где же обещанные 26 пациентов? Вы "специально для меня" отобрали только нераспознаваемые объекты?
Может все-таки найдутся все имеющиеся в наличии данные?

Автор: DoctorStat 10.12.2008 - 20:32

Цитата(Анна_К @ 10.12.2008 - 20:23) *
А где же обещанные 26 пациентов? Вы "специально для меня" отобрали только нераспознаваемые объекты?
Может все-таки найдутся все имеющиеся в наличии данные?

Анна, Вы просили генотипические данные по 3-м генам для КАЖДОГО пациента. В моей базе данных таких пациентов в группе больных только 15 человек. В файле Stenocardia2.rar пациентов в группе стенокардия больше (гены А.В -24 чел., ген С - 15 чел.), но не все из них генотипированы по всем 3-м генам. Других данных у меня нет. Как говорится, чем богаты, тем и рады.

Автор: DrgLena 10.12.2008 - 21:24

Предлагаю "правильными" данными считать первый набор данных, они уже пронумерованны в моем предыдущем посте, и ответ по ним я дала. Теперь это же могут сделать DoctorStat и Анна_К. Меня другой набор данных уже не вдохновляет, тем более, что так и нет уверенности, что данные о всех генах получены у одних и тех же пациентов.

Автор: DoctorStat 10.12.2008 - 21:36

Цитата(DrgLena @ 10.12.2008 - 21:24) *
Предлагаю "правильными" данными считать первый набор данных

Я не возражаю. Задача участников "соревнования" за звание "лучшего дата минера" - дать исчерпывающие ответы по генотипическим данным. Какие генотипы скорее всего повинны в развитии стенокардии? Можно ли среди этих "кандидатных" генотипов выделить однородные группы? С чем эти группы могут быть связаны? Насколько увеличивается шанс заболеть стенокардией обладателя "плохих" генотипов по сравнению с обладателем "хороших" генотипов? Есть ли взаимодествие между генами? Какую часть больных стенокардией можно объяснить "плохими генами"?

Автор: DrgLena 10.12.2008 - 22:13

Доктор DoctorStar, вы главный участник битвы гигантов, если ответите на все свои вопросы, получите Нобелевскую премию.

Автор: Анна_К 10.12.2008 - 23:21

Цитата(DoctorStat @ 10.12.2008 - 20:32) *
Анна, Вы просили генотипические данные по 3-м генам для КАЖДОГО пациента. В моей базе данных таких пациентов в группе больных только 15 человек. В файле Stenocardia2.rar пациентов в группе стенокардия больше (гены А.В -24 чел., ген С - 15 чел.), но не все из них генотипированы по всем 3-м генам. Других данных у меня нет. Как говорится, чем богаты, тем и рады.

Да, с данными какая-то неразбериха.
Вот я совместила все три таблицы Stenocardia1-2-3:
ни одной нет одинаковой пары таблиц.
все три файла отличаются то по здоровым, то по больным, то по двум последним столбцам.
Меня вполне устраивает предложение DrLena - сравнивать по первому файлу. Если, конечно, выяснили, откуда он взялся...
Его перекодировку в бинарные мы уже сделали и получены предварительные результаты.

 

Автор: DoctorStat 11.12.2008 - 11:59

Данные взяты из самого первого файла Stenocardia.rar
С помощью моей программы получены "больные" и "здоровые" генотипы, связанные со стенокардией (см.ниже). Для вычисления значимости p-value (показана справа от гена), "больные" и "здоровые" генотипы объединялись в отдельные группы (кластеры) и сравнивались критерием хи-квадрат эти 2 кластера с учетом множественных сравнений.

ген А (рис.справа): (p-value=9e-6)
больные: 1\4, 2\5, 1\7, 5\7, 2\4, 2\6, 3\4, 2\9, 3\9, 3\7
здоровые: 1\2, 1\3, 1\5, 1\6, 2\3, 2\7, 3\5, 4\5, 4\7, 5\9

ген B (рис.в центре): (p-value=1e-9)
больные: 1\4, 1\9, 2\8, 3\14, 5\10, 9\14, 2\3, 2\14, 2\17, 2\4, 3\8, 4\14, 1\17, 8\13, 13\16, 3\6, 10\13, 5\15
здоровые: 1\2, 1\3, 1\7, 1\8, 1\10, 1\12, 1\13, 1\14, 1\15, 2\5, 2\6, 2\7, 2\10, 2\12, 2\13, 2\15, 3\4, 3\5, 3\10, 4\5, 4\6, 4\7, 4\9, 4\10, 4\15, 4\17, 5\7, 5\14, 7\10, 7\11, 7\14, 7\15, 8\9, 8\10, 8\12, 8\14, 8\17, 9\17, 10\14, 10\15, 11\17, 13\14, 13\15, 14/15, 14\17

ген С (рис.слева): (p-value=1e-12)
больные: 1\1, 1\2
здоровые: 2\4, 2\10, 3\10, 4\10

Генотипы, не вошедшие в кластеры "больных" или "здоровых" считаются малочисленными (редкими). Они не учитывались при вычислении p-value (значимость отличий кластеров генотипов).

 

Автор: DrgLena 11.12.2008 - 14:06

Чего только не сделает доктор, чтобы получить желанное p<0,05. Я считала, что генетика - самая точная наука среди других медицинских наук. Из ликбеза ясно, что объект исследования - человек и он может иметь к конкретному гену только сочетание А_А1 и А_А2. Т.о. объявляя "больным" 1\4 для гена А вы должны доказать что это сочетание у больных встречается достоврено чаще, чем у здоровых. В группе больных (24) это сочетание встречается у двух больных (8,3%) и у 6 (2,5%) в группе контроля. При этом даже размер группы контроля 236 не дает вам желанного результата по таблице сопряженности, а только р=0,14. Не получая желанного результата вы стали объединять плохие аллели.

Сложили в кучку все не очень хорошие сочетания, как будто они могут присутствовать у одного больного, и это назвали фактором риска, рассчитывая для такого абстрактрого субъекта, который имеет всю эту кучку сочетаний по одному гену, шанс развития стенокардии. Раскрашивание одним цветом объекты не дают основания называть это кластерами, кластер должен появиться из кластерного анализа и от группы должен отличаться таким, например, свойством, как межкластерное расстояние.
По гену С ситуация другая там, действительно есть сочетания например 1\2 или 1\1, которые встречаются только у больных стенокардией и наличие любого из них дотоверно выше, чем группе контроля р=0,0000.

Автор: DoctorStat 11.12.2008 - 14:35

Цитата(DrgLena @ 11.12.2008 - 14:06) *
Не получая желанного результата вы стали объединять плохие аллели.

Размеры выборок слишком малы, чтобы хи-квадрат по отдельным генотипам дал значимые отличия. Поэтому применяется кластерный анализ, объединяющий "похожие" генотипы в группы.
Цитата(DrgLena @ 11.12.2008 - 14:06) *
Раскрашивание одним цветом объекты не дают основания называть это кластерами, кластер должен появиться из кластерного анализа и от группы должен отличаться таким, например, свойством, как межкластерное расстояние.

Кластеры - это группы приблизительно одинаковых генотипов, объединяемых с помощью кластерного анализа. Кластеры характеризуются внутригрупповой однородностью ( внутрикластерной вероятностью отличий p-value>>0,05 ) и межкластерным расстоянием (p-value<0,05, которую я приводил в предыдущем сообщении, справа от гена).
Цитата(DrgLena @ 11.12.2008 - 14:06) *
По гену С ситуация другая

На практике легко разделяющихся данных (как в случае гена С) не встречается.

Автор: DrgLena 11.12.2008 - 15:32

Да, я посетила ваш сайт и проследила за ходом выполнения анализа. Вы меня не убедили.
Если размер выборки не достаточный для получения желаемого для вас вывода, то это не дает вам основание прибегать к явным манипуляциям данными с целью достижения нужного результата. Это не служит ни интересам генетики, ни интересам статистики. Нужно искать другой путь.

Автор: DoctorStat 11.12.2008 - 15:45

Цитата(DrgLena @ 11.12.2008 - 15:32) *
Нужно искать другой путь.

Какой? Предложите свой алгоритм.

Автор: DrgLena 11.12.2008 - 16:57

Если данные содержат информацию, которая может быть полезной в прогнозе, то ее можно извлечь различными методами. Алгоритмические, например, логистическая регрессия и дискриминантный анализ на одной и той же базе данных дает похожий результат, процент верной классификации 72% и 71%, нейронные сети по тем же данным дали мне 74% - не алгоритмический метод, а тот самый черный ящик, который как то там обучился и выдает результат ( при этом выборка разделяется на 3 - обучающая, тестовая и контрольная, с возможным перемешиванием данных). На проверочной выборке, однако эти проценты снижаются примерно до 60-62 для всех этих методов. Это говорит о том, что имеющийся набор данных позволяет именно с такой точностью делать прогноз. Если данные, которые вы собрали не могут дать прогноз, собирайте дальше, возможно появятся другие более мощные предикторы. Использование кластерного анализа именно в генетических исследованиях - это мощный инструмент поиска возможных причин заболеваний, кажется за что то подобное была присуждена Нобелевская премия.
Красивая работа с применением кластерного анализа:

http://www.nslij-genetics.org/wli/pub/jim06.pdf

Автор: DoctorStat 11.12.2008 - 17:45

Цитата(DrgLena @ 11.12.2008 - 16:57) *
Если данные содержат информацию, которая может быть полезной в прогнозе, то ее можно извлечь различными методами.
Может быть, Анна_К предложит что-нибудь новенькое ?

Автор: DrgLena 11.12.2008 - 17:54

Вы, очевидно не поняли, что дело не в новых методах извлечения, которые может предложить Анна_К, а в том, что в ваших данных пока нечего извлекать. А что было в них заложено, я вам выдала по гену С.

Автор: DoctorStat 11.12.2008 - 20:18

Цитата(DrgLena @ 11.12.2008 - 17:54) *
в ваших данных пока нечего извлекать
Я думаю, что приведенных мною данных достаточно для извлечения информации о «больных» и «здоровых» генотипах по всем 3-м генам. Мой подход к добыче таких данных - метод кластеризации генотипов на основе статистического критерия хи-квадрат. Разумеется, этот подход неединственный. Разговор в этой ветке форума и был затеян для того, чтобы дать возможность всем желающим продемонстрировать свои методы добычи информации. Ваш подход на основе обычного анализа таблиц сопряженности на практике не работает из-за малого объема выборки больных и большого полиморфизма (разнообразия) генов (см., например, количество аллелей гена В). Требуются новые подходы...

Автор: DrgLena 11.12.2008 - 22:42

Да, вы извлекли какую- то информацию. А именно, например для гена А «больными» названы 10 сочетаний двух аллелей, которые вы назвали кластером, утверждая, что они имеют больше схожести внутри кластера (при этом, роль метрики близости и расстояния между кластерами у вас выступает выражение типа р<0.0000). Однако вся их схожесть заключается только в некотором преобладании в частоте встречаемости у больных по сравнению со здоровыми (на несколько %). Вы, почему то, упорно игнорируете тот факт, что у одного больного имеется только одно сочетание двух аллелей для одного гена, а не все 10 сочетаний вместе.
Я использовала другой подход, конечно не банальный анализ таблиц сопряженности, хотя на первом этапе он дает предварительную информацию о распределении аллелей у больных и здоровых. Но дальше я использую суммарную информативность по всем генам сделанным у каждого пациента, при этом гены А и В ни в каких сочетаниях аллелей на дали мне дополнительной к гену С информации относительно дифференциации двух состояний.
А по гену С я дала вам вчера ранжированный ряд по увеличению "болезненности" гена, от "самых здоровых" 4\10 (сумма J=-10,78), до самых больных 1\2 (сумма J =+15,36). Могу привести информативность всех других сочетаний по гену С. Но, видимо интереса к этой дискуссии нет, даже Solo получила ответы в другой ветке.

Автор: DoctorStat 12.12.2008 - 11:49

Цитата(DrgLena @ 11.12.2008 - 22:42) *
Вы, почему то, упорно игнорируете тот факт, что у одного больного имеется только одно сочетание двух аллелей для одного гена, а не все 10 сочетаний вместе.
Я ищу кластеры или группы генотипов, поэтому приходится объединять генотипы разных пациентов.
Цитата(DrgLena @ 11.12.2008 - 22:42) *
по гену С я дала вам вчера ранжированный ряд по увеличению "болезненности" гена, от "самых здоровых" 4\10 (сумма J=-10,78), до самых больных 1\2 (сумма J =+15,36).
Как Вы определяете "болезненность" гена?

Автор: autumn 12.12.2008 - 13:35

Уважаемый DrStat
Я коллега Anny_K.
Мы провели анализ вашей информации. по исходному
файлу Stenokardia.xls с использованием
а) методов Рраспознования
около 10 методов
б) перестановочного теста на бинарных показателях, соответствующих встречаемости номеров аллелей
и их парных сочетаниях
Вывод
Довольно высокая прогностическая способность
группы бинарных показателей, соответствующих гену C
От 80 до 96% в группе здоровых
и от 66 до 92% в группе больных.
Режим скользящий контроль (Leave-one-out)

По группе показателей для генов А и B для
всех методов результат нулевой.
Либо относят в один класс, либо около 50%
для обоих.
Тот же самый результат для парных сочетаний
бинарных показателей для аллелей
Значимые различия в распределениях больных-здоровых на уровне <0.001 на 1000 случайных перестановок
для пар
С_a2_10 C_a2_4
C_a1_2 C_a2_10
То есть всё соответствует тому, что говорит Ваш предыдущий оппонент
У вас достаточно необычный результат.
Насколько я понимаю вы делаете кластерный анализ парных значений аллелей?
Regards


 bestpartitions.doc ( 271,5 килобайт ) : 410
 

Автор: DoctorStat 12.12.2008 - 14:09

Цитата(autumn @ 12.12.2008 - 13:35) *
Мы провели анализ вашей информации. по исходному
файлу Stenokardia.xls с использованием
а) методов Рраспознования
около 10 методов
б) перестановочного теста на бинарных показателях, соответствующих встречаемости номеров аллелей
и их парных сочетаниях
Вот это - хорошая работа!
Цитата(autumn @ 12.12.2008 - 13:35) *
То есть всё соответствует тому, что говорит Ваш предыдущий оппонент
DrgLena, это комплимент в Вашу сторону!
Цитата(autumn @ 12.12.2008 - 13:35) *
Насколько я понимаю вы делаете кластерный анализ парных значений аллелей?
Грубо говоря, я объединяю генотипы (парные сочетания аллелей), чаще встречающиеся у больных, в «больной» кластер, а чаще встречающиеся у здоровых в «здоровый» кластер. Потом сравниваю эти 2 кластера в таблице сопряженности размером 2Х2 критерием хи-квадрат, чтобы проверить значимость отличий кластеров.

Автор: autumn 12.12.2008 - 15:51

Цитата(DoctorStat @ 12.12.2008 - 15:09) *
Вот это - хорошая работа!
DrgLena, это комплимент в Вашу сторону!
Грубо говоря, я объединяю генотипы (парные сочетания аллелей), чаще встречающиеся у больных, в «больной» кластер, а чаще встречающиеся у здоровых в «здоровый» кластер. Потом сравниваю эти 2 кластера в таблице сопряженности размером 2Х2 критерием хи-квадрат, чтобы проверить значимость отличий кластеров.

Что вы ставите в ячейки таблицы сопряжённости?

Автор: DrgLena 12.12.2008 - 16:08

DoctorStat, всю технологию описал на своем сайте http://doctorstat.narod.ru/doc/gen_d.html#p2 в таблицах сопряженности то, что я назвала в нашей дискуссии "кучками" т.е. объединено в одну группу все что немножко хуже по любым сочетаниям одного гена, а что чуть-чуть лучше - в другую и все - таблица 2х2 готова к употреблению.

Автор: DoctorStat 12.12.2008 - 16:13

Цитата(autumn @ 12.12.2008 - 15:51) *
Что вы ставите в ячейки таблицы сопряжённости?
Структура финальной таблицы сопряженности размерности 2Х2.
1-ый столбец таблицы - группа пациентов «Здоровые», 2-ой столбец - группа «Больные».
1-ая строка таблицы - генотипы кластера «Здоровый», 2-ая строка - кластера «Больной»
Значение ячейки (1,1) - количество здоровых пациентов, у которых генотип принадлежит кластеру «Здоровый».

Автор: DrgLena 12.12.2008 - 20:41

Autumn, не могу сказать, чтобы я разобралась, почему из ваших графиков можно сделать такие выводы. А по сему, прошу вас уточнить какие сочетания C1 и С2 наиболее неблагоприятные, или какие из них являются по результатам вашего анализа факторами риска развития болезни. На первых двух рис. у вас одна и та же аллель в двух значениях 2\10 и 2\4, а сочетаться может только одна из первой и одна из второй аллели.

Автор: autumn 12.12.2008 - 21:21

Извините, я как-то забыл про комментарии.
Квадранты пронумерованы по часовой стрелке.
И Квадрант-1 -это левый верхний. Совпадению двух значений аллели у испытуемого
соответствует попадание в квадрант 2. Как видите, на рисунке 1 он пуст и именного из-за того, что
два значения одной аллели не могут сочетаться.
Отсутствие у испытуемого значений 4 и 10 (то есть значение аллели№2 должно быть не 4 и не 10)
соответствует наиболее тяжёлому случаю (из 28 таких испытуемых 22 болеют стенокардией и только 6 здоровы).
Если у испытуемого значение аллели№2 равно 10, то здоровы все десять испытуемых с таким значением аллели№2.

Если у испытуемого значение аллели№2 равно 4, то здоровы 38 испытуемых с таким значением аллели№2 и только 1 болен.
Случайно перемешивая индикатор наличия заболевания относительно фиксированных значений аллелей.
мы убеждаемся, что простой игрой случая, такой уровень разделения быть не может

Автор: DrgLena 12.12.2008 - 22:52

Большое спасибо, я поняла. Теперь я вижу, что результаты совпали.
Свой результат, который я представила выше, я получила ранжируя суммарные информационные меры по двум аллелям. Но дерево (Classification Trees) выдало решение используя только вторую аллель 4,5,6,10 - хорошие и 1,2,3,4,7 -плохие и 95,65% больных имеют их и только 4 здоровых (7,4%)

 

Автор: autumn 13.12.2008 - 12:38

Цитата(DoctorStat @ 12.12.2008 - 17:13) *
Структура финальной таблицы сопряженности размерности 2Х2.
1-ый столбец таблицы - группа пациентов «Здоровые», 2-ой столбец - группа «Больные».
1-ая строка таблицы - генотипы кластера «Здоровый», 2-ая строка - кластера «Больной»
Значение ячейки (1,1) - количество здоровых пациентов, у которых генотип принадлежит кластеру «Здоровый».

Позвольте. Но мне кажется, что получается следующее. Вы одну случайную величину вычисляете по другой и затем
проверяете гипотезу о независимости этих двух величин. Конечно она будет
отвергнута с высоким уровнем значимости.

Автор: DoctorStat 13.12.2008 - 14:22

Цитата(autumn @ 13.12.2008 - 12:38) *
Вы одну случайную величину вычисляете по другой и затем
проверяете гипотезу о независимости этих двух величин. Конечно она будет
отвергнута с высоким уровнем значимости.
Есть таблица сопряженности, см.приложенный рисунок. В столбце ВЫБ.1 - количество здоровых пациентов. В столбце ВЫБ.2 - количество пациентов со стенокардией. Строки таблицы соответствуют генотипам гена С. Для генотипов 1\1 и 1\2 здоровых пациентов нет, зато есть 7 больных по каждому генотипу. Эти два генотипа я объединяю в один и отношу его к «больному» кластеру. Генотип 2\4 и 2\10 встречается только у здоровых пациентов в количестве 10 и 11 человек соответственно. Эти два генотипа я объединяю в один и отношу его к «здоровому» кластеру. Продолжаю эту процедуру (кластеризацию) до тех пор, пока все генотипы не будут объединены в 2 больших кластера - «больной» и «здоровый». Эта процедура объединения строк таблицы сопряженности аналогична описанной в книге: Стентон Гланц «Медико-биологическая статистика», стр. 147, раздел «Преобразование таблиц сопряженности». Объединяются группы генотипов, не отличающиеся между собой по критерию хи-квадрат.

 

Автор: autumn 13.12.2008 - 16:09

Цитата(DoctorStat @ 13.12.2008 - 15:22) *
Есть таблица сопряженности, см.приложенный рисунок. В столбце ВЫБ.1 - количество здоровых пациентов. В столбце ВЫБ.2 - количество пациентов со стенокардией. Строки таблицы соответствуют генотипам гена С. Для генотипов 1\1 и 1\2 здоровых пациентов нет, зато есть 7 больных по каждому генотипу. Эти два генотипа я объединяю в один и отношу его к «больному» кластеру. Генотип 2\4 и 2\10 встречается только у здоровых пациентов в количестве 10 и 11 человек соответственно. Эти два генотипа я объединяю в один и отношу его к «здоровому» кластеру. Продолжаю эту процедуру (кластеризацию) до тех пор, пока все генотипы не будут объединены в 2 больших кластера - «больной» и «здоровый». Эта процедура объединения строк таблицы сопряженности аналогична описанной в книге: Стентон Гланц «Медико-биологическая статистика», стр. 147, раздел «Преобразование таблиц сопряженности». Объединяются группы генотипов, не отличающиеся между собой по критерию хи-квадрат.

Хорошо. Но представим такую ситуацию. У вас относительно небольшие группы больных и здоровых одинаковым образом и чисто случайно рассеяны по большому числу генотипов. Вы в один кластер отнесёте все генотипы, в которые попали больные, а в другой кластер все генотипы, в который попали здоровые. В вашей схеме это, насколько я понял, допускается. И вы спокойно получаете, что исход зависит от гена с огромной значимостью, которой по сценарию заведомо и в помине быть не может.

Автор: DoctorStat 13.12.2008 - 16:43

Цитата(autumn @ 13.12.2008 - 16:09) *
Хорошо. Но представим такую ситуацию. У вас относительно небольшие группы больных и здоровых одинаковым образом и чисто случайно рассеяны по большому числу генотипов. Вы в один кластер отнесёте все генотипы, в которые попали больные, а в другой кластер все генотипы, в который попали здоровые. В вашей схеме это, насколько я понял, допускается. И вы спокойно получаете, что исход зависит от гена с огромной значимостью, которой по сценарию заведомо и в помине быть не может.
1. СЛУЧАЙНЫЕ ГЕНОТИПЫ.
Если генотипы случайным образом рассеяны между 2-мя группами, то их частоты встречаемости в 2-х выборках будут приблизительно равны, поэтому значимость p-value отличия «больного» кластера от «здорового» будет невелика. Мы не найдем ни «плохих», ни «хороших» генотипов.

2. МАЛЫЙ ОБЪЕМ ВЫБОРОК.
Алгоритм отсеивает и не учитывает редкие, малочисленные генотипы. Если группы окажутся слишком малы, а ген, наоборот, высокополиморфен (как, например, ген В), то все генотипы станут редкими, и кластеризация, а стало быть, и выявление «особых» генов станет невозможной. Существует минимальный объем выборок, связанный с полиморфизмом и распределением частот генотипов, ниже которого алгоритм не работает.

Автор: DrgLena 13.12.2008 - 19:15

Очевидно, моих аргументов не хватило для того, чтобы убедить DoctorStat в том, что он проделал, называется манипуляция данными с целью получить p<0,05. Почему манипуляция, потому что гены А и Б в результате анализа объявлены ответственными за развитие болезни, а на самом деле этот не так. Это как раз яркий пример того, как ошибки в статистике приводят к неверным выводам.

Гланц объединил в одну группу физкультурниц и спортсменок, назвал их бегуньи, и относительно контрольной группы анализировал обращаемость и доказал различия между бегуньями и контролем. Вы же объединили в одну группу несколько худшие сочетания двух аллелей одного и того же гена и назвали их больными (при этом каждый из них в отдельности больным не является), как будто они могут сразу все быть у больных, а другую группу сочетаний аллелей по одному и тому же гену назвали здоровыми , как будто они все сразу могут быть у здоровых. С точки зрения генетики - это чистый бред, как и игнорирование вами редких или полиморфных генов. Именно они могут быть ответственными за болезнь.

С точки зрения статистики, вы почему то упорно желаете, чтобы между больным кластером и здоровым кластером (в кавычках как больные, так и кластеры) было p<0,05. А нужно показать, что между определенным генотипом (пусть пока по одному гену) и болезнью есть сопряженность. Если вы хотите использовать кластерный анализ, то с его помощью в пространстве многих генов и их алеллей находят группы схожих по многим признакам т.е. по генетическим признакам, выделяют и описывают их особенности, а потом ищут связь определенного генотипа с заболеванием.
То, что результат полученный разными методами анализа сходится, говорит о том, что в ваших данных он был заложен, но извлекали мы его по разному, я очень старым методом, меня научили здесь на этом сайте, год назад я пришла сюда с вопросом, Плав и Игорь мне очень помогли, познакомив с методами теории информации, второй ваш аппонент применил другой алгоритм извлечения данных data-mining. Вы продолжаете настаивать на своих выводах по первому набору данных ?

Автор: Анна_К 13.12.2008 - 20:05

С файлом Stenocardia.xls разобрались. Но мне так и не ответили, почему файлы с тем же название под номерами 2 и 3 такие различные. Где же все-таки настоящие реальные данные по стенокардии?

Автор: DoctorStat 13.12.2008 - 20:43

Цитата(DrgLena @ 13.12.2008 - 19:15) *
гены А и Б в результате анализа объявлены ответственными за развитие болезни, а на самом деле этот не так
Как на самом деле не знает никто.
Цитата(DrgLena @ 13.12.2008 - 19:15) *
Вы же объединили в одну группу несколько худшие сочетания двух аллелей одного и того же гена и назвали их больными (при этом каждый из них в отдельности больным не является)
Как правило, все гены высокополиморфны, т.е. обладают большой изменчивостью, см.гистограммы частот генотипов генов А, В, С в предыдущих сообщениях. Размеры выборок больных, наоборот, очень малы. Набрать группу больных, чтобы получить хорошую значимость по ОТДЕЛЬНЫМ генотипам практически невозможно. Поэтому приходится придумывать обходные пути. Какие? А вот какие. Если какой-то генотип встречается чаще в выборке больных, мы говорим, что он увеличивает риск заболевания. Пусть ненамного, но увеличивает. Поэтому он является кандидатом для включения в кластер «больных генотипов». Сначала методом кластеризации формируются больные и здоровые группы генотипов и методом хи-квадрат проверяется их внутри-кластерная однородность, т.е. одинаковая частота встречаемости генотипов внутри кластера. После этого тем же методом проверяется межкластерное различие (расстояние). Все, дело сделано! Внутри кластера генотипы встречаются с одинаковой частотой, а частота самих кластеров в разных выборках отличается. Значит, принадлежность какого-либо генотипа к «больному» кластеру увеличивает риск заболевания. Где здесь противоречие?? Мы говорим, не «больной» генотип, а «больной» КЛАСТЕР генотипов! Ведь мы доказали, что этот кластер встречается в выборке «больных» достоверно чаще!! Используя термин кластер, с помощью логистической регрессии вычисляется его роль в повышении риска заболевания, доля больных пациентов, объясняемая кластером и т.д. Забудьте слово генотип и выучите слово кластер!!!
Цитата(DrgLena @ 13.12.2008 - 19:15) *
Вы продолжаете настаивать на своих выводах по первому набору данных ?
Горбатого могила исправит.

Автор: DoctorStat 13.12.2008 - 20:49

Цитата(Анна_К @ 13.12.2008 - 20:05) *
С файлом Stenocardia.xls разобрались. Но мне так и не ответили, почему файлы с тем же название под номерами 2 и 3 такие различные. Где же все-таки настоящие реальные данные по стенокардии?
Файлы Stenocardia.rar под номерами 2 и 3 и есть настоящие данные. В файле 2 представлены все пациенты, у которых генотипирован ХОТЯ БЫ ОДИН ген. В файле 3 представлены пациенты, у которых генотипированы ВСЕ гены.

Автор: плав 13.12.2008 - 21:45

Цитата(DoctorStat @ 13.12.2008 - 20:43) *
Как на самом деле не знает никто.
Сначала методом кластеризации формируются больные и здоровые группы генотипов и методом хи-квадрат проверяется их внутри-кластерная однородность, т.е. одинаковая частота встречаемости генотипов внутри кластера. После этого тем же методом проверяется межкластерное различие (расстояние). Все, дело сделано! Внутри кластера генотипы встречаются с одинаковой частотой, а частота самих кластеров в разных выборках отличается. Значит, принадлежность какого-либо генотипа к «больному» кластеру увеличивает риск заболевания. Где здесь противоречие?? Мы говорим, не «больной» генотип, а «больной» КЛАСТЕР генотипов! Ведь мы доказали, что этот кластер встречается в выборке «больных» достоверно чаще!!

Не хотел вмешиваться, но это будут читать и люди, которые не очень хорошо разбираются в статистических методах и, соответственно, не поймут в чем тут уловка. А она в том, что процедура кластеризации сделана так, что она собирает похожие объекты и ее задачей является минимизация расстояний внутри кластера и максимизация вне. Соответственно, кластерный анализ ВСЕГДА находит группы с достоверными отличиями. Любой может это сделать путем простого эксперимента - сгенерируйте нормальную популяцию, затем сделайте кластерный анализ и проанализируйте достоверность различия между кластерами. Чтобы не быть голословным, привожу код R для подобного эксперимента и результат:
> pop.n<-rnorm(1000,120,20)
> cl<-kmeans(pop.n,3)
> anova(lm(pop.n~factor(cl$cluster)))
Analysis of Variance Table

Response: pop.n
Df Sum Sq Mean Sq F value Pr(>F)
factor(cl$cluster) 2 326427 163213 2009.5 < 2.2e-16 ***
Residuals 997 80975 81
---
Signif. codes: 0 ?***? 0.001 ?**? 0.01 ?*? 0.05 ?.? 0.1 ? ? 1

Различия между кластерами высокодостоверны! Хотя я "кластеризовал" гомогенную популяциюс нормальным распределением признака. Так вот можно сгенерировать группы "больных" из гомогенной популяции. Для биномиальных экспериментов все будет аналогично, поскольку логика одна и та же.

Автор: DrgLena 14.12.2008 - 00:17

Цитата(DoctorStat @ 13.12.2008 - 21:43) *
Забудьте слово генотип и выучите слово кластер!!!

У нас опять что - то не то, со статистикой и генетикой, как в 1947 году.
Пациент может иметь не ген, а кластер, а кластерный анализ - это не обучение без учителя, с целью объединить похожих в пространстве многих признаков, а собирание под две группы больных и здоровых, а метрика расстояния - ни евклидова, ни Чебышева, ни Манхеттеновская, и т.д., а хи.кв.
Чтобы мне забыть про генотип и выучить, что такое кластер, просьба к DoctorStat, дайте пожалуйста ссылку на тот метод кластерного анализа, который вы использовали.

Пример плава демонстрирует вашу уловку, но на rnorm и kmeans, а у вас все переменные чисто номинальные, был ли тут вообще кластерный анализ?

Я давала пример с деревом решений, а в ссылке не просто дерево решений, а просто лес из деревьев использовался, чтобы в аналогичной патологии найти предикторы, в том числе и оценив роль генетических (и это все на R?)
http://www.springerlink.com/content/n5600h74k00801h1/fulltext.pdf

Цитата(плав @ 13.12.2008 - 21:45) *
Не хотел вмешиваться,

Ну и зря!

Автор: DoctorStat 14.12.2008 - 14:19

Цитата(DrgLena @ 14.12.2008 - 00:17) *
дайте пожалуйста ссылку на тот метод кластерного анализа, который вы использовали.
немного информации по кластеризации есть на моем сайте: http://doctorstat.narod.ru/tech/index_t.html внизу страницы. Ничего, кроме метода хи-квадрат, я не использовал

Автор: DoctorStat 14.12.2008 - 22:51

Чтобы показать для чего нужна кластеризация, я сравнил две выборки (больные и контроль) по придуманному гену Х. Частоты всех 13 генотипов у 2-х выборок отличаются приблизительно в 3 раза. Гистограмма частот и таблица сопряженности показаны на приложенных рисунках. Из них видно, что если у Вас нечетный (красный цвет на гистограмме) генотип, то риск оказаться больным приблизительно в 3 РАЗА ВЫШЕ, чем быть здоровым. И, наоборот, если генотип четный (голубой цвет), то скорее всего (с вероятностью в 3 раза большей) Вы здоровяк. Внизу таблицы сопряженности (рис.справа) показана значимость теста хи-квадрат P=0,373254>0,05 (т.е. тест НЕЗНАЧИМ, отличий не найдено). Теперь Вы понимаете, зачем нужна кластеризация???

 

Автор: autumn 15.12.2008 - 12:10

DoctorStat, существование искусственных данных, для которых тест дал правильный ответ, вовсе не доказывает, что тест будет правильно работать на реальных данных. Не забывайте, что тест должен также уметь отвергать наличие зависимости для задач, где зависимости реально не существует. Основная проблема у вашей кластеризация - выская доля именно таких ошибок. В любом случае для легализации своего подхода Вы должны ДОКАЗАТЬ, что вычисляемая вами статистика действительно распределена по закону Хи-квадрат с одной степенью свободы. В этом случае я подниму руки.

Автор: DrgLena 15.12.2008 - 13:06

Итак, у вас есть больной у которого первый вариант 1\1 из вашего списка, то он встречается у 3-х больных и у одного здорового, но нет такого сочетания у 24 больных и 24 здоровых, отсюда следует, что сопряженность такой таблицы 2х2 , где abcd =3,1,24,24, хи.кв=0,19; р=0,66. Но отношение шансов, действительно OR=3.0 , но 95%ДИ 0,29-30,9. Те. сделать вывод, что при генотип 1\1 это фактор риска вы сделать не можете. Что же вы делаете? Вы создаете генетического монстра, у которого одновременно присутствуют все нечетные генотипы по одному гену, и он действительно будет больным. Этот вариант кластерного анализа должен получить другое название "клистерный", может поможет вылечить монстра.

Автор: DoctorStat 3.07.2009 - 10:20

Цитата(autumn @ 15.12.2008 - 13:10) *
В любом случае для легализации своего подхода Вы должны ДОКАЗАТЬ, что вычисляемая вами статистика действительно распределена по закону Хи-квадрат с одной степенью свободы. В этом случае я подниму руки.
В статье http://doctorstat.narod.ru/tech/alg_kl.htm я показал, что поиск маркеров заболеваний (генотипов) лучше проводить методом кластеризации, чем стандартным методом хи-квадрат. Преимущество кластеризации заключается в автоматизации выделения однородных наборов маркеров и большей чувствительности метода.

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)