Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Как создать формулу для расчета прогноза?
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Страницы: 1, 2
Solo...
Всем здравствуйте. Прошу опять помощи.
Стоит такая задача. Как создать формулу, с помощью которой можно вычислить вероятность положительного исхода лечения у конкретного больного. Т.е. формулу, в которую можно подставлять данные (признаки, разные показатели и пр.) конкретного обратившегося за помощью больного, далее получать с помощью этой формулы какую то цифру - % (70%, или 60, или 95 ... и т.д.). Эта цифра и будет отражать вероятность положительного исхода лечения этого больного.

Имеются результаты лечения около 100 больных, известны все их показатели, влияющие на результат лечения. Этих показателей - около 5-6. Все они должны входить в формулу.

Я слышала, что этой формулой является дискриминантное уравнение. Но как его построить? В Экселе или в Статистике?
DoctorStat
1. Выявление клинически значимых параметров и их вклада.
С помощью логистической регрессии (программы SPSS, Statistica) для 2-х выборок пациентов: с удачным и неудачным исходом лечения найти клинические параметры, значимо влияющие на исход лечения. Исключить малозначимые параметры (с помощью выбора метода Backward LR) и выбора уровня значимости SIG=0,05. Для оставшихся значимых параметров вычислить их важность (коэффициенты регрессии Bi,i=1,M) и константу сдвига Constant.
2. Вычисление вероятности успешности лечения.
Для конкретного пациента вычислим успешность лечения. Пусть его клинические параметры принимают значения A1, A2 и т.д. Вычислим для этого пациента регрессию Z с помощью найденных коэффициентов регрессии Bi:
Z= Constant+B1*A1+...+ BM*AM
Тогда вероятность успеха лечения равна: P=1/(1+exp(−Z))
Игорь
Цитата(Solo... @ 15.10.2008 - 21:08) *
Всем здравствуйте. Прошу опять помощи.
Стоит такая задача. Как создать формулу, с помощью которой можно вычислить вероятность положительного исхода лечения у конкретного больного. Т.е. формулу, в которую можно подставлять данные (признаки, разные показатели и пр.) конкретного обратившегося за помощью больного, далее получать с помощью этой формулы какую то цифру - % (70%, или 60, или 95 ... и т.д.). Эта цифра и будет отражать вероятность положительного исхода лечения этого больного.

Имеются результаты лечения около 100 больных, известны все их показатели, влияющие на результат лечения. Этих показателей - около 5-6. Все они должны входить в формулу.

Я слышала, что этой формулой является дискриминантное уравнение. Но как его построить? В Экселе или в Статистике?

На компьютере обычно имеется Excel. Поэтому загрузите бесплатное программное обеспечение AtteStat, функционирующее на базе Excel. В модуле "Распознавание образов с обучением" имеется целый набор методов, включая логистическую и пробит регрессию. В Справочной системе написано, как ими пользоваться. Подставляйте данные и получайте нужные формулы.

Дискриминантный анализ не дает значения вероятности (он предназначен для другой задачи), поэтому в Вашем случае его применить не удастся.
Анна_К
Цитата(Solo... @ 15.10.2008 - 22:08) *
Я слышала, что этой формулой является дискриминантное уравнение. Но как его построить? В Экселе или в Статистике?

Вы совершенно правы, Solo. Эта задача - решается методами теории распознавания образов. Дискриминантный анализ - один из этих методов. Но он подходит только для данных, которые хорошо разделяются плоскостью. Т.е. линейно.
Для нелинейных данных - существует много других методов. Иностранное название их Data Mining. Слыхали?
Приходите на форум
http://azfor.ucoz.ru/
или пишите мне в личные сообщения.
Посмотрим Ваши данные.
smile.gif
Solo...
Я побывала на вашем форуме. Но , если честно, не разобралась. Статистика и Эксель для расчетов как то роднее.
плав
Ну, во-первых создать на 100 больных формулу, которая бы реально работала вряд ли возможно. Про Data Mining можно спокойно забыть, поскольку и регрессионные деревья и нейронные сети (т.е. многофакторная нелинейная регрессия) требуют обучающей и модельной выборок, а у Вас будет по 50 человек в каждой, уже и простейшую модель не построить. Data Mining должен использоваться там, где он и зародился - в анализе бизнес-процессов на основании тысяч наблюдений.
Если Вы хотите строить предиктивную формулу все равно надо делить группы на подвыборки (т.е. по 50), поскольку иначе не проверить качества предсказания.
Все модели Вам смогут дать только формулу для данной популяции, при небольшом изменении априорной вероятности она начнет безбожно "врать".
Соответственно, прежде, чем делать "формулу" прочитайте, про те методы, которые Вам выше советовали (логистическую регрессию в особенности), затем познакомьтесь с теоремой Байеса (возьмите книги Власова и Флетчера), затем почитайте здесь на форуме ветки, где это уже разбиралось.
Анна_К
Цитата(Solo... @ 7.12.2008 - 18:42) *
Я побывала на вашем форуме. Но , если честно, не разобралась. Статистика и Эксель для расчетов как то роднее.

Ну, там на форуме информации немного, а в помещенных статьях описание общее для большого числа методов. Для ясного понимания надо прочитать описание конкретного метода. Это можно сделать здесь:
http://azfor.narod.ru/datmin/datmin.htm
(правда мне уже присылали предупреждения про недопустимость ссылок, хотя не понятно, как без ссылок можно что-то вообще рассказать в интернете, разве что публикую тут все содержание страницы). Можно, конечно, и перенести сюда описание метода. Но попробуем пока традиционным способом - путем ссылки.
rolleyes.gif
Читайте дальше - мои ответы оппоненту наших методов. Он как раз возражает по привычному алгоритму. И очень дельные говорит вещи, с точки зрения непонимающего суть методов. Как говористя, "спасибо за вопрос".
Анна_К
Цитата(плав @ 7.12.2008 - 20:22) *
Ну, во-первых создать на 100 больных формулу, которая бы реально работала вряд ли возможно. Про Data Mining можно спокойно забыть, поскольку и регрессионные деревья и нейронные сети (т.е. многофакторная нелинейная регрессия) требуют обучающей и модельной выборок, а у Вас будет по 50 человек в каждой, уже и простейшую модель не построить. Data Mining должен использоваться там, где он и зародился - в анализе бизнес-процессов на основании тысяч наблюдений.

Data Mining с успехом используется более 20 лет в медико-биологических исследованиях именно на малых выборках. С его помощью создаются алгоритмы диагностики и прогнозирования. Известные Вам, и вошедшие в модные пакеты регрессионные деревья и нейронные сети - это вчерашний день Data MIning'a. Существует большое количество других методов, например:
Голосование по тупиковым тестам ?
Линейный дискриминант Фишера ?
Q ближайших соседей ?
Метод опорных векторов ?
Статистически взвешенные синдромы ?
Алгоритмы вычисления оценок ?
Линейная машина ?
Логические закономерности ?
Двумерные линейные разделители ?
Genesis-
Цитата(плав @ 7.12.2008 - 20:22) *
Если Вы хотите строить предиктивную формулу все равно надо делить группы на подвыборки (т.е. по 50), поскольку иначе не проверить качества предсказания.

Проверка эффективности формулы (на самом деле - это называется решающее правило) осуществляется с помощью скользящего контроля, когда каждый объект удаляется из выборки и позже распознается по созданному решающему правилу. Число правильно распознанных объектов выборки и характеризует эффективность решающего правила.
Цитата(плав @ 7.12.2008 - 20:22) *
Все модели Вам смогут дать только формулу для данной популяции, при небольшом изменении априорной вероятности она начнет безбожно "врать".

Это совершенно верно для нейронных сетей, генетических алгоритмов, включенных в настоящее время в стандартные статистические пакеты.
В описываемых мною методах верификация делается путем метода Монте-Карло (генерации большого числа таблиц и применения к ним решающего правила, при выявлении закономерностей не более, чем на 5 таких таблицах из 2000 считаем, что выявленная закономерность на реальных данных - не случайна).
Цитата(плав @ 7.12.2008 - 20:22) *
Соответственно, прежде, чем делать "формулу" прочитайте, про те методы, которые Вам выше советовали (логистическую регрессию в особенности), затем познакомьтесь с теоремой Байеса (возьмите книги Власова и Флетчера), затем почитайте здесь на форуме ветки, где это уже разбиралось.

Все это полезно для самообразования. А нам пришлите данные и мы на их примере покажем, как работают методы. smile.gif
Анна_К
Для обсуждаемых данных, вероятно, подойдет метод СВС (статистически взвешенных синдромов):
http://azfor.narod.ru/datmin/rasp-ob.htm
плав
Цитата(Анна_К @ 8.12.2008 - 12:26) *
Data Mining с успехом используется более 20 лет в медико-биологических исследованиях именно на малых выборках. С его помощью создаются алгоритмы диагностики и прогнозирования. Известные Вам, и вошедшие в модные пакеты регрессионные деревья и нейронные сети - это вчерашний день Data MIning'a. Существует большое количество других методов, например:
Голосование по тупиковым тестам ?
Линейный дискриминант Фишера ?
Q ближайших соседей ?
Метод опорных векторов ?
Статистически взвешенные синдромы ?
Алгоритмы вычисления оценок ?
Линейная машина ?
Логические закономерности ?
Двумерные линейные разделители ?
Genesis-

Проверка эффективности формулы (на самом деле - это называется решающее правило) осуществляется с помощью скользящего контроля, когда каждый объект удаляется из выборки и позже распознается по созданному решающему правилу. Число правильно распознанных объектов выборки и характеризует эффективность решающего правила.

Это совершенно верно для нейронных сетей, генетических алгоритмов, включенных в настоящее время в стандартные статистические пакеты.
В описываемых мною методах верификация делается путем метода Монте-Карло (генерации большого числа таблиц и применения к ним решающего правила, при выявлении закономерностей не более, чем на 5 таких таблицах из 2000 считаем, что выявленная закономерность на реальных данных - не случайна).

Все это полезно для самообразования. А нам пришлите данные и мы на их примере покажем, как работают методы. smile.gif

Это тоже, повторяемые на протяжении последних 20 лет идеи, которые базируются на слабом понимании сути научного поиска в медицине (кстати, забыли самоорганизующиеся карты Кохонена и еще с десяток терминов).
Итак "верификация делается по методу Монте-Карло" или "скользящего контроля" (видимо, имеется ввиду jacknife). Все это очень здорово, но правило проверяется на той же выборке, что и создается. leave-one-out ничего не меняет. ОДНИ И ТЕ ЖЕ объекты используются для создания решающего правила и его проверки. Здорово! Иными словами, модель подгоняется под данные - модель будет прекрасно описывать имеющийся набор данных, но больше - ничего. Собственно говоря поэтому и существует требование проверки на тестовом наборе данных. Кстати, при помощи методов leave-one-out обычно проводится ПОСТРОЕНИЕ модели, а ее верификация проводится на другом наборе данных.
Далее - если бы речь шла о базе данных в несколько тысяч объектов - с чего и начинался data mining, то тогда да, можно предположить, что правило будет работать на популяции в целом. А тут 100 человек. Представьте себе ситуацию, у Вы создаете "решающее правило" на 10 пациентах с ИБС и АГ по выбору терапии. И у Вас не попался человек с недавним ИМ, как Вы (алгоритм) установит, что ему нельзя давать нифедипин, что тот вызывает выраженное падение АД? А? А ведь строится "решающее правило" звучит-то как серьезно! И сотня человек в этом отношении ничего не решит, поэтому методы data mining и находятся на периферии в медицине - нет данных для распознавания образов, теоретически не применимы методы.
Далее вопрос в связи с этим к Анне_К, а как Вы определяете выборочную ошибку? Какой используете показатель? Как формулируете альтернативные гипотезы?
Между прочим, реакция на упоминание теоремы Байеса просто демонстрирует незнакомство с реальностью диагностики в клинике (да, вобщем-то и истории статистики). Никакой метод Монте-Карло (т.е. повторного взятия выборок с повторами из имеющихся данных) не позволит Вам проанализировать ситуацию с иными априорными вероятностями заболевания в другой клинике - а ведь наука делается именно в расчете на воспроизводимость результата в других условиях.
Кстати, а как Вы планируете показать, что методы, которые Вы рекламируете "работают", выйдете в клинику и продемонстрируете, что на новой выборке "решающее правило" дает хорошие результаты, или пришлете набор цифр, которые показывают, что Ваши алгоритмы могут их выдавать? Второе не является доказательством "работы" алгоритма, это просто свидетельствует о том, что он может что-то выдать. Докажите, что результат воспроизводим и тогда будет основа для дискуссии.

Для остальных. (1) Никакая статистическая обработка не может компенсировать плохой дизайн исследования. Чудес на свете не бывает, если есть 100 больных не стоит пытаться перевернуть мир на небольшой выборке. (2) Задайте себе вопрос, почему, если методы хороши (работам Эфрона и Тибширани уже более 30 лет, работе Тьюки с его "исследовательским анализом данных" уже под 50), они не применяются широко при обработке результатов клинических испытаний (там просто заняты профессиональные статистики и есть большие деньги). Ответ прост - у них есть своя ниша, но они не панацея. Причем все, что было предложено другого - уже вошло в повседневный обиход (коробчатые графики Тьюки используются сплошь и рядом, так же, как и тест HSD). Наверное, и тут причина есть. Будет 10000 пациентов, тогда смело занимайтесь data mining, а со 100, формулируйте адекватную гипотезу а приори и проверяйет ее.
Анна_К
Цитата(плав @ 8.12.2008 - 13:35) *
Это тоже, повторяемые на протяжении последних 20 лет идеи, которые базируются на слабом понимании сути научного поиска в медицине
Итак "верификация делается по методу Монте-Карло" или "скользящего контроля" (видимо, имеется ввиду jacknife). Все это очень здорово, но правило проверяется на той же выборке, что и создается. leave-one-out ничего не меняет. ОДНИ И ТЕ ЖЕ объекты используются для создания решающего правила и его проверки. Здорово! Иными словами, модель подгоняется под данные - модель будет прекрасно описывать имеющийся набор данных, но больше - ничего. Собственно говоря поэтому и существует требование проверки на тестовом наборе данных.

Вероятно, плав, речь идет о чистом контроле - на контрольной выборке.
Цитата(плав @ 8.12.2008 - 13:35) *
Кстати, при помощи методов leave-one-out обычно проводится ПОСТРОЕНИЕ модели, а ее верификация проводится на другом наборе данных.

Если данных много, то обычно какую-то часть оставляют на контроль, и она не участвует в построении решающего правила. Если число объектов 100, а число в каждой из сравниваемых групп должно быть НЕ МЕНЕЕ 30, то соответственно на контроль идет изрядная выборка в 40 объектов. На ней можно сделать вывод об эффективности полученного решающего правила. Скользящий контроль, конечно, дает гораздо лучший результат. Но! Если различия в группах нет, то распознавания просто не получится ни в том, ни в другом случае. Дальнейшее добавление объектов в обучающую выборку, естественно, может повлиять на то, как выглядит решающее правило, но вряд ли сильно.
Цитата(плав @ 8.12.2008 - 13:35) *
Далее - если бы речь шла о базе данных в несколько тысяч объектов - с чего и начинался data mining, то тогда да, можно предположить, что правило будет работать на популяции в целом. А тут 100 человек. Представьте себе ситуацию, у Вы создаете "решающее правило" на 10 пациентах .

Простите, сударь, не надо передергивать! Почему это на 10 объектах Вы начали что-то строить. Мы же говорим о выборке не менее 30! Думаю, ни один статистический подход не даст Вам гарантии на таком числе объектов.
Цитата(плав @ 8.12.2008 - 13:35) *
И сотня человек в этом отношении ничего не решит, поэтому методы data mining и находятся на периферии в медицине - нет данных для распознавания образов, теоретически не применимы методы.

Уверяю Вас, решит. И таких задач решено уже много. И алгоритмы работают на уровне диагностики выше, чем средний врач. И разваливаются алгоритмы только при использовании нейронных сетей и генетических алгоритмов, вшитых (без скользящего контроля) в стандартные пухлые пакеты из-зарубежа. Они-то и работают на подгонке, и после добавления новых объектов сыпятся, как карточный домик.
Цитата(плав @ 8.12.2008 - 13:35) *
Кстати, а как Вы планируете показать, что методы, которые Вы рекламируете "работают", выйдете в клинику и продемонстрируете, что на новой выборке "решающее правило" дает хорошие результаты, или пришлете набор цифр, которые показывают, что Ваши алгоритмы могут их выдавать? Второе не является доказательством "работы" алгоритма, это просто свидетельствует о том, что он может что-то выдать. Докажите, что результат воспроизводим и тогда будет основа для дискуссии.

Вы, наверное, не четко представляете, как работает скользящий контроль. Рассказываю: после того, как каждый объект распознается с помощью полученного решающего правила, мы считаем коэффициент корреляции между реальным номером группы каждого распознанного объекта и его функцией номера класса (полученной в результате распознавания). Полученный коэффициент корреляции и есть коэффициент эффективности распознавания. По нему судят о том, можно ли вообще строить на данной обучающей выборке алгоритм распознавания.
Проще всего на конкретных данных (хотя бы и данных Solo, если решится) провести параллельную работу по созданию решающего правила с нашей стороны и формулы, основанной на логистической регрессии или подходе Байеса - с Вашей.
Чем Вы рискуете, если ваши возражения не блеф?
DoctorStat
Цитата(Анна_К @ 8.12.2008 - 21:50) *
Проще всего на конкретных данных (хотя бы и данных Solo, если решится) провести параллельную работу по созданию решающего правила

Анна, я Вас обожаю за Вашу смелость и ум))). В качестве проверки Вашего алгоритма, предлагаю вычленить больные генотипы отдельных генов (всего 3 гена) для 2-х выборок больные+контроль всего 78 человек. С помощью алгоритма кластеризации и хи-квадрат я нашел генотипы, значимо чаще встречающиеся у больных. Можете ли Вы своими суперметодами типа дата-мининг обнаружить генотипы - признаки болезни ??! Файл Excel с данными по генотипам в группе контроля и больных стенокардией прикреплен к данному сообщению. Всего 3 гена: A, B, C. Для каждого гена 2 аллеля: A1, A2 и т.д. Необходимо вычленить "плохие" сочетания аллелей по каждому из 3-х генов. Если объем выборки Вам кажется малым, я могу его увеличить...
плав
Цитата(Анна_К @ 8.12.2008 - 21:50) *
Простите, сударь, не надо передергивать! Почему это на 10 объектах Вы начали что-то строить. Мы же говорим о выборке не менее 30! Думаю, ни один статистический подход не даст Вам гарантии на таком числе объектов.

Уверяю Вас, решит. И таких задач решено уже много. И алгоритмы работают на уровне диагностики выше, чем средний врач. И разваливаются алгоритмы только при использовании нейронных сетей и генетических алгоритмов, вшитых (без скользящего контроля) в стандартные пухлые пакеты из-зарубежа. Они-то и работают на подгонке, и после добавления новых объектов сыпятся, как карточный домик.

Вы, наверное, не четко представляете, как работает скользящий контроль. Рассказываю: после того, как каждый объект распознается с помощью полученного решающего правила, мы считаем коэффициент корреляции между реальным номером группы каждого распознанного объекта и его функцией номера класса (полученной в результате распознавания). Полученный коэффициент корреляции и есть коэффициент эффективности распознавания. По нему судят о том, можно ли вообще строить на данной обучающей выборке алгоритм распознавания.
Проще всего на конкретных данных (хотя бы и данных Solo, если решится) провести параллельную работу по созданию решающего правила с нашей стороны и формулы, основанной на логистической регрессии или подходе Байеса - с Вашей.
Чем Вы рискуете, если ваши возражения не блеф?

1) Почему именно на 30 объектах. Будьте добры теоретическое обоснование.
2) Будьте добры - в общих чертах - теоретическое обоснование метода, а то из всех возражений этот кусок (особенно с достоверностями, он как раз базируется на знании классической статистики) был проигнорирован.
3) У Вас много публикаций, судя по сайту (не буду указывать на то, что там обилие тезисов) - приведите доказательства (проверку в рамках клинических испытаний) "алгоритмы работают на уровне диагностики выше, чем средний врач" и как эти доказательства были получены. Вы пишете, что "И таких задач решено уже много". Доказательства, пожалуйста (проверку на не связанной с первой выборкой - методологию и результаты). Зачем данные Solo, за логистическую регрессию - могу дать ссылку - работу конца 80х в "Кардиологии" по проверке такой функции сделанной Kannell на основе данных исследования во Фрамингеме (США). И знаете, работает, хотя функция получена в Америке 1960х, а проверена на российской популяции 1980х. Предсказывает. По поводу CART могу дать ссылки на работы (более 10 лет назад) по диагностике стенокардии с факторами риска в виде продуктов ПОЛ - относительно высокая точность (около 90%) классификации на совершенной иной популяции. А Вы можете такое же? Проверку на другой, не связанной с первой популяцией, другой группе больных.
4) Как Вы думаете, если я не представляю себе, как работает "скользящий контроль", почему я упоминаю leave-one-out?
5) Если Вы кому-то рекомендуете составлять диагностические алгоритмы на 30 пациентах, мне очень жаль пациентов, которые потом будут получать помощь от таких "разработчиков" и я сильно надеюсь, что в случае судебных исков за ненадлежащее врачевание в адрес "разработчиков" уйдет частное определение.
6) Вы не ошиблись насчет коэффициента корреляции как показателя точности распознавания? С квадратом коэффициента не перепутали? Или не понимаете о чем это я? И расскажите, как Вы считаете коэффициент корреляции между "реальным номером группы ... и его функцией номера класса". Какой коэффициент корреляции Вы считаете? Реальный номер группы он у Вас всегда ординальный? Или, не побоюсь этого слова, интервальный? Или? А если "реальный номер группы" 1 или 0 (т.е. болен - не болен), какой корреляционный коэффициент используете?
В целом сдается, что Вы думаете, что Ваши методы какое-то откровение, а не просто новояз окружающий комбинацию из хорошо известных регрессионных подхоов (пусть и нелинейной регрессии), кластерного и факторного анализов. Кстати, методы MCMC, на который Вы так часто ссылаетесь, как на новое слово, в классической статистике используются уже давно, да вообщем-то и методы с интенсивным использованием ЭВМ (bootstrap), тоже с повторными выборками, для оценки коэффициентов регрессии никто не отменял. Вообще-то на такой полемический задор смотреть смешно, ну, понятно, есть увлечения, но не стоит считать, что вокруг все лаптем щи хлебают, а тут "дао снизошло". Лучше посмотрите книги по Data Mining, не в Москве изданные, а там, где термин зародился, тут интересу ради просто повернулся и сборник под ред. Bozdogan'а посмотрел - штуки четыре статьи об использовании логистической регрессии в DM. А Вы о "нашей логистической регрессии".
Анна_К
Цитата(DoctorStat @ 8.12.2008 - 22:25) *
Анна, я Вас обожаю за Вашу смелость и ум))).
Спасибо, я Вас тоже уже почти люблю за смелость доверить нам свои данные. Сделаем все, что в наших силах.
Цитата(DoctorStat @ 8.12.2008 - 22:25) *
В качестве проверки Вашего алгоритма, предлагаю вычленить больные генотипы отдельных генов (всего 3 гена) для 2-х выборок ... Необходимо вычленить "плохие" сочетания аллелей по каждому из 3-х генов. Если объем выборки Вам кажется малым, я могу его увеличить...

Хорошо. Мы располагаем несколькими методами кластерного анализа. Можно посмотреть, какие варианты кластеров получатся. Выборку, конечно, лучше максимально увеличить. Оставить какую-то часть на контроль (не в смысле "здоровые", а в смысле контрольная группа с данными обеих выборок для оценки эффективности метода кластерного анализа).

DoctorStat
Цитата(Анна_К @ 9.12.2008 - 14:27) *
Спасибо, я Вас тоже уже почти люблю за смелость доверить нам свои данные.

Данные получены не мной, а одной московской клиникой. Все гены связаны к иммунной системой человека. Мне интересно сравнить, насколько Ваши результаты поиска больных генотипов будут отличаться от моих. Вопрос в том, чей алгоритм окажется лучше - мой (простой, как 5 копеек) или Ваш (продвинутый-дата-мининг)?
Цитата(Анна_К @ 9.12.2008 - 14:27) *
Выборку, конечно, лучше максимально увеличить.

Существенно увеличить объем выборки больных стенокардией я не могу. Могу только увеличить объем контрольной выборки, но она и так много больше выборки больных! Если Вы очень настаиваете на увеличении объема выборки, то я могу предоставить генотипические данные по другой болезни.
DrgLena
Если уж наблюдать битву гигантов, то давайте вспомним, о чем шла речь в посте Solo, необходимо получить прогноз вероятности положительного результата лечения на конкретных данных. Т.е. это не задача дискриминации в два класса - результат достигнут, - не достигнут. Хорошо, чтобы именно эта задача и решалась различными методами, а не другая задача. Т.о. можно будет увидеть альтернативу логистической регрессии. Поэтому, просьба к Solo, выложить данные, закодировав признаки, как угодно. Отклик - 0 ,1 и все остальные А,Б,С... Волонтеры займутся полезным делом.... Но Анна_К может ничего и не заработает, но привлечет внимание, т.е. получит бесплатную рекламу.
Анна_К
Цитата(DoctorStat @ 9.12.2008 - 16:28) *
Насколько Ваши результаты поиска больных генотипов будут отличаться от моих. Вопрос в том, чей алгоритм окажется лучше - мой (простой, как 5 копеек) или Ваш (продвинутый-дата-мининг)?

Предварительный счет методом оптимальных разбиений дал такой результат:
значимых для распознавания признаков только 2: C_A1 и C_A2.
Граница градации по C_A1 = 1,5, при этом ниже границы оказывается всего 2 наблюдения из контроля и 17 наблюдения - больных,
выше границы 52 наблюдения здоровых и 6 наблюдений больных.
Граница градации по C_A2 = 3,5 , соответственно ниже границы 2 здоровых/20 больных, выше границы 52 здоровых / 3 больных.
Таким образом, простейшее решающее правило: для больных характерны гены со значениями по C_A1<1,5 и по C_A2<3,5.
Коэффициент корреляции по распознаванию сделаю позже (программа в другом месте).
Цитата(DoctorStat @ 9.12.2008 - 16:28) *
Существенно увеличить объем выборки больных стенокардией я не могу. Могу только увеличить объем контрольной выборки, но она и так много больше выборки больных! Если Вы очень настаиваете на увеличении объема выборки, то я могу предоставить генотипические данные по другой болезни.

Присылайте, но только по данной задаче. Другая болезнь - это другая задача.
Я так и думала, что под контролем Вы будете считать только здоровую группу.
Я же писала в прошлом посте: контроль (для нас) - это объекты, не входившие ранее в обучающую выборку. smile.gif
Вот что значит привычка к определенному словарю.
Прикрепляю картины, которые делаются при работе метода оптимальных разбиений. Крестики - здоровые, нолики - стенокардия.
Наглядно видно преобладание одной группы ниже границы и другой группы - выше границы.
Анна_К
Цитата(DrgLena @ 9.12.2008 - 18:25) *
Если уж наблюдать битву гигантов, то давайте вспомним, о чем шла речь в посте Solo, необходимо получить прогноз вероятности положительного результата лечения на конкретных данных. ... Т.о. можно будет увидеть альтернативу логистической регрессии. Поэтому, просьба к Solo, выложить данные, закодировав признаки, как угодно. Отклик - 0 ,1 и все остальные А,Б,С... Волонтеры займутся полезным делом.... Но Анна_К может ничего и не заработает, но привлечет внимание, т.е. получит бесплатную рекламу.

Спасибо, DrgLena, за поддержку. Ничего не имею против такого пиара. wink.gif Очень хочется, чтобы врачебно-аспирантская аудитория знала все возможности анализа данных.
Только группы лучше нумеровать 1 и 2.
Наши методы дают как раз прогноз вероятности, т.к. на скользящем контроле мы получаем какой-то процент правильного распознавания. Например, 88%. Это означает, что с такой вероятностью данное решающее правило относит конкретного пациенту в 1 или 2 группу.
Solo! А Вам интересно, кто победит в споре: логистическая регрессия (как достойный представитель data mining, правда в сильно зрелом возрасте) или альтернативные методы интеллектуального анализа данных (горячие, как пирожки из печки)?
Анна_К
Извините, plav, Вам отвечаю позже всех. Слишком много надо было писать.
Начну отвечать с конца. Там наиболее фундаментальные и общие возражения.
Цитата(плав @ 8.12.2008 - 22:38) *
В целом сдается, что Вы думаете, что Ваши методы какое-то откровение, а не просто новояз окружающий комбинацию из хорошо известных регрессионных подходов (пусть и нелинейной регрессии), кластерного и факторного анализов. Кстати, методы MCMC, на который Вы так часто ссылаетесь, как на новое слово, в классической статистике используются уже давно, да вообщем-то и методы с интенсивным использованием ЭВМ (bootstrap), тоже с повторными выборками, для оценки коэффициентов регрессии никто не отменял. Вообще-то на такой полемический задор смотреть смешно, ну, понятно, есть увлечения, но не стоит считать, что вокруг все лаптем щи хлебают, а тут "дао снизошло". Лучше посмотрите книги по Data Mining, не в Москве изданные, а там, где термин зародился, тут интересу ради просто повернулся и сборник под ред. Bozdogan'а посмотрел - штуки четыре статьи об использовании логистической регрессии в DM. А Вы о "нашей логистической регрессии".

Это, действительно, НЕ "новояз окружающий комбинацию из хорошо известных регрессионных подхоов"...! Методы существуют не 20 лет, а около 40 - с 70-х гг. прошлого столетия. Начиналось все с прогноза полезных ископаемых по пробам грунта.
Жизнь не стоит на месте. И теоретические методы, которые были сочинены давно, но не могли применяться в связи колоссальной трудоемкостью, теперь спокойно программируются и работают. 10 лет назад мы ждали результата счета сутками, сейчас на пентиуме4 = всего минут 20-30. Хотя при большом числе объектов и признаков (несколько сотен) счет все-таки приходится оставлять на ночь. Никто не унижает Ваши, plav, глубокие познания в статистике, просто захотелось рассказать о том, что создается у меня на глазах (в ВЦ РАН). У нас в России есть странная привычка "молиться" на зарубежье, и не замечать, пренебрегать достижениями наших ученых-математиков. Работа идет, и это, пожалуй, одна из немногих областей, где не нужны электронные микроскопы и дорогостоящие реактивы, поэтому лаборатории остаются и функционируют в полную силу. Короче, кроме "логистической регрессии", существуют разные подходы
Цитата(плав @ 8.12.2008 - 22:38) *
6) Вы не ошиблись насчет коэффициента корреляции как показателя точности распознавания? С квадратом коэффициента не перепутали? Или не понимаете о чем это я? И расскажите, как Вы считаете коэффициент корреляции между "реальным номером группы ... и его функцией номера класса". Какой коэффициент корреляции Вы считаете? Реальный номер группы он у Вас всегда ординальный? Или, не побоюсь этого слова, интервальный? Или? А если "реальный номер группы" 1 или 0 (т.е. болен - не болен), какой корреляционный коэффициент используете?

Это простой привычный коэффициент корреляции. Не перепутала. Понимаю. Формулу можно посмотреть в наших ранних публикациях. Реальный номер группы всегда натуральный: 1, 2, 3... Если группа 0, меняем ее на 2. rolleyes.gif И работаем как всегда.
Поймите, что мы ищем коэффициент корреляции не между номерами исследуемых групп, а между истинным номером группы и результатом его прогноза (после работы алгоритма распознавания).
Цитата(плав @ 8.12.2008 - 22:38) *
5) Если Вы кому-то рекомендуете составлять диагностические алгоритмы на 30 пациентах, мне очень жаль пациентов, которые потом будут получать помощь от таких "разработчиков" и я сильно надеюсь, что в случае судебных исков за ненадлежащее врачевание в адрес "разработчиков" уйдет частное определение.

Никогда диагноз не ставится на основе какого-либо компьютерного решения. Диагноз ставит врач. Вся ответственность лежит на нем. Компьютерные методы только рекомендуют, и их точность равна вероятности, с которой работает данный метод.
Цитата(плав @ 8.12.2008 - 22:38) *
4) Как Вы думаете, если я не представляю себе, как работает "скользящий контроль", почему я упоминаю leave-one-out?

На этот вопрос мой коллега (автор алгоритма оптимальных разбиений) ответил так:
«Вы не знаете термин ?скользящий контроль? !? Это абсолютно базовое понятие в современном прогнозировании. Прочитайте любую статью. Это вовсе не jackknife.
Leave-one-out ? частный случай скользящего контроля.
Смысл данного понятия именно в проверке точности прогноза. Выборка последовательно делится на подвыборки; обучающую и контрольную. На одной происходит обучение, на другой контроль. Процесс повторяется многократно. Где же здесь подгонка? Максимизация точности в режиме скользящий контроль действительно иногда производится путём манипулирования параметрами модели. Но это абсолютная ПРОФАНАЦИЯ метода. Вероятно, вы именно это имели в виду, когда писали: «при помощи методов leave-one-out обычно проводится ПОСТРОЕНИЕ модели». Результатам скользящего контроля в этом случае нельзя доверять. Кстати, вы можете с таким же успехом добиваться максимизации точности на контрольной выборке (другом наборе данных), меняя параметры модели».

Цитата(плав @ 8.12.2008 - 22:38) *
3) Как эти доказательства были получены.
И знаете, работает, хотя функция получена в Америке 1960х, а проверена на российской популяции 1980х. Предсказывает.
А Вы можете такое же? Проверку на другой, не связанной с первой популяцией, другой группе больных.

Доказательства, например, по распознаванию типа инсульта. В приемном покое врач с точностью 60% проводит дифференциальный диагноз между ишемическим и геморрагическим типами инсульта. Наше распознающее правило дало 85-90%. Нейронные сети с отладкой по генетическому алгоритму дали 99%, о чем и была защищена докторская диссертация. Но мы считаем, что это как раз и была подгонка. И наши результаты дающие не столь высокий результат ? намного устойчивее, и не боятся поступления в выборку новых данных.
Все голословные утверждения ничего не стоят, пока не будет проведено честное сравнение результатов распознавания.
Цитата(плав @ 8.12.2008 - 22:38) *
2) Будьте добры - в общих чертах - теоретическое обоснование метода, а то из всех возражений этот кусок (особенно с достоверностями, он как раз базируется на знании классической статистики) был проигнорирован.

Senko O.V., Kuznetsova A.V. The Optimal Valid Partitioning Procedures, Электронный рецензируемый журнал «InterStat», http://ip.statjournals.net:2002/InterStat/...les/0604002.pdf, http://interstat.statjournals.net/
Может быть, это Вам поможет.
Цитата(плав @ 8.12.2008 - 22:38) *
1) Почему именно на 30 объектах. Будьте добры теоретическое обоснование.

Просто так нас учили на кафедре математики на медико-биологическом факультете РГМУ (Бывшего II МОЛГМИ им. Н.И.Пирогова), отделении медицинская кибернетика. И это оправдало себя на практике. Хотя с меньшим числом объектов и приходилось работать, но мы всегда знали, что это первоначальный алгоритм, требующий пополнения выборки.

DoctorStat
Цитата(Анна_К @ 9.12.2008 - 18:41) *
Предварительный счет методом оптимальных разбиений дал такой результат:
значимых для распознавания признаков только 2: C_A1 и C_A2.
Граница градации по C_A1 = 1,5, при этом ниже границы оказывается всего 2 наблюдения из контроля и 17 наблюдения - больных,
выше границы 52 наблюдения здоровых и 6 наблюдений больных.

Прошу простить за напоминание, что номера аллелей, как 1-го, так и 2-го для каждого из 3-х генов, это не количественные и не ординальные (упорядочиваемые) переменные, а качественные (номинальные) признаки, которые нельзя упорядочить. Значит, метод оптимальных разбиений для этих переменных не подходит. В методе оптимальных разбиений проводится граница в области изменения переменных, сравниваются значения этих переменных с числами, а это НЕВЕРНО для качественных признаков, таких как номер аллеля какого-либо гена.
DoctorStat
Цитата(DrgLena @ 9.12.2008 - 18:25) *
необходимо получить прогноз вероятности положительного результата лечения на конкретных данных. Т.е. это не задача дискриминации в два класса - результат достигнут, - не достигнут.

Задача исследователя - установить связь генотипа с изучаемой болезнью. Если мы знаем, что такая связь (предрасположенность) существует, то можем с определенной долей уверенности предположить, что к определенному возрасту, пациент с данным генотипом заболеет этим заболеванием. Таким образом, мы предсказываем, делаем прогноз заболеваемости для конкретного пациента. В этом смысле (вычисления рисков) наш метод аналогичен логистической регрессии. Разница в том, что в регрессии в качестве независимых признаков используется: лечение (есть/нет), а в алгоритме выделения генотипов используется: «плохой генотип» (есть/нет).
Анна_К
Цитата(DoctorStat @ 9.12.2008 - 19:55) *
Прошу простить за напоминание, что номера аллелей, как 1-го, так и 2-го для каждого из 3-х генов, это не количественные и не ординальные (упорядочиваемые) переменные, а качественные (номинальные) признаки, которые нельзя упорядочить. Значит, метод оптимальных разбиений для этих переменных не подходит. В методе оптимальных разбиений проводится граница в области изменения переменных, сравниваются значения этих переменных с числами, а это НЕВЕРНО для качественных признаков, таких как номер аллеля какого-либо гена.

Прошу прощения в свою очередь, но Вы нигде не упоминали о том, что характер признаков номинальный. Можете убедиться сами:
///////////
В качестве проверки Вашего алгоритма, предлагаю вычленить больные генотипы отдельных генов (всего 3 гена) для 2-х выборок больные+контроль всего 78 человек. С помощью алгоритма кластеризации и хи-квадрат я нашел генотипы, значимо чаще встречающиеся у больных. Можете ли Вы своими суперметодами типа дата-мининг обнаружить генотипы - признаки болезни ??! Файл Excel с данными по генотипам в группе контроля и больных стенокардией прикреплен к данному сообщению. Всего 3 гена: A, B, C. Для каждого гена 2 аллеля: A1, A2 и т.д. Необходимо вычленить "плохие" сочетания аллелей по каждому из 3-х генов.
//////////
Поэтому я и анализировала числа, как числа. Если же это номинальные признаки, то надо их преобразовывать в бинарные. И тогда они опять станут информативными. То есть, если признак имеет значение от 1 до 8 (или до 17), то надо формировать 8 признаков со значением 1, если значение равно определенному числу, и 0, если не равно ему. Красивых картинок в этом случае не получится. Но результат будет скорее всего не менее красивый.

Еще: объясните, пожалуйста, в файле представлены две группы: у здоровых 136 записей, у больных - 24.
Как можно понять, какие данные относятся к упомянутым вами 78 пациентам? Желательно пометить их хотя бы номерами.
Конечно, из чистого любопытства хотелось бы знать, что означают числа в признаках. Легкий генетический ликбез, если не трудно...
В общем, главное - корректно поставленная задача. Дубль 2.
DoctorStat
Цитата(Анна_К @ 9.12.2008 - 21:50) *
Еще: объясните, пожалуйста, в файле представлены две группы: у здоровых 136 записей, у больных - 24.
Как можно понять, какие данные относятся к упомянутым вами 78 пациентам?

Группа здоровых - 3 гена.
Ген А - 236 чел
Ген В - 236 чел
Ген С - 54 чел

Группа со стенокардией - 3 гена
Ген А - 24 чел
Ген В - 24 чел
Ген С - 23 чел

Можно считать, что для разных генов набраны разные пациенты, т.к. мы не анализируем взаимодействия генов. Реально в базе данных не все пациенты генотипированы по всем генам. Из-за этого возникло отличие в количестве пациентов для разных генов.
Цитата(Анна_К @ 9.12.2008 - 21:50) *
Конечно, из чистого любопытства хотелось бы знать, что означают числа в признаках. Легкий генетический ликбез, если не трудно...

Номер аллеля обозначает номер полиморфизма этого гена. Например, в гене А на месте 100-го нуклеотида может стоять A или С, на месте 150 может стоять А, С или G. Обозначим эти варианты номерами 1, 2, 3, 4, 5. Один ген мы получаем от отца, другой от матери. Следовательно, у нас 2 варианта одного гена. Эти 2 варианта называются аллелями. Т.к. аллели одного гена человек получает от разных родителей, то и полиморфизмы у аллелей могут отличаться. Генотипом по какому-то гену называется сочетание 2-х аллелей данного гена. Например, если у Вас для гена А аллели 3 и 5, то Ваш генотип по гену А обозначается 1,5.
плав
Цитата(Анна_К @ 9.12.2008 - 19:35) *
Может быть, это Вам поможет.
Просто так нас учили на кафедре математики на медико-биологическом факультете РГМУ (Бывшего II МОЛГМИ им. Н.И.Пирогова), отделении медицинская кибернетика. И это оправдало себя на практике. Хотя с меньшим числом объектов и приходилось работать, но мы всегда знали, что это первоначальный алгоритм, требующий пополнения выборки.


Ну вообщем-то все понятно.
1) Про 30 я не случайно спросил - общее место, после этого числа объектов стабилизируется выборочная дисперсия (точнее после 25-30 объектов), соответственно, речь идет об обычной статистике, так что отсутствие обоснованного ответа на этот вопрос уже о многом говорит. Так что "оправдало на практике" это веселое объяснение.

2) Насчет коэффициента корреляции я тоже спросил не случайно. Вообще-то его квадрат показывает процент дисперсии, который объясняет данная модель. С точки зрения предсказания коэффициент корреляции раный +1 и -1 одинаково хороши, просто во втором случае перепутали группы. Но Вы на этот подвох тоже не обратили внимания - и это говорит о многом.

2) Насчет того, что Ваши методы лучше среднего врача, я вообще не понял. Итак нейронные сети дали 99% точности и Вы считаете это подгонкой. Ваши методы дали 85-90% и это прекрасно. Чего-то я логику не понял. Или методика была одна и тогда Ваши методы проигралиили же проверка опять была не проспективная, но а тогда и 99% и 85% подозрительны. Вы то ли не хотите, то ли не можете понять основного: (а) проверка метода на той же популяции, на которой строится модель порочна. Модель постоянно строится на одних и тех же данных, соответственно ее параметры будут одинаковыми. Таким методом можно уменьшит влияние вылетающих наблюдений. но не более. (б) невозможно построить модель, которая будет использовать данные, отсутствующие в обучающей выборке. Если Вы берете 30 человек, то вероятность того, что в эту выборку попадет человек с фактором риска, имеющимся у 3% популяции всего около 60%. А 3% довольно высокая частота для многих прогностических факторов. А для обучения нужен не один объект... Иными словами, при таком подходе система не может учитывать редкие события - а частые события мозг человека будет учитывать значительно лучше.
Более того, обычная статистика позволяет делать выводы потому, что она базируется в своих выводах на прочном теоретическом фундаменте. Именно он позволяет применять методы на относительно небольших выборках (при этом возражения относительно гетерогенности популяции и пропуска факторов остаются. поэтому я вообще против создания решающих алгоритмов на малых выборках). Все методы data mining по своей природе не делают предположения о характере распределения, поэтому они требуют большего количества информации для тех же выводов, к которым классическая статистика приходит с меньшим объемом данных. Чудес на свете не бывает. Если вы делаете предположение о том, например, что ваша заивисмость - линейная, вам достаточно двух точек, чтобы провести линию. Если же Вы говорите, что это кривая любой формы, то Вам никакого количества точек не хватит. Нельзя одновременно уменьшить объем входящей информации и получить больше информации на выходе.

3) Новое название не значит новый метод. Вы так и не пояснили обоснование Вашего метода "оптимального разделения", чем он отличается от всех остальных методов "неоптимального" разделения. Дело в том, что большинство т.н. новых методов не являются новыми, а являются модификацией старых, расширением их возможностей - например, кластерный анализ это дисперсионный анализ "наоборот", CART - модицикация регрессии, нейронные сети - множественная нелинейная регрессия и т.п.

Чо же касается Вашего праведного гнева по поводу забывания отечественных ученых, то замечу, что (а) на произведения отечественных "ученых" в области машинного обучения в медицине насмотрелись в 80х годах. В результате нормальной биостатистики нет, зато полно шаманства с попытками предсказать непредсказуемое. Результат союза людей не понимающих медицину с теми, кто не понимает статистику...; (б) многие из тех отечественных ученых, кто занимался машинным обучением (вне медицины) уже работают в тех университетах, работы которых я смотрю, а теперь давайте угадаем с трех раз, кого приглашают с более высокой вероятностью в MIT - того, кто известен своими публикациями и кого цитируют или автора, работы которого кроме пожимания плеч ничего не вызывают? Наука штука интернациональная. Те, кто делает действительно новое быстро обнаруживаются (специалистов по машинному обучению из бСССР в Силиконовой долине много) и эти методы становятся принятыми. Отсутствие признания каких-то методов свидетельствует об их дефектах - почему-то по методам data mining в медицине было много публикаций в конце 80х-90х (когда много компьютеров стало), а затем все сошло на нет. Почему бы это? А вот логистическая регрессия живет...

В целом, повторюсь, мне все понятно, тему закрывать не буду, но далее дискутировать и ходить по кругу смысла нет. Да, и проверьте Ваши ссылки, а то статья не находится и на фамилию автора сайт отвечает Match Not Found
плав
Цитата(DoctorStat @ 9.12.2008 - 20:19) *
Задача исследователя - установить связь генотипа с изучаемой болезнью. Если мы знаем, что такая связь (предрасположенность) существует, то можем с определенной долей уверенности предположить, что к определенному возрасту, пациент с данным генотипом заболеет этим заболеванием.


А вот и нет. Представьте себе следующую ситуацию. Ген убивает носителя при развитии заболевания (например, ИБС). Тогда в популяции здоровых он встречается с частотой р, а в популяции больных ИБС отсутствует. Обычный вывод в этом случае - ген протективный. Ан нет. Он летальный. Аналогичным образом, если частота гена в популяции р, а среди больных р1>р, то вполне может быть
А) Ген является фактором риска (люди с ним заболели)
Б) Ген является протективным (люди без него с заболеванием умерли)
В) Ген сцеплен в данной группе с другим геном (см. А или Б), а сам не имеет никакого отношения к заболеванию. В другой популяции, где это сцпеление отсутствует, это можно будет увидеть.

Отсюда вывод - никакая статистическая связь не может дать причинно-следственную связь. С проблемой вариантов А/Б можно справиться используя длительное наблюдение за здоровыми людьми (проспективные когортные исследования), с проблемой В - используя многоцентровые исследования (опять-таки проспективные когортные). И то останутся сомнения. А если просто смотреть генотип больных и здоровых, то возможны все три варианта...
DrgLena
Да, действительно, DoktorStat, на основании представленных данных не может делать прогноз, в отношении развития стенокардии, но он доказал, что у больных стенокардией имеется к моменту развития заболевания определенные особенности сочетания аллелей гена С, отличающие их от здоровых людей того же возраста. Так, наибольшая информативность относительно стенокардии обладает ген С, его генотип 1, 2, имеют только больные стенокардией, далее по убыванию 1, 1 тоже встречается только у больных стенокардией, 1,3 - у 3-х со стенокардией, но у одного - без стенокардии. 4, 10 не характерно для этих больных, но у одного больного все же встречается. По другим сочетаниям мало данных вообще, например, сочетание 2,3 встречается в двух случаях, у одного есть стенокардия, у другого нет. Если фактором риска считать генотип 1,1;1,2 и 1,3 то от встречается в 73,9% больных (и у 6 здоровых), другие сочетания генотипа по этому гену встречается в 98,15% здоровых (и у одного больного). Другие гены малоинформативны по сравнению с геном С и сделаны у других больных, поэтому сочетание самих генов и их аллелей проанализировать нельзя. Я в генетике слаба. Возможно, генотип С при рождении определен и не меняется, тогда можно прогнозировать развитие стенокардии к этому возрасту.
плав
Цитата(DrgLena @ 10.12.2008 - 00:36) *
Да, действительно, DoktorStat, на основании представленных данных не может делать прогноз, в отношении развития стенокардии, но он доказал, что у больных стенокардией имеется к моменту развития заболевания определенные особенности сочетания аллелей гена С, отличающие их от здоровых людей того же возраста. Так, наибольшая информативность относительно стенокардии обладает ген С, его генотип 1, 2, имеют только больные стенокардией, далее по убыванию 1, 1 тоже встречается только у больных стенокардией, 1,3 - у 3-х со стенокардией, но у одного - без стенокардии. 4, 10 не характерно для этих больных, но у одного больного все же встречается. По другим сочетаниям мало данных вообще, например, сочетание 2,3 встречается в двух случаях, у одного есть стенокардия, у другого нет. Если фактором риска считать генотип 1,1;1,2 и 1,3 то от встречается в 73,9% больных (и у 6 здоровых), другие сочетания генотипа по этому гену встречается в 98,15% здоровых (и у одного больного). Другие гены малоинформативны по сравнению с геном С и сделаны у других больных, поэтому сочетание самих генов и их аллелей проанализировать нельзя. Я в генетике слаба. Возможно, генотип С при рождении определен и не меняется, тогда можно прогнозировать развитие стенокардии к этому возрасту.

Да вот в том-то и дело, что нет! Генотип С определен при рождении - тут сомнений нет. Но особенность исследования заключается в том, что сказать, что он ВЫЗЫВАЕТ стенокардию, а не ЗАЩИЩАЕТ от смерти при ней - нельзя. Прогнозировать на этих данных ничего нельзя. Можно только сказать, что генотип С КАК-ТО СВЯЗАН со стенокардией. А вот как - это вопрос, который является ключевым и на него ответить по этим данным нельзя. Подумайте, есть разница между утверждением "без этого генотипа у Вас стенкоардии не будет" и "при отсутствии этого генотипа у Вас стенкардии не будет - Вы умрете от первого же приступа" - они оба следуют из представленных данных.
DrgLena
Да, логика железная!
У умерших от первого приступа генотип С пока не известен, в этом исследовании во всяком случае, таких данных нет. Но у здоровых людей более молодого возраста с неблагоприятным генотипом более высокий шанс ее развития, поэтому они могут составлять группу риска и профилактика может им помочь.
DoctorStat
Цитата(DrgLena @ 10.12.2008 - 13:05) *
У умерших от первого приступа генотип пока не известен

Делаем выборку из умерших от 1-ого приступа людей. Генотипируем их по исследуемому гену. Выясням, что частота определенного генотипа в этой выборке значимо больше, чем в популяции. Делаем вывод, что данный генотип вызывает смерть пациента при первом приступе болезни.
плав
А вот это сделать сложно. Люди просто умерли (внезапная смерть) и сделать выборку их уже удет сложно. Проще набрать группу здоровых людей, прогенотипировать их, а затем наблюдать за ними несколько лет и посмотреть, какой генотип связан. Когортное исследование, другие факторы риска ИБС именно так изучали
DrgLena
Это план исследования или уже есть результаты? Чаще ли у них те же генотипы по гену С?
DoctorStat
Цитата(DrgLena @ 10.12.2008 - 14:36) *
Это план исследования или уже есть результаты? Чаще ли у них те же генотипы по гену С?

был задан вопрос, как найти гены внезапной смерти. Я предложил свой вариант поиска. Плав предложил другой вариант. Результатов генотипирования по внезапной смерти нет.
Анна_К
Цитата(DrgLena @ 10.12.2008 - 00:36) *
Так, наибольшая информативность относительно стенокардии обладает ген С, его генотип 1, 2, имеют только больные стенокардией, далее по убыванию 1, 1 тоже встречается только у больных стенокардией, 1,3 - у 3-х со стенокардией, но у одного - без стенокардии. ... Другие гены малоинформативны по сравнению с геном С и сделаны у других больных, поэтому сочетание самих генов и их аллелей проанализировать нельзя. Я в генетике слаба. Возможно, генотип С при рождении определен и не меняется, тогда можно прогнозировать развитие стенокардии к этому возрасту.

Но эти результаты совпадают с теми, которые я выявила нашими методами. Просто в данном случае для гена С значимые генотипы оказались близки по числовым значениям, поэтому и получилось так хорошо распознать, поставив границы 1.5 и 3.5 по аллелям А1 и А2 соответственно. Почему же вы не сказали, что результаты счета у меня и DoctorStat полностью совпали?
А для других генов еще надо доказать их неинформативность. Вдруг там значимые аллели имеют разбросанные значения и не поддаются такому простому разделению. Перевод этих данных в бинарный вид позволит доказать наличие или отсутствие их информативности.
Кстати, очень жаль, что не проверяется связь между генами (между собой) и патологией. Никто же не доказал, что этой связи нет. И если сбор информации проводили у всех пациентов, наши методы позволили бы дать ответ о наличии или отсутствии этой связи.
Анна_К
Цитата(плав @ 9.12.2008 - 22:44) *
Ну вообщем-то все понятно.
1) Про 30 я не случайно спросил - общее место, после этого числа объектов стабилизируется выборочная дисперсия (точнее после 25-30 объектов), соответственно, речь идет об обычной статистике, так что отсутствие обоснованного ответа на этот вопрос уже о многом говорит. Так что "оправдало на практике" это веселое объяснение.

Я рада, что мы приближаемся к взаимопониманию. Если это, конечно, не иллюзия понимания. На самом деле, речь не идет об обычной статистике. Статистика отличается от DataMining'а как алгебра отличается от геометрии (стереометрии, гиперметрии). Вы используете формулы, средние, дисперсии, отклонения от среднего, оценки, ошибки? В ДМ (при использовании всех статистических достижений) строятся описания гипер-облаков, характеризующих группы объектов. Это описание может быть гиперкубом, гипер-эллипсоидом, сложной гипер-поверхностью. И точность распознавания зависит от того, насколько хорошо учтены все информативные признаки (измерения) и удалены все лишние неинформативные признаки (шум). И только практика свидетельствует об эффективности построенной модели. Сами помните из марксистской философии: «Практика - критерий истины», поэтому и нечего грустить.
Цитата(плав @ 9.12.2008 - 22:44) *
2) Насчет коэффициента корреляции я тоже спросил не случайно. Вообще-то его квадрат показывает процент дисперсии, который объясняет данная модель. С точки зрения предсказания коэффициент корреляции раный +1 и -1 одинаково хороши, просто во втором случае перепутали группы. Но Вы на этот подвох тоже не обратили внимания - и это говорит о многом.

В нашем подходе такой перевертыш исключается. Точность распознавания близка к нулю, если распознавание невозможно (все перемешано), или точность распознавания стремится к 1 (100% распознавание), если информативные признаки существуют. Еще лучше просто посчитать, сколько объектов при распознавании на скользящем контроле попало в свою родную группу, сколько попало в зону отказа (которая вычисляется в зависимости от числа объектов в группах), и сколько являются ошибками. При этом зону отказов можно учитывать или не учитывать. В ней мы просто не можем ничего сказать о принадлежности объекта к определенной группе.

Цитата(плав @ 9.12.2008 - 22:44) *
2) Насчет того, что Ваши методы лучше среднего врача, я вообще не понял. Итак нейронные сети дали 99% точности и Вы считаете это подгонкой. Ваши методы дали 85-90% и это прекрасно. Чего-то я логику не понял. Или методика была одна и тогда Ваши методы проиграли или же проверка опять была не проспективная, но а тогда и 99% и 85% подозрительны.

Речь о том же, что я писала выше: нейронные сети, построенные на данных, предварительно обработанных генетическими алгоритмами, это модель, точно описывающая именно те данные, которые пошли на обучение. Любое добавление объектов полностью перестраивает решающее правило, которое содержит очень большое число отобранных признаков. То есть этот подход неустойчив вследствие того, что число предполагаемых прогностических переменных очень велико. Цитата: «Поиск оптимального набора признаков путем максимизации функционала, характеризующего качество распознавания, неизбежно ведет к эффекту "overfitting" - сверхобучение, когда оценка точности распознавания на тех данных, которые использовались для обучения значительно завышается. Правильная оценка точности должна производится на абсолютно новых данных, которые ранее никак не использовались. Объем контрольной выборки должен быть достаточно большим для того, чтобы оценка точности распознавания была близка к настоящей точности». В данном случае скользящий контроль если и проводился, то при удалении объекта решающее правило не строили заново. Объект просто распознавали (при этом до того он участвовал в обучении алгоритма). В нашем случае при удалении объекта, заново строится решающее правило. То есть проверяемый объект не участвует в обучении. Кроме того, каждый признак, отобранный для решающего правила как информативный, проверяли методом Монте-Карло на значимость. В нейронных сетях этого естественно не делалали. У них получился набор из 30 признаков. В нашем случае информативными оказались только 11. Но каждый из них работал на распознавание. Такие методы, при работе в приемном покое будут хорошим подспорьем врачу. Тем более, что для них не нужны мощные машины с дорогущими лицензионными зарубежными пакетами. Нужно только ввести показатели 11 симптомов, получить результат распознавания и дальше делать вывод, соглашаться с ним или нет.

Цитата(плав @ 9.12.2008 - 22:44) *
Вы то ли не хотите, то ли не можете понять основного: (а) проверка метода на той же популяции, на которой строится модель порочна. Модель постоянно строится на одних и тех же данных, соответственно ее параметры будут одинаковыми.
... Иными словами, при таком подходе система не может учитывать редкие события - а частые события мозг человека будет учитывать значительно лучше. Нельзя одновременно уменьшить объем входящей информации и получить больше информации на выходе.

В медицине редко можно собрать слишком большие массивы данных. Их всегда - ограниченное число. И наши методы позволяют выявлять закономерности, которые не всегда видны невооруженным глазом. И при любой модели будут такие пациенты, которые не вписываются о «свою» группу. Любой хирург вам расскажет, что иногда выживают самые безнадежные больные, а благополучные (вроде бы) вдруг не выдерживают операции. Тоннельный эффект в медицине случается также часто как и в микромире, когда электрон оказывается там, где ему теоретически быть не положено.
А насчет уменьшения информации Вы абсолютны неправы! Как раз уменьшение шума дает возможность найти только информативные показатели, помогающие распознаванию.
Анна_К
Цитата(плав @ 9.12.2008 - 22:44) *
3) Новое название не значит новый метод. Вы так и не пояснили обоснование Вашего метода "оптимального разделения", чем он отличается от всех остальных методов "неоптимального" разделения. Дело в том, что большинство т.н. новых методов не являются новыми, а являются модификацией старых, расширением их возможностей - например, кластерный анализ это дисперсионный анализ "наоборот", CART - модицикация регрессии, нейронные сети - множественная нелинейная регрессия и т.п.

Почитайте статьи, здесь нет смысла их воспроизводить. Естественно, что ничто на пустом месте не возникает. Все имеет своих идеологических предков. Но и растет из них, скрещивается, преобразуется, использует новые возможности техники?
Цитата(плав @ 9.12.2008 - 22:44) *
Отсутствие признания каких-то методов свидетельствует об их дефектах - почему-то по методам data mining в медицине было много публикаций в конце 80х-90х (когда много компьютеров стало), а затем все сошло на нет. Почему бы это? А вот логистическая регрессия живет...

Конкуренция, она и в Америке конкуренция. Вот например совсем недавняя история, как статья в зарубежный журнал не была принята, поскольку редакция затребовала работающий листинг программы (!!!!). При таком подходе вряд ли публикации вообще возможны.
Цитата(плав @ 9.12.2008 - 22:44) *
В целом, повторюсь, мне все понятно, тему закрывать не буду, но далее дискутировать и ходить по кругу смысла нет. Да, и проверьте Ваши ссылки, а то статья не находится и на фамилию автора сайт отвечает Match Not Found

Да, вот поправленная ссылка.
http://interstat.statjournals.net/YEAR/200...les/0604002.pdf - The Optimal Valid Partitioning Procedures. Senko Oleg V., Kuznetsova A.V.
Добавлю к той ссылке еще несколько:
http://www.springerlink.com/content/175687p6p487r033/ - The use of pattern recognition methods in tasks of biomedical diagnostics and forecasting. Yu.I. Zhuravlev, A.V. Kuznetsova, V.V. Ryazanov, O.V. Senkо, M.A. Botvin
http://azfor.ucoz.ru/_ld/0/5_2Vrach38-46.pdf - Возможности использования методов Data Mining при медико-лабораторных исследованиях. Журнал "Врач и Информационные Технологии"
http://azfor.ucoz.ru/load/4-1-0-6 - Прогноз динамики депрессивных синдромов, Журнал «Социальная и клиническая психиатрия». 2003, №4, с.18-24.
Буду благодарна за конструктивные критические замечания. Нам очень нужна обратная связь специалистов и позитивный диалог.
И не надо слишком цепляться к мелочам, я же не пеняю Вам на два пункта под номером 2. smile.gif
DoctorStat
Цитата(Анна_К @ 10.12.2008 - 15:09) *
Но эти результаты совпадают с теми, которые я выявила нашими методами. Просто в данном случае для гена С значимые генотипы оказались близки по числовым значениям, поэтому и получилось так хорошо распознать, поставив границы 1.5 и 3.5 по аллелям А1 и А2 соответственно. Почему же вы не сказали, что результаты счета у меня и DoctorStat полностью совпали?

На уровне значимости р=0,05 мне НЕ УДАЛОСЬ выделить генотипы гена С, достоверно отличающиеся в группе больных стенокардией и группе контроля.
Цитата(Анна_К @ 10.12.2008 - 15:09) *
Кстати, очень жаль, что не проверяется связь между генами (между собой) и патологией. Никто же не доказал, что этой связи нет. И если сбор информации проводили у всех пациентов, наши методы позволили бы дать ответ о наличии или отсутствии этой связи.

Установление связи между генами - более трудная задача, чем выделение генотипов. Я могу предоставить генотипические данные по пациентам. Т.е. для каждого пациента известны генотипы по всем генам. Только объем выборки больных в 26 человек слишком мал для изучения связи генов.
DrgLena
DoctorStat,
Да, я упустила пару ответов. Одновременно в форуме быть и свою задачку делать сложно. Но дискуссия интересная, такие исследования - основа медицины будущего. Генотип человека почти известен, длительные наблюдения и статистический анализ его сопряженности с болезнями - даст ответ на многие вопросы, это выход на профилактику. Проект IBM, госпиталь Майя, коргда то была такая информация, сейчас о проекте ничего не слышно.
Вопрос к DoctorStat, получила ли я тот же результат по вашим данным, выложите свой вариант. Я не использовала кластерный анализ.

Анна_К, мое решение построено не на количественных данных, а на частотном анализе, оно не может с вашим совпасть даже случайно. Т.е. вы предложите решение своими методами, уже зная, что аллели - не числа. И чтобы незначимость генов тоже была доказана. А что такое 1.5 или 3.5 что это за границы мне не ясно.
DoctorStat
Цитата(DrgLena @ 10.12.2008 - 15:25) *
Вопрос к DoctorStat, получила ли я тот же результат по вашим данным, выложите свой вариант. Я не использовала кластерный анализ.

Нет, наши результаты НЕ СОВПАЛИ. Ген С не влияет на болезнь. Влияют только гены А и В. Полное решение проблемы смотрите на моем сайте http://doctorstat.narod.ru/doc/gen_d.html#p2 в разделе "Генетический анализ предрасположенности к заболеваниям - Выявление генотипов для одного гена".
Анна_К
Цитата(DrgLena @ 10.12.2008 - 15:25) *
Анна_К, мое решение построено не на количественных данных, а на частотном анализе, оно не может с вашим совпасть даже случайно. Т.е. вы предложите решение своими методами, уже зная, что аллели - не числа. И чтобы незначимость генов тоже была доказана. А что такое 1.5 или 3.5 что это за границы мне не ясно.

Ответ из разряда "это не может быть, потому что не может быть никогда". Тем не менее, если подумать: назывные (номинальные) признаки, характеризующие патологию, случайно по числам близки (1, 2, 3), остальные признаки (контрольная группа) выше границы 3,5. Что и отражено на рисунках. См. мой пост от Вчера, 18:41, Сообщение #17. Не забудьте заглянуть на красивые картинки. Когда я прочитала Ваш пост с результатами (кстати, куда он делся?), я была уверена, что Вы обсуждаете результаты, полученные мной.
Вопрос, почему наши (совпавшие) результаты не совпали с результатами DoctorStat?
Конечно, хотелось бы иметь данные по каждому пациенту - отдельной записью. Пусть и 26 - это ничего. И такую же контрольную группу (можно побольше объектов). Дело в том, что наши методы выявляют как раз сочетания информативных признаков. Следовательно для группы со стенокардией мы получим набор значимых аллелей и их генов.
Пронумеруйте, пожалуйста пациентов, чтобы можно было их обсуждать прицельно. После скользящего контроля.
DrgLena
Дождаться "полного ответа" мне не удалось, что то не грузится. Но возражения об отсутствии сопряженности (не влияния) генотипа СА1 и СА2 со стенокардией готовы. По этому гену генотипы 1.1;1.2; и 1.3 имеют 17 из 23 больных (73.9%) и 1 из 54 здоровых (1.85%). Простая таблица сопряженности дает р=0.00000. gr=1 больные, 0 - здоровые. Представлены все встречающиеся в базе данных варианты сочетания C_A1 и C_A2. В первой колонке номер по порядку в ранжированном ряду, в конце самые зловредные сочетания. В последней колонке - принадлежность к группе.
C_A1 C_A2 gr
1 4 10 0
2 4 10 0
3 4 10 0
4 4 10 0
5 4 10 0
6 4 10 0
7 4 10 0
8 4 10 0
9 4 10 0
10 4 10 0
11 4 10 0
12 4 10 0
13 4 10 0
14 4 10 0
15 4 10 0
16 4 10 0
17 4 10 0
18 4 10 1
19 2 10 0
20 2 10 0
21 2 10 0
22 2 10 0
23 2 10 0
24 2 10 0
25 2 10 0
26 2 10 0
27 2 10 0
28 2 10 0
29 2 10 0
30 3 10 0
31 3 10 0
32 3 10 0
33 3 10 0
34 3 10 0
35 5 10 0
36 6 10 0
37 6 10 0
38 7 10 0
39 7 10 0
40 4 6 0
41 4 5 0
42 2 4 0
43 2 7 0
44 2 4 0
45 2 4 0
46 2 4 0
47 2 4 0
48 2 4 0
49 2 4 0
50 2 4 0
51 2 4 0
52 2 4 0
53 2 3 1
54 2 3 0
55 3 7 1
56 6 7 1
57 2 2 1
58 2 2 1
59 1 7 0
60 1 3 0
61 1 3 1
62 1 3 1
63 1 3 1
64 1 1 1
65 1 1 1
66 1 1 1
67 1 1 1
68 1 1 1
69 1 1 1
70 1 1 1
71 1 2 1
72 1 2 1
73 1 2 1
74 1 2 1
75 1 2 1
76 1 2 1
77 1 2 1
DoctorStat
Цитата(DrgLena @ 10.12.2008 - 16:05) *
Но возражения об отсутствии сопряженности (не влияния) генотипа СА1 и СА2 со стенокардией готовы. По этому гену генотипы 1.1;1.2; и 1.3 имеют 17 из 23 больных (73.9%) и 1 из 54 здоровых (1.85%). Простая таблица сопряженности дает р=0.00000. gr=1 больные, 0 - здоровые.


Я вам дал НЕ ТЕ данные, см.рисунки: на них разные данные. На левом рисунке - данные с моего сайта. Различий в частотах генотипов С не видно. На правом рисунке данные, которые я дал на этом форуме. Различие частот генотипов на правом рисунке бросается в глаза. Сейчас буду разбираться, откуда взялись НЕПРАВИЛЬНЫЕ данные ???
DrgLena
Вы дали пример, его и решайте. Бог с ним с сайтом про подробности, он еще грузится. Там такие подробности, что вы не только гены у разных людей делали, но и аллели для конкретного гена анализируете без связи со второй т.е. отдельно CA1 в группе больных и здоровых и отдельно CA2. А важно только их сочетание. Или вы опять нам про генетику плохо рассказали.
DoctorStat
Цитата(DrgLena @ 10.12.2008 - 16:46) *
Вы дали пример, его и решайте. Бог с ним с сайтом про подробности, он еще грузится. Там такие подробности, что вы не только гены у разных людей делали, но и аллели для конкретного гена анализируете без связи со второй т.е. отдельно CA1 в группе больных и здоровых и отдельно CA2. А важно только их сочетание. Или вы опять нам про генетику плохо рассказали.

В приложенном файле Stenocardia2.rar ПРАВИЛЬНЫЕ данные по генотипам.

На моем сайте, кроме анализа генотипов, выполнялся поиск "плохих" аллелей. Т.е. искали не генотипы или сочетания аллелей (А1, А2), а оба аллеля объединялись в один (А1+А2) и вычленялись полиморфизмы гена, встречающиеся с различной частотой у здоровых и больных.
DoctorStat
Цитата(Анна_К @ 10.12.2008 - 15:55) *
Конечно, хотелось бы иметь данные по каждому пациенту - отдельной записью. Пусть и 26 - это ничего. И такую же контрольную группу (можно побольше объектов). Дело в том, что наши методы выявляют как раз сочетания информативных признаков. Следовательно для группы со стенокардией мы получим набор значимых аллелей и их генов.
Пронумеруйте, пожалуйста пациентов, чтобы можно было их обсуждать прицельно. После скользящего контроля.

Анна, специально для Вас сделал файл Excel по каждому пациенту отдельной строкой (см.приложенный файл Stenocardia3.rar). Извините, что ввел Вас в заблуждение неправильными данными. Но, как говорится, и на DoctorStat-а бывает проруха. Больных получилось всего 15 человек, здоровых 54 чел.
Анна_К
Цитата(DoctorStat @ 10.12.2008 - 17:03) *
Анна, специально для Вас сделал файл Excel по каждому пациенту отдельной строкой (см.приложенный файл Stenocardia3.rar). Извините, что ввел Вас в заблуждение неправильными данными. Но, как говорится, и на DoctorStat-а бывает проруха. Больных получилось всего 15 человек, здоровых 54 чел.

А где же обещанные 26 пациентов? Вы "специально для меня" отобрали только нераспознаваемые объекты?
Может все-таки найдутся все имеющиеся в наличии данные?
DoctorStat
Цитата(Анна_К @ 10.12.2008 - 20:23) *
А где же обещанные 26 пациентов? Вы "специально для меня" отобрали только нераспознаваемые объекты?
Может все-таки найдутся все имеющиеся в наличии данные?

Анна, Вы просили генотипические данные по 3-м генам для КАЖДОГО пациента. В моей базе данных таких пациентов в группе больных только 15 человек. В файле Stenocardia2.rar пациентов в группе стенокардия больше (гены А.В -24 чел., ген С - 15 чел.), но не все из них генотипированы по всем 3-м генам. Других данных у меня нет. Как говорится, чем богаты, тем и рады.
DrgLena
Предлагаю "правильными" данными считать первый набор данных, они уже пронумерованны в моем предыдущем посте, и ответ по ним я дала. Теперь это же могут сделать DoctorStat и Анна_К. Меня другой набор данных уже не вдохновляет, тем более, что так и нет уверенности, что данные о всех генах получены у одних и тех же пациентов.
DoctorStat
Цитата(DrgLena @ 10.12.2008 - 21:24) *
Предлагаю "правильными" данными считать первый набор данных

Я не возражаю. Задача участников "соревнования" за звание "лучшего дата минера" - дать исчерпывающие ответы по генотипическим данным. Какие генотипы скорее всего повинны в развитии стенокардии? Можно ли среди этих "кандидатных" генотипов выделить однородные группы? С чем эти группы могут быть связаны? Насколько увеличивается шанс заболеть стенокардией обладателя "плохих" генотипов по сравнению с обладателем "хороших" генотипов? Есть ли взаимодествие между генами? Какую часть больных стенокардией можно объяснить "плохими генами"?
DrgLena
Доктор DoctorStar, вы главный участник битвы гигантов, если ответите на все свои вопросы, получите Нобелевскую премию.
Анна_К
Цитата(DoctorStat @ 10.12.2008 - 20:32) *
Анна, Вы просили генотипические данные по 3-м генам для КАЖДОГО пациента. В моей базе данных таких пациентов в группе больных только 15 человек. В файле Stenocardia2.rar пациентов в группе стенокардия больше (гены А.В -24 чел., ген С - 15 чел.), но не все из них генотипированы по всем 3-м генам. Других данных у меня нет. Как говорится, чем богаты, тем и рады.

Да, с данными какая-то неразбериха.
Вот я совместила все три таблицы Stenocardia1-2-3:
ни одной нет одинаковой пары таблиц.
все три файла отличаются то по здоровым, то по больным, то по двум последним столбцам.
Меня вполне устраивает предложение DrLena - сравнивать по первому файлу. Если, конечно, выяснили, откуда он взялся...
Его перекодировку в бинарные мы уже сделали и получены предварительные результаты.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.