Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Как создать формулу для расчета прогноза?
Solo...
сообщение 15.10.2008 - 21:08
Сообщение #1





Группа: Пользователи
Сообщений: 35
Регистрация: 3.10.2008
Из: Москва
Пользователь №: 5369



Всем здравствуйте. Прошу опять помощи.
Стоит такая задача. Как создать формулу, с помощью которой можно вычислить вероятность положительного исхода лечения у конкретного больного. Т.е. формулу, в которую можно подставлять данные (признаки, разные показатели и пр.) конкретного обратившегося за помощью больного, далее получать с помощью этой формулы какую то цифру - % (70%, или 60, или 95 ... и т.д.). Эта цифра и будет отражать вероятность положительного исхода лечения этого больного.

Имеются результаты лечения около 100 больных, известны все их показатели, влияющие на результат лечения. Этих показателей - около 5-6. Все они должны входить в формулу.

Я слышала, что этой формулой является дискриминантное уравнение. Но как его построить? В Экселе или в Статистике?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
плав
сообщение 7.12.2008 - 20:22
Сообщение #2





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Ну, во-первых создать на 100 больных формулу, которая бы реально работала вряд ли возможно. Про Data Mining можно спокойно забыть, поскольку и регрессионные деревья и нейронные сети (т.е. многофакторная нелинейная регрессия) требуют обучающей и модельной выборок, а у Вас будет по 50 человек в каждой, уже и простейшую модель не построить. Data Mining должен использоваться там, где он и зародился - в анализе бизнес-процессов на основании тысяч наблюдений.
Если Вы хотите строить предиктивную формулу все равно надо делить группы на подвыборки (т.е. по 50), поскольку иначе не проверить качества предсказания.
Все модели Вам смогут дать только формулу для данной популяции, при небольшом изменении априорной вероятности она начнет безбожно "врать".
Соответственно, прежде, чем делать "формулу" прочитайте, про те методы, которые Вам выше советовали (логистическую регрессию в особенности), затем познакомьтесь с теоремой Байеса (возьмите книги Власова и Флетчера), затем почитайте здесь на форуме ветки, где это уже разбиралось.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Анна_К
сообщение 8.12.2008 - 12:26
Сообщение #3





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430



Цитата(плав @ 7.12.2008 - 20:22) *
Ну, во-первых создать на 100 больных формулу, которая бы реально работала вряд ли возможно. Про Data Mining можно спокойно забыть, поскольку и регрессионные деревья и нейронные сети (т.е. многофакторная нелинейная регрессия) требуют обучающей и модельной выборок, а у Вас будет по 50 человек в каждой, уже и простейшую модель не построить. Data Mining должен использоваться там, где он и зародился - в анализе бизнес-процессов на основании тысяч наблюдений.

Data Mining с успехом используется более 20 лет в медико-биологических исследованиях именно на малых выборках. С его помощью создаются алгоритмы диагностики и прогнозирования. Известные Вам, и вошедшие в модные пакеты регрессионные деревья и нейронные сети - это вчерашний день Data MIning'a. Существует большое количество других методов, например:
Голосование по тупиковым тестам ?
Линейный дискриминант Фишера ?
Q ближайших соседей ?
Метод опорных векторов ?
Статистически взвешенные синдромы ?
Алгоритмы вычисления оценок ?
Линейная машина ?
Логические закономерности ?
Двумерные линейные разделители ?
Genesis-
Цитата(плав @ 7.12.2008 - 20:22) *
Если Вы хотите строить предиктивную формулу все равно надо делить группы на подвыборки (т.е. по 50), поскольку иначе не проверить качества предсказания.

Проверка эффективности формулы (на самом деле - это называется решающее правило) осуществляется с помощью скользящего контроля, когда каждый объект удаляется из выборки и позже распознается по созданному решающему правилу. Число правильно распознанных объектов выборки и характеризует эффективность решающего правила.
Цитата(плав @ 7.12.2008 - 20:22) *
Все модели Вам смогут дать только формулу для данной популяции, при небольшом изменении априорной вероятности она начнет безбожно "врать".

Это совершенно верно для нейронных сетей, генетических алгоритмов, включенных в настоящее время в стандартные статистические пакеты.
В описываемых мною методах верификация делается путем метода Монте-Карло (генерации большого числа таблиц и применения к ним решающего правила, при выявлении закономерностей не более, чем на 5 таких таблицах из 2000 считаем, что выявленная закономерность на реальных данных - не случайна).
Цитата(плав @ 7.12.2008 - 20:22) *
Соответственно, прежде, чем делать "формулу" прочитайте, про те методы, которые Вам выше советовали (логистическую регрессию в особенности), затем познакомьтесь с теоремой Байеса (возьмите книги Власова и Флетчера), затем почитайте здесь на форуме ветки, где это уже разбиралось.

Все это полезно для самообразования. А нам пришлите данные и мы на их примере покажем, как работают методы. smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 8.12.2008 - 13:35
Сообщение #4





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Анна_К @ 8.12.2008 - 12:26) *
Data Mining с успехом используется более 20 лет в медико-биологических исследованиях именно на малых выборках. С его помощью создаются алгоритмы диагностики и прогнозирования. Известные Вам, и вошедшие в модные пакеты регрессионные деревья и нейронные сети - это вчерашний день Data MIning'a. Существует большое количество других методов, например:
Голосование по тупиковым тестам ?
Линейный дискриминант Фишера ?
Q ближайших соседей ?
Метод опорных векторов ?
Статистически взвешенные синдромы ?
Алгоритмы вычисления оценок ?
Линейная машина ?
Логические закономерности ?
Двумерные линейные разделители ?
Genesis-

Проверка эффективности формулы (на самом деле - это называется решающее правило) осуществляется с помощью скользящего контроля, когда каждый объект удаляется из выборки и позже распознается по созданному решающему правилу. Число правильно распознанных объектов выборки и характеризует эффективность решающего правила.

Это совершенно верно для нейронных сетей, генетических алгоритмов, включенных в настоящее время в стандартные статистические пакеты.
В описываемых мною методах верификация делается путем метода Монте-Карло (генерации большого числа таблиц и применения к ним решающего правила, при выявлении закономерностей не более, чем на 5 таких таблицах из 2000 считаем, что выявленная закономерность на реальных данных - не случайна).

Все это полезно для самообразования. А нам пришлите данные и мы на их примере покажем, как работают методы. smile.gif

Это тоже, повторяемые на протяжении последних 20 лет идеи, которые базируются на слабом понимании сути научного поиска в медицине (кстати, забыли самоорганизующиеся карты Кохонена и еще с десяток терминов).
Итак "верификация делается по методу Монте-Карло" или "скользящего контроля" (видимо, имеется ввиду jacknife). Все это очень здорово, но правило проверяется на той же выборке, что и создается. leave-one-out ничего не меняет. ОДНИ И ТЕ ЖЕ объекты используются для создания решающего правила и его проверки. Здорово! Иными словами, модель подгоняется под данные - модель будет прекрасно описывать имеющийся набор данных, но больше - ничего. Собственно говоря поэтому и существует требование проверки на тестовом наборе данных. Кстати, при помощи методов leave-one-out обычно проводится ПОСТРОЕНИЕ модели, а ее верификация проводится на другом наборе данных.
Далее - если бы речь шла о базе данных в несколько тысяч объектов - с чего и начинался data mining, то тогда да, можно предположить, что правило будет работать на популяции в целом. А тут 100 человек. Представьте себе ситуацию, у Вы создаете "решающее правило" на 10 пациентах с ИБС и АГ по выбору терапии. И у Вас не попался человек с недавним ИМ, как Вы (алгоритм) установит, что ему нельзя давать нифедипин, что тот вызывает выраженное падение АД? А? А ведь строится "решающее правило" звучит-то как серьезно! И сотня человек в этом отношении ничего не решит, поэтому методы data mining и находятся на периферии в медицине - нет данных для распознавания образов, теоретически не применимы методы.
Далее вопрос в связи с этим к Анне_К, а как Вы определяете выборочную ошибку? Какой используете показатель? Как формулируете альтернативные гипотезы?
Между прочим, реакция на упоминание теоремы Байеса просто демонстрирует незнакомство с реальностью диагностики в клинике (да, вобщем-то и истории статистики). Никакой метод Монте-Карло (т.е. повторного взятия выборок с повторами из имеющихся данных) не позволит Вам проанализировать ситуацию с иными априорными вероятностями заболевания в другой клинике - а ведь наука делается именно в расчете на воспроизводимость результата в других условиях.
Кстати, а как Вы планируете показать, что методы, которые Вы рекламируете "работают", выйдете в клинику и продемонстрируете, что на новой выборке "решающее правило" дает хорошие результаты, или пришлете набор цифр, которые показывают, что Ваши алгоритмы могут их выдавать? Второе не является доказательством "работы" алгоритма, это просто свидетельствует о том, что он может что-то выдать. Докажите, что результат воспроизводим и тогда будет основа для дискуссии.

Для остальных. (1) Никакая статистическая обработка не может компенсировать плохой дизайн исследования. Чудес на свете не бывает, если есть 100 больных не стоит пытаться перевернуть мир на небольшой выборке. (2) Задайте себе вопрос, почему, если методы хороши (работам Эфрона и Тибширани уже более 30 лет, работе Тьюки с его "исследовательским анализом данных" уже под 50), они не применяются широко при обработке результатов клинических испытаний (там просто заняты профессиональные статистики и есть большие деньги). Ответ прост - у них есть своя ниша, но они не панацея. Причем все, что было предложено другого - уже вошло в повседневный обиход (коробчатые графики Тьюки используются сплошь и рядом, так же, как и тест HSD). Наверное, и тут причина есть. Будет 10000 пациентов, тогда смело занимайтесь data mining, а со 100, формулируйте адекватную гипотезу а приори и проверяйет ее.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- Solo...   Как создать формулу для расчета прогноза?   15.10.2008 - 21:08
- - DoctorStat   1. Выявление клинически значимых параметров и их в...   16.10.2008 - 10:50
- - Игорь   Цитата(Solo... @ 15.10.2008 - 21:08)...   20.10.2008 - 09:18
- - Анна_К   Цитата(Solo... @ 15.10.2008 - 22:08)...   23.10.2008 - 13:16
- - Solo...   Я побывала на вашем форуме. Но , если честно, не р...   7.12.2008 - 18:42
|- - Анна_К   Цитата(Solo... @ 7.12.2008 - 18:42) ...   8.12.2008 - 11:28
- - плав   Ну, во-первых создать на 100 больных формулу, кото...   7.12.2008 - 20:22
|- - Анна_К   Цитата(плав @ 7.12.2008 - 20:22) Ну,...   8.12.2008 - 12:26
|- - плав   Цитата(Анна_К @ 8.12.2008 - 12:26) D...   8.12.2008 - 13:35
|- - Анна_К   Цитата(плав @ 8.12.2008 - 13:35) Это...   8.12.2008 - 21:50
|- - DoctorStat   Цитата(Анна_К @ 8.12.2008 - 21:50) П...   8.12.2008 - 22:25
||- - Анна_К   Цитата(DoctorStat @ 8.12.2008 - 22:2...   9.12.2008 - 14:27
||- - DoctorStat   Цитата(Анна_К @ 9.12.2008 - 14:27) С...   9.12.2008 - 16:28
||- - Анна_К   Цитата(DoctorStat @ 9.12.2008 - 16:2...   9.12.2008 - 18:41
||- - DoctorStat   Цитата(Анна_К @ 9.12.2008 - 18:41) П...   9.12.2008 - 19:55
||- - Анна_К   Цитата(DoctorStat @ 9.12.2008 - 19:5...   9.12.2008 - 21:50
||- - DoctorStat   Цитата(Анна_К @ 9.12.2008 - 21:50) Е...   9.12.2008 - 22:03
|- - плав   Цитата(Анна_К @ 8.12.2008 - 21:50) П...   8.12.2008 - 22:38
- - Анна_К   Для обсуждаемых данных, вероятно, подойдет метод С...   8.12.2008 - 12:30
- - DrgLena   Если уж наблюдать битву гигантов, то давайте вспом...   9.12.2008 - 18:25
|- - Анна_К   Цитата(DrgLena @ 9.12.2008 - 18:25) ...   9.12.2008 - 18:55
|- - DoctorStat   Цитата(DrgLena @ 9.12.2008 - 18:25) ...   9.12.2008 - 20:19
|- - плав   Цитата(DoctorStat @ 9.12.2008 - 20:1...   9.12.2008 - 22:52
- - Анна_К   Извините, plav, Вам отвечаю позже всех. Слишком мн...   9.12.2008 - 19:35
|- - плав   Цитата(Анна_К @ 9.12.2008 - 19:35) М...   9.12.2008 - 22:44
- - DrgLena   Да, действительно, DoktorStat, на основании предст...   10.12.2008 - 00:36
|- - плав   Цитата(DrgLena @ 10.12.2008 - 00:36)...   10.12.2008 - 12:39
|- - Анна_К   Цитата(DrgLena @ 10.12.2008 - 00:36)...   10.12.2008 - 15:09
|- - DoctorStat   Цитата(Анна_К @ 10.12.2008 - 15:09) ...   10.12.2008 - 15:17
- - DrgLena   Да, логика железная! У умерших от первого прис...   10.12.2008 - 13:05
|- - DoctorStat   Цитата(DrgLena @ 10.12.2008 - 13:05)...   10.12.2008 - 13:48
- - плав   А вот это сделать сложно. Люди просто умерли (внез...   10.12.2008 - 14:32
- - DrgLena   Это план исследования или уже есть результаты? Чащ...   10.12.2008 - 14:36
|- - DoctorStat   Цитата(DrgLena @ 10.12.2008 - 14:36)...   10.12.2008 - 14:42
- - Анна_К   Цитата(плав @ 9.12.2008 - 22:44) Ну ...   10.12.2008 - 15:12
- - Анна_К   Цитата(плав @ 9.12.2008 - 22:44) 3) ...   10.12.2008 - 15:14
- - DrgLena   DoctorStat, Да, я упустила пару ответов. Одноврем...   10.12.2008 - 15:25
|- - DoctorStat   Цитата(DrgLena @ 10.12.2008 - 15:25)...   10.12.2008 - 15:33
|- - Анна_К   Цитата(DrgLena @ 10.12.2008 - 15:25)...   10.12.2008 - 15:55
|- - DoctorStat   Цитата(Анна_К @ 10.12.2008 - 15:55) ...   10.12.2008 - 17:03
|- - Анна_К   Цитата(DoctorStat @ 10.12.2008 - 17...   10.12.2008 - 20:23
|- - DoctorStat   Цитата(Анна_К @ 10.12.2008 - 20:23) ...   10.12.2008 - 20:32
|- - Анна_К   Цитата(DoctorStat @ 10.12.2008 - 20...   10.12.2008 - 23:21
- - DrgLena   Дождаться "полного ответа" мне не удало...   10.12.2008 - 16:05
|- - DoctorStat   Цитата(DrgLena @ 10.12.2008 - 16:05)...   10.12.2008 - 16:23
- - DrgLena   Вы дали пример, его и решайте. Бог с ним с сайтом ...   10.12.2008 - 16:46
|- - DoctorStat   Цитата(DrgLena @ 10.12.2008 - 16:46)...   10.12.2008 - 16:54
- - DrgLena   Предлагаю "правильными" данными считать ...   10.12.2008 - 21:24
|- - DoctorStat   Цитата(DrgLena @ 10.12.2008 - 21:24)...   10.12.2008 - 21:36
- - DrgLena   Доктор DoctorStar, вы главный участник битвы гиган...   10.12.2008 - 22:13
- - DoctorStat   Данные взяты из самого первого файла Stenocardia.r...   11.12.2008 - 11:59
- - DrgLena   Чего только не сделает доктор, чтобы получить жела...   11.12.2008 - 14:06
|- - DoctorStat   Цитата(DrgLena @ 11.12.2008 - 14:06)...   11.12.2008 - 14:35
- - DrgLena   Да, я посетила ваш сайт и проследила за ходом выпо...   11.12.2008 - 15:32
|- - DoctorStat   Цитата(DrgLena @ 11.12.2008 - 15:32)...   11.12.2008 - 15:45
- - DrgLena   Если данные содержат информацию, которая может быт...   11.12.2008 - 16:57
|- - DoctorStat   Цитата(DrgLena @ 11.12.2008 - 16:57)...   11.12.2008 - 17:45
- - DrgLena   Вы, очевидно не поняли, что дело не в новых метода...   11.12.2008 - 17:54
|- - DoctorStat   Цитата(DrgLena @ 11.12.2008 - 17:54)...   11.12.2008 - 20:18
- - DrgLena   Да, вы извлекли какую- то информацию. А именно, на...   11.12.2008 - 22:42
|- - DoctorStat   Цитата(DrgLena @ 11.12.2008 - 22:42)...   12.12.2008 - 11:49
- - autumn   Уважаемый DrStat Я коллега Anny_K. Мы провели ана...   12.12.2008 - 13:35
|- - DoctorStat   Цитата(autumn @ 12.12.2008 - 13:35) ...   12.12.2008 - 14:09
|- - autumn   Цитата(DoctorStat @ 12.12.2008 - 15...   12.12.2008 - 15:51
|- - DoctorStat   Цитата(autumn @ 12.12.2008 - 15:51) ...   12.12.2008 - 16:13
|- - autumn   Цитата(DoctorStat @ 12.12.2008 - 17...   13.12.2008 - 12:38
|- - DoctorStat   Цитата(autumn @ 13.12.2008 - 12:38) ...   13.12.2008 - 14:22
|- - autumn   Цитата(DoctorStat @ 13.12.2008 - 15...   13.12.2008 - 16:09
|- - DoctorStat   Цитата(autumn @ 13.12.2008 - 16:09) ...   13.12.2008 - 16:43
- - DrgLena   DoctorStat, всю технологию описал на своем сайте h...   12.12.2008 - 16:08
- - DrgLena   Autumn, не могу сказать, чтобы я разобралась, поче...   12.12.2008 - 20:41
- - autumn   Извините, я как-то забыл про комментарии. Квадрант...   12.12.2008 - 21:21
- - DrgLena   Большое спасибо, я поняла. Теперь я вижу, что резу...   12.12.2008 - 22:52
- - DrgLena   Очевидно, моих аргументов не хватило для того, что...   13.12.2008 - 19:15
|- - DoctorStat   Цитата(DrgLena @ 13.12.2008 - 19:15)...   13.12.2008 - 20:43
|- - плав   Цитата(DoctorStat @ 13.12.2008 - 20...   13.12.2008 - 21:45
- - Анна_К   С файлом Stenocardia.xls разобрались. Но мне так и...   13.12.2008 - 20:05
|- - DoctorStat   Цитата(Анна_К @ 13.12.2008 - 20:05) ...   13.12.2008 - 20:49
- - DrgLena   Цитата(DoctorStat @ 13.12.2008 - 21...   14.12.2008 - 00:17
|- - DoctorStat   Цитата(DrgLena @ 14.12.2008 - 00:17)...   14.12.2008 - 14:19
|- - DoctorStat   Чтобы показать для чего нужна кластеризация, я сра...   14.12.2008 - 22:51
- - autumn   DoctorStat, существование искусственных данных, дл...   15.12.2008 - 12:10
|- - DoctorStat   Цитата(autumn @ 15.12.2008 - 13:10) ...   3.07.2009 - 10:20
- - DrgLena   Итак, у вас есть больной у которого первый вариант...   15.12.2008 - 13:06


Добавить ответ в эту темуОткрыть тему