Здравствуйте, гость ( Вход | Регистрация )
15.10.2008 - 21:08
Сообщение
#1
|
|
|
Группа: Пользователи Сообщений: 35 Регистрация: 3.10.2008 Из: Москва Пользователь №: 5369 |
Всем здравствуйте. Прошу опять помощи.
Стоит такая задача. Как создать формулу, с помощью которой можно вычислить вероятность положительного исхода лечения у конкретного больного. Т.е. формулу, в которую можно подставлять данные (признаки, разные показатели и пр.) конкретного обратившегося за помощью больного, далее получать с помощью этой формулы какую то цифру - % (70%, или 60, или 95 ... и т.д.). Эта цифра и будет отражать вероятность положительного исхода лечения этого больного. Имеются результаты лечения около 100 больных, известны все их показатели, влияющие на результат лечения. Этих показателей - около 5-6. Все они должны входить в формулу. Я слышала, что этой формулой является дискриминантное уравнение. Но как его построить? В Экселе или в Статистике? |
|
|
![]() |
![]() |
![]() |
7.12.2008 - 20:22
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Ну, во-первых создать на 100 больных формулу, которая бы реально работала вряд ли возможно. Про Data Mining можно спокойно забыть, поскольку и регрессионные деревья и нейронные сети (т.е. многофакторная нелинейная регрессия) требуют обучающей и модельной выборок, а у Вас будет по 50 человек в каждой, уже и простейшую модель не построить. Data Mining должен использоваться там, где он и зародился - в анализе бизнес-процессов на основании тысяч наблюдений.
Если Вы хотите строить предиктивную формулу все равно надо делить группы на подвыборки (т.е. по 50), поскольку иначе не проверить качества предсказания. Все модели Вам смогут дать только формулу для данной популяции, при небольшом изменении априорной вероятности она начнет безбожно "врать". Соответственно, прежде, чем делать "формулу" прочитайте, про те методы, которые Вам выше советовали (логистическую регрессию в особенности), затем познакомьтесь с теоремой Байеса (возьмите книги Власова и Флетчера), затем почитайте здесь на форуме ветки, где это уже разбиралось. |
|
|
![]() |
![]() |
8.12.2008 - 12:26
Сообщение
#3
|
|
|
Группа: Пользователи Сообщений: 18 Регистрация: 23.10.2008 Пользователь №: 5430 |
Ну, во-первых создать на 100 больных формулу, которая бы реально работала вряд ли возможно. Про Data Mining можно спокойно забыть, поскольку и регрессионные деревья и нейронные сети (т.е. многофакторная нелинейная регрессия) требуют обучающей и модельной выборок, а у Вас будет по 50 человек в каждой, уже и простейшую модель не построить. Data Mining должен использоваться там, где он и зародился - в анализе бизнес-процессов на основании тысяч наблюдений. Data Mining с успехом используется более 20 лет в медико-биологических исследованиях именно на малых выборках. С его помощью создаются алгоритмы диагностики и прогнозирования. Известные Вам, и вошедшие в модные пакеты регрессионные деревья и нейронные сети - это вчерашний день Data MIning'a. Существует большое количество других методов, например: Голосование по тупиковым тестам ? Линейный дискриминант Фишера ? Q ближайших соседей ? Метод опорных векторов ? Статистически взвешенные синдромы ? Алгоритмы вычисления оценок ? Линейная машина ? Логические закономерности ? Двумерные линейные разделители ? Genesis- Если Вы хотите строить предиктивную формулу все равно надо делить группы на подвыборки (т.е. по 50), поскольку иначе не проверить качества предсказания. Проверка эффективности формулы (на самом деле - это называется решающее правило) осуществляется с помощью скользящего контроля, когда каждый объект удаляется из выборки и позже распознается по созданному решающему правилу. Число правильно распознанных объектов выборки и характеризует эффективность решающего правила. Все модели Вам смогут дать только формулу для данной популяции, при небольшом изменении априорной вероятности она начнет безбожно "врать". Это совершенно верно для нейронных сетей, генетических алгоритмов, включенных в настоящее время в стандартные статистические пакеты. В описываемых мною методах верификация делается путем метода Монте-Карло (генерации большого числа таблиц и применения к ним решающего правила, при выявлении закономерностей не более, чем на 5 таких таблицах из 2000 считаем, что выявленная закономерность на реальных данных - не случайна). Соответственно, прежде, чем делать "формулу" прочитайте, про те методы, которые Вам выше советовали (логистическую регрессию в особенности), затем познакомьтесь с теоремой Байеса (возьмите книги Власова и Флетчера), затем почитайте здесь на форуме ветки, где это уже разбиралось. Все это полезно для самообразования. А нам пришлите данные и мы на их примере покажем, как работают методы. |
|
|
![]() |
![]() |
8.12.2008 - 13:35
Сообщение
#4
|
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Data Mining с успехом используется более 20 лет в медико-биологических исследованиях именно на малых выборках. С его помощью создаются алгоритмы диагностики и прогнозирования. Известные Вам, и вошедшие в модные пакеты регрессионные деревья и нейронные сети - это вчерашний день Data MIning'a. Существует большое количество других методов, например: Голосование по тупиковым тестам ? Линейный дискриминант Фишера ? Q ближайших соседей ? Метод опорных векторов ? Статистически взвешенные синдромы ? Алгоритмы вычисления оценок ? Линейная машина ? Логические закономерности ? Двумерные линейные разделители ? Genesis- Проверка эффективности формулы (на самом деле - это называется решающее правило) осуществляется с помощью скользящего контроля, когда каждый объект удаляется из выборки и позже распознается по созданному решающему правилу. Число правильно распознанных объектов выборки и характеризует эффективность решающего правила. Это совершенно верно для нейронных сетей, генетических алгоритмов, включенных в настоящее время в стандартные статистические пакеты. В описываемых мною методах верификация делается путем метода Монте-Карло (генерации большого числа таблиц и применения к ним решающего правила, при выявлении закономерностей не более, чем на 5 таких таблицах из 2000 считаем, что выявленная закономерность на реальных данных - не случайна). Все это полезно для самообразования. А нам пришлите данные и мы на их примере покажем, как работают методы. Это тоже, повторяемые на протяжении последних 20 лет идеи, которые базируются на слабом понимании сути научного поиска в медицине (кстати, забыли самоорганизующиеся карты Кохонена и еще с десяток терминов). Итак "верификация делается по методу Монте-Карло" или "скользящего контроля" (видимо, имеется ввиду jacknife). Все это очень здорово, но правило проверяется на той же выборке, что и создается. leave-one-out ничего не меняет. ОДНИ И ТЕ ЖЕ объекты используются для создания решающего правила и его проверки. Здорово! Иными словами, модель подгоняется под данные - модель будет прекрасно описывать имеющийся набор данных, но больше - ничего. Собственно говоря поэтому и существует требование проверки на тестовом наборе данных. Кстати, при помощи методов leave-one-out обычно проводится ПОСТРОЕНИЕ модели, а ее верификация проводится на другом наборе данных. Далее - если бы речь шла о базе данных в несколько тысяч объектов - с чего и начинался data mining, то тогда да, можно предположить, что правило будет работать на популяции в целом. А тут 100 человек. Представьте себе ситуацию, у Вы создаете "решающее правило" на 10 пациентах с ИБС и АГ по выбору терапии. И у Вас не попался человек с недавним ИМ, как Вы (алгоритм) установит, что ему нельзя давать нифедипин, что тот вызывает выраженное падение АД? А? А ведь строится "решающее правило" звучит-то как серьезно! И сотня человек в этом отношении ничего не решит, поэтому методы data mining и находятся на периферии в медицине - нет данных для распознавания образов, теоретически не применимы методы. Далее вопрос в связи с этим к Анне_К, а как Вы определяете выборочную ошибку? Какой используете показатель? Как формулируете альтернативные гипотезы? Между прочим, реакция на упоминание теоремы Байеса просто демонстрирует незнакомство с реальностью диагностики в клинике (да, вобщем-то и истории статистики). Никакой метод Монте-Карло (т.е. повторного взятия выборок с повторами из имеющихся данных) не позволит Вам проанализировать ситуацию с иными априорными вероятностями заболевания в другой клинике - а ведь наука делается именно в расчете на воспроизводимость результата в других условиях. Кстати, а как Вы планируете показать, что методы, которые Вы рекламируете "работают", выйдете в клинику и продемонстрируете, что на новой выборке "решающее правило" дает хорошие результаты, или пришлете набор цифр, которые показывают, что Ваши алгоритмы могут их выдавать? Второе не является доказательством "работы" алгоритма, это просто свидетельствует о том, что он может что-то выдать. Докажите, что результат воспроизводим и тогда будет основа для дискуссии. Для остальных. (1) Никакая статистическая обработка не может компенсировать плохой дизайн исследования. Чудес на свете не бывает, если есть 100 больных не стоит пытаться перевернуть мир на небольшой выборке. (2) Задайте себе вопрос, почему, если методы хороши (работам Эфрона и Тибширани уже более 30 лет, работе Тьюки с его "исследовательским анализом данных" уже под 50), они не применяются широко при обработке результатов клинических испытаний (там просто заняты профессиональные статистики и есть большие деньги). Ответ прост - у них есть своя ниша, но они не панацея. Причем все, что было предложено другого - уже вошло в повседневный обиход (коробчатые графики Тьюки используются сплошь и рядом, так же, как и тест HSD). Наверное, и тут причина есть. Будет 10000 пациентов, тогда смело занимайтесь data mining, а со 100, формулируйте адекватную гипотезу а приори и проверяйет ее. |
|
|
![]() |
![]() |
Solo... Как создать формулу для расчета прогноза? 15.10.2008 - 21:08
DoctorStat 1. Выявление клинически значимых параметров и их в... 16.10.2008 - 10:50
Игорь Цитата(Solo... @ 15.10.2008 - 21:08)... 20.10.2008 - 09:18
Анна_К Цитата(Solo... @ 15.10.2008 - 22:08)... 23.10.2008 - 13:16
Solo... Я побывала на вашем форуме. Но , если честно, не р... 7.12.2008 - 18:42
Анна_К Цитата(Solo... @ 7.12.2008 - 18:42) ... 8.12.2008 - 11:28
Анна_К Цитата(плав @ 8.12.2008 - 13:35) Это... 8.12.2008 - 21:50
DoctorStat Цитата(Анна_К @ 8.12.2008 - 21:50) П... 8.12.2008 - 22:25

Анна_К Цитата(DoctorStat @ 8.12.2008 - 22:2... 9.12.2008 - 14:27

DoctorStat Цитата(Анна_К @ 9.12.2008 - 14:27) С... 9.12.2008 - 16:28

Анна_К Цитата(DoctorStat @ 9.12.2008 - 16:2... 9.12.2008 - 18:41

DoctorStat Цитата(Анна_К @ 9.12.2008 - 18:41) П... 9.12.2008 - 19:55

Анна_К Цитата(DoctorStat @ 9.12.2008 - 19:5... 9.12.2008 - 21:50

DoctorStat Цитата(Анна_К @ 9.12.2008 - 21:50) Е... 9.12.2008 - 22:03
плав Цитата(Анна_К @ 8.12.2008 - 21:50) П... 8.12.2008 - 22:38
Анна_К Для обсуждаемых данных, вероятно, подойдет метод С... 8.12.2008 - 12:30
DrgLena Если уж наблюдать битву гигантов, то давайте вспом... 9.12.2008 - 18:25
Анна_К Цитата(DrgLena @ 9.12.2008 - 18:25) ... 9.12.2008 - 18:55
DoctorStat Цитата(DrgLena @ 9.12.2008 - 18:25) ... 9.12.2008 - 20:19
плав Цитата(DoctorStat @ 9.12.2008 - 20:1... 9.12.2008 - 22:52
Анна_К Извините, plav, Вам отвечаю позже всех. Слишком мн... 9.12.2008 - 19:35
плав Цитата(Анна_К @ 9.12.2008 - 19:35) М... 9.12.2008 - 22:44
DrgLena Да, действительно, DoktorStat, на основании предст... 10.12.2008 - 00:36
плав Цитата(DrgLena @ 10.12.2008 - 00:36)... 10.12.2008 - 12:39
Анна_К Цитата(DrgLena @ 10.12.2008 - 00:36)... 10.12.2008 - 15:09
DoctorStat Цитата(Анна_К @ 10.12.2008 - 15:09) ... 10.12.2008 - 15:17
DrgLena Да, логика железная!
У умерших от первого прис... 10.12.2008 - 13:05
DoctorStat Цитата(DrgLena @ 10.12.2008 - 13:05)... 10.12.2008 - 13:48
плав А вот это сделать сложно. Люди просто умерли (внез... 10.12.2008 - 14:32
DrgLena Это план исследования или уже есть результаты? Чащ... 10.12.2008 - 14:36
DoctorStat Цитата(DrgLena @ 10.12.2008 - 14:36)... 10.12.2008 - 14:42
Анна_К Цитата(плав @ 9.12.2008 - 22:44) Ну ... 10.12.2008 - 15:12
Анна_К Цитата(плав @ 9.12.2008 - 22:44) 3) ... 10.12.2008 - 15:14
DrgLena DoctorStat,
Да, я упустила пару ответов. Одноврем... 10.12.2008 - 15:25
DoctorStat Цитата(DrgLena @ 10.12.2008 - 15:25)... 10.12.2008 - 15:33
Анна_К Цитата(DrgLena @ 10.12.2008 - 15:25)... 10.12.2008 - 15:55
DoctorStat Цитата(Анна_К @ 10.12.2008 - 15:55) ... 10.12.2008 - 17:03
Анна_К Цитата(DoctorStat @ 10.12.2008 - 17... 10.12.2008 - 20:23
DoctorStat Цитата(Анна_К @ 10.12.2008 - 20:23) ... 10.12.2008 - 20:32
Анна_К Цитата(DoctorStat @ 10.12.2008 - 20... 10.12.2008 - 23:21
DrgLena Дождаться "полного ответа" мне не удало... 10.12.2008 - 16:05
DoctorStat Цитата(DrgLena @ 10.12.2008 - 16:05)... 10.12.2008 - 16:23
DrgLena Вы дали пример, его и решайте. Бог с ним с сайтом ... 10.12.2008 - 16:46
DoctorStat Цитата(DrgLena @ 10.12.2008 - 16:46)... 10.12.2008 - 16:54
DrgLena Предлагаю "правильными" данными считать ... 10.12.2008 - 21:24
DoctorStat Цитата(DrgLena @ 10.12.2008 - 21:24)... 10.12.2008 - 21:36
DrgLena Доктор DoctorStar, вы главный участник битвы гиган... 10.12.2008 - 22:13
DoctorStat Данные взяты из самого первого файла Stenocardia.r... 11.12.2008 - 11:59
DrgLena Чего только не сделает доктор, чтобы получить жела... 11.12.2008 - 14:06
DoctorStat Цитата(DrgLena @ 11.12.2008 - 14:06)... 11.12.2008 - 14:35
DrgLena Да, я посетила ваш сайт и проследила за ходом выпо... 11.12.2008 - 15:32
DoctorStat Цитата(DrgLena @ 11.12.2008 - 15:32)... 11.12.2008 - 15:45
DrgLena Если данные содержат информацию, которая может быт... 11.12.2008 - 16:57
DoctorStat Цитата(DrgLena @ 11.12.2008 - 16:57)... 11.12.2008 - 17:45
DrgLena Вы, очевидно не поняли, что дело не в новых метода... 11.12.2008 - 17:54
DoctorStat Цитата(DrgLena @ 11.12.2008 - 17:54)... 11.12.2008 - 20:18
DrgLena Да, вы извлекли какую- то информацию. А именно, на... 11.12.2008 - 22:42
DoctorStat Цитата(DrgLena @ 11.12.2008 - 22:42)... 12.12.2008 - 11:49
autumn Уважаемый DrStat
Я коллега Anny_K.
Мы провели ана... 12.12.2008 - 13:35
DoctorStat Цитата(autumn @ 12.12.2008 - 13:35) ... 12.12.2008 - 14:09
autumn Цитата(DoctorStat @ 12.12.2008 - 15... 12.12.2008 - 15:51
DoctorStat Цитата(autumn @ 12.12.2008 - 15:51) ... 12.12.2008 - 16:13
autumn Цитата(DoctorStat @ 12.12.2008 - 17... 13.12.2008 - 12:38
DoctorStat Цитата(autumn @ 13.12.2008 - 12:38) ... 13.12.2008 - 14:22
autumn Цитата(DoctorStat @ 13.12.2008 - 15... 13.12.2008 - 16:09
DoctorStat Цитата(autumn @ 13.12.2008 - 16:09) ... 13.12.2008 - 16:43
DrgLena DoctorStat, всю технологию описал на своем сайте h... 12.12.2008 - 16:08
DrgLena Autumn, не могу сказать, чтобы я разобралась, поче... 12.12.2008 - 20:41
autumn Извините, я как-то забыл про комментарии.
Квадрант... 12.12.2008 - 21:21
DrgLena Большое спасибо, я поняла. Теперь я вижу, что резу... 12.12.2008 - 22:52
DrgLena Очевидно, моих аргументов не хватило для того, что... 13.12.2008 - 19:15
DoctorStat Цитата(DrgLena @ 13.12.2008 - 19:15)... 13.12.2008 - 20:43
плав Цитата(DoctorStat @ 13.12.2008 - 20... 13.12.2008 - 21:45
Анна_К С файлом Stenocardia.xls разобрались. Но мне так и... 13.12.2008 - 20:05
DoctorStat Цитата(Анна_К @ 13.12.2008 - 20:05) ... 13.12.2008 - 20:49
DrgLena Цитата(DoctorStat @ 13.12.2008 - 21... 14.12.2008 - 00:17
DoctorStat Цитата(DrgLena @ 14.12.2008 - 00:17)... 14.12.2008 - 14:19
DoctorStat Чтобы показать для чего нужна кластеризация, я сра... 14.12.2008 - 22:51
autumn DoctorStat, существование искусственных данных, дл... 15.12.2008 - 12:10
DoctorStat Цитата(autumn @ 15.12.2008 - 13:10) ... 3.07.2009 - 10:20
DrgLena Итак, у вас есть больной у которого первый вариант... 15.12.2008 - 13:06![]() ![]() |