Как создать формулу для расчета прогноза? |
Здравствуйте, гость ( Вход | Регистрация )
Как создать формулу для расчета прогноза? |
15.10.2008 - 21:08
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 35 Регистрация: 3.10.2008 Из: Москва Пользователь №: 5369 |
Всем здравствуйте. Прошу опять помощи.
Стоит такая задача. Как создать формулу, с помощью которой можно вычислить вероятность положительного исхода лечения у конкретного больного. Т.е. формулу, в которую можно подставлять данные (признаки, разные показатели и пр.) конкретного обратившегося за помощью больного, далее получать с помощью этой формулы какую то цифру - % (70%, или 60, или 95 ... и т.д.). Эта цифра и будет отражать вероятность положительного исхода лечения этого больного. Имеются результаты лечения около 100 больных, известны все их показатели, влияющие на результат лечения. Этих показателей - около 5-6. Все они должны входить в формулу. Я слышала, что этой формулой является дискриминантное уравнение. Но как его построить? В Экселе или в Статистике? |
|
9.12.2008 - 19:35
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 18 Регистрация: 23.10.2008 Пользователь №: 5430 |
Извините, plav, Вам отвечаю позже всех. Слишком много надо было писать.
Начну отвечать с конца. Там наиболее фундаментальные и общие возражения. В целом сдается, что Вы думаете, что Ваши методы какое-то откровение, а не просто новояз окружающий комбинацию из хорошо известных регрессионных подходов (пусть и нелинейной регрессии), кластерного и факторного анализов. Кстати, методы MCMC, на который Вы так часто ссылаетесь, как на новое слово, в классической статистике используются уже давно, да вообщем-то и методы с интенсивным использованием ЭВМ (bootstrap), тоже с повторными выборками, для оценки коэффициентов регрессии никто не отменял. Вообще-то на такой полемический задор смотреть смешно, ну, понятно, есть увлечения, но не стоит считать, что вокруг все лаптем щи хлебают, а тут "дао снизошло". Лучше посмотрите книги по Data Mining, не в Москве изданные, а там, где термин зародился, тут интересу ради просто повернулся и сборник под ред. Bozdogan'а посмотрел - штуки четыре статьи об использовании логистической регрессии в DM. А Вы о "нашей логистической регрессии". Это, действительно, НЕ "новояз окружающий комбинацию из хорошо известных регрессионных подхоов"...! Методы существуют не 20 лет, а около 40 - с 70-х гг. прошлого столетия. Начиналось все с прогноза полезных ископаемых по пробам грунта. Жизнь не стоит на месте. И теоретические методы, которые были сочинены давно, но не могли применяться в связи колоссальной трудоемкостью, теперь спокойно программируются и работают. 10 лет назад мы ждали результата счета сутками, сейчас на пентиуме4 = всего минут 20-30. Хотя при большом числе объектов и признаков (несколько сотен) счет все-таки приходится оставлять на ночь. Никто не унижает Ваши, plav, глубокие познания в статистике, просто захотелось рассказать о том, что создается у меня на глазах (в ВЦ РАН). У нас в России есть странная привычка "молиться" на зарубежье, и не замечать, пренебрегать достижениями наших ученых-математиков. Работа идет, и это, пожалуй, одна из немногих областей, где не нужны электронные микроскопы и дорогостоящие реактивы, поэтому лаборатории остаются и функционируют в полную силу. Короче, кроме "логистической регрессии", существуют разные подходы 6) Вы не ошиблись насчет коэффициента корреляции как показателя точности распознавания? С квадратом коэффициента не перепутали? Или не понимаете о чем это я? И расскажите, как Вы считаете коэффициент корреляции между "реальным номером группы ... и его функцией номера класса". Какой коэффициент корреляции Вы считаете? Реальный номер группы он у Вас всегда ординальный? Или, не побоюсь этого слова, интервальный? Или? А если "реальный номер группы" 1 или 0 (т.е. болен - не болен), какой корреляционный коэффициент используете? Это простой привычный коэффициент корреляции. Не перепутала. Понимаю. Формулу можно посмотреть в наших ранних публикациях. Реальный номер группы всегда натуральный: 1, 2, 3... Если группа 0, меняем ее на 2. И работаем как всегда. Поймите, что мы ищем коэффициент корреляции не между номерами исследуемых групп, а между истинным номером группы и результатом его прогноза (после работы алгоритма распознавания). 5) Если Вы кому-то рекомендуете составлять диагностические алгоритмы на 30 пациентах, мне очень жаль пациентов, которые потом будут получать помощь от таких "разработчиков" и я сильно надеюсь, что в случае судебных исков за ненадлежащее врачевание в адрес "разработчиков" уйдет частное определение. Никогда диагноз не ставится на основе какого-либо компьютерного решения. Диагноз ставит врач. Вся ответственность лежит на нем. Компьютерные методы только рекомендуют, и их точность равна вероятности, с которой работает данный метод. 4) Как Вы думаете, если я не представляю себе, как работает "скользящий контроль", почему я упоминаю leave-one-out? На этот вопрос мой коллега (автор алгоритма оптимальных разбиений) ответил так: «Вы не знаете термин ?скользящий контроль? !? Это абсолютно базовое понятие в современном прогнозировании. Прочитайте любую статью. Это вовсе не jackknife. Leave-one-out ? частный случай скользящего контроля. Смысл данного понятия именно в проверке точности прогноза. Выборка последовательно делится на подвыборки; обучающую и контрольную. На одной происходит обучение, на другой контроль. Процесс повторяется многократно. Где же здесь подгонка? Максимизация точности в режиме скользящий контроль действительно иногда производится путём манипулирования параметрами модели. Но это абсолютная ПРОФАНАЦИЯ метода. Вероятно, вы именно это имели в виду, когда писали: «при помощи методов leave-one-out обычно проводится ПОСТРОЕНИЕ модели». Результатам скользящего контроля в этом случае нельзя доверять. Кстати, вы можете с таким же успехом добиваться максимизации точности на контрольной выборке (другом наборе данных), меняя параметры модели». 3) Как эти доказательства были получены. И знаете, работает, хотя функция получена в Америке 1960х, а проверена на российской популяции 1980х. Предсказывает. А Вы можете такое же? Проверку на другой, не связанной с первой популяцией, другой группе больных. Доказательства, например, по распознаванию типа инсульта. В приемном покое врач с точностью 60% проводит дифференциальный диагноз между ишемическим и геморрагическим типами инсульта. Наше распознающее правило дало 85-90%. Нейронные сети с отладкой по генетическому алгоритму дали 99%, о чем и была защищена докторская диссертация. Но мы считаем, что это как раз и была подгонка. И наши результаты дающие не столь высокий результат ? намного устойчивее, и не боятся поступления в выборку новых данных. Все голословные утверждения ничего не стоят, пока не будет проведено честное сравнение результатов распознавания. 2) Будьте добры - в общих чертах - теоретическое обоснование метода, а то из всех возражений этот кусок (особенно с достоверностями, он как раз базируется на знании классической статистики) был проигнорирован. Senko O.V., Kuznetsova A.V. The Optimal Valid Partitioning Procedures, Электронный рецензируемый журнал «InterStat», http://ip.statjournals.net:2002/InterStat/...les/0604002.pdf, http://interstat.statjournals.net/ Может быть, это Вам поможет. 1) Почему именно на 30 объектах. Будьте добры теоретическое обоснование. Просто так нас учили на кафедре математики на медико-биологическом факультете РГМУ (Бывшего II МОЛГМИ им. Н.И.Пирогова), отделении медицинская кибернетика. И это оправдало себя на практике. Хотя с меньшим числом объектов и приходилось работать, но мы всегда знали, что это первоначальный алгоритм, требующий пополнения выборки. |
|