![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 35 Регистрация: 3.10.2008 Из: Москва Пользователь №: 5369 ![]() |
Всем здравствуйте. Прошу опять помощи.
Стоит такая задача. Как создать формулу, с помощью которой можно вычислить вероятность положительного исхода лечения у конкретного больного. Т.е. формулу, в которую можно подставлять данные (признаки, разные показатели и пр.) конкретного обратившегося за помощью больного, далее получать с помощью этой формулы какую то цифру - % (70%, или 60, или 95 ... и т.д.). Эта цифра и будет отражать вероятность положительного исхода лечения этого больного. Имеются результаты лечения около 100 больных, известны все их показатели, влияющие на результат лечения. Этих показателей - около 5-6. Все они должны входить в формулу. Я слышала, что этой формулой является дискриминантное уравнение. Но как его построить? В Экселе или в Статистике? |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 18 Регистрация: 23.10.2008 Пользователь №: 5430 ![]() |
Извините, plav, Вам отвечаю позже всех. Слишком много надо было писать.
Начну отвечать с конца. Там наиболее фундаментальные и общие возражения. В целом сдается, что Вы думаете, что Ваши методы какое-то откровение, а не просто новояз окружающий комбинацию из хорошо известных регрессионных подходов (пусть и нелинейной регрессии), кластерного и факторного анализов. Кстати, методы MCMC, на который Вы так часто ссылаетесь, как на новое слово, в классической статистике используются уже давно, да вообщем-то и методы с интенсивным использованием ЭВМ (bootstrap), тоже с повторными выборками, для оценки коэффициентов регрессии никто не отменял. Вообще-то на такой полемический задор смотреть смешно, ну, понятно, есть увлечения, но не стоит считать, что вокруг все лаптем щи хлебают, а тут "дао снизошло". Лучше посмотрите книги по Data Mining, не в Москве изданные, а там, где термин зародился, тут интересу ради просто повернулся и сборник под ред. Bozdogan'а посмотрел - штуки четыре статьи об использовании логистической регрессии в DM. А Вы о "нашей логистической регрессии". Это, действительно, НЕ "новояз окружающий комбинацию из хорошо известных регрессионных подхоов"...! Методы существуют не 20 лет, а около 40 - с 70-х гг. прошлого столетия. Начиналось все с прогноза полезных ископаемых по пробам грунта. Жизнь не стоит на месте. И теоретические методы, которые были сочинены давно, но не могли применяться в связи колоссальной трудоемкостью, теперь спокойно программируются и работают. 10 лет назад мы ждали результата счета сутками, сейчас на пентиуме4 = всего минут 20-30. Хотя при большом числе объектов и признаков (несколько сотен) счет все-таки приходится оставлять на ночь. Никто не унижает Ваши, plav, глубокие познания в статистике, просто захотелось рассказать о том, что создается у меня на глазах (в ВЦ РАН). У нас в России есть странная привычка "молиться" на зарубежье, и не замечать, пренебрегать достижениями наших ученых-математиков. Работа идет, и это, пожалуй, одна из немногих областей, где не нужны электронные микроскопы и дорогостоящие реактивы, поэтому лаборатории остаются и функционируют в полную силу. Короче, кроме "логистической регрессии", существуют разные подходы 6) Вы не ошиблись насчет коэффициента корреляции как показателя точности распознавания? С квадратом коэффициента не перепутали? Или не понимаете о чем это я? И расскажите, как Вы считаете коэффициент корреляции между "реальным номером группы ... и его функцией номера класса". Какой коэффициент корреляции Вы считаете? Реальный номер группы он у Вас всегда ординальный? Или, не побоюсь этого слова, интервальный? Или? А если "реальный номер группы" 1 или 0 (т.е. болен - не болен), какой корреляционный коэффициент используете? Это простой привычный коэффициент корреляции. Не перепутала. Понимаю. Формулу можно посмотреть в наших ранних публикациях. Реальный номер группы всегда натуральный: 1, 2, 3... Если группа 0, меняем ее на 2. ![]() Поймите, что мы ищем коэффициент корреляции не между номерами исследуемых групп, а между истинным номером группы и результатом его прогноза (после работы алгоритма распознавания). 5) Если Вы кому-то рекомендуете составлять диагностические алгоритмы на 30 пациентах, мне очень жаль пациентов, которые потом будут получать помощь от таких "разработчиков" и я сильно надеюсь, что в случае судебных исков за ненадлежащее врачевание в адрес "разработчиков" уйдет частное определение. Никогда диагноз не ставится на основе какого-либо компьютерного решения. Диагноз ставит врач. Вся ответственность лежит на нем. Компьютерные методы только рекомендуют, и их точность равна вероятности, с которой работает данный метод. 4) Как Вы думаете, если я не представляю себе, как работает "скользящий контроль", почему я упоминаю leave-one-out? На этот вопрос мой коллега (автор алгоритма оптимальных разбиений) ответил так: «Вы не знаете термин ?скользящий контроль? !? Это абсолютно базовое понятие в современном прогнозировании. Прочитайте любую статью. Это вовсе не jackknife. Leave-one-out ? частный случай скользящего контроля. Смысл данного понятия именно в проверке точности прогноза. Выборка последовательно делится на подвыборки; обучающую и контрольную. На одной происходит обучение, на другой контроль. Процесс повторяется многократно. Где же здесь подгонка? Максимизация точности в режиме скользящий контроль действительно иногда производится путём манипулирования параметрами модели. Но это абсолютная ПРОФАНАЦИЯ метода. Вероятно, вы именно это имели в виду, когда писали: «при помощи методов leave-one-out обычно проводится ПОСТРОЕНИЕ модели». Результатам скользящего контроля в этом случае нельзя доверять. Кстати, вы можете с таким же успехом добиваться максимизации точности на контрольной выборке (другом наборе данных), меняя параметры модели». 3) Как эти доказательства были получены. И знаете, работает, хотя функция получена в Америке 1960х, а проверена на российской популяции 1980х. Предсказывает. А Вы можете такое же? Проверку на другой, не связанной с первой популяцией, другой группе больных. Доказательства, например, по распознаванию типа инсульта. В приемном покое врач с точностью 60% проводит дифференциальный диагноз между ишемическим и геморрагическим типами инсульта. Наше распознающее правило дало 85-90%. Нейронные сети с отладкой по генетическому алгоритму дали 99%, о чем и была защищена докторская диссертация. Но мы считаем, что это как раз и была подгонка. И наши результаты дающие не столь высокий результат ? намного устойчивее, и не боятся поступления в выборку новых данных. Все голословные утверждения ничего не стоят, пока не будет проведено честное сравнение результатов распознавания. 2) Будьте добры - в общих чертах - теоретическое обоснование метода, а то из всех возражений этот кусок (особенно с достоверностями, он как раз базируется на знании классической статистики) был проигнорирован. Senko O.V., Kuznetsova A.V. The Optimal Valid Partitioning Procedures, Электронный рецензируемый журнал «InterStat», http://ip.statjournals.net:2002/InterStat/...les/0604002.pdf, http://interstat.statjournals.net/ Может быть, это Вам поможет. 1) Почему именно на 30 объектах. Будьте добры теоретическое обоснование. Просто так нас учили на кафедре математики на медико-биологическом факультете РГМУ (Бывшего II МОЛГМИ им. Н.И.Пирогова), отделении медицинская кибернетика. И это оправдало себя на практике. Хотя с меньшим числом объектов и приходилось работать, но мы всегда знали, что это первоначальный алгоритм, требующий пополнения выборки. |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
Может быть, это Вам поможет. Просто так нас учили на кафедре математики на медико-биологическом факультете РГМУ (Бывшего II МОЛГМИ им. Н.И.Пирогова), отделении медицинская кибернетика. И это оправдало себя на практике. Хотя с меньшим числом объектов и приходилось работать, но мы всегда знали, что это первоначальный алгоритм, требующий пополнения выборки. Ну вообщем-то все понятно. 1) Про 30 я не случайно спросил - общее место, после этого числа объектов стабилизируется выборочная дисперсия (точнее после 25-30 объектов), соответственно, речь идет об обычной статистике, так что отсутствие обоснованного ответа на этот вопрос уже о многом говорит. Так что "оправдало на практике" это веселое объяснение. 2) Насчет коэффициента корреляции я тоже спросил не случайно. Вообще-то его квадрат показывает процент дисперсии, который объясняет данная модель. С точки зрения предсказания коэффициент корреляции раный +1 и -1 одинаково хороши, просто во втором случае перепутали группы. Но Вы на этот подвох тоже не обратили внимания - и это говорит о многом. 2) Насчет того, что Ваши методы лучше среднего врача, я вообще не понял. Итак нейронные сети дали 99% точности и Вы считаете это подгонкой. Ваши методы дали 85-90% и это прекрасно. Чего-то я логику не понял. Или методика была одна и тогда Ваши методы проигралиили же проверка опять была не проспективная, но а тогда и 99% и 85% подозрительны. Вы то ли не хотите, то ли не можете понять основного: (а) проверка метода на той же популяции, на которой строится модель порочна. Модель постоянно строится на одних и тех же данных, соответственно ее параметры будут одинаковыми. Таким методом можно уменьшит влияние вылетающих наблюдений. но не более. (б) невозможно построить модель, которая будет использовать данные, отсутствующие в обучающей выборке. Если Вы берете 30 человек, то вероятность того, что в эту выборку попадет человек с фактором риска, имеющимся у 3% популяции всего около 60%. А 3% довольно высокая частота для многих прогностических факторов. А для обучения нужен не один объект... Иными словами, при таком подходе система не может учитывать редкие события - а частые события мозг человека будет учитывать значительно лучше. Более того, обычная статистика позволяет делать выводы потому, что она базируется в своих выводах на прочном теоретическом фундаменте. Именно он позволяет применять методы на относительно небольших выборках (при этом возражения относительно гетерогенности популяции и пропуска факторов остаются. поэтому я вообще против создания решающих алгоритмов на малых выборках). Все методы data mining по своей природе не делают предположения о характере распределения, поэтому они требуют большего количества информации для тех же выводов, к которым классическая статистика приходит с меньшим объемом данных. Чудес на свете не бывает. Если вы делаете предположение о том, например, что ваша заивисмость - линейная, вам достаточно двух точек, чтобы провести линию. Если же Вы говорите, что это кривая любой формы, то Вам никакого количества точек не хватит. Нельзя одновременно уменьшить объем входящей информации и получить больше информации на выходе. 3) Новое название не значит новый метод. Вы так и не пояснили обоснование Вашего метода "оптимального разделения", чем он отличается от всех остальных методов "неоптимального" разделения. Дело в том, что большинство т.н. новых методов не являются новыми, а являются модификацией старых, расширением их возможностей - например, кластерный анализ это дисперсионный анализ "наоборот", CART - модицикация регрессии, нейронные сети - множественная нелинейная регрессия и т.п. Чо же касается Вашего праведного гнева по поводу забывания отечественных ученых, то замечу, что (а) на произведения отечественных "ученых" в области машинного обучения в медицине насмотрелись в 80х годах. В результате нормальной биостатистики нет, зато полно шаманства с попытками предсказать непредсказуемое. Результат союза людей не понимающих медицину с теми, кто не понимает статистику...; (б) многие из тех отечественных ученых, кто занимался машинным обучением (вне медицины) уже работают в тех университетах, работы которых я смотрю, а теперь давайте угадаем с трех раз, кого приглашают с более высокой вероятностью в MIT - того, кто известен своими публикациями и кого цитируют или автора, работы которого кроме пожимания плеч ничего не вызывают? Наука штука интернациональная. Те, кто делает действительно новое быстро обнаруживаются (специалистов по машинному обучению из бСССР в Силиконовой долине много) и эти методы становятся принятыми. Отсутствие признания каких-то методов свидетельствует об их дефектах - почему-то по методам data mining в медицине было много публикаций в конце 80х-90х (когда много компьютеров стало), а затем все сошло на нет. Почему бы это? А вот логистическая регрессия живет... В целом, повторюсь, мне все понятно, тему закрывать не буду, но далее дискутировать и ходить по кругу смысла нет. Да, и проверьте Ваши ссылки, а то статья не находится и на фамилию автора сайт отвечает Match Not Found |
|
![]() |
![]() |
![]() ![]() |