Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

6 страниц V   1 2 3 > »   
Добавить ответ в эту темуОткрыть тему
> Как создать формулу для расчета прогноза?
Solo...
сообщение 15.10.2008 - 21:08
Сообщение #1





Группа: Пользователи
Сообщений: 35
Регистрация: 3.10.2008
Из: Москва
Пользователь №: 5369



Всем здравствуйте. Прошу опять помощи.
Стоит такая задача. Как создать формулу, с помощью которой можно вычислить вероятность положительного исхода лечения у конкретного больного. Т.е. формулу, в которую можно подставлять данные (признаки, разные показатели и пр.) конкретного обратившегося за помощью больного, далее получать с помощью этой формулы какую то цифру - % (70%, или 60, или 95 ... и т.д.). Эта цифра и будет отражать вероятность положительного исхода лечения этого больного.

Имеются результаты лечения около 100 больных, известны все их показатели, влияющие на результат лечения. Этих показателей - около 5-6. Все они должны входить в формулу.

Я слышала, что этой формулой является дискриминантное уравнение. Но как его построить? В Экселе или в Статистике?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 16.10.2008 - 10:50
Сообщение #2





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



1. Выявление клинически значимых параметров и их вклада.
С помощью логистической регрессии (программы SPSS, Statistica) для 2-х выборок пациентов: с удачным и неудачным исходом лечения найти клинические параметры, значимо влияющие на исход лечения. Исключить малозначимые параметры (с помощью выбора метода Backward LR) и выбора уровня значимости SIG=0,05. Для оставшихся значимых параметров вычислить их важность (коэффициенты регрессии Bi,i=1,M) и константу сдвига Constant.
2. Вычисление вероятности успешности лечения.
Для конкретного пациента вычислим успешность лечения. Пусть его клинические параметры принимают значения A1, A2 и т.д. Вычислим для этого пациента регрессию Z с помощью найденных коэффициентов регрессии Bi:
Z= Constant+B1*A1+...+ BM*AM
Тогда вероятность успеха лечения равна: P=1/(1+exp(−Z))

Сообщение отредактировал DoctorStat - 16.10.2008 - 10:53


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 20.10.2008 - 09:18
Сообщение #3





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Solo... @ 15.10.2008 - 21:08) *
Всем здравствуйте. Прошу опять помощи.
Стоит такая задача. Как создать формулу, с помощью которой можно вычислить вероятность положительного исхода лечения у конкретного больного. Т.е. формулу, в которую можно подставлять данные (признаки, разные показатели и пр.) конкретного обратившегося за помощью больного, далее получать с помощью этой формулы какую то цифру - % (70%, или 60, или 95 ... и т.д.). Эта цифра и будет отражать вероятность положительного исхода лечения этого больного.

Имеются результаты лечения около 100 больных, известны все их показатели, влияющие на результат лечения. Этих показателей - около 5-6. Все они должны входить в формулу.

Я слышала, что этой формулой является дискриминантное уравнение. Но как его построить? В Экселе или в Статистике?

На компьютере обычно имеется Excel. Поэтому загрузите бесплатное программное обеспечение AtteStat, функционирующее на базе Excel. В модуле "Распознавание образов с обучением" имеется целый набор методов, включая логистическую и пробит регрессию. В Справочной системе написано, как ими пользоваться. Подставляйте данные и получайте нужные формулы.

Дискриминантный анализ не дает значения вероятности (он предназначен для другой задачи), поэтому в Вашем случае его применить не удастся.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Анна_К
сообщение 23.10.2008 - 13:16
Сообщение #4





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430



Цитата(Solo... @ 15.10.2008 - 22:08) *
Я слышала, что этой формулой является дискриминантное уравнение. Но как его построить? В Экселе или в Статистике?

Вы совершенно правы, Solo. Эта задача - решается методами теории распознавания образов. Дискриминантный анализ - один из этих методов. Но он подходит только для данных, которые хорошо разделяются плоскостью. Т.е. линейно.
Для нелинейных данных - существует много других методов. Иностранное название их Data Mining. Слыхали?
Приходите на форум
http://azfor.ucoz.ru/
или пишите мне в личные сообщения.
Посмотрим Ваши данные.
smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Solo...
сообщение 7.12.2008 - 18:42
Сообщение #5





Группа: Пользователи
Сообщений: 35
Регистрация: 3.10.2008
Из: Москва
Пользователь №: 5369



Я побывала на вашем форуме. Но , если честно, не разобралась. Статистика и Эксель для расчетов как то роднее.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 7.12.2008 - 20:22
Сообщение #6





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Ну, во-первых создать на 100 больных формулу, которая бы реально работала вряд ли возможно. Про Data Mining можно спокойно забыть, поскольку и регрессионные деревья и нейронные сети (т.е. многофакторная нелинейная регрессия) требуют обучающей и модельной выборок, а у Вас будет по 50 человек в каждой, уже и простейшую модель не построить. Data Mining должен использоваться там, где он и зародился - в анализе бизнес-процессов на основании тысяч наблюдений.
Если Вы хотите строить предиктивную формулу все равно надо делить группы на подвыборки (т.е. по 50), поскольку иначе не проверить качества предсказания.
Все модели Вам смогут дать только формулу для данной популяции, при небольшом изменении априорной вероятности она начнет безбожно "врать".
Соответственно, прежде, чем делать "формулу" прочитайте, про те методы, которые Вам выше советовали (логистическую регрессию в особенности), затем познакомьтесь с теоремой Байеса (возьмите книги Власова и Флетчера), затем почитайте здесь на форуме ветки, где это уже разбиралось.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Анна_К
сообщение 8.12.2008 - 11:28
Сообщение #7





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430



Цитата(Solo... @ 7.12.2008 - 18:42) *
Я побывала на вашем форуме. Но , если честно, не разобралась. Статистика и Эксель для расчетов как то роднее.

Ну, там на форуме информации немного, а в помещенных статьях описание общее для большого числа методов. Для ясного понимания надо прочитать описание конкретного метода. Это можно сделать здесь:
http://azfor.narod.ru/datmin/datmin.htm
(правда мне уже присылали предупреждения про недопустимость ссылок, хотя не понятно, как без ссылок можно что-то вообще рассказать в интернете, разве что публикую тут все содержание страницы). Можно, конечно, и перенести сюда описание метода. Но попробуем пока традиционным способом - путем ссылки.
rolleyes.gif
Читайте дальше - мои ответы оппоненту наших методов. Он как раз возражает по привычному алгоритму. И очень дельные говорит вещи, с точки зрения непонимающего суть методов. Как говористя, "спасибо за вопрос".
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Анна_К
сообщение 8.12.2008 - 12:26
Сообщение #8





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430



Цитата(плав @ 7.12.2008 - 20:22) *
Ну, во-первых создать на 100 больных формулу, которая бы реально работала вряд ли возможно. Про Data Mining можно спокойно забыть, поскольку и регрессионные деревья и нейронные сети (т.е. многофакторная нелинейная регрессия) требуют обучающей и модельной выборок, а у Вас будет по 50 человек в каждой, уже и простейшую модель не построить. Data Mining должен использоваться там, где он и зародился - в анализе бизнес-процессов на основании тысяч наблюдений.

Data Mining с успехом используется более 20 лет в медико-биологических исследованиях именно на малых выборках. С его помощью создаются алгоритмы диагностики и прогнозирования. Известные Вам, и вошедшие в модные пакеты регрессионные деревья и нейронные сети - это вчерашний день Data MIning'a. Существует большое количество других методов, например:
Голосование по тупиковым тестам ?
Линейный дискриминант Фишера ?
Q ближайших соседей ?
Метод опорных векторов ?
Статистически взвешенные синдромы ?
Алгоритмы вычисления оценок ?
Линейная машина ?
Логические закономерности ?
Двумерные линейные разделители ?
Genesis-
Цитата(плав @ 7.12.2008 - 20:22) *
Если Вы хотите строить предиктивную формулу все равно надо делить группы на подвыборки (т.е. по 50), поскольку иначе не проверить качества предсказания.

Проверка эффективности формулы (на самом деле - это называется решающее правило) осуществляется с помощью скользящего контроля, когда каждый объект удаляется из выборки и позже распознается по созданному решающему правилу. Число правильно распознанных объектов выборки и характеризует эффективность решающего правила.
Цитата(плав @ 7.12.2008 - 20:22) *
Все модели Вам смогут дать только формулу для данной популяции, при небольшом изменении априорной вероятности она начнет безбожно "врать".

Это совершенно верно для нейронных сетей, генетических алгоритмов, включенных в настоящее время в стандартные статистические пакеты.
В описываемых мною методах верификация делается путем метода Монте-Карло (генерации большого числа таблиц и применения к ним решающего правила, при выявлении закономерностей не более, чем на 5 таких таблицах из 2000 считаем, что выявленная закономерность на реальных данных - не случайна).
Цитата(плав @ 7.12.2008 - 20:22) *
Соответственно, прежде, чем делать "формулу" прочитайте, про те методы, которые Вам выше советовали (логистическую регрессию в особенности), затем познакомьтесь с теоремой Байеса (возьмите книги Власова и Флетчера), затем почитайте здесь на форуме ветки, где это уже разбиралось.

Все это полезно для самообразования. А нам пришлите данные и мы на их примере покажем, как работают методы. smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Анна_К
сообщение 8.12.2008 - 12:30
Сообщение #9





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430



Для обсуждаемых данных, вероятно, подойдет метод СВС (статистически взвешенных синдромов):
http://azfor.narod.ru/datmin/rasp-ob.htm
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 8.12.2008 - 13:35
Сообщение #10





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Анна_К @ 8.12.2008 - 12:26) *
Data Mining с успехом используется более 20 лет в медико-биологических исследованиях именно на малых выборках. С его помощью создаются алгоритмы диагностики и прогнозирования. Известные Вам, и вошедшие в модные пакеты регрессионные деревья и нейронные сети - это вчерашний день Data MIning'a. Существует большое количество других методов, например:
Голосование по тупиковым тестам ?
Линейный дискриминант Фишера ?
Q ближайших соседей ?
Метод опорных векторов ?
Статистически взвешенные синдромы ?
Алгоритмы вычисления оценок ?
Линейная машина ?
Логические закономерности ?
Двумерные линейные разделители ?
Genesis-

Проверка эффективности формулы (на самом деле - это называется решающее правило) осуществляется с помощью скользящего контроля, когда каждый объект удаляется из выборки и позже распознается по созданному решающему правилу. Число правильно распознанных объектов выборки и характеризует эффективность решающего правила.

Это совершенно верно для нейронных сетей, генетических алгоритмов, включенных в настоящее время в стандартные статистические пакеты.
В описываемых мною методах верификация делается путем метода Монте-Карло (генерации большого числа таблиц и применения к ним решающего правила, при выявлении закономерностей не более, чем на 5 таких таблицах из 2000 считаем, что выявленная закономерность на реальных данных - не случайна).

Все это полезно для самообразования. А нам пришлите данные и мы на их примере покажем, как работают методы. smile.gif

Это тоже, повторяемые на протяжении последних 20 лет идеи, которые базируются на слабом понимании сути научного поиска в медицине (кстати, забыли самоорганизующиеся карты Кохонена и еще с десяток терминов).
Итак "верификация делается по методу Монте-Карло" или "скользящего контроля" (видимо, имеется ввиду jacknife). Все это очень здорово, но правило проверяется на той же выборке, что и создается. leave-one-out ничего не меняет. ОДНИ И ТЕ ЖЕ объекты используются для создания решающего правила и его проверки. Здорово! Иными словами, модель подгоняется под данные - модель будет прекрасно описывать имеющийся набор данных, но больше - ничего. Собственно говоря поэтому и существует требование проверки на тестовом наборе данных. Кстати, при помощи методов leave-one-out обычно проводится ПОСТРОЕНИЕ модели, а ее верификация проводится на другом наборе данных.
Далее - если бы речь шла о базе данных в несколько тысяч объектов - с чего и начинался data mining, то тогда да, можно предположить, что правило будет работать на популяции в целом. А тут 100 человек. Представьте себе ситуацию, у Вы создаете "решающее правило" на 10 пациентах с ИБС и АГ по выбору терапии. И у Вас не попался человек с недавним ИМ, как Вы (алгоритм) установит, что ему нельзя давать нифедипин, что тот вызывает выраженное падение АД? А? А ведь строится "решающее правило" звучит-то как серьезно! И сотня человек в этом отношении ничего не решит, поэтому методы data mining и находятся на периферии в медицине - нет данных для распознавания образов, теоретически не применимы методы.
Далее вопрос в связи с этим к Анне_К, а как Вы определяете выборочную ошибку? Какой используете показатель? Как формулируете альтернативные гипотезы?
Между прочим, реакция на упоминание теоремы Байеса просто демонстрирует незнакомство с реальностью диагностики в клинике (да, вобщем-то и истории статистики). Никакой метод Монте-Карло (т.е. повторного взятия выборок с повторами из имеющихся данных) не позволит Вам проанализировать ситуацию с иными априорными вероятностями заболевания в другой клинике - а ведь наука делается именно в расчете на воспроизводимость результата в других условиях.
Кстати, а как Вы планируете показать, что методы, которые Вы рекламируете "работают", выйдете в клинику и продемонстрируете, что на новой выборке "решающее правило" дает хорошие результаты, или пришлете набор цифр, которые показывают, что Ваши алгоритмы могут их выдавать? Второе не является доказательством "работы" алгоритма, это просто свидетельствует о том, что он может что-то выдать. Докажите, что результат воспроизводим и тогда будет основа для дискуссии.

Для остальных. (1) Никакая статистическая обработка не может компенсировать плохой дизайн исследования. Чудес на свете не бывает, если есть 100 больных не стоит пытаться перевернуть мир на небольшой выборке. (2) Задайте себе вопрос, почему, если методы хороши (работам Эфрона и Тибширани уже более 30 лет, работе Тьюки с его "исследовательским анализом данных" уже под 50), они не применяются широко при обработке результатов клинических испытаний (там просто заняты профессиональные статистики и есть большие деньги). Ответ прост - у них есть своя ниша, но они не панацея. Причем все, что было предложено другого - уже вошло в повседневный обиход (коробчатые графики Тьюки используются сплошь и рядом, так же, как и тест HSD). Наверное, и тут причина есть. Будет 10000 пациентов, тогда смело занимайтесь data mining, а со 100, формулируйте адекватную гипотезу а приори и проверяйет ее.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Анна_К
сообщение 8.12.2008 - 21:50
Сообщение #11





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430



Цитата(плав @ 8.12.2008 - 13:35) *
Это тоже, повторяемые на протяжении последних 20 лет идеи, которые базируются на слабом понимании сути научного поиска в медицине
Итак "верификация делается по методу Монте-Карло" или "скользящего контроля" (видимо, имеется ввиду jacknife). Все это очень здорово, но правило проверяется на той же выборке, что и создается. leave-one-out ничего не меняет. ОДНИ И ТЕ ЖЕ объекты используются для создания решающего правила и его проверки. Здорово! Иными словами, модель подгоняется под данные - модель будет прекрасно описывать имеющийся набор данных, но больше - ничего. Собственно говоря поэтому и существует требование проверки на тестовом наборе данных.

Вероятно, плав, речь идет о чистом контроле - на контрольной выборке.
Цитата(плав @ 8.12.2008 - 13:35) *
Кстати, при помощи методов leave-one-out обычно проводится ПОСТРОЕНИЕ модели, а ее верификация проводится на другом наборе данных.

Если данных много, то обычно какую-то часть оставляют на контроль, и она не участвует в построении решающего правила. Если число объектов 100, а число в каждой из сравниваемых групп должно быть НЕ МЕНЕЕ 30, то соответственно на контроль идет изрядная выборка в 40 объектов. На ней можно сделать вывод об эффективности полученного решающего правила. Скользящий контроль, конечно, дает гораздо лучший результат. Но! Если различия в группах нет, то распознавания просто не получится ни в том, ни в другом случае. Дальнейшее добавление объектов в обучающую выборку, естественно, может повлиять на то, как выглядит решающее правило, но вряд ли сильно.
Цитата(плав @ 8.12.2008 - 13:35) *
Далее - если бы речь шла о базе данных в несколько тысяч объектов - с чего и начинался data mining, то тогда да, можно предположить, что правило будет работать на популяции в целом. А тут 100 человек. Представьте себе ситуацию, у Вы создаете "решающее правило" на 10 пациентах .

Простите, сударь, не надо передергивать! Почему это на 10 объектах Вы начали что-то строить. Мы же говорим о выборке не менее 30! Думаю, ни один статистический подход не даст Вам гарантии на таком числе объектов.
Цитата(плав @ 8.12.2008 - 13:35) *
И сотня человек в этом отношении ничего не решит, поэтому методы data mining и находятся на периферии в медицине - нет данных для распознавания образов, теоретически не применимы методы.

Уверяю Вас, решит. И таких задач решено уже много. И алгоритмы работают на уровне диагностики выше, чем средний врач. И разваливаются алгоритмы только при использовании нейронных сетей и генетических алгоритмов, вшитых (без скользящего контроля) в стандартные пухлые пакеты из-зарубежа. Они-то и работают на подгонке, и после добавления новых объектов сыпятся, как карточный домик.
Цитата(плав @ 8.12.2008 - 13:35) *
Кстати, а как Вы планируете показать, что методы, которые Вы рекламируете "работают", выйдете в клинику и продемонстрируете, что на новой выборке "решающее правило" дает хорошие результаты, или пришлете набор цифр, которые показывают, что Ваши алгоритмы могут их выдавать? Второе не является доказательством "работы" алгоритма, это просто свидетельствует о том, что он может что-то выдать. Докажите, что результат воспроизводим и тогда будет основа для дискуссии.

Вы, наверное, не четко представляете, как работает скользящий контроль. Рассказываю: после того, как каждый объект распознается с помощью полученного решающего правила, мы считаем коэффициент корреляции между реальным номером группы каждого распознанного объекта и его функцией номера класса (полученной в результате распознавания). Полученный коэффициент корреляции и есть коэффициент эффективности распознавания. По нему судят о том, можно ли вообще строить на данной обучающей выборке алгоритм распознавания.
Проще всего на конкретных данных (хотя бы и данных Solo, если решится) провести параллельную работу по созданию решающего правила с нашей стороны и формулы, основанной на логистической регрессии или подходе Байеса - с Вашей.
Чем Вы рискуете, если ваши возражения не блеф?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 8.12.2008 - 22:25
Сообщение #12





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Анна_К @ 8.12.2008 - 21:50) *
Проще всего на конкретных данных (хотя бы и данных Solo, если решится) провести параллельную работу по созданию решающего правила

Анна, я Вас обожаю за Вашу смелость и ум))). В качестве проверки Вашего алгоритма, предлагаю вычленить больные генотипы отдельных генов (всего 3 гена) для 2-х выборок больные+контроль всего 78 человек. С помощью алгоритма кластеризации и хи-квадрат я нашел генотипы, значимо чаще встречающиеся у больных. Можете ли Вы своими суперметодами типа дата-мининг обнаружить генотипы - признаки болезни ??! Файл Excel с данными по генотипам в группе контроля и больных стенокардией прикреплен к данному сообщению. Всего 3 гена: A, B, C. Для каждого гена 2 аллеля: A1, A2 и т.д. Необходимо вычленить "плохие" сочетания аллелей по каждому из 3-х генов. Если объем выборки Вам кажется малым, я могу его увеличить...

Сообщение отредактировал DoctorStat - 8.12.2008 - 23:17
Прикрепленные файлы
Прикрепленный файл  Stenocardia.rar ( 3,5 килобайт ) Кол-во скачиваний: 519
 


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 8.12.2008 - 22:38
Сообщение #13





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Анна_К @ 8.12.2008 - 21:50) *
Простите, сударь, не надо передергивать! Почему это на 10 объектах Вы начали что-то строить. Мы же говорим о выборке не менее 30! Думаю, ни один статистический подход не даст Вам гарантии на таком числе объектов.

Уверяю Вас, решит. И таких задач решено уже много. И алгоритмы работают на уровне диагностики выше, чем средний врач. И разваливаются алгоритмы только при использовании нейронных сетей и генетических алгоритмов, вшитых (без скользящего контроля) в стандартные пухлые пакеты из-зарубежа. Они-то и работают на подгонке, и после добавления новых объектов сыпятся, как карточный домик.

Вы, наверное, не четко представляете, как работает скользящий контроль. Рассказываю: после того, как каждый объект распознается с помощью полученного решающего правила, мы считаем коэффициент корреляции между реальным номером группы каждого распознанного объекта и его функцией номера класса (полученной в результате распознавания). Полученный коэффициент корреляции и есть коэффициент эффективности распознавания. По нему судят о том, можно ли вообще строить на данной обучающей выборке алгоритм распознавания.
Проще всего на конкретных данных (хотя бы и данных Solo, если решится) провести параллельную работу по созданию решающего правила с нашей стороны и формулы, основанной на логистической регрессии или подходе Байеса - с Вашей.
Чем Вы рискуете, если ваши возражения не блеф?

1) Почему именно на 30 объектах. Будьте добры теоретическое обоснование.
2) Будьте добры - в общих чертах - теоретическое обоснование метода, а то из всех возражений этот кусок (особенно с достоверностями, он как раз базируется на знании классической статистики) был проигнорирован.
3) У Вас много публикаций, судя по сайту (не буду указывать на то, что там обилие тезисов) - приведите доказательства (проверку в рамках клинических испытаний) "алгоритмы работают на уровне диагностики выше, чем средний врач" и как эти доказательства были получены. Вы пишете, что "И таких задач решено уже много". Доказательства, пожалуйста (проверку на не связанной с первой выборкой - методологию и результаты). Зачем данные Solo, за логистическую регрессию - могу дать ссылку - работу конца 80х в "Кардиологии" по проверке такой функции сделанной Kannell на основе данных исследования во Фрамингеме (США). И знаете, работает, хотя функция получена в Америке 1960х, а проверена на российской популяции 1980х. Предсказывает. По поводу CART могу дать ссылки на работы (более 10 лет назад) по диагностике стенокардии с факторами риска в виде продуктов ПОЛ - относительно высокая точность (около 90%) классификации на совершенной иной популяции. А Вы можете такое же? Проверку на другой, не связанной с первой популяцией, другой группе больных.
4) Как Вы думаете, если я не представляю себе, как работает "скользящий контроль", почему я упоминаю leave-one-out?
5) Если Вы кому-то рекомендуете составлять диагностические алгоритмы на 30 пациентах, мне очень жаль пациентов, которые потом будут получать помощь от таких "разработчиков" и я сильно надеюсь, что в случае судебных исков за ненадлежащее врачевание в адрес "разработчиков" уйдет частное определение.
6) Вы не ошиблись насчет коэффициента корреляции как показателя точности распознавания? С квадратом коэффициента не перепутали? Или не понимаете о чем это я? И расскажите, как Вы считаете коэффициент корреляции между "реальным номером группы ... и его функцией номера класса". Какой коэффициент корреляции Вы считаете? Реальный номер группы он у Вас всегда ординальный? Или, не побоюсь этого слова, интервальный? Или? А если "реальный номер группы" 1 или 0 (т.е. болен - не болен), какой корреляционный коэффициент используете?
В целом сдается, что Вы думаете, что Ваши методы какое-то откровение, а не просто новояз окружающий комбинацию из хорошо известных регрессионных подхоов (пусть и нелинейной регрессии), кластерного и факторного анализов. Кстати, методы MCMC, на который Вы так часто ссылаетесь, как на новое слово, в классической статистике используются уже давно, да вообщем-то и методы с интенсивным использованием ЭВМ (bootstrap), тоже с повторными выборками, для оценки коэффициентов регрессии никто не отменял. Вообще-то на такой полемический задор смотреть смешно, ну, понятно, есть увлечения, но не стоит считать, что вокруг все лаптем щи хлебают, а тут "дао снизошло". Лучше посмотрите книги по Data Mining, не в Москве изданные, а там, где термин зародился, тут интересу ради просто повернулся и сборник под ред. Bozdogan'а посмотрел - штуки четыре статьи об использовании логистической регрессии в DM. А Вы о "нашей логистической регрессии".
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Анна_К
сообщение 9.12.2008 - 14:27
Сообщение #14





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430



Цитата(DoctorStat @ 8.12.2008 - 22:25) *
Анна, я Вас обожаю за Вашу смелость и ум))).
Спасибо, я Вас тоже уже почти люблю за смелость доверить нам свои данные. Сделаем все, что в наших силах.
Цитата(DoctorStat @ 8.12.2008 - 22:25) *
В качестве проверки Вашего алгоритма, предлагаю вычленить больные генотипы отдельных генов (всего 3 гена) для 2-х выборок ... Необходимо вычленить "плохие" сочетания аллелей по каждому из 3-х генов. Если объем выборки Вам кажется малым, я могу его увеличить...

Хорошо. Мы располагаем несколькими методами кластерного анализа. Можно посмотреть, какие варианты кластеров получатся. Выборку, конечно, лучше максимально увеличить. Оставить какую-то часть на контроль (не в смысле "здоровые", а в смысле контрольная группа с данными обеих выборок для оценки эффективности метода кластерного анализа).

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 9.12.2008 - 16:28
Сообщение #15





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Анна_К @ 9.12.2008 - 14:27) *
Спасибо, я Вас тоже уже почти люблю за смелость доверить нам свои данные.

Данные получены не мной, а одной московской клиникой. Все гены связаны к иммунной системой человека. Мне интересно сравнить, насколько Ваши результаты поиска больных генотипов будут отличаться от моих. Вопрос в том, чей алгоритм окажется лучше - мой (простой, как 5 копеек) или Ваш (продвинутый-дата-мининг)?
Цитата(Анна_К @ 9.12.2008 - 14:27) *
Выборку, конечно, лучше максимально увеличить.

Существенно увеличить объем выборки больных стенокардией я не могу. Могу только увеличить объем контрольной выборки, но она и так много больше выборки больных! Если Вы очень настаиваете на увеличении объема выборки, то я могу предоставить генотипические данные по другой болезни.

Сообщение отредактировал DoctorStat - 9.12.2008 - 17:02


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

6 страниц V   1 2 3 > » 
Добавить ответ в эту темуОткрыть тему