Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )


Анна_К
Отправлено: 13.12.2008 - 20:05





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430


С файлом Stenocardia.xls разобрались. Но мне так и не ответили, почему файлы с тем же название под номерами 2 и 3 такие различные. Где же все-таки настоящие реальные данные по стенокардии?
  Форум: Медицинская статистика · Просмотр сообщения: #6391 · Ответов: 83 · Просмотров: 138827

Анна_К
Отправлено: 10.12.2008 - 23:21





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430


Цитата(DoctorStat @ 10.12.2008 - 20:32) *
Анна, Вы просили генотипические данные по 3-м генам для КАЖДОГО пациента. В моей базе данных таких пациентов в группе больных только 15 человек. В файле Stenocardia2.rar пациентов в группе стенокардия больше (гены А.В -24 чел., ген С - 15 чел.), но не все из них генотипированы по всем 3-м генам. Других данных у меня нет. Как говорится, чем богаты, тем и рады.

Да, с данными какая-то неразбериха.
Вот я совместила все три таблицы Stenocardia1-2-3:
ни одной нет одинаковой пары таблиц.
все три файла отличаются то по здоровым, то по больным, то по двум последним столбцам.
Меня вполне устраивает предложение DrLena - сравнивать по первому файлу. Если, конечно, выяснили, откуда он взялся...
Его перекодировку в бинарные мы уже сделали и получены предварительные результаты.
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #6346 · Ответов: 83 · Просмотров: 138827

Анна_К
Отправлено: 10.12.2008 - 20:23





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430


Цитата(DoctorStat @ 10.12.2008 - 17:03) *
Анна, специально для Вас сделал файл Excel по каждому пациенту отдельной строкой (см.приложенный файл Stenocardia3.rar). Извините, что ввел Вас в заблуждение неправильными данными. Но, как говорится, и на DoctorStat-а бывает проруха. Больных получилось всего 15 человек, здоровых 54 чел.

А где же обещанные 26 пациентов? Вы "специально для меня" отобрали только нераспознаваемые объекты?
Может все-таки найдутся все имеющиеся в наличии данные?
  Форум: Медицинская статистика · Просмотр сообщения: #6341 · Ответов: 83 · Просмотров: 138827

Анна_К
Отправлено: 10.12.2008 - 15:55





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430


Цитата(DrgLena @ 10.12.2008 - 15:25) *
Анна_К, мое решение построено не на количественных данных, а на частотном анализе, оно не может с вашим совпасть даже случайно. Т.е. вы предложите решение своими методами, уже зная, что аллели - не числа. И чтобы незначимость генов тоже была доказана. А что такое 1.5 или 3.5 что это за границы мне не ясно.

Ответ из разряда "это не может быть, потому что не может быть никогда". Тем не менее, если подумать: назывные (номинальные) признаки, характеризующие патологию, случайно по числам близки (1, 2, 3), остальные признаки (контрольная группа) выше границы 3,5. Что и отражено на рисунках. См. мой пост от Вчера, 18:41, Сообщение #17. Не забудьте заглянуть на красивые картинки. Когда я прочитала Ваш пост с результатами (кстати, куда он делся?), я была уверена, что Вы обсуждаете результаты, полученные мной.
Вопрос, почему наши (совпавшие) результаты не совпали с результатами DoctorStat?
Конечно, хотелось бы иметь данные по каждому пациенту - отдельной записью. Пусть и 26 - это ничего. И такую же контрольную группу (можно побольше объектов). Дело в том, что наши методы выявляют как раз сочетания информативных признаков. Следовательно для группы со стенокардией мы получим набор значимых аллелей и их генов.
Пронумеруйте, пожалуйста пациентов, чтобы можно было их обсуждать прицельно. После скользящего контроля.
  Форум: Медицинская статистика · Просмотр сообщения: #6335 · Ответов: 83 · Просмотров: 138827

Анна_К
Отправлено: 10.12.2008 - 15:14





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430


Цитата(плав @ 9.12.2008 - 22:44) *
3) Новое название не значит новый метод. Вы так и не пояснили обоснование Вашего метода "оптимального разделения", чем он отличается от всех остальных методов "неоптимального" разделения. Дело в том, что большинство т.н. новых методов не являются новыми, а являются модификацией старых, расширением их возможностей - например, кластерный анализ это дисперсионный анализ "наоборот", CART - модицикация регрессии, нейронные сети - множественная нелинейная регрессия и т.п.

Почитайте статьи, здесь нет смысла их воспроизводить. Естественно, что ничто на пустом месте не возникает. Все имеет своих идеологических предков. Но и растет из них, скрещивается, преобразуется, использует новые возможности техники?
Цитата(плав @ 9.12.2008 - 22:44) *
Отсутствие признания каких-то методов свидетельствует об их дефектах - почему-то по методам data mining в медицине было много публикаций в конце 80х-90х (когда много компьютеров стало), а затем все сошло на нет. Почему бы это? А вот логистическая регрессия живет...

Конкуренция, она и в Америке конкуренция. Вот например совсем недавняя история, как статья в зарубежный журнал не была принята, поскольку редакция затребовала работающий листинг программы (!!!!). При таком подходе вряд ли публикации вообще возможны.
Цитата(плав @ 9.12.2008 - 22:44) *
В целом, повторюсь, мне все понятно, тему закрывать не буду, но далее дискутировать и ходить по кругу смысла нет. Да, и проверьте Ваши ссылки, а то статья не находится и на фамилию автора сайт отвечает Match Not Found

Да, вот поправленная ссылка.
http://interstat.statjournals.net/YEAR/200...les/0604002.pdf - The Optimal Valid Partitioning Procedures. Senko Oleg V., Kuznetsova A.V.
Добавлю к той ссылке еще несколько:
http://www.springerlink.com/content/175687p6p487r033/ - The use of pattern recognition methods in tasks of biomedical diagnostics and forecasting. Yu.I. Zhuravlev, A.V. Kuznetsova, V.V. Ryazanov, O.V. Senkо, M.A. Botvin
http://azfor.ucoz.ru/_ld/0/5_2Vrach38-46.pdf - Возможности использования методов Data Mining при медико-лабораторных исследованиях. Журнал "Врач и Информационные Технологии"
http://azfor.ucoz.ru/load/4-1-0-6 - Прогноз динамики депрессивных синдромов, Журнал «Социальная и клиническая психиатрия». 2003, №4, с.18-24.
Буду благодарна за конструктивные критические замечания. Нам очень нужна обратная связь специалистов и позитивный диалог.
И не надо слишком цепляться к мелочам, я же не пеняю Вам на два пункта под номером 2. smile.gif
  Форум: Медицинская статистика · Просмотр сообщения: #6331 · Ответов: 83 · Просмотров: 138827

Анна_К
Отправлено: 10.12.2008 - 15:12





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430


Цитата(плав @ 9.12.2008 - 22:44) *
Ну вообщем-то все понятно.
1) Про 30 я не случайно спросил - общее место, после этого числа объектов стабилизируется выборочная дисперсия (точнее после 25-30 объектов), соответственно, речь идет об обычной статистике, так что отсутствие обоснованного ответа на этот вопрос уже о многом говорит. Так что "оправдало на практике" это веселое объяснение.

Я рада, что мы приближаемся к взаимопониманию. Если это, конечно, не иллюзия понимания. На самом деле, речь не идет об обычной статистике. Статистика отличается от DataMining'а как алгебра отличается от геометрии (стереометрии, гиперметрии). Вы используете формулы, средние, дисперсии, отклонения от среднего, оценки, ошибки? В ДМ (при использовании всех статистических достижений) строятся описания гипер-облаков, характеризующих группы объектов. Это описание может быть гиперкубом, гипер-эллипсоидом, сложной гипер-поверхностью. И точность распознавания зависит от того, насколько хорошо учтены все информативные признаки (измерения) и удалены все лишние неинформативные признаки (шум). И только практика свидетельствует об эффективности построенной модели. Сами помните из марксистской философии: «Практика - критерий истины», поэтому и нечего грустить.
Цитата(плав @ 9.12.2008 - 22:44) *
2) Насчет коэффициента корреляции я тоже спросил не случайно. Вообще-то его квадрат показывает процент дисперсии, который объясняет данная модель. С точки зрения предсказания коэффициент корреляции раный +1 и -1 одинаково хороши, просто во втором случае перепутали группы. Но Вы на этот подвох тоже не обратили внимания - и это говорит о многом.

В нашем подходе такой перевертыш исключается. Точность распознавания близка к нулю, если распознавание невозможно (все перемешано), или точность распознавания стремится к 1 (100% распознавание), если информативные признаки существуют. Еще лучше просто посчитать, сколько объектов при распознавании на скользящем контроле попало в свою родную группу, сколько попало в зону отказа (которая вычисляется в зависимости от числа объектов в группах), и сколько являются ошибками. При этом зону отказов можно учитывать или не учитывать. В ней мы просто не можем ничего сказать о принадлежности объекта к определенной группе.

Цитата(плав @ 9.12.2008 - 22:44) *
2) Насчет того, что Ваши методы лучше среднего врача, я вообще не понял. Итак нейронные сети дали 99% точности и Вы считаете это подгонкой. Ваши методы дали 85-90% и это прекрасно. Чего-то я логику не понял. Или методика была одна и тогда Ваши методы проиграли или же проверка опять была не проспективная, но а тогда и 99% и 85% подозрительны.

Речь о том же, что я писала выше: нейронные сети, построенные на данных, предварительно обработанных генетическими алгоритмами, это модель, точно описывающая именно те данные, которые пошли на обучение. Любое добавление объектов полностью перестраивает решающее правило, которое содержит очень большое число отобранных признаков. То есть этот подход неустойчив вследствие того, что число предполагаемых прогностических переменных очень велико. Цитата: «Поиск оптимального набора признаков путем максимизации функционала, характеризующего качество распознавания, неизбежно ведет к эффекту "overfitting" - сверхобучение, когда оценка точности распознавания на тех данных, которые использовались для обучения значительно завышается. Правильная оценка точности должна производится на абсолютно новых данных, которые ранее никак не использовались. Объем контрольной выборки должен быть достаточно большим для того, чтобы оценка точности распознавания была близка к настоящей точности». В данном случае скользящий контроль если и проводился, то при удалении объекта решающее правило не строили заново. Объект просто распознавали (при этом до того он участвовал в обучении алгоритма). В нашем случае при удалении объекта, заново строится решающее правило. То есть проверяемый объект не участвует в обучении. Кроме того, каждый признак, отобранный для решающего правила как информативный, проверяли методом Монте-Карло на значимость. В нейронных сетях этого естественно не делалали. У них получился набор из 30 признаков. В нашем случае информативными оказались только 11. Но каждый из них работал на распознавание. Такие методы, при работе в приемном покое будут хорошим подспорьем врачу. Тем более, что для них не нужны мощные машины с дорогущими лицензионными зарубежными пакетами. Нужно только ввести показатели 11 симптомов, получить результат распознавания и дальше делать вывод, соглашаться с ним или нет.

Цитата(плав @ 9.12.2008 - 22:44) *
Вы то ли не хотите, то ли не можете понять основного: (а) проверка метода на той же популяции, на которой строится модель порочна. Модель постоянно строится на одних и тех же данных, соответственно ее параметры будут одинаковыми.
... Иными словами, при таком подходе система не может учитывать редкие события - а частые события мозг человека будет учитывать значительно лучше. Нельзя одновременно уменьшить объем входящей информации и получить больше информации на выходе.

В медицине редко можно собрать слишком большие массивы данных. Их всегда - ограниченное число. И наши методы позволяют выявлять закономерности, которые не всегда видны невооруженным глазом. И при любой модели будут такие пациенты, которые не вписываются о «свою» группу. Любой хирург вам расскажет, что иногда выживают самые безнадежные больные, а благополучные (вроде бы) вдруг не выдерживают операции. Тоннельный эффект в медицине случается также часто как и в микромире, когда электрон оказывается там, где ему теоретически быть не положено.
А насчет уменьшения информации Вы абсолютны неправы! Как раз уменьшение шума дает возможность найти только информативные показатели, помогающие распознаванию.
  Форум: Медицинская статистика · Просмотр сообщения: #6330 · Ответов: 83 · Просмотров: 138827

Анна_К
Отправлено: 10.12.2008 - 15:09





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430


Цитата(DrgLena @ 10.12.2008 - 00:36) *
Так, наибольшая информативность относительно стенокардии обладает ген С, его генотип 1, 2, имеют только больные стенокардией, далее по убыванию 1, 1 тоже встречается только у больных стенокардией, 1,3 - у 3-х со стенокардией, но у одного - без стенокардии. ... Другие гены малоинформативны по сравнению с геном С и сделаны у других больных, поэтому сочетание самих генов и их аллелей проанализировать нельзя. Я в генетике слаба. Возможно, генотип С при рождении определен и не меняется, тогда можно прогнозировать развитие стенокардии к этому возрасту.

Но эти результаты совпадают с теми, которые я выявила нашими методами. Просто в данном случае для гена С значимые генотипы оказались близки по числовым значениям, поэтому и получилось так хорошо распознать, поставив границы 1.5 и 3.5 по аллелям А1 и А2 соответственно. Почему же вы не сказали, что результаты счета у меня и DoctorStat полностью совпали?
А для других генов еще надо доказать их неинформативность. Вдруг там значимые аллели имеют разбросанные значения и не поддаются такому простому разделению. Перевод этих данных в бинарный вид позволит доказать наличие или отсутствие их информативности.
Кстати, очень жаль, что не проверяется связь между генами (между собой) и патологией. Никто же не доказал, что этой связи нет. И если сбор информации проводили у всех пациентов, наши методы позволили бы дать ответ о наличии или отсутствии этой связи.
  Форум: Медицинская статистика · Просмотр сообщения: #6329 · Ответов: 83 · Просмотров: 138827

Анна_К
Отправлено: 9.12.2008 - 21:50





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430


Цитата(DoctorStat @ 9.12.2008 - 19:55) *
Прошу простить за напоминание, что номера аллелей, как 1-го, так и 2-го для каждого из 3-х генов, это не количественные и не ординальные (упорядочиваемые) переменные, а качественные (номинальные) признаки, которые нельзя упорядочить. Значит, метод оптимальных разбиений для этих переменных не подходит. В методе оптимальных разбиений проводится граница в области изменения переменных, сравниваются значения этих переменных с числами, а это НЕВЕРНО для качественных признаков, таких как номер аллеля какого-либо гена.

Прошу прощения в свою очередь, но Вы нигде не упоминали о том, что характер признаков номинальный. Можете убедиться сами:
///////////
В качестве проверки Вашего алгоритма, предлагаю вычленить больные генотипы отдельных генов (всего 3 гена) для 2-х выборок больные+контроль всего 78 человек. С помощью алгоритма кластеризации и хи-квадрат я нашел генотипы, значимо чаще встречающиеся у больных. Можете ли Вы своими суперметодами типа дата-мининг обнаружить генотипы - признаки болезни ??! Файл Excel с данными по генотипам в группе контроля и больных стенокардией прикреплен к данному сообщению. Всего 3 гена: A, B, C. Для каждого гена 2 аллеля: A1, A2 и т.д. Необходимо вычленить "плохие" сочетания аллелей по каждому из 3-х генов.
//////////
Поэтому я и анализировала числа, как числа. Если же это номинальные признаки, то надо их преобразовывать в бинарные. И тогда они опять станут информативными. То есть, если признак имеет значение от 1 до 8 (или до 17), то надо формировать 8 признаков со значением 1, если значение равно определенному числу, и 0, если не равно ему. Красивых картинок в этом случае не получится. Но результат будет скорее всего не менее красивый.

Еще: объясните, пожалуйста, в файле представлены две группы: у здоровых 136 записей, у больных - 24.
Как можно понять, какие данные относятся к упомянутым вами 78 пациентам? Желательно пометить их хотя бы номерами.
Конечно, из чистого любопытства хотелось бы знать, что означают числа в признаках. Легкий генетический ликбез, если не трудно...
В общем, главное - корректно поставленная задача. Дубль 2.
  Форум: Медицинская статистика · Просмотр сообщения: #6315 · Ответов: 83 · Просмотров: 138827

Анна_К
Отправлено: 9.12.2008 - 19:35





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430


Извините, plav, Вам отвечаю позже всех. Слишком много надо было писать.
Начну отвечать с конца. Там наиболее фундаментальные и общие возражения.
Цитата(плав @ 8.12.2008 - 22:38) *
В целом сдается, что Вы думаете, что Ваши методы какое-то откровение, а не просто новояз окружающий комбинацию из хорошо известных регрессионных подходов (пусть и нелинейной регрессии), кластерного и факторного анализов. Кстати, методы MCMC, на который Вы так часто ссылаетесь, как на новое слово, в классической статистике используются уже давно, да вообщем-то и методы с интенсивным использованием ЭВМ (bootstrap), тоже с повторными выборками, для оценки коэффициентов регрессии никто не отменял. Вообще-то на такой полемический задор смотреть смешно, ну, понятно, есть увлечения, но не стоит считать, что вокруг все лаптем щи хлебают, а тут "дао снизошло". Лучше посмотрите книги по Data Mining, не в Москве изданные, а там, где термин зародился, тут интересу ради просто повернулся и сборник под ред. Bozdogan'а посмотрел - штуки четыре статьи об использовании логистической регрессии в DM. А Вы о "нашей логистической регрессии".

Это, действительно, НЕ "новояз окружающий комбинацию из хорошо известных регрессионных подхоов"...! Методы существуют не 20 лет, а около 40 - с 70-х гг. прошлого столетия. Начиналось все с прогноза полезных ископаемых по пробам грунта.
Жизнь не стоит на месте. И теоретические методы, которые были сочинены давно, но не могли применяться в связи колоссальной трудоемкостью, теперь спокойно программируются и работают. 10 лет назад мы ждали результата счета сутками, сейчас на пентиуме4 = всего минут 20-30. Хотя при большом числе объектов и признаков (несколько сотен) счет все-таки приходится оставлять на ночь. Никто не унижает Ваши, plav, глубокие познания в статистике, просто захотелось рассказать о том, что создается у меня на глазах (в ВЦ РАН). У нас в России есть странная привычка "молиться" на зарубежье, и не замечать, пренебрегать достижениями наших ученых-математиков. Работа идет, и это, пожалуй, одна из немногих областей, где не нужны электронные микроскопы и дорогостоящие реактивы, поэтому лаборатории остаются и функционируют в полную силу. Короче, кроме "логистической регрессии", существуют разные подходы
Цитата(плав @ 8.12.2008 - 22:38) *
6) Вы не ошиблись насчет коэффициента корреляции как показателя точности распознавания? С квадратом коэффициента не перепутали? Или не понимаете о чем это я? И расскажите, как Вы считаете коэффициент корреляции между "реальным номером группы ... и его функцией номера класса". Какой коэффициент корреляции Вы считаете? Реальный номер группы он у Вас всегда ординальный? Или, не побоюсь этого слова, интервальный? Или? А если "реальный номер группы" 1 или 0 (т.е. болен - не болен), какой корреляционный коэффициент используете?

Это простой привычный коэффициент корреляции. Не перепутала. Понимаю. Формулу можно посмотреть в наших ранних публикациях. Реальный номер группы всегда натуральный: 1, 2, 3... Если группа 0, меняем ее на 2. rolleyes.gif И работаем как всегда.
Поймите, что мы ищем коэффициент корреляции не между номерами исследуемых групп, а между истинным номером группы и результатом его прогноза (после работы алгоритма распознавания).
Цитата(плав @ 8.12.2008 - 22:38) *
5) Если Вы кому-то рекомендуете составлять диагностические алгоритмы на 30 пациентах, мне очень жаль пациентов, которые потом будут получать помощь от таких "разработчиков" и я сильно надеюсь, что в случае судебных исков за ненадлежащее врачевание в адрес "разработчиков" уйдет частное определение.

Никогда диагноз не ставится на основе какого-либо компьютерного решения. Диагноз ставит врач. Вся ответственность лежит на нем. Компьютерные методы только рекомендуют, и их точность равна вероятности, с которой работает данный метод.
Цитата(плав @ 8.12.2008 - 22:38) *
4) Как Вы думаете, если я не представляю себе, как работает "скользящий контроль", почему я упоминаю leave-one-out?

На этот вопрос мой коллега (автор алгоритма оптимальных разбиений) ответил так:
«Вы не знаете термин ?скользящий контроль? !? Это абсолютно базовое понятие в современном прогнозировании. Прочитайте любую статью. Это вовсе не jackknife.
Leave-one-out ? частный случай скользящего контроля.
Смысл данного понятия именно в проверке точности прогноза. Выборка последовательно делится на подвыборки; обучающую и контрольную. На одной происходит обучение, на другой контроль. Процесс повторяется многократно. Где же здесь подгонка? Максимизация точности в режиме скользящий контроль действительно иногда производится путём манипулирования параметрами модели. Но это абсолютная ПРОФАНАЦИЯ метода. Вероятно, вы именно это имели в виду, когда писали: «при помощи методов leave-one-out обычно проводится ПОСТРОЕНИЕ модели». Результатам скользящего контроля в этом случае нельзя доверять. Кстати, вы можете с таким же успехом добиваться максимизации точности на контрольной выборке (другом наборе данных), меняя параметры модели».

Цитата(плав @ 8.12.2008 - 22:38) *
3) Как эти доказательства были получены.
И знаете, работает, хотя функция получена в Америке 1960х, а проверена на российской популяции 1980х. Предсказывает.
А Вы можете такое же? Проверку на другой, не связанной с первой популяцией, другой группе больных.

Доказательства, например, по распознаванию типа инсульта. В приемном покое врач с точностью 60% проводит дифференциальный диагноз между ишемическим и геморрагическим типами инсульта. Наше распознающее правило дало 85-90%. Нейронные сети с отладкой по генетическому алгоритму дали 99%, о чем и была защищена докторская диссертация. Но мы считаем, что это как раз и была подгонка. И наши результаты дающие не столь высокий результат ? намного устойчивее, и не боятся поступления в выборку новых данных.
Все голословные утверждения ничего не стоят, пока не будет проведено честное сравнение результатов распознавания.
Цитата(плав @ 8.12.2008 - 22:38) *
2) Будьте добры - в общих чертах - теоретическое обоснование метода, а то из всех возражений этот кусок (особенно с достоверностями, он как раз базируется на знании классической статистики) был проигнорирован.

Senko O.V., Kuznetsova A.V. The Optimal Valid Partitioning Procedures, Электронный рецензируемый журнал «InterStat», http://ip.statjournals.net:2002/InterStat/...les/0604002.pdf, http://interstat.statjournals.net/
Может быть, это Вам поможет.
Цитата(плав @ 8.12.2008 - 22:38) *
1) Почему именно на 30 объектах. Будьте добры теоретическое обоснование.

Просто так нас учили на кафедре математики на медико-биологическом факультете РГМУ (Бывшего II МОЛГМИ им. Н.И.Пирогова), отделении медицинская кибернетика. И это оправдало себя на практике. Хотя с меньшим числом объектов и приходилось работать, но мы всегда знали, что это первоначальный алгоритм, требующий пополнения выборки.

  Форум: Медицинская статистика · Просмотр сообщения: #6312 · Ответов: 83 · Просмотров: 138827

Анна_К
Отправлено: 9.12.2008 - 18:55





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430


Цитата(DrgLena @ 9.12.2008 - 18:25) *
Если уж наблюдать битву гигантов, то давайте вспомним, о чем шла речь в посте Solo, необходимо получить прогноз вероятности положительного результата лечения на конкретных данных. ... Т.о. можно будет увидеть альтернативу логистической регрессии. Поэтому, просьба к Solo, выложить данные, закодировав признаки, как угодно. Отклик - 0 ,1 и все остальные А,Б,С... Волонтеры займутся полезным делом.... Но Анна_К может ничего и не заработает, но привлечет внимание, т.е. получит бесплатную рекламу.

Спасибо, DrgLena, за поддержку. Ничего не имею против такого пиара. wink.gif Очень хочется, чтобы врачебно-аспирантская аудитория знала все возможности анализа данных.
Только группы лучше нумеровать 1 и 2.
Наши методы дают как раз прогноз вероятности, т.к. на скользящем контроле мы получаем какой-то процент правильного распознавания. Например, 88%. Это означает, что с такой вероятностью данное решающее правило относит конкретного пациенту в 1 или 2 группу.
Solo! А Вам интересно, кто победит в споре: логистическая регрессия (как достойный представитель data mining, правда в сильно зрелом возрасте) или альтернативные методы интеллектуального анализа данных (горячие, как пирожки из печки)?
  Форум: Медицинская статистика · Просмотр сообщения: #6311 · Ответов: 83 · Просмотров: 138827

Анна_К
Отправлено: 9.12.2008 - 18:41





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430


Цитата(DoctorStat @ 9.12.2008 - 16:28) *
Насколько Ваши результаты поиска больных генотипов будут отличаться от моих. Вопрос в том, чей алгоритм окажется лучше - мой (простой, как 5 копеек) или Ваш (продвинутый-дата-мининг)?

Предварительный счет методом оптимальных разбиений дал такой результат:
значимых для распознавания признаков только 2: C_A1 и C_A2.
Граница градации по C_A1 = 1,5, при этом ниже границы оказывается всего 2 наблюдения из контроля и 17 наблюдения - больных,
выше границы 52 наблюдения здоровых и 6 наблюдений больных.
Граница градации по C_A2 = 3,5 , соответственно ниже границы 2 здоровых/20 больных, выше границы 52 здоровых / 3 больных.
Таким образом, простейшее решающее правило: для больных характерны гены со значениями по C_A1<1,5 и по C_A2<3,5.
Коэффициент корреляции по распознаванию сделаю позже (программа в другом месте).
Цитата(DoctorStat @ 9.12.2008 - 16:28) *
Существенно увеличить объем выборки больных стенокардией я не могу. Могу только увеличить объем контрольной выборки, но она и так много больше выборки больных! Если Вы очень настаиваете на увеличении объема выборки, то я могу предоставить генотипические данные по другой болезни.

Присылайте, но только по данной задаче. Другая болезнь - это другая задача.
Я так и думала, что под контролем Вы будете считать только здоровую группу.
Я же писала в прошлом посте: контроль (для нас) - это объекты, не входившие ранее в обучающую выборку. smile.gif
Вот что значит привычка к определенному словарю.
Прикрепляю картины, которые делаются при работе метода оптимальных разбиений. Крестики - здоровые, нолики - стенокардия.
Наглядно видно преобладание одной группы ниже границы и другой группы - выше границы.
Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #6310 · Ответов: 83 · Просмотров: 138827

Анна_К
Отправлено: 9.12.2008 - 14:27





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430


Цитата(DoctorStat @ 8.12.2008 - 22:25) *
Анна, я Вас обожаю за Вашу смелость и ум))).
Спасибо, я Вас тоже уже почти люблю за смелость доверить нам свои данные. Сделаем все, что в наших силах.
Цитата(DoctorStat @ 8.12.2008 - 22:25) *
В качестве проверки Вашего алгоритма, предлагаю вычленить больные генотипы отдельных генов (всего 3 гена) для 2-х выборок ... Необходимо вычленить "плохие" сочетания аллелей по каждому из 3-х генов. Если объем выборки Вам кажется малым, я могу его увеличить...

Хорошо. Мы располагаем несколькими методами кластерного анализа. Можно посмотреть, какие варианты кластеров получатся. Выборку, конечно, лучше максимально увеличить. Оставить какую-то часть на контроль (не в смысле "здоровые", а в смысле контрольная группа с данными обеих выборок для оценки эффективности метода кластерного анализа).

  Форум: Медицинская статистика · Просмотр сообщения: #6307 · Ответов: 83 · Просмотров: 138827

Анна_К
Отправлено: 8.12.2008 - 21:50





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430


Цитата(плав @ 8.12.2008 - 13:35) *
Это тоже, повторяемые на протяжении последних 20 лет идеи, которые базируются на слабом понимании сути научного поиска в медицине
Итак "верификация делается по методу Монте-Карло" или "скользящего контроля" (видимо, имеется ввиду jacknife). Все это очень здорово, но правило проверяется на той же выборке, что и создается. leave-one-out ничего не меняет. ОДНИ И ТЕ ЖЕ объекты используются для создания решающего правила и его проверки. Здорово! Иными словами, модель подгоняется под данные - модель будет прекрасно описывать имеющийся набор данных, но больше - ничего. Собственно говоря поэтому и существует требование проверки на тестовом наборе данных.

Вероятно, плав, речь идет о чистом контроле - на контрольной выборке.
Цитата(плав @ 8.12.2008 - 13:35) *
Кстати, при помощи методов leave-one-out обычно проводится ПОСТРОЕНИЕ модели, а ее верификация проводится на другом наборе данных.

Если данных много, то обычно какую-то часть оставляют на контроль, и она не участвует в построении решающего правила. Если число объектов 100, а число в каждой из сравниваемых групп должно быть НЕ МЕНЕЕ 30, то соответственно на контроль идет изрядная выборка в 40 объектов. На ней можно сделать вывод об эффективности полученного решающего правила. Скользящий контроль, конечно, дает гораздо лучший результат. Но! Если различия в группах нет, то распознавания просто не получится ни в том, ни в другом случае. Дальнейшее добавление объектов в обучающую выборку, естественно, может повлиять на то, как выглядит решающее правило, но вряд ли сильно.
Цитата(плав @ 8.12.2008 - 13:35) *
Далее - если бы речь шла о базе данных в несколько тысяч объектов - с чего и начинался data mining, то тогда да, можно предположить, что правило будет работать на популяции в целом. А тут 100 человек. Представьте себе ситуацию, у Вы создаете "решающее правило" на 10 пациентах .

Простите, сударь, не надо передергивать! Почему это на 10 объектах Вы начали что-то строить. Мы же говорим о выборке не менее 30! Думаю, ни один статистический подход не даст Вам гарантии на таком числе объектов.
Цитата(плав @ 8.12.2008 - 13:35) *
И сотня человек в этом отношении ничего не решит, поэтому методы data mining и находятся на периферии в медицине - нет данных для распознавания образов, теоретически не применимы методы.

Уверяю Вас, решит. И таких задач решено уже много. И алгоритмы работают на уровне диагностики выше, чем средний врач. И разваливаются алгоритмы только при использовании нейронных сетей и генетических алгоритмов, вшитых (без скользящего контроля) в стандартные пухлые пакеты из-зарубежа. Они-то и работают на подгонке, и после добавления новых объектов сыпятся, как карточный домик.
Цитата(плав @ 8.12.2008 - 13:35) *
Кстати, а как Вы планируете показать, что методы, которые Вы рекламируете "работают", выйдете в клинику и продемонстрируете, что на новой выборке "решающее правило" дает хорошие результаты, или пришлете набор цифр, которые показывают, что Ваши алгоритмы могут их выдавать? Второе не является доказательством "работы" алгоритма, это просто свидетельствует о том, что он может что-то выдать. Докажите, что результат воспроизводим и тогда будет основа для дискуссии.

Вы, наверное, не четко представляете, как работает скользящий контроль. Рассказываю: после того, как каждый объект распознается с помощью полученного решающего правила, мы считаем коэффициент корреляции между реальным номером группы каждого распознанного объекта и его функцией номера класса (полученной в результате распознавания). Полученный коэффициент корреляции и есть коэффициент эффективности распознавания. По нему судят о том, можно ли вообще строить на данной обучающей выборке алгоритм распознавания.
Проще всего на конкретных данных (хотя бы и данных Solo, если решится) провести параллельную работу по созданию решающего правила с нашей стороны и формулы, основанной на логистической регрессии или подходе Байеса - с Вашей.
Чем Вы рискуете, если ваши возражения не блеф?
  Форум: Медицинская статистика · Просмотр сообщения: #6302 · Ответов: 83 · Просмотров: 138827

Анна_К
Отправлено: 8.12.2008 - 12:30





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430


Для обсуждаемых данных, вероятно, подойдет метод СВС (статистически взвешенных синдромов):
http://azfor.narod.ru/datmin/rasp-ob.htm
  Форум: Медицинская статистика · Просмотр сообщения: #6299 · Ответов: 83 · Просмотров: 138827

Анна_К
Отправлено: 8.12.2008 - 12:26





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430


Цитата(плав @ 7.12.2008 - 20:22) *
Ну, во-первых создать на 100 больных формулу, которая бы реально работала вряд ли возможно. Про Data Mining можно спокойно забыть, поскольку и регрессионные деревья и нейронные сети (т.е. многофакторная нелинейная регрессия) требуют обучающей и модельной выборок, а у Вас будет по 50 человек в каждой, уже и простейшую модель не построить. Data Mining должен использоваться там, где он и зародился - в анализе бизнес-процессов на основании тысяч наблюдений.

Data Mining с успехом используется более 20 лет в медико-биологических исследованиях именно на малых выборках. С его помощью создаются алгоритмы диагностики и прогнозирования. Известные Вам, и вошедшие в модные пакеты регрессионные деревья и нейронные сети - это вчерашний день Data MIning'a. Существует большое количество других методов, например:
Голосование по тупиковым тестам ?
Линейный дискриминант Фишера ?
Q ближайших соседей ?
Метод опорных векторов ?
Статистически взвешенные синдромы ?
Алгоритмы вычисления оценок ?
Линейная машина ?
Логические закономерности ?
Двумерные линейные разделители ?
Genesis-
Цитата(плав @ 7.12.2008 - 20:22) *
Если Вы хотите строить предиктивную формулу все равно надо делить группы на подвыборки (т.е. по 50), поскольку иначе не проверить качества предсказания.

Проверка эффективности формулы (на самом деле - это называется решающее правило) осуществляется с помощью скользящего контроля, когда каждый объект удаляется из выборки и позже распознается по созданному решающему правилу. Число правильно распознанных объектов выборки и характеризует эффективность решающего правила.
Цитата(плав @ 7.12.2008 - 20:22) *
Все модели Вам смогут дать только формулу для данной популяции, при небольшом изменении априорной вероятности она начнет безбожно "врать".

Это совершенно верно для нейронных сетей, генетических алгоритмов, включенных в настоящее время в стандартные статистические пакеты.
В описываемых мною методах верификация делается путем метода Монте-Карло (генерации большого числа таблиц и применения к ним решающего правила, при выявлении закономерностей не более, чем на 5 таких таблицах из 2000 считаем, что выявленная закономерность на реальных данных - не случайна).
Цитата(плав @ 7.12.2008 - 20:22) *
Соответственно, прежде, чем делать "формулу" прочитайте, про те методы, которые Вам выше советовали (логистическую регрессию в особенности), затем познакомьтесь с теоремой Байеса (возьмите книги Власова и Флетчера), затем почитайте здесь на форуме ветки, где это уже разбиралось.

Все это полезно для самообразования. А нам пришлите данные и мы на их примере покажем, как работают методы. smile.gif
  Форум: Медицинская статистика · Просмотр сообщения: #6298 · Ответов: 83 · Просмотров: 138827

Анна_К
Отправлено: 8.12.2008 - 11:28





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430


Цитата(Solo... @ 7.12.2008 - 18:42) *
Я побывала на вашем форуме. Но , если честно, не разобралась. Статистика и Эксель для расчетов как то роднее.

Ну, там на форуме информации немного, а в помещенных статьях описание общее для большого числа методов. Для ясного понимания надо прочитать описание конкретного метода. Это можно сделать здесь:
http://azfor.narod.ru/datmin/datmin.htm
(правда мне уже присылали предупреждения про недопустимость ссылок, хотя не понятно, как без ссылок можно что-то вообще рассказать в интернете, разве что публикую тут все содержание страницы). Можно, конечно, и перенести сюда описание метода. Но попробуем пока традиционным способом - путем ссылки.
rolleyes.gif
Читайте дальше - мои ответы оппоненту наших методов. Он как раз возражает по привычному алгоритму. И очень дельные говорит вещи, с точки зрения непонимающего суть методов. Как говористя, "спасибо за вопрос".
  Форум: Медицинская статистика · Просмотр сообщения: #6297 · Ответов: 83 · Просмотров: 138827

Анна_К
Отправлено: 23.10.2008 - 13:16





Группа: Пользователи
Сообщений: 18
Регистрация: 23.10.2008
Пользователь №: 5430


Цитата(Solo... @ 15.10.2008 - 22:08) *
Я слышала, что этой формулой является дискриминантное уравнение. Но как его построить? В Экселе или в Статистике?

Вы совершенно правы, Solo. Эта задача - решается методами теории распознавания образов. Дискриминантный анализ - один из этих методов. Но он подходит только для данных, которые хорошо разделяются плоскостью. Т.е. линейно.
Для нелинейных данных - существует много других методов. Иностранное название их Data Mining. Слыхали?
Приходите на форум
http://azfor.ucoz.ru/
или пишите мне в личные сообщения.
Посмотрим Ваши данные.
smile.gif
  Форум: Медицинская статистика · Просмотр сообщения: #5702 · Ответов: 83 · Просмотров: 138827


Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена