Помогите выбрать граничное значение - Форум врачей-аспирантов

Помогите выбрать граничное значение, Надо определить граничное значение флуоресценции здоровых тканей

100$ Просмотр профиля	8.04.2014 - 15:12 Сообщение #16
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(Olga_Zuk @ 7.04.2014 - 00:19) Добрый день, я студентка медицинской физики, на данный момент пишу научную работу в которой проверяю новый метод диагностики рака шейки матки. Не буду вдаваться в подробности, скажу только что этот метод основан на измерении флуоресценции шейки матки,чем выше флуоресценция, тем выше уровень патологии. Во время исследований была измерена флуоресценция 80 здоровых тканей шейки матки и 80 больных тканей у разных пациенток. Значение флуоресценции здоровых тканей было от 0.03 до 17.92, среднее значение 2.96, стандартное отклонение 2.84, медиана: 1.93. Значение флуоресценции больных тканей было от 0.48 до 38.8, среднее значение 9.35, стандартное отклонение 9.18, медиана 5.9. Обе выборки ненормалные и их разница статистически разная. Вопрос: как статистически правильно выбрать граничное значение флуоресценцижи чтобы можно было сказать что если флуоресценции превышает это значение,то шейка матки имеет раковые изменения? А вот как красиво решаются подобные вещи в курсе эконометрики. 1. Если требуется получить осмысленный ответ на вопрос " А почему именно логит-модель?", то лучше оценить портфель моделей: а) логит; б) пробит; в) гомпит Научно :-) выбрать наилучшую (псевдо R^2, McFadden_R^2, информационные критерии: AIC, BIC, Hannan-Quinn) Далее шаманить с ROC-кривой. 2. Если не дает покоя изящная мысль дать этот порог (граничное значение) в виде интервала - то вот вам, пожалуйста, порядковая пробит модель (с.48 вложения). Подробности -во вложении (первые 98 с.). Это не просто интернетовский слив - эти вещи изданы в виде учебников и у Носко В.П. и у Айвазяна А.С. Прикрепленные файлы Book.pdf ( 3,14 мегабайт ) Кол-во скачиваний: 909

anserovtv Просмотр профиля	8.04.2014 - 17:46 Сообщение #17
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927	Делюсь результатами: 1) ROC- анализ: площадь 0,792. чувствительность = специфичности =0,7 при пороге 3,63. 2) деревья классификации: порог 3,64. качество = процент корректных 70,6 . Как я и полагал , результаты идентичны. Сообщение отредактировал anserovtv - 9.04.2014 - 13:53 Прикрепленные файлы дерево.bmp ( 360,22 килобайт ) Кол-во скачиваний: 709 качество_для_дерева.bmp ( 184,9 килобайт ) Кол-во скачиваний: 708

DrgLena Просмотр профиля	8.04.2014 - 18:47 Сообщение #18
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Цитата(anserovtv @ 8.04.2014 - 17:46) Делюсь результатами: SPSS считает точнее чем ваши пакеты. Точнее, это площадь до третьего знака? Выбрать правильный порог должен исследователь, а не самый точный пакет. Дерево классификации с тем же порогом естественно даст тот же результат, что и ROC. Найдите во вложенном файле именно ваш порог и убедитесь в совпадающих значениях. Но это больше для автора вопроса, чтобы лучше понимать суть метода. Прикрепленные файлы fl.pdf ( 275,81 килобайт ) Кол-во скачиваний: 295

anserovtv Просмотр профиля	8.04.2014 - 19:01 Сообщение #19
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927	Нет. точность в равенстве порогов при данном подходе к выбору порога т.е. с помощью этого критерия. В деревьях классификации порог выбирался автоматически. Сообщение отредактировал anserovtv - 8.04.2014 - 19:50

DrgLena

8.04.2014 - 20:51

Сообщение #20

Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573

Странные доказательства того, что наши программы не так точно считают, как SPSS.
Не хочется повторяться, что порог в ROC анализе выбирает исследователь, исходя из своих целей. Но математически оптимальным является то значение, при котором минимальна ошибка классификации. Так вот для данного набора данных оптимальный порог >4,11 (27,65% общих ошибок), а не >3,63 при которой ошибок больше (30,0%).
Используя дерево, я вправе выбрать метод (CART), что даст мне тот же порог и тот же процент точности классификации. При этом, я использовала разные стат. программы.
Никакой новой информации ваш углубленный метод для этих данных не дает. Именно ROC анализ дает возможность просмотреть все точки и настроить приемник на нужную волну

Эскизы прикрепленных изображений

Ответить с цитированием данного сообщения

anserovtv Просмотр профиля	8.04.2014 - 21:23 Сообщение #21
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927	Странно, что у вас качество изменилось. Я и не искал оптимальное решение ни математически ни с других точек зрения . а взял один из стандартных критериев. Глубокими я назвал методы, которые не использовал сам автор. Я и не утверждал . что деревья лучше, но они могут давать и в этом случае хороший результат. В некоторых случаях они проще в вычислительном плане, а результаты могут устроить исследователя. Сообщение отредактировал anserovtv - 9.04.2014 - 15:06

DrgLena Просмотр профиля	8.04.2014 - 22:09 Сообщение #22
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Ничего странного, просто я показала вам, что классификация зависит от порога, а условия ветвления от выбранного вами метода. У вас видимо по умолчанию CHAID, у меня другой, я его изменила, получила другой результат. Мне метод нравится, я его использую, но не тогда, когда имеется только один предиктор.

p2004r

8.04.2014 - 23:23

Сообщение #23

Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699

Все уже украдено до нас

Эскизы прикрепленных изображений

http://r-statistics.livejournal.com/

anserovtv Просмотр профиля	9.04.2014 - 09:48 Сообщение #24
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927	Да. я со всем согласен и все это понимаю. Я и сам ранее не знал . что метод дер.кл. хорошо работает с такими данными , а пороги могут просто совпасть при некоторых настройках с некоторыми искомыми порогами при проведении стандартного ROC-анализа. Видимо . при желании эти связи можно понять или даже доказать. Сообщение отредактировал anserovtv - 9.04.2014 - 15:12

Olga_Zuk Просмотр профиля	9.04.2014 - 18:41 Сообщение #25
Группа: Пользователи Сообщений: 6 Регистрация: 6.04.2014 Пользователь №: 26293	скажите, а если данные были бы спарены, то есть если брать значения флуоресценции раковых и здоровых тканей у той самой пациентки, то пороговое значение могу выбрать теми же методами?

anserovtv Просмотр профиля	10.04.2014 - 09:09 Сообщение #26
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927	Вот и некоторые другие (наверное, дополнительные) результаты для тех же данных: статистика Колмогорова-Смирнова 42. индекс Джини 58. Возможно, кого-то это заинтересует. Есть и новая информация. Сообщение отредактировал anserovtv - 11.04.2014 - 12:53 Прикрепленные файлы Lift_кривая.bmp ( 1,5 мегабайт ) Кол-во скачиваний: 709 Lift_кривая_без_тестового_множества.bmp ( 1,39 мегабайт ) Кол-во скачиваний: 643 ROC__кривая_с_тестовым_множеством.bmp ( 1,36 мегабайт ) Кол-во скачиваний: 677

p2004r Просмотр профиля	10.04.2014 - 21:02 Сообщение #27
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(Olga_Zuk @ 9.04.2014 - 18:41) скажите, а если данные были бы спарены, то есть если брать значения флуоресценции раковых и здоровых тканей у той самой пациентки, то пороговое значение могу выбрать теми же методами? Методы да, но в них надо тогда загружать или отношение флюоресценции "здоровая ткань/ больная ткань" или разницу "здоровая - больная". Можно также попытаться загружать сразу два значения как две переменные (можно их + индексы). Надо смотреть на сами данные. http://r-statistics.livejournal.com/

nokh Просмотр профиля	11.04.2014 - 19:29 Сообщение #28
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Olga_Zuk @ 9.04.2014 - 21:41) скажите, а если данные были бы спарены, то есть если брать значения флуоресценции раковых и здоровых тканей у той самой пациентки, то пороговое значение могу выбрать теми же методами? Можно теми же. Тогда получается вы не учитываете завимый характер данных. С точки зрения методологии науки неучёт зависимого характера выборок - обычно просто неполное использование имеющейся информации. Если и этой неполной информации достаточно - хорошо, но нужно помнить, что её можно попробовать использовать по максимуму. Другое дело, что некоторые статистические методы жёстко требуют независимости, но у вас не этот случай (+ можно найти аналоги, которые этого требования не содержат, напрмер, рандомизационные процедуры). Если же вы хотите задействовать всю информацию, тогда нужно получить новый показатель - как предлагает р2004r. Возможно такой показатель будет обладать большей диагностической эффективностью, а возможно - нет. Проверить нужно, т.к. вы ничего не теряете, но можете приобрести. Соответственно, в последнем случае схему диагностики придётся менять: брать у пациента заведомо нормальный образец и параллельно - подозрительный на рак. Насколько это реально и/или оправдано должны решать вы, как специалист в своей области. Сообщение отредактировал nokh - 11.04.2014 - 19:37

anserovtv Просмотр профиля	12.04.2014 - 16:43 Сообщение #29
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927	Olga_Zuk! Почему бы вам не использовать в диагностике рака нейросетевой подход? Таких исследований именно раковых заболеваний как в России , так и за рубежом проводилось и проводится очень много. http://www.mednovosti.by/news.aspx?id=327 http://www.ssc.smr.ru/media/journals/izves...1_1615_1616.pdf http://ilab.xmedtest.net/?q=node/3390 Все исследования показали значительное повышение качества диагностики - до 90% и более. Значительно повышается специфичность. Возникающие при этом трудности преодолимы. Можно обрабатывать и изображения. а не только числа. Мои знакомые пишут подобные программы. Также можно создать интерактивный визуализатор для диагностики и (или) наблюдений за динамикой изменений. Я попробовал создать сети к вашим данным в среде пакетов: качество диагностики повысилось с 70% до 85 (сети Кохонена) или даже 96% (RBF). Меня волнует больше не ваша научная статья. а потенциально больные люди. Анатолий Серов г. Тверь Сообщение отредактировал anserovtv - 12.04.2014 - 20:38 Прикрепленные файлы НС1.bmp ( 427,2 килобайт ) Кол-во скачиваний: 538 качество_НС.bmp ( 84,06 килобайт ) Кол-во скачиваний: 704

DoctorStat Просмотр профиля	12.04.2014 - 19:51 Сообщение #30
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224	Цитата(anserovtv @ 12.04.2014 - 17:43) Я попробовал создать сети к вашим данным в среде пакетов: качество диагностики повысилось с 70% до 85 или даже 96% За счет чего повысилось качество диагностики ? Учет какой новой информации позволил его повысить ? Просто включи мозги => http://doctorstat.narod.ru

« Предыдущая тема · Медицинская статистика · Следующая тема »