Помогите выбрать граничное значение, Надо определить граничное значение флуоресценции здоровых тканей |
Здравствуйте, гость ( Вход | Регистрация )
Помогите выбрать граничное значение, Надо определить граничное значение флуоресценции здоровых тканей |
8.04.2014 - 15:12
Сообщение
#16
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Добрый день, я студентка медицинской физики, на данный момент пишу научную работу в которой проверяю новый метод диагностики рака шейки матки. Не буду вдаваться в подробности, скажу только что этот метод основан на измерении флуоресценции шейки матки,чем выше флуоресценция, тем выше уровень патологии. Во время исследований была измерена флуоресценция 80 здоровых тканей шейки матки и 80 больных тканей у разных пациенток. Значение флуоресценции здоровых тканей было от 0.03 до 17.92, среднее значение 2.96, стандартное отклонение 2.84, медиана: 1.93. Значение флуоресценции больных тканей было от 0.48 до 38.8, среднее значение 9.35, стандартное отклонение 9.18, медиана 5.9. Обе выборки ненормалные и их разница статистически разная. Вопрос: как статистически правильно выбрать граничное значение флуоресценцижи чтобы можно было сказать что если флуоресценции превышает это значение,то шейка матки имеет раковые изменения? А вот как красиво решаются подобные вещи в курсе эконометрики. 1. Если требуется получить осмысленный ответ на вопрос " А почему именно логит-модель?", то лучше оценить портфель моделей: а) логит; б) пробит; в) гомпит Научно :-) выбрать наилучшую (псевдо R^2, McFadden_R^2, информационные критерии: AIC, BIC, Hannan-Quinn) Далее шаманить с ROC-кривой. 2. Если не дает покоя изящная мысль дать этот порог (граничное значение) в виде интервала - то вот вам, пожалуйста, порядковая пробит модель (с.48 вложения). Подробности -во вложении (первые 98 с.). Это не просто интернетовский слив - эти вещи изданы в виде учебников и у Носко В.П. и у Айвазяна А.С.
Прикрепленные файлы
|
|
8.04.2014 - 17:46
Сообщение
#17
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Делюсь результатами:
1) ROC- анализ: площадь 0,792. чувствительность = специфичности =0,7 при пороге 3,63. 2) деревья классификации: порог 3,64. качество = процент корректных 70,6 . Как я и полагал , результаты идентичны. Сообщение отредактировал anserovtv - 9.04.2014 - 13:53
Прикрепленные файлы
дерево.bmp ( 360,22 килобайт )
Кол-во скачиваний: 709
качество_для_дерева.bmp ( 184,9 килобайт ) Кол-во скачиваний: 708 |
|
8.04.2014 - 18:47
Сообщение
#18
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Делюсь результатами: SPSS считает точнее чем ваши пакеты. Точнее, это площадь до третьего знака? Выбрать правильный порог должен исследователь, а не самый точный пакет. Дерево классификации с тем же порогом естественно даст тот же результат, что и ROC. Найдите во вложенном файле именно ваш порог и убедитесь в совпадающих значениях. Но это больше для автора вопроса, чтобы лучше понимать суть метода.
Прикрепленные файлы
|
|
8.04.2014 - 19:01
Сообщение
#19
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Нет. точность в равенстве порогов при данном подходе к выбору порога т.е. с помощью этого критерия.
В деревьях классификации порог выбирался автоматически. Сообщение отредактировал anserovtv - 8.04.2014 - 19:50 |
|
8.04.2014 - 20:51
Сообщение
#20
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Странные доказательства того, что наши программы не так точно считают, как SPSS.
Не хочется повторяться, что порог в ROC анализе выбирает исследователь, исходя из своих целей. Но математически оптимальным является то значение, при котором минимальна ошибка классификации. Так вот для данного набора данных оптимальный порог >4,11 (27,65% общих ошибок), а не >3,63 при которой ошибок больше (30,0%). Используя дерево, я вправе выбрать метод (CART), что даст мне тот же порог и тот же процент точности классификации. При этом, я использовала разные стат. программы. Никакой новой информации ваш углубленный метод для этих данных не дает. Именно ROC анализ дает возможность просмотреть все точки и настроить приемник на нужную волну |
|
8.04.2014 - 21:23
Сообщение
#21
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Странно, что у вас качество изменилось. Я и не искал оптимальное решение ни математически ни с других точек зрения . а взял один из стандартных критериев.
Глубокими я назвал методы, которые не использовал сам автор. Я и не утверждал . что деревья лучше, но они могут давать и в этом случае хороший результат. В некоторых случаях они проще в вычислительном плане, а результаты могут устроить исследователя. Сообщение отредактировал anserovtv - 9.04.2014 - 15:06 |
|
8.04.2014 - 22:09
Сообщение
#22
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Ничего странного, просто я показала вам, что классификация зависит от порога, а условия ветвления от выбранного вами метода. У вас видимо по умолчанию CHAID, у меня другой, я его изменила, получила другой результат. Мне метод нравится, я его использую, но не тогда, когда имеется только один предиктор.
|
|
8.04.2014 - 23:23
Сообщение
#23
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
|
|
9.04.2014 - 09:48
Сообщение
#24
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Да. я со всем согласен и все это понимаю.
Я и сам ранее не знал . что метод дер.кл. хорошо работает с такими данными , а пороги могут просто совпасть при некоторых настройках с некоторыми искомыми порогами при проведении стандартного ROC-анализа. Видимо . при желании эти связи можно понять или даже доказать. Сообщение отредактировал anserovtv - 9.04.2014 - 15:12 |
|
9.04.2014 - 18:41
Сообщение
#25
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 6.04.2014 Пользователь №: 26293 |
скажите, а если данные были бы спарены, то есть если брать значения флуоресценции раковых и здоровых тканей у той самой пациентки, то пороговое значение могу выбрать теми же методами?
|
|
10.04.2014 - 09:09
Сообщение
#26
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Вот и некоторые другие (наверное, дополнительные) результаты для тех же данных:
статистика Колмогорова-Смирнова 42. индекс Джини 58. Возможно, кого-то это заинтересует. Есть и новая информация. Сообщение отредактировал anserovtv - 11.04.2014 - 12:53
Прикрепленные файлы
Lift_кривая.bmp ( 1,5 мегабайт )
Кол-во скачиваний: 709
Lift_кривая_без_тестового_множества.bmp ( 1,39 мегабайт ) Кол-во скачиваний: 643 ROC__кривая_с_тестовым_множеством.bmp ( 1,36 мегабайт ) Кол-во скачиваний: 677 |
|
10.04.2014 - 21:02
Сообщение
#27
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
скажите, а если данные были бы спарены, то есть если брать значения флуоресценции раковых и здоровых тканей у той самой пациентки, то пороговое значение могу выбрать теми же методами? Методы да, но в них надо тогда загружать или отношение флюоресценции "здоровая ткань/ больная ткань" или разницу "здоровая - больная". Можно также попытаться загружать сразу два значения как две переменные (можно их + индексы). Надо смотреть на сами данные. |
|
11.04.2014 - 19:29
Сообщение
#28
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
скажите, а если данные были бы спарены, то есть если брать значения флуоресценции раковых и здоровых тканей у той самой пациентки, то пороговое значение могу выбрать теми же методами? Можно теми же. Тогда получается вы не учитываете завимый характер данных. С точки зрения методологии науки неучёт зависимого характера выборок - обычно просто неполное использование имеющейся информации. Если и этой неполной информации достаточно - хорошо, но нужно помнить, что её можно попробовать использовать по максимуму. Другое дело, что некоторые статистические методы жёстко требуют независимости, но у вас не этот случай (+ можно найти аналоги, которые этого требования не содержат, напрмер, рандомизационные процедуры). Если же вы хотите задействовать всю информацию, тогда нужно получить новый показатель - как предлагает р2004r. Возможно такой показатель будет обладать большей диагностической эффективностью, а возможно - нет. Проверить нужно, т.к. вы ничего не теряете, но можете приобрести. Соответственно, в последнем случае схему диагностики придётся менять: брать у пациента заведомо нормальный образец и параллельно - подозрительный на рак. Насколько это реально и/или оправдано должны решать вы, как специалист в своей области. Сообщение отредактировал nokh - 11.04.2014 - 19:37 |
|
12.04.2014 - 16:43
Сообщение
#29
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Olga_Zuk!
Почему бы вам не использовать в диагностике рака нейросетевой подход? Таких исследований именно раковых заболеваний как в России , так и за рубежом проводилось и проводится очень много. http://www.mednovosti.by/news.aspx?id=327 http://www.ssc.smr.ru/media/journals/izves...1_1615_1616.pdf http://ilab.xmedtest.net/?q=node/3390 Все исследования показали значительное повышение качества диагностики - до 90% и более. Значительно повышается специфичность. Возникающие при этом трудности преодолимы. Можно обрабатывать и изображения. а не только числа. Мои знакомые пишут подобные программы. Также можно создать интерактивный визуализатор для диагностики и (или) наблюдений за динамикой изменений. Я попробовал создать сети к вашим данным в среде пакетов: качество диагностики повысилось с 70% до 85 (сети Кохонена) или даже 96% (RBF). Меня волнует больше не ваша научная статья. а потенциально больные люди. Анатолий Серов г. Тверь Сообщение отредактировал anserovtv - 12.04.2014 - 20:38
Прикрепленные файлы
НС1.bmp ( 427,2 килобайт )
Кол-во скачиваний: 538
качество_НС.bmp ( 84,06 килобайт ) Кол-во скачиваний: 704 |
|
12.04.2014 - 19:51
Сообщение
#30
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Я попробовал создать сети к вашим данным в среде пакетов: качество диагностики повысилось с 70% до 85 или даже 96% За счет чего повысилось качество диагностики ? Учет какой новой информации позволил его повысить ?Просто включи мозги => http://doctorstat.narod.ru
|
|