Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Мультиклассовый ROC анализ, предложение вместе разобраться
Игорь
сообщение 8.03.2025 - 14:57
Сообщение #1





Группа: Пользователи
Сообщений: 1141
Регистрация: 10.04.2007
Пользователь №: 4040



Как известно, ROC анализ может применяться как удобный способ оценки качества бинарной классификации (классификации на 2 класса). Например, логистической регрессии. Способ подробно изучен, имеется в пакетах программ и обычно не вызывает затруднений в интерпретации результатов.

Проблема возникает, когда метод применяется для классификации на количество классов больше 2-х. В таком случае стандартный прием - попарная классификация. Например, имеем стандартный набор данных, применяемый для проверки концепций и программ - ирисы Фишера. Каждый цветок описан 4-мя параметрами и на этой основе относится к одному из 3-х видов. Таким образом, можно сравнить 1-й вид со всеми остальными, 2-й со всеми остальными и 3-й со всеми остальными. Получаем 3 модели логистических регрессий (если используем данный метод), которые оцениваются 3-мя ROC кривыми (для каждого сравнения). Относительно результатов можно сделать определенные статистические выводы.

Но как оценить качество классификации всего массива? Вводится понятие мультиклассового ROC анализа. Вот тут ссылка на подробное иллюстрированное (в т.ч. программным кодом) ВВЕДЕНИЕ (для лучшего чтения в браузере можно включить перевод). Способ заключается в том, что по одному из 2-х предложенных алгоритмов производится усреднение обычных попарных ROC кривых. В результате получается как бы ROC кривая для всего массива данных и всех классов. Непонятно одно - в каждом из попарных случаев модели разные. Т.е. некорректно утверждать, что модель осуществляет мультиклассовую классификацию, ибо для нашего примера имеются 3 разных (!) модели, каждая из которых с тем или иным качеством различает 2 класса (например, первая модель различает объекты на "1 класс" и "не 1 класс", и т.д.), как описано в предыдущем абзаце. Допустимо ли усреднять ROC кривые? Какие будут идеи?

Сообщение отредактировал Игорь - 8.03.2025 - 15:48


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
ИНО
сообщение 11.03.2025 - 00:29
Сообщение #2





Группа: Пользователи
Сообщений: 262
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Да нет, там не какие-то абстрактные группы, а три конкретных ботанических вида, один даже на языке вертится - Iris setosa - два других не помню уже. И далее уже, опираясь на морфометрию, пытаются их теми или иными способами разделить.

Что же касается непосредственно сабжа, то лично у меня главный вопрос: зачем? Я далек от позиции Фрэнка Харрела - неприменимого борца с ROC в качестве меры оценки качества подгонки моделей логистической регрессии, но конкретно в случае с мультиномиальной регресси "на кой бес вам этот стресс"? Это чисто гимнастика для ума, или же Вы действительно полагаете в данном случае AUC оптимальной мерой?

Сообщение отредактировал ИНО - 11.03.2025 - 00:30
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 11.03.2025 - 07:30
Сообщение #3





Группа: Пользователи
Сообщений: 1141
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(ИНО @ 11.03.2025 - 01:29) *
Что же касается непосредственно сабжа, то лично у меня главный вопрос: зачем? Я далек от позиции Фрэнка Харрела - неприменимого борца с ROC в качестве меры оценки качества подгонки моделей логистической регрессии, но конкретно в случае с мультиномиальной регресси "на кой бес вам этот стресс"? Это чисто гимнастика для ума, или же Вы действительно полагаете в данном случае AUC оптимальной мерой?
Да, была идея применить ROC для оценки качества классификации на число классов более 2, в том числе для нейронных сетей (но это не обязательно). Вообще, судя по публикациям, ROC часто используют в медицинских и фармакологических исследованиях. Обсуждать "зачем", наверное, в данном случае контрпродуктивно. Простейший ответ - потому что нужно пользователям нашего открытого, бесплатного и свободного ПО. Если конкретно, в данном случае человек на свою научную статью получил замечание рецензента, в котором тот предложил привести ROC кривую и дать точечную и интервальную оценку AUC. Давать людям непроверенный (возможно, непонятый) лично инструмент не считаю возможным. Поэтому решил посоветоваться с коллегами.
По поводу ссылки в первом сообщении темы - забыл отметить, что в первоисточнике не упоминается так называемый порог отсечения (cut-off threshold), т.е. число в интервале от 0 до 1, превышение которого моделью дает 1, а значение, меньшее порога, нуль. ROC - это не зависимость чувствительности от неспецифичности (1 - специфичность), а зависимость того и другого от порога отсечения. Порог отсечения как раз определяет оптимальные (либо, если угодно, требуемые исследователю) значения чувствительности и специфичности метода. И как быть, если разные не только модели, но и пороги отсечения (т.е. они могут браться как равномерно, скажем 1000 значений от 0 до 1, так и неравномерно в зависимости от результатов расчета)? Как учитываются данные параметры (в т.ч. значения, оптимальные или выбранные исследователем для каждой пары классов) при построении результирующей кривой, тоже не уточняется.

Сообщение отредактировал Игорь - 11.03.2025 - 08:38


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- Игорь   Мультиклассовый ROC анализ   8.03.2025 - 14:57
- - ИНО   Цитата(Игорь @ 8.03.2025 - 14:57) пр...   8.03.2025 - 20:48
|- - Игорь   Цитата(ИНО @ 8.03.2025 - 21:48) Утве...   10.03.2025 - 12:19
- - ИНО   Да нет, там не какие-то абстрактные группы, а три ...   11.03.2025 - 00:29
|- - Игорь   Цитата(ИНО @ 11.03.2025 - 01:29) Что...   11.03.2025 - 07:30
- - ИНО   Обычно оптимальный порог отсечения ищут по ROC-кри...   12.03.2025 - 18:47
|- - Игорь   Цитата(ИНО @ 12.03.2025 - 19:47) Пох...   14.03.2025 - 07:28
- - comisora   Всех приветствую. В тему не погружался. Но пару с...   14.03.2025 - 16:09
- - DoctorStat   Цитата(Игорь @ 8.03.2025 - 14:57) Пр...   14.03.2025 - 19:47
- - ИНО   Угу, придумать, как одним числом описать взаимоотн...   15.03.2025 - 04:05
|- - Игорь   Цитата(ИНО @ 15.03.2025 - 05:05) Угу...   15.03.2025 - 11:06
- - ИНО   Теоретически "качество распознавания между не...   15.03.2025 - 19:08
|- - DoctorStat   Цитата(ИНО @ 15.03.2025 - 19:08) И п...   15.03.2025 - 19:33
- - ИНО   Меня?   15.03.2025 - 19:50
|- - DoctorStat   Цитата(ИНО @ 15.03.2025 - 19:50) Мен...   16.03.2025 - 10:39
|- - Игорь   Проанализировал присланные коллегами материалы. Ду...   17.03.2025 - 08:52
|- - ИНО   Цитата(DoctorStat @ 16.03.2025 - 10...   17.03.2025 - 13:48
- - Игорь   Проанализировал материалы еще раз. В том числе нау...   21.03.2025 - 08:32


Добавить ответ в эту темуОткрыть тему