![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
Как известно, ROC анализ может применяться как удобный способ оценки качества бинарной классификации (классификации на 2 класса). Например, логистической регрессии. Способ подробно изучен, имеется в пакетах программ и обычно не вызывает затруднений в интерпретации результатов.
Проблема возникает, когда метод применяется для классификации на количество классов больше 2-х. В таком случае стандартный прием - попарная классификация. Например, имеем стандартный набор данных, применяемый для проверки концепций и программ - ирисы Фишера. Каждый цветок описан 4-мя параметрами и на этой основе относится к одному из 3-х видов. Таким образом, можно сравнить 1-й вид со всеми остальными, 2-й со всеми остальными и 3-й со всеми остальными. Получаем 3 модели логистических регрессий (если используем данный метод), которые оцениваются 3-мя ROC кривыми (для каждого сравнения). Относительно результатов можно сделать определенные статистические выводы. Но как оценить качество классификации всего массива? Вводится понятие мультиклассового ROC анализа. Вот тут ссылка на подробное иллюстрированное (в т.ч. программным кодом) ВВЕДЕНИЕ (для лучшего чтения в браузере можно включить перевод). Способ заключается в том, что по одному из 2-х предложенных алгоритмов производится усреднение обычных попарных ROC кривых. В результате получается как бы ROC кривая для всего массива данных и всех классов. Непонятно одно - в каждом из попарных случаев модели разные. Т.е. некорректно утверждать, что модель осуществляет мультиклассовую классификацию, ибо для нашего примера имеются 3 разных (!) модели, каждая из которых с тем или иным качеством различает 2 класса (например, первая модель различает объекты на "1 класс" и "не 1 класс", и т.д.), как описано в предыдущем абзаце. Допустимо ли усреднять ROC кривые? Какие будут идеи? Сообщение отредактировал Игорь - 8.03.2025 - 15:48 ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 262 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632 ![]() |
программ - ирисы Фишера. Каждый цветок описан 4-мя параметрами и на этой основе относится к одному из 3-х видов. Утверждение в корне неверное. Цветок относится к одному из трех видов не на "этой основе", а по куда более глубоким таксономическим соображениям. Верно лишь то, что некоторые из этих параметров могут помочь в идентификации вида. Но не они предопределяют видовую принадлежность, а видовая принадлежность предопределяет их. |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
Утверждение в корне неверное. Цветок относится к одному из трех видов не на "этой основе", а по куда более глубоким таксономическим соображениям. Не стал бы относиться к конкретным обучающим данным и их упоминанию здесь как к публикации по ботанике.Верно лишь то, что некоторые из этих параметров могут помочь в идентификации вида. Именно это и требуется от данных для тестирования алгоритмов.Если "режет глаз" профессиональная точность формулировок, мешающая воспринимать, что эти данные используются лишь для того, чтобы за ними увидеть алгоритмы (именно по ним тема), можно назвать их как "Объект 1, 2, 3, ..., 150", "Параметр 1, 2, 3, 4", "Класс 1, 2, 3", предлагаю это сделать. В программах они примерно так и называются, а специалисты сами подставляют специфические термины. Сообщение отредактировал Игорь - 10.03.2025 - 14:35 ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]() ![]() |