![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 2.07.2020 Пользователь №: 39533 ![]() |
Добрый день.
Есть очень большая выборка для бинарной классификации. Нужно предсказать 2 класса(0/1) Есть огромная куча предикторов(независимых переменных), все они категориальные, и известно, что выборка содержит в себе несколько сегментов, в которых поведение предсказываемых классов будет существенно отличаться. Количество сегментов неизвестно. Как грамотно найти эти сегменты и поделить выборку для дальнейшего предсказания? Сообщение отредактировал smeilz - 7.07.2020 - 16:19 |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Ну вот, господа кластеризаторы и примкнувшие к ним нейросетевики )
А ларчик-то просто открывался: исследователь понимает, что на некоторых тестовых выборках прогноз будет неудовлетворительным. Отсюда все разговоры про заранее неизвестное число кластеров-сегментов в выборке, на которых "поведение классов будет..."В общем, что-то будет. В этой связи он желает выбросить все те наблюдения, которые искажают его картину мира. Сместив тем самым выборку и осознанно повысив переобученность модели. При этом напрочь забымши о том, что кросс-валидация модели основана на повторных выборках (выборках с возвращением). Действительно, а что еще делать, если ЭВМ показывает не то, что нужно? Главное в этой истории - потом гордо написать в резюме "работаю и на Питоне и на R". Smeilz, надеюсь вам понятно, что все, что вы делаете, - из серии "как не надо заниматься статистикой"? Только, чур, без обид. Сообщение отредактировал 100$ - 10.07.2020 - 18:47 |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 2.07.2020 Пользователь №: 39533 ![]() |
Ну вот, господа кластеризаторы и примкнувшие к ним нейросетевики ) А ларчик-то просто открывался: исследователь понимает, что на некоторых тестовых выборках прогноз будет неудовлетворительным. Отсюда все разговоры про заранее неизвестное число кластеров-сегментов в выборке, на которых "поведение классов будет..."В общем, что-то будет. В этой связи он желает выбросить все те наблюдения, которые искажают его картину мира. Сместив тем самым выборку и осознанно повысив переобученность модели. При этом напрочь забымши о том, что кросс-валидация модели основана на повторных выборках (выборках с возвращением). Действительно, а что еще делать, если ЭВМ показывает не то, что нужно? Главное в этой истории - потом гордо написать в резюме "работаю и на Питоне и на R". Smeilz, надеюсь вам понятно, что все, что вы делаете, - из серии "как не надо заниматься статистикой"? Только, чур, без обид. У меня нет резюме, и я занимаюсь этим для своего личного проекта. Хорошо, я специально ради Вас разобью выборку на 2-3 логических сегмента(я немного представляю откуда данные и как их можно разбить без математики), и попробую обучить каждый по-отдельности и потом доложу о результатах, и они могут Вас расстроить. =) Хотя возможно и расстроюсь я. =( P.S. Если что я не обидчивый, просто мне интересно искать истину в экспериментах, ну и учиться на своих ошибках. P.P.S У меня есть похожие данные из немного другой выборки, попробую посчитать точность прогноза на этих данных Сообщение отредактировал smeilz - 10.07.2020 - 21:58 |
|
![]() |
![]() |
![]()
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Хорошо, я специально ради Вас разобью выборку на 2-3 логических сегмента(я немного представляю откуда данные и как их можно разбить без математики), и попробую обучить каждый по-отдельности и потом доложу о результатах, и они могут Вас расстроить. =) А я в виде ответной любезности напоминаю, что когда вы получите на 2-3 стратах ансамбль классификаторов, прежде чем предъявлять его мне, не забудьте предварительно усредниться по ансамблю. Иначе я точно расстроюсь. "Я ухожу - легка моя дорога; Теперь пойду по новому пути. Таких, как вы, себе найду я много, Таких, как я, вам больше не найти" Народная песня. |
|
![]() |
![]() |
![]() ![]() |