Здравствуйте, гость ( Вход | Регистрация )
7.07.2020 - 16:18
Сообщение
#1
|
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 2.07.2020 Пользователь №: 39533 |
Добрый день.
Есть очень большая выборка для бинарной классификации. Нужно предсказать 2 класса(0/1) Есть огромная куча предикторов(независимых переменных), все они категориальные, и известно, что выборка содержит в себе несколько сегментов, в которых поведение предсказываемых классов будет существенно отличаться. Количество сегментов неизвестно. Как грамотно найти эти сегменты и поделить выборку для дальнейшего предсказания? Сообщение отредактировал smeilz - 7.07.2020 - 16:19 |
|
|
![]() |
![]() |
![]() |
10.07.2020 - 18:32
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Ну вот, господа кластеризаторы и примкнувшие к ним нейросетевики )
А ларчик-то просто открывался: исследователь понимает, что на некоторых тестовых выборках прогноз будет неудовлетворительным. Отсюда все разговоры про заранее неизвестное число кластеров-сегментов в выборке, на которых "поведение классов будет..."В общем, что-то будет. В этой связи он желает выбросить все те наблюдения, которые искажают его картину мира. Сместив тем самым выборку и осознанно повысив переобученность модели. При этом напрочь забымши о том, что кросс-валидация модели основана на повторных выборках (выборках с возвращением). Действительно, а что еще делать, если ЭВМ показывает не то, что нужно? Главное в этой истории - потом гордо написать в резюме "работаю и на Питоне и на R". Smeilz, надеюсь вам понятно, что все, что вы делаете, - из серии "как не надо заниматься статистикой"? Только, чур, без обид. Сообщение отредактировал 100$ - 10.07.2020 - 18:47 |
|
|
![]() |
![]() |
10.07.2020 - 19:14
Сообщение
#3
|
|
|
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760 |
Ну вот, господа кластеризаторы и примкнувшие к ним нейросетевики ) А ларчик-то просто открывался: исследователь понимает, что на некоторых тестовых выборках прогноз будет неудовлетворительным. Отсюда все разговоры про заранее неизвестное число кластеров-сегментов в выборке, на которых "поведение классов будет..."В общем, что-то будет. В этой связи он желает выбросить все те наблюдения, которые искажают его картину мира. Сместив тем самым выборку и осознанно повысив переобученность модели. При этом напрочь забымши о том, что кросс-валидация модели основана на повторных выборках (выборках с возвращением). Я все же надеюсь, что целью было понять границы применимости модели и просто не использовать ее "в проде" (в какой-то системе поддержки принятия решений?) там, где нормальное качество получить не получается. Ну и accuracy 62% при том, что константное предсказание преобладающего класса дает 57% - это обычно очень плохо, в том числе с точки зрения калибровки и интерпретации предсказаний модели. ![]() |
|
|
![]() |
![]() |
smeilz Как грамотно поделить выборку на несколько сегментов перед предсказанием? 7.07.2020 - 16:18
ogurtsov Кластеризацию нужно сделать, а уж какую - тут мног... 7.07.2020 - 20:07
passant Уважаемый smeilz.
Что-то вы начинаете "путат... 8.07.2020 - 11:30
100$ ЦитатаКроме того, вы так и не пояснили, что означа... 8.07.2020 - 19:41
smeilz Цитата(passant @ 8.07.2020 - 11:30) ... 10.07.2020 - 15:09
ogurtsov Цитата(smeilz @ 10.07.2020 - 15:09) ... 10.07.2020 - 18:23
smeilz Цитата(ogurtsov @ 10.07.2020 - 18:23... 10.07.2020 - 22:23
100$ А мне очень интересно, как скоро в этой теме появ... 8.07.2020 - 18:42
ogurtsov Цитата(100$ @ 8.07.2020 - 18:42... 8.07.2020 - 19:05
passant Нет, коллеги. В данном случае - вы ошибаетесь. Это... 8.07.2020 - 21:31
100$ passant,
поскольку Андрей (Огурцов) ничего ошибо... 9.07.2020 - 00:17
passant Цитата(100$ @ 9.07.2020 - 00:17... 9.07.2020 - 10:55
nokh Цитата(smeilz @ 7.07.2020 - 18:18) Д... 9.07.2020 - 21:11
100$ Цитата(nokh @ 9.07.2020 - 21:11) Бол... 9.07.2020 - 21:50

nokh Цитата(100$ @ 9.07.2020 - 23:50... 10.07.2020 - 08:10

100$ Цитата(nokh @ 10.07.2020 - 08:10) Да... 10.07.2020 - 10:48
smeilz Цитата(nokh @ 9.07.2020 - 21:11) Ваш... 10.07.2020 - 15:13
comisora Всем добрый день.
Самая первая/последняя книга по... 10.07.2020 - 15:28

100$ Цитата(ogurtsov @ 10.07.2020 - 19:14... 10.07.2020 - 20:30

smeilz Цитата(ogurtsov @ 10.07.2020 - 19:14... 10.07.2020 - 21:57
smeilz Цитата(100$ @ 10.07.2020 - 18:3... 10.07.2020 - 21:53

100$ Цитата(smeilz @ 10.07.2020 - 21:53) ... 10.07.2020 - 22:56
smeilz Цитата(100$ @ 10.07.2020 - 18:3... 10.07.2020 - 22:42
passant Цитата(smeilz @ 10.07.2020 - 22:42) ... 10.07.2020 - 23:18![]() ![]() |