Здравствуйте, гость ( Вход | Регистрация )
17.08.2017 - 18:30
Сообщение
#1
|
|
|
Группа: Пользователи Сообщений: 149 Регистрация: 11.02.2014 Пользователь №: 26005 |
Уважаемые форумчане, у меня такой вопрос. Любая предикативная модель строится на полных данных и предсказывает на полных данных. Например, мы строили модель на предикторах х1,х2,х3,х4,х5,х6 и предсказывали Y.
Подсовываем модели валидационные данные(не тестовая выборка), но там, 2 переменных, например 1 и 3-ая в ряде наблюдений имеет или пустоту или нулы. На NULL понятно не умножить, а вот пустота может расценивать как 0 и можно получить неверное предсказание. Есть ли способы корректного импутирования данных? Во первых на треин семпл, они могут быть! Во вторых на треин семпл их может не быть и на тест семпл не быть,а вот на валидационной выборки еще как могут. Как бороться с пропусками в контексте такой ситуации? |
|
|
![]() |
![]() |
![]() |
17.08.2017 - 19:31
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Так и называется "data imputacion".
Вот например описание https://www.r-bloggers.com/imputing-missing...r-mice-package/ получаете варианты решения для выборки с пропущенными значениями, замещая их специально сгенеренными, затем обобщаете варианты решения в одно с доверительными интервалами которые естественно станут шире в местах де решение зависит от импутированных значений. По моему просто и понятно. ![]() |
|
|
![]() |
![]() |
kont Импутация данных при машинном обучении 17.08.2017 - 18:30
kont да там, понятно написано 18.08.2017 - 17:20
kont p2004r, вопрос к Вам, как к активному пользователю... 18.08.2017 - 18:47
p2004r Цитата(kont @ 18.08.2017 - 18:47) p2... 18.08.2017 - 21:40
kont скорее модели много слойного перцептрона, 4 наилуч... 19.08.2017 - 20:26
p2004r Цитата(kont @ 19.08.2017 - 20:26) ск... 21.08.2017 - 15:39
kont в сторону какой библиотечки лучше смотреть? Карет ... 22.08.2017 - 16:07![]() ![]() |