Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Импутация данных при машинном обучении
kont
сообщение 17.08.2017 - 18:30
Сообщение #1





Группа: Пользователи
Сообщений: 149
Регистрация: 11.02.2014
Пользователь №: 26005



Уважаемые форумчане, у меня такой вопрос. Любая предикативная модель строится на полных данных и предсказывает на полных данных. Например, мы строили модель на предикторах х1,х2,х3,х4,х5,х6 и предсказывали Y.
Подсовываем модели валидационные данные(не тестовая выборка), но там, 2 переменных, например 1 и 3-ая в ряде наблюдений имеет или пустоту или нулы. На NULL понятно не умножить, а вот пустота может расценивать как 0 и можно получить неверное предсказание.
Есть ли способы корректного импутирования данных?
Во первых на треин семпл, они могут быть!
Во вторых на треин семпл их может не быть и на тест семпл не быть,а вот на валидационной выборки еще как могут.
Как бороться с пропусками в контексте такой ситуации?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему