Импутация данных при машинном обучении

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

Импутация данных при машинном обучении

Опции

kont Просмотр профиля	17.08.2017 - 18:30 Сообщение #1
Группа: Пользователи Сообщений: 149 Регистрация: 11.02.2014 Пользователь №: 26005	Уважаемые форумчане, у меня такой вопрос. Любая предикативная модель строится на полных данных и предсказывает на полных данных. Например, мы строили модель на предикторах х1,х2,х3,х4,х5,х6 и предсказывали Y. Подсовываем модели валидационные данные(не тестовая выборка), но там, 2 переменных, например 1 и 3-ая в ряде наблюдений имеет или пустоту или нулы. На NULL понятно не умножить, а вот пустота может расценивать как 0 и можно получить неверное предсказание. Есть ли способы корректного импутирования данных? Во первых на треин семпл, они могут быть! Во вторых на треин семпл их может не быть и на тест семпл не быть,а вот на валидационной выборки еще как могут. Как бороться с пропусками в контексте такой ситуации?

p2004r Просмотр профиля	17.08.2017 - 19:31 Сообщение #2
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Так и называется "data imputacion". Вот например описание https://www.r-bloggers.com/imputing-missing...r-mice-package/ получаете варианты решения для выборки с пропущенными значениями, замещая их специально сгенеренными, затем обобщаете варианты решения в одно с доверительными интервалами которые естественно станут шире в местах де решение зависит от импутированных значений. По моему просто и понятно. http://r-statistics.livejournal.com/

kont Просмотр профиля	18.08.2017 - 17:20 Сообщение #3
Группа: Пользователи Сообщений: 149 Регистрация: 11.02.2014 Пользователь №: 26005	да там, понятно написано

kont

18.08.2017 - 18:47

Сообщение #4

Группа: Пользователи
Сообщений: 149
Регистрация: 11.02.2014
Пользователь №: 26005

p2004r, вопрос к Вам, как к активному пользователю, в каких случаях мы наблюдаем такое, тут ни одна из предложенных MLP не сработало правильно? Чтобы это значило, и как исправить?

Эскизы прикрепленных изображений

Прикрепленные файлы

mlp.zip ( 254,78 килобайт ) Кол-во скачиваний: 235

Ответить с цитированием данного сообщения

p2004r Просмотр профиля	18.08.2017 - 21:40 Сообщение #5
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(kont @ 18.08.2017 - 18:47) p2004r, вопрос к Вам, как к активному пользователю, в каких случаях мы наблюдаем такое, тут ни одна из предложенных MLP не сработало правильно? Чтобы это значило, и как исправить? это что, многослойный перцептрон и спецификация слоев? http://r-statistics.livejournal.com/

kont Просмотр профиля	19.08.2017 - 20:26 Сообщение #6
Группа: Пользователи Сообщений: 149 Регистрация: 11.02.2014 Пользователь №: 26005	скорее модели много слойного перцептрона, 4 наилучших входные нейроные-скрытые и выходные точность хреновая, как видите

p2004r Просмотр профиля	21.08.2017 - 15:39 Сообщение #7
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(kont @ 19.08.2017 - 20:26) скорее модели много слойного перцептрона, 4 наилучших входные нейроные-скрытые и выходные точность хреновая, как видите ну так оно так и не обучается гарантированно, там более сложная архитектура нужна сети http://r-statistics.livejournal.com/

kont Просмотр профиля	22.08.2017 - 16:07 Сообщение #8
Группа: Пользователи Сообщений: 149 Регистрация: 11.02.2014 Пользователь №: 26005	в сторону какой библиотечки лучше смотреть? Карет не устраивает.

« Предыдущая тема · Медицинская статистика · Следующая тема »

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум