![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 29 Регистрация: 10.02.2017 Пользователь №: 29307 ![]() |
Здравствуйте, проконсультируйте, пожалуйста. Надеюсь здесь кто-нибудь знает R.
1. Какое минимальное количество наблюдений нужно, чтобы построить нейросеть? У меня 7 независимых переменных и 3 зависимых (все метрические). Между ними надо найти закономерности. Регрессия не вариант. Что-то КМД слабый. 2. Дело в том, что я работаю на производстве, где добывать данные крайне сложно, вернее дорого, там по-минимуму наблюдений. У меня в наборе всего 5 наблюдений. Есть ли какие-то хитрые способы грамотно и математически обосновано сгенерировать наблюдения для переменных, а уже потом строить нейросеть на них. Спасибо всем за помощь. |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 29 Регистрация: 10.02.2017 Пользователь №: 29307 ![]() |
Коллеги, я стал работать с pls регрессией,
![]() plsr(formula = y1 + y2 + y3 + y4 ~ ., ncomp = 2, data = reg, method = "oscorespls", scale = TRUE, validation = "CV", segments = 9, segment.type = "consecutive", length.seg = 3) > summary(plsFit) Data: X dimension: 70 3 Y dimension: 70 1 Fit method: oscorespls Number of components considered: 2 VALIDATION: RMSEP Cross-validated using 24 consecutive segments. (Intercept) 1 comps 2 comps CV 17.15 8.794 8.082 adjCV 17.15 8.785 8.067 TRAINING: % variance explained 1 comps 2 comps X 78.12 94.41 y1 + y2 + y3 + y4 75.56 ![]() что значит CV и что значит adjCV какое вывод по этим цифрам я могу сделать? И что значит понятие компоненты в этой регрессии? nokh, вопрос к Вам, поскольку Вы прогали эту регрессию, возможно сможете дать небольшой ликбез. ![]() |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
nokh, а такой R^2 может быть вызван малым кол-вом наблюдений? Для других показателей число наблюдений также мало, но тем не менее этого числа хватило. Поэтому вряд-ли, хотя доказать этого пока нельзя. Вы находитесь в более выгодном положении, поскольку имеете не один набор данных, а много. Их анализ позволит уже более конкретно определиться с причиной. Возможно, какие-то показатели всегда "шумят" сильнее, например, в силу меньшей концентрации или влияния на них других факторов. Коллеги, я стал работать с pls регрессией, ![]() ... И что значит понятие компоненты в этой регрессии? nokh, вопрос к Вам, поскольку Вы прогали эту регрессию, возможно сможете дать небольшой ликбез. ![]() Про компоненты нужно почитать. Если не знакомы с PLS, то можно и даже проще начать с анализа главных компонент - это базовая техника для целого семейства методов. Если кратко, то не вся информация в наборе данных важна и/или отлична от случайного шума. Главные компоненты - ряд убывающих по важности (доле объясняемой дисперсии) новых переменных, скомбинированных из исходных переменных. Они обобщают данные и позволяют представить их в пространстве меньшей размерности, поэтому такие методы называют иногда методами редукции данных с обобщением. Работу методов типа анализа избыточности (RDA) можно представить себе так: одно гипероблако облако независимых переменных неподвижно, а второе гипероблако зависимых пременных поворачивается относительно первого так, чтобы такая проекция объяснила максимум дисперсии второго. Первая такая проекция и является первой компонентой. Далее ищется вторая, ортогональная первой, третья, ортогональная перым двум и т.д., но в выложенном вами наборе 2 и 3 ничтожно малы. PLS-регрессия - смещённый вариант RDA, с акцентом не на объяснение дисперсии, а на прогноз. К сожалению, не было времени разобраться с PLS в R, я тренировался с PLS в пакете tanagra ( http://eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra.html ), который уже был у меня установлен и для которого нашёл в сети понятную мне инструкцию. Как я писал выше, один пакет R мне не понравился и хотя часть вопросов ушла, моя "конфигурация" не позволила сделать прогноз, используя его выкладки на экране и калькулятор в руках, тогда как для tanagra - позволила и результат сошёлся с выдаваемыми пакетом прогнозными значениями. Опробую chemometrics - отпишусь. По поводу CV вам ответили. Кроссвалидация более популярна в Machine Learning, тогда как в традиционной прикладной статистике наработаны другие, включая чисто графические подходы. Я этим способом выявлять надёжные предикторы не пользуюсь, польскольку работаю обычно с небольшими наборами данных, а в них - всё не особо надёжно ![]() Сообщение отредактировал nokh - 12.03.2017 - 08:17 |
|
![]() |
![]() |
![]() ![]() |