Цитата(comisora @ 26.05.2016 - 21:30)

Всем доброго времени суток.
Существуют два опросника. Результаты одного опросника X1 могут принимать значение от 1 до 100, результаты другого опросника X2 - от 57 до 285. Естественно, баллы относятся к порядковой шкале. Из них нужно сконструировать никому не нужный Y. Про Y известно только то, что при X1=100 и X2=285 должно получаться максимальное значение, например, 153, а при X1=100 и X2=285 должно получаться минимальное значение, например, 62. Я подумал в сторону режима unsupervised из randomUniformForest, но слабо представляю решение данной задачи. Прошу поделиться советом/соображениями/пакетами/примерами.
Мне одному кажется, что вопрос задан, мягко говоря "небрежно"? А небрежно заданный вопрос может расчитывать только на небрежный ответ. Ну да ладно. Попробуем разобраться.
Цитата(comisora @ 26.05.2016 - 21:30)

Про Y известно только то, что при X1=100 и X2=285 должно получаться максимальное значение, например, 153, а при X1=100 и X2=285 должно получаться минимальное значение, например, 62.
Это, простите, как? Автор не пробовал сам понять, что сие означает? Как при ОДИНАКОВЫХ значениях параметров Х в первом и втором случаях может получаться РАЗНЫЕ значения Y

???
Ну, предположим, автор "небрежно" ошибся и надо читать примерно так
"
при X1=100 и X2=285 должно получаться максимальное значение, например, 153, а при X1=1 и X2=57 должно получаться минимальное значение, например, 62. "
Сразу возникает вопрос, слова "например" в этой фразе что-то значат, или так, "прикручены" для красоты? В зависимости от ответа на эту "небрежность" получаем разные варианты ответа.
Если слова "например 153" и "например 62"в данном случае это "слова-паразиты", то автор очевидно хочет, что-бы при X
1=1 и X
2=57 получалось
минимальное возможное значение, а при X
1=100 и X
2=285 -
максимально возможное значение. Что мешает в таком случае применить элементарное отображение Y= X
1+X
2 ??
Получим 1+57=58 и меньшее значение Y не получиться ни при каких других значениях X
1 и X
2 и 100+285=385 и большего значения тоже не получить.
Если же автор имел ввиду, что минимальным возможным значением у него должно быть именно число 62, а максимальным - именно число 153 (т.е. те числа, которые фигурируют в фразе после требования минимальности/максимальности), то отображение может быть несколько другим,
НАПРИМЕР: Y = A*X
1 + B*X
2, где A=-1.65263, B=+1.116713.
Можно обсуждать, а корректно-ли выполнять указанное отображение для признаков, измеренных в ранговых шкалах. Но в таком случае, автор должен был как минимум указать, сколько градаций должен иметь признак Y. И в такой постановке, кстати, задача однозначного решения не имеет.
А вот причем здесь обучение без учителя и случайные деревья - вообще не понятно. О кластеризации можно что-то вразумительное говорить в контексте выборки и распределения ее значений, а не в терминах минимальных-максимальных значений шкал измерений признаков.
Цитата(comisora @ 26.05.2016 - 21:30)

Прошу поделиться советом/соображениями/пакетами/примерами.
Самый простой и очевидный пример - суммарная оценка выпускников школ по результатам внешнего независимого оценивания. От вашей задача отличается только количеством признаков и тем, что у школьников шкалы признаков (оценки по предметам) имеют одинаковые градации.
И- как обычно. Если хотите более аккуратных и точных советов - попробуйте свой вопрос переформулировать более точно и аккуратно.