Здравствуйте, гость ( Вход | Регистрация )
16.03.2016 - 20:24
Сообщение
#1
|
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Подскажите, пожалуйста, есть ли какие-то алгоритмы для поиска закономерностей в данных типа:
а) Если А>2, то B<0,7 б) Если (A+B)<3,4, то (С+В)>4,6 1) Думаю, можно сначала найти корреляции, а затем попытаться найти такую точку дихотомизации одной переменной, чтобы достигалась максимальная чувствительность и специфичность по второй, в идеале 100%. Но ведь не вручную пороги перебирать. Может есть какие-то пакеты с такой функцией. Это бы подошло для а), но б) - слишком сложно. 2) Может есть готовые алгоритмы, действующие перебором c какой-нибудь с оптимизацией - типа Apriori. 3) Может ещё что-то? |
|
|
![]() |
![]() |
![]() |
21.03.2016 - 10:30
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
По моему это выглядит на коррелограмме как "пустой угол" в распределении. Код > A<- runif(1000) > B<- runif(1000) > indA <- A > 0.7 > indB <- B < 0.3 > plot(A[!(indA&indB)], B[!(indA&indB)]) Наличие связи между переменными это будет отягощать редкостью таких экстремальных сочетаний самих по себе. Пусть некая процедура генерирует выборки A,B с теми же статхарактеристиками и размером. На рассчитанную таким образом плотность распределения надо поделить экспериментальное (взвесить точки, приведя к унифомному распределению) и потом искать "пустые" углы, найденный "угол" бутстрепом проверять на случайность? Благодарю за помощь! По поводу проверки угла на случайность - сомневаюсь в целесообразности. Но ваша модель наглядно показала слабость моего "правила". Особенно если учесть, что углов не 1, а 4, ну или 3 - если минимальные значения прижимаются в одном углу к 0. Получается, что для обнаружения выбросов и подозрительных наблюдений большую пользу чем корреляция даст простое вычерчивание коридоров "минимум - максимум". В двумерном случае они сразу отсекут и углы и поля ниже/выше максимума, т.е. оставят прямоугольник возможных значений в центре. А если есть корреляция, то правило можно немного уточнить, прочертив в прямоугольнике дополнительный коридор возможных значений: например, как ДИ к RMA-регрессии (для линейной связи) или какому-нибудь сплайну. Возможно для обозначенной задачи нужен не непонятный филигранный Data mining, а именно такая жёсткая нарезка пространства на зоны возможного/маловероятного/невозможного/... Сообщение отредактировал nokh - 21.03.2016 - 10:35 |
|
|
![]() |
![]() |
nokh Алгоритмы поиска закономерностей 16.03.2016 - 20:24
ogurtsov Не совсем понятно, как собрать в кучу ассоциативны... 16.03.2016 - 21:20
nokh Цитата(ogurtsov @ 16.03.2016 - 23:20... 16.03.2016 - 21:43
ogurtsov Цитата(nokh @ 16.03.2016 - 21:43) Ap... 16.03.2016 - 22:01
nokh Цитата(ogurtsov @ 17.03.2016 - 00:01... 17.03.2016 - 09:39
p2004r Цитата(nokh @ 17.03.2016 - 09:39) Дл... 19.03.2016 - 21:52
p2004r Цитата(nokh @ 16.03.2016 - 20:24) По... 16.03.2016 - 22:32![]() ![]() |