Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Алгоритмы поиска закономерностей, в виде неравенств
nokh
сообщение 16.03.2016 - 20:24
Сообщение #1





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Подскажите, пожалуйста, есть ли какие-то алгоритмы для поиска закономерностей в данных типа:
а) Если А>2, то B<0,7
б) Если (A+B)<3,4, то (С+В)>4,6
1) Думаю, можно сначала найти корреляции, а затем попытаться найти такую точку дихотомизации одной переменной, чтобы достигалась максимальная чувствительность и специфичность по второй, в идеале 100%. Но ведь не вручную пороги перебирать. Может есть какие-то пакеты с такой функцией. Это бы подошло для а), но б) - слишком сложно.
2) Может есть готовые алгоритмы, действующие перебором c какой-нибудь с оптимизацией - типа Apriori.
3) Может ещё что-то?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
nokh
сообщение 21.03.2016 - 10:30
Сообщение #2





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(p2004r @ 19.03.2016 - 23:52) *
По моему это выглядит на коррелограмме как "пустой угол" в распределении.

Код
> A<- runif(1000)
> B<- runif(1000)
> indA <- A > 0.7
> indB <- B < 0.3
> plot(A[!(indA&indB)], B[!(indA&indB)])


Наличие связи между переменными это будет отягощать редкостью таких экстремальных сочетаний самих по себе.

Пусть некая процедура генерирует выборки A,B с теми же статхарактеристиками и размером. На рассчитанную таким образом плотность распределения надо поделить экспериментальное (взвесить точки, приведя к унифомному распределению) и потом искать "пустые" углы, найденный "угол" бутстрепом проверять на случайность?

Благодарю за помощь! По поводу проверки угла на случайность - сомневаюсь в целесообразности. Но ваша модель наглядно показала слабость моего "правила". Особенно если учесть, что углов не 1, а 4, ну или 3 - если минимальные значения прижимаются в одном углу к 0. Получается, что для обнаружения выбросов и подозрительных наблюдений большую пользу чем корреляция даст простое вычерчивание коридоров "минимум - максимум". В двумерном случае они сразу отсекут и углы и поля ниже/выше максимума, т.е. оставят прямоугольник возможных значений в центре. А если есть корреляция, то правило можно немного уточнить, прочертив в прямоугольнике дополнительный коридор возможных значений: например, как ДИ к RMA-регрессии (для линейной связи) или какому-нибудь сплайну. Возможно для обозначенной задачи нужен не непонятный филигранный Data mining, а именно такая жёсткая нарезка пространства на зоны возможного/маловероятного/невозможного/...

Сообщение отредактировал nokh - 21.03.2016 - 10:35
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему