Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Корректная корреляция
малой
сообщение 3.11.2015 - 16:34
Сообщение #1





Группа: Пользователи
Сообщений: 94
Регистрация: 18.06.2014
Пользователь №: 26469



Добрый день. Подскажите пожалуйста, как правильно будет ввести данные для выявления корреляции в следующем примере.

За период 1990-2010 годы совершается определённое количество краж, из них часть совершается рыжими женщинами (РЖ). Для установления корреляции между всеми кражами и кражами совершёнными РЖ нужно вводить в программу числовой ряд всех краж по годам (включая кражи совершённые РЖ) а в другой ряд кражи совершённые РЖ?

Или вводить в один ряд все кражи за вычетом краж совершённых РЖ а в другой ряд кражи совершённые только РЖ?


Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
nokh
сообщение 3.11.2015 - 21:56
Сообщение #2





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(малой @ 3.11.2015 - 18:34) *
Добрый день. Подскажите пожалуйста, как правильно будет ввести данные для выявления корреляции в следующем примере.

За период 1990-2010 годы совершается определённое количество краж, из них часть совершается рыжими женщинами (РЖ). Для установления корреляции между всеми кражами и кражами совершёнными РЖ нужно вводить в программу числовой ряд всех краж по годам (включая кражи совершённые РЖ) а в другой ряд кражи совершённые РЖ?

Или вводить в один ряд все кражи за вычетом краж совершённых РЖ а в другой ряд кражи совершённые только РЖ?

Непонятно что вы коррелируете и что хотите этим показать/доказать. Но в любом случае, нельзя коррелировать показатель (Х) с суммой, куда этот показатель входит частью (Х+У), т.к. в этом случае наличие ложной положительной связи гарантировано, а наличие статистической значимости при этом - это только вопрос объёма выборки.
То, что остальные группы свалены при таком подходе в кучу - очень плохо. Погуглите про парадокс Симпсона (парадокс объединений).
Но вот найдёте вы, допустим, что есть связь между числом краж РЖ и числом прочих краж, а о чём это скажет? О том, что есть годы с большим и с меньшим числом краж, и кражи РЖ примерно пропорциональны прочим. А не найдёте, это укажет на то, что кражи РЖ подчиняются какой-то непонятной иной закономерности. Короче, муть какая-то...

Мне представляется, что подход, который может извлечь, вероятно, полезную информацию: логлинейный анализ таблицы сопряжённости с тремя входами: год, пол, цвет волос. Проверив все взаимодействия можно остановиться на наиболее вероятной модели, построить соответствующую таблицу сопряжённости с меньшим числом входов и/или категорий внутри входов, а по ней уже посчитать отношения шансов или риски совершения краж какими-то группами относительно других или их (обоснованных) объединений. Корреляция - частный случай ассоциации, поэтому если важно получить результат не в терминах различий между группами по кражам, а в терминах связи краж с группами, то по той же итоговой таблице можно рассчитать коэффициенты ассоциации (Крамера, сопряжённости Пирсона, фи и пр).

Сообщение отредактировал nokh - 3.11.2015 - 22:28
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему