Коэффициент детерминации |
Здравствуйте, гость ( Вход | Регистрация )
Коэффициент детерминации |
11.09.2008 - 18:08
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 32 Регистрация: 23.02.2007 Пользователь №: 3956 |
Здравствуйте! Помогите, пожалуйста, разобраться в ситуации: расчитаны коэфициенты детерминации для некоторого набора показателей , которые влияют на результативный показатель ( например, на заболеваемость рабочих). При этом учтены все возможные показатели, которые могут на нее влиять: от солнечной радиации и приливов и отливов на Луне ( это для того чтобы была понятна суть вопроса) до физифеской нагрузки на производсвте, параметров микроклимата и т.п. Таким образом, полученные коэфициенты детерминации при суммировании не дают 100%. Теперь вопрос: если один из важных показателей, условия труда по которому по "Гигиенической классификации" можно оценить как вредные и опасные, (например, физическая нагрузка), составляет небольшой процент среди других, менее вредных показателей, можно ли сделать однозначный вывод, что он на самом деле не имеет влияния на заболеваемость?Спасибо заранее.
Туся
|
|
11.09.2008 - 20:42
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Здравствуйте! Помогите, пожалуйста, разобраться в ситуации: расчитаны коэфициенты детерминации для некоторого набора показателей , которые влияют на результативный показатель ( например, на заболеваемость рабочих). При этом учтены все возможные показатели, которые могут на нее влиять: от солнечной радиации и приливов и отливов на Луне ( это для того чтобы была понятна суть вопроса) до физифеской нагрузки на производсвте, параметров микроклимата и т.п. Таким образом, полученные коэфициенты детерминации при суммировании не дают 100%. Теперь вопрос: если один из важных показателей, условия труда по которому по "Гигиенической классификации" можно оценить как вредные и опасные, (например, физическая нагрузка), составляет небольшой процент среди других, менее вредных показателей, можно ли сделать однозначный вывод, что он на самом деле не имеет влияния на заболеваемость?Спасибо заранее. Если краткий ответ, то нет. Небольшой процент не означает отсутствия действия (скажем он повышает заболеваемость на 1 на 10 000 рабочих, но повышает). Отсутствие действия определяется как показатель не отличимый от нуля. |
|
11.09.2008 - 21:12
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Еще дополню.
1. Коэффициенты детерминации (КД) и не должны в сумме давать 100%. Каждый КД оценивает качество только данной конкретной модели (зависимости) и никак не связан с другими. При этом сложность моделей может быть разной: она может включать один показатель (как в вашем случае), а может сразу несколько, может быть линейной, а может - нет. В любом случае делать вывод следует опираясь в первую очередь на статистическую значимость зависимости, а не на величину КД. Если объемы выборок для разных показателей были различны, то вполне возможна ситуация когда на большей выборке КД будет низким, но статистически значимым, а на меньшей - высоким, но незначимым. Поэтому, полагаю, сначала нужно выстроить показатели не по величине КД, а по значению Р для регрессии. 2. В вашей работе показателей было много, а чем их больше, тем выше вероятность, что какие-то модели могут оказаться статистически значимыми случайно. В таких случаях для коррекции P используют технику Бонферрони, лучше последовательную (sequential Bonferroni test). Т.о. слабые зависимости после учета факта большого числа сравнений могут также оказаться незначимыми. 3. Сравнение качества разных моделей между собой - отдельный и самостоятельный этап. Т.е. если для двух признаков получены статистически значимые регрессии и КД равны, скажем 65% и 80%, то второй признак кажется более существенным. Но это может быть и не так. На другой выборке ситуация может измениться на противоположную, а в целом может оказаться что эти 2 признака одинаково влияют на заболеваемость. Поэтому ранжирование показателей - это так, пристрелка. Чтобы определенно сказать, что одна модель лучше и данный признак влияет сильнее, нужно проводить соответствующее статистическое сравнение. Здесь можно использовать дисперсию ошибки для обеих регрессий и соответствующие им степени свободы. Разделив большую дисперсию на меньшую получим величину F-критерия, а далее найдем значение P. Если различие в качестве регрессий незначимо - нельзя сказать что соответствующие показатели отличаются по влиянию на заболевание. 4. Анализ изолированных показателей полезен, но в сочетаниях они могут усиливать или ослаблять друг друга. Поэтому важно анализировать также множественные модели с несколькими показателями одновременно. Простейший вариант - предположить линейность и использовать регрессию с пошаговым алгоритмом включения (исключения) показателей (forward (backward) stepwise). |
|