Здравствуйте, гость ( Вход | Регистрация )
11.09.2008 - 18:08
Сообщение
#1
|
|
|
Группа: Пользователи Сообщений: 32 Регистрация: 23.02.2007 Пользователь №: 3956 |
Здравствуйте! Помогите, пожалуйста, разобраться в ситуации: расчитаны коэфициенты детерминации для некоторого набора показателей , которые влияют на результативный показатель ( например, на заболеваемость рабочих). При этом учтены все возможные показатели, которые могут на нее влиять: от солнечной радиации и приливов и отливов на Луне ( это для того чтобы была понятна суть вопроса) до физифеской нагрузки на производсвте, параметров микроклимата и т.п. Таким образом, полученные коэфициенты детерминации при суммировании не дают 100%. Теперь вопрос: если один из важных показателей, условия труда по которому по "Гигиенической классификации" можно оценить как вредные и опасные, (например, физическая нагрузка), составляет небольшой процент среди других, менее вредных показателей, можно ли сделать однозначный вывод, что он на самом деле не имеет влияния на заболеваемость?Спасибо заранее.
![]() Туся
|
|
|
![]() |
![]() |
![]() |
11.09.2008 - 21:12
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Еще дополню.
1. Коэффициенты детерминации (КД) и не должны в сумме давать 100%. Каждый КД оценивает качество только данной конкретной модели (зависимости) и никак не связан с другими. При этом сложность моделей может быть разной: она может включать один показатель (как в вашем случае), а может сразу несколько, может быть линейной, а может - нет. В любом случае делать вывод следует опираясь в первую очередь на статистическую значимость зависимости, а не на величину КД. Если объемы выборок для разных показателей были различны, то вполне возможна ситуация когда на большей выборке КД будет низким, но статистически значимым, а на меньшей - высоким, но незначимым. Поэтому, полагаю, сначала нужно выстроить показатели не по величине КД, а по значению Р для регрессии. 2. В вашей работе показателей было много, а чем их больше, тем выше вероятность, что какие-то модели могут оказаться статистически значимыми случайно. В таких случаях для коррекции P используют технику Бонферрони, лучше последовательную (sequential Bonferroni test). Т.о. слабые зависимости после учета факта большого числа сравнений могут также оказаться незначимыми. 3. Сравнение качества разных моделей между собой - отдельный и самостоятельный этап. Т.е. если для двух признаков получены статистически значимые регрессии и КД равны, скажем 65% и 80%, то второй признак кажется более существенным. Но это может быть и не так. На другой выборке ситуация может измениться на противоположную, а в целом может оказаться что эти 2 признака одинаково влияют на заболеваемость. Поэтому ранжирование показателей - это так, пристрелка. Чтобы определенно сказать, что одна модель лучше и данный признак влияет сильнее, нужно проводить соответствующее статистическое сравнение. Здесь можно использовать дисперсию ошибки для обеих регрессий и соответствующие им степени свободы. Разделив большую дисперсию на меньшую получим величину F-критерия, а далее найдем значение P. Если различие в качестве регрессий незначимо - нельзя сказать что соответствующие показатели отличаются по влиянию на заболевание. 4. Анализ изолированных показателей полезен, но в сочетаниях они могут усиливать или ослаблять друг друга. Поэтому важно анализировать также множественные модели с несколькими показателями одновременно. Простейший вариант - предположить линейность и использовать регрессию с пошаговым алгоритмом включения (исключения) показателей (forward (backward) stepwise). |
|
|
![]() |
![]() |
Ната Коэффициент детерминации 11.09.2008 - 18:08
плав Цитата(Ната @ 11.09.2008 - 19:08) Зд... 11.09.2008 - 20:42![]() ![]() |