Непараметрическая статистика, различия в результатах анализа по Фридмену и теста Уилкоксона |
Здравствуйте, гость ( Вход | Регистрация )
Непараметрическая статистика, различия в результатах анализа по Фридмену и теста Уилкоксона |
12.12.2009 - 21:43
Сообщение
#31
|
|
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284 |
гхм...
собственно, то, о чем я и писала. Сравнить две регрессии. Ковариационный анализ хорошо разработан на линейных моделях. У Pinus - параболы. где-то видела подход - значения вариант первой выборки (X1) подставляются во вторую модель регрессии (построенную по выборке X2). Считаются и анализируются резидуалы от X1 и X2 (по второй модели). по-моему критерий F=((RSS1)/d1)/(RSS2/d2) где RSS - сумма квадратов остатков (т.е. суммарное расстояние между модельными и выборочными данными) d- степени свободы. (пока не могу найти, пишу по памяти ) Возможно, кто-то найдет, вспомнив формулу. И естественно, если резидуалы "одинаковы" - это может говорить о том, что исходные данные из одной популяции. Аналогично, Х2 - в модель 1. ------ nokh пытается сначала "выпрямить", потом сравнить. Любое преобразование - это частично потеря информации. Но, проводя ее приходим к "стандартным" в плане обработки ситуациям. Тоже хорошо. Это не кованализ :)
|
|
13.12.2009 - 03:24
Сообщение
#32
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Последний бы раздел этой темы отсюда вырезать и поместить в новую тему "Ковариационный анализ". Да, потому что получилось, что вопрос не относится к непараметрическим методам.За ссылку большое спасибо, Nokh! И вообще за эту библиотеку, еще много полезного можно скачать, чего у меня не было. Данные подготовлю и выложу. На счет степенных функций не знаю. Речь идет, как Вы в принципе догадались о сосне (Pinus sylvestris это в общем-то не так далеко от Homo sapiens ), в частности об изменении параметров роста деревьев с возрастом в разных условиях урбосреды. Рост деревьев вообще принято аппроксимировать семейством S-образных кривых, часто используют функцию Вейбулла и кривые Пирсона. Но это тогда, когда рассматривается весь жизненный цикл (или большая его часть). В моем случае изучаемый возрастной интервал составляет 15-55 лет, и в нем есть только второй перегиб (замедление роста при переходе в стадию старения) или перегибов нет совсем. Поэтому во втором случае регрессию беру прямолинейную, а в первом параболу (судя по диаграмме рассеяния и значению R^2). Конечно, есть специальные методы выбора модели, но есть ли смысл в данном случае их использовать, если речь идет о куске функции роста? Может наверно подойти и степенная, не пробовал. Тут вот может быть ситуация, когда сравниваемые линии расходятся постепенно: при начальных значениях X линии идут очень близко, а к концу интервала значительно расходятся. Как в этом случае сравнивать? Или когда одна линия парабола, а у другой b2 незначим? |
|
13.12.2009 - 03:30
Сообщение
#33
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Green, возможно есть какие-то еще походы, если дадите ссылки на источники, был бы тоже очень благодарен.
|
|
13.12.2009 - 10:28
Сообщение
#34
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Есть такая книга. Толковая. McDonald, J.H. 2009. Handbook of Biological Statistics, 2nd ed. Sparky House Publishing, Baltimore, Maryland. В электронном виде (не download!) доступна свободно на сайте автора http://udel.edu/~mcdonald/statintro.html
Особенность книги в том, что для всех описанных методов автор сразу предлагает ПО - либо on-line, либо загружаемое (макросы Excel). Например, для ковариационного анализа см. страницу http://udel.edu/~mcdonald/statancova.html На ней ссылка http://faculty.vassar.edu/lowry/vsancova.html на бесплатное on-line ПО. Сообщение отредактировал Игорь - 13.12.2009 - 13:43 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
13.12.2009 - 14:31
Сообщение
#35
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Nokh, данные готовы, но форум не грузит файлы Excel. Их надо как-то специально преобразовывать?
Сообщение отредактировал Pinus - 13.12.2009 - 14:32 |
|
13.12.2009 - 15:03
Сообщение
#36
|
|
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284 |
Pinus,
Хорошо, что описали задачу. Теперь стало понятнее. Мне представляется, что сначала нужен анализ данных такого плана. 1. У вас, похоже, нет параболы в том виде, в котором ее принято представлять, а именно: при возрастании X ордината Y сначала уменьшается, потом растет. 2. У Вас только "половинка", которая более походит на логарифмическую. (часть S-образной кривой). Поэтому вам предлагают аппроксимацию зависимости логарифмической или степенной функцией. (Добавлю, что с S-образной кривой хорошо работает Harrington desirability function Z=exp(-exp(-y)) , где у - кусочно-линейная аппроксимация некоторой зависимости) 3. Подразумевалось, что деревья растут по разному (т.е. вычислялся индекс роста)? Мне кажется, нужно использовать какой-то кумулятивный показатель роста. 4. Поскольку используются наблюдения, связанные со временем, то возможно - это Кокс с ковариатой. Возможно Пуассон.... Т.е., нужно провести "разведочный анализ данных", посмотреть на них. Если покажите описание единиц измерения X и У - будет еще понятнее. Это не кованализ :)
|
|
13.12.2009 - 16:35
Сообщение
#37
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Вот, скажем, такой пример (шкалу X делать интервальной пока не стал). Исследуется зависимость высоты насаждения (Y) от возраста (X) в однорядных посадках (Z1) и парных посадках (Z2). Насаждения находятся в однородных условиях местопроизрастания. Требуется определить значимость влияния Z.
Прикрепленные файлы
|
|
13.12.2009 - 16:46
Сообщение
#38
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
У вас, похоже, нет параболы в том виде, в котором ее принято представлять, а именно: при возрастании X ордината Y сначала уменьшается, потом растет. Да, так.У Вас только "половинка", которая более походит на логарифмическую. (часть S-образной кривой). Поэтому вам предлагают аппроксимацию зависимости логарифмической или степенной функцией. Если облако загибается в начальных значениях X, то логарифмическая хорошо. Если в конечных значениях X, то лучше полином 2 степени. Это судя по диаграмме рассеяния, визуально. Может быть скажется и на проверке модели на адекватность (по повторностям).Подразумевалось, что деревья растут по разному (т.е. вычислялся индекс роста)? Мне кажется, нужно использовать какой-то кумулятивный показатель роста. Не понял вопроса. Различия могут быть в условиях роста и типе посадок, соответственно предполагаем, что Z оказывает влияние. Насколько оно значимо нужно выяснить. Если речь идет о различиях в росте при одинаковом возрасте (X) для одного и того же Z, то считаем, что они обусловлены случайной составляющей.Поскольку используются наблюдения, связанные со временем, то возможно - это Кокс с ковариатой. Возможно Пуассон.... Не могу судить. Знаю только, что это не временной ряд, потому что рассматривается не зависимость показателя роста (например, высоты) от возраста для одного и того же насаждения, а зависимость показателя от возраста по разным насаждениям.Если покажите описание единиц измерения X и У - будет еще понятнее. X измеряется в годах, Y например в метрах. |
|
13.12.2009 - 22:23
Сообщение
#39
|
|
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284 |
Pinus, я местами фантазировала, не имея достаточной информации.
Типа мысли вслух -может вы считали количество новых лапок за какой-то интервал времени:) Нет там Кокса, Пуассона. Увидела данные. Годы, метры, тип посадки (одномоментный срез). Посмотрю данные с разных сторон. Это не кованализ :)
|
|
14.12.2009 - 00:26
Сообщение
#40
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Увидела данные. На месте Z могут быть самые разные условия: плодородие почвы, класс атмосферного загрязнения, условия освещенности места и т.п. На месте Y также: диаметр ствола, диаметр кроны, объем кроны и пр. Подобные задачи могут возникать хоть где: и в биологии, и в медицине, и в сельском хозяйстве, и в любых других отраслях. На мой взгляд такой тип задач должен почти неизбежно сопровождать процесс регрессионного моделирования. Странно почему он слабо проработан на русском языке.Годы, метры, тип посадки (одномоментный срез). |
|
14.12.2009 - 00:32
Сообщение
#41
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
|
|
14.12.2009 - 08:24
Сообщение
#42
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Игорь, в очередной раз спасибо за ссылку. Вы не планируете включить ковариационный анализ в Attestate? Да, наверное, включу. Т.к. метод необходим пользователям. Часто возникают аналогичные задачи. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
14.12.2009 - 12:59
Сообщение
#43
|
|
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284 |
Pinus,
1. Я не вижу оснований для ковариационного анализа в представленных данных. Ковариата должна влять на зависимую и независимые переменные. рассмотрим Ваши: возраст влияет на рост, но не влияет на тип посадки. Тип посадки не влияет на возраст, возможно влияет на рост. Рост не влияет на тип и на возраст. Ковариации нет. 2. По поводу нормальности данных. Вы случайным образом выбираете образцы и снимаете с них некоторые показатели ( в данном случае пара возраст-рост). Нормально распределено у Вас кол-во деревьев разного возраста, что и означает репрезентативность выборки. А возраст -рост и не должны быть норм. распределены. 3. Переменной для изучения в представленных данных является тип посадки( группа), независимые переменные возраст и рост. Рост есть функция от возраста. Причем эта функция достаточно хорошо аппроксимируется прямой. В принципе я вижу такую постановку задачи - можно ли определить тип посадки, зная возраст и рост. Или спрогнозировать высоту, зная год и тип посадки ?...Это мои домыслы к конкретным данным, которые Вы дали. ( Кстати, индекс роста =высота/возраст - распределен нормально и не различается в группах. Еще немного покрутила данные по возрастам. До 22-23 лет они растут быстрее, потом медленнее - в обоих типах посадки, но значимого различия нет.) 4. Вы назвали еще несколько параметров - плодородие почвы, класс атмосферного загрязнения, условия освещенности места и т.п., а также диаметр ствола, диаметр кроны, объем кроны и пр. Я не знаток в биологии, ботанике. Что именно Вы хотите предсказывать по регрессионной модели ( которую хотите построить) ? Возможно, комбинация этих показателей даст различия в моделях. Но что именно изучается? (Продожение следует) Это не кованализ :)
|
|
14.12.2009 - 13:53
Сообщение
#44
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Вы назвали еще несколько параметров - плодородие почвы, класс атмосферного загрязнения, условия освещенности места и т.п., а также диаметр ствола, диаметр кроны, объем кроны и пр. Я не знаток в биологии, ботанике. Что именно Вы хотите предсказывать по регрессионной модели ( которую хотите построить) ? Возможно, комбинация этих показателей даст различия в моделях. Но что именно изучается? Я назвал эти варианты X и Y просто в качестве примера. По регрессионной модели хочу предсказывать Y (т.е. какой-либо параметр роста), задавая X (возраст). Другими словами какой высоты (например) будет насаждение в заданном возрасте. Но, по-моему это не имеет никакого значения. Для меня сейчас важно разобраться с теорией. Для этого вполне достаточно оперировать буквами X, Y и Z, зная какой тип переменных за ними стоит. А ботаника это или механика абсолютно без разницы. |
|
14.12.2009 - 14:24
Сообщение
#45
|
|
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284 |
Pinus,
Регрессия вам может позволить предсказывать Y в зависимости от (Х1, Х2, Х3....,Хn). На сегодняшний момент зависимость роста от возраста (Т.е. Y=f(X1) ) такова, что объясняет около 90% вариации. Дальнейшее улучшение модели (т.е. дополнительная параметризация, включение переменных Х2, Х3....,Хn) будет борьбой за оставшиеся 10%. Уточняющий вопрос в контексте Ваших слов ( "хочу предсказывать Y (т.е. какой-либо параметр роста), задавая X (возраст)") Вы хотите многомерную модель (несколько независимых переменных) или только одномерную (одна независимая переменная)? Сообщение отредактировал Green - 14.12.2009 - 14:26 Это не кованализ :)
|
|