Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

13 страниц V  < 1 2 3 4 5 > »   
Добавить ответ в эту темуОткрыть тему
> Непараметрическая статистика, различия в результатах анализа по Фридмену и теста Уилкоксона
Green
сообщение 12.12.2009 - 21:43
Сообщение #31





Группа: Пользователи
Сообщений: 120
Регистрация: 27.08.2009
Пользователь №: 6284



гхм...
собственно, то, о чем я и писала. Сравнить две регрессии.
Ковариационный анализ хорошо разработан на линейных моделях.
У Pinus - параболы.

где-то видела подход - значения вариант первой выборки (X1) подставляются во вторую модель регрессии (построенную по выборке X2).
Считаются и анализируются резидуалы от X1 и X2 (по второй модели).

по-моему критерий F=((RSS1)/d1)/(RSS2/d2)
где RSS - сумма квадратов остатков (т.е. суммарное расстояние между модельными и выборочными данными)
d- степени свободы.
(пока не могу найти, пишу по памяти frown.gif) Возможно, кто-то найдет, вспомнив формулу.
И естественно, если резидуалы "одинаковы" - это может говорить о том, что исходные данные из одной популяции.
Аналогично, Х2 - в модель 1.

------
nokh пытается сначала "выпрямить", потом сравнить. Любое преобразование - это частично потеря информации. Но, проводя ее приходим к "стандартным" в плане обработки ситуациям. Тоже хорошо.



Signature
Это не кованализ :)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 13.12.2009 - 03:24
Сообщение #32





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(nokh @ 12.12.2009 - 14:37) *
Последний бы раздел этой темы отсюда вырезать и поместить в новую тему "Ковариационный анализ".
Да, потому что получилось, что вопрос не относится к непараметрическим методам.

За ссылку большое спасибо, Nokh! И вообще за эту библиотеку, еще много полезного можно скачать, чего у меня не было.
Данные подготовлю и выложу.
На счет степенных функций не знаю. Речь идет, как Вы в принципе догадались о сосне (Pinus sylvestris это в общем-то не так далеко от Homo sapiens smile.gif ), в частности об изменении параметров роста деревьев с возрастом в разных условиях урбосреды. Рост деревьев вообще принято аппроксимировать семейством S-образных кривых, часто используют функцию Вейбулла и кривые Пирсона. Но это тогда, когда рассматривается весь жизненный цикл (или большая его часть). В моем случае изучаемый возрастной интервал составляет 15-55 лет, и в нем есть только второй перегиб (замедление роста при переходе в стадию старения) или перегибов нет совсем. Поэтому во втором случае регрессию беру прямолинейную, а в первом параболу (судя по диаграмме рассеяния и значению R^2). Конечно, есть специальные методы выбора модели, но есть ли смысл в данном случае их использовать, если речь идет о куске функции роста? Может наверно подойти и степенная, не пробовал.
Тут вот может быть ситуация, когда сравниваемые линии расходятся постепенно: при начальных значениях X линии идут очень близко, а к концу интервала значительно расходятся. Как в этом случае сравнивать? Или когда одна линия парабола, а у другой b2 незначим?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 13.12.2009 - 03:30
Сообщение #33





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Green, возможно есть какие-то еще походы, если дадите ссылки на источники, был бы тоже очень благодарен.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 13.12.2009 - 10:28
Сообщение #34





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Есть такая книга. Толковая. McDonald, J.H. 2009. Handbook of Biological Statistics, 2nd ed. Sparky House Publishing, Baltimore, Maryland. В электронном виде (не download!) доступна свободно на сайте автора http://udel.edu/~mcdonald/statintro.html

Особенность книги в том, что для всех описанных методов автор сразу предлагает ПО - либо on-line, либо загружаемое (макросы Excel).

Например, для ковариационного анализа см. страницу http://udel.edu/~mcdonald/statancova.html На ней ссылка http://faculty.vassar.edu/lowry/vsancova.html на бесплатное on-line ПО.

Сообщение отредактировал Игорь - 13.12.2009 - 13:43


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 13.12.2009 - 14:31
Сообщение #35





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Nokh, данные готовы, но форум не грузит файлы Excel. Их надо как-то специально преобразовывать?

Сообщение отредактировал Pinus - 13.12.2009 - 14:32
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Green
сообщение 13.12.2009 - 15:03
Сообщение #36





Группа: Пользователи
Сообщений: 120
Регистрация: 27.08.2009
Пользователь №: 6284



Pinus,

Хорошо, что описали задачу. Теперь стало понятнее.

Мне представляется, что сначала нужен анализ данных такого плана.
1. У вас, похоже, нет параболы в том виде, в котором ее принято представлять, а именно: при возрастании X ордината Y сначала уменьшается, потом растет.
2. У Вас только "половинка", которая более походит на логарифмическую. (часть S-образной кривой). Поэтому вам предлагают аппроксимацию зависимости логарифмической или степенной функцией.
(Добавлю, что с S-образной кривой хорошо работает Harrington desirability function Z=exp(-exp(-y)) , где у - кусочно-линейная аппроксимация некоторой зависимости)
3. Подразумевалось, что деревья растут по разному (т.е. вычислялся индекс роста)? Мне кажется, нужно использовать какой-то кумулятивный показатель роста.
4. Поскольку используются наблюдения, связанные со временем, то возможно - это Кокс с ковариатой. Возможно Пуассон....

Т.е., нужно провести "разведочный анализ данных", посмотреть на них. Если покажите описание единиц измерения X и У - будет еще понятнее.



Signature
Это не кованализ :)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 13.12.2009 - 16:35
Сообщение #37





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Вот, скажем, такой пример (шкалу X делать интервальной пока не стал). Исследуется зависимость высоты насаждения (Y) от возраста (X) в однорядных посадках (Z1) и парных посадках (Z2). Насаждения находятся в однородных условиях местопроизрастания. Требуется определить значимость влияния Z.
Прикрепленные файлы
Прикрепленный файл  Книга1.rar ( 2,52 килобайт ) Кол-во скачиваний: 563
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 13.12.2009 - 16:46
Сообщение #38





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(Green @ 13.12.2009 - 22:03) *
У вас, похоже, нет параболы в том виде, в котором ее принято представлять, а именно: при возрастании X ордината Y сначала уменьшается, потом растет.
Да, так.

Цитата(Green @ 13.12.2009 - 22:03) *
У Вас только "половинка", которая более походит на логарифмическую. (часть S-образной кривой). Поэтому вам предлагают аппроксимацию зависимости логарифмической или степенной функцией.
Если облако загибается в начальных значениях X, то логарифмическая хорошо. Если в конечных значениях X, то лучше полином 2 степени. Это судя по диаграмме рассеяния, визуально. Может быть скажется и на проверке модели на адекватность (по повторностям).

Цитата(Green @ 13.12.2009 - 22:03) *
Подразумевалось, что деревья растут по разному (т.е. вычислялся индекс роста)? Мне кажется, нужно использовать какой-то кумулятивный показатель роста.
Не понял вопроса. Различия могут быть в условиях роста и типе посадок, соответственно предполагаем, что Z оказывает влияние. Насколько оно значимо нужно выяснить. Если речь идет о различиях в росте при одинаковом возрасте (X) для одного и того же Z, то считаем, что они обусловлены случайной составляющей.

Цитата(Green @ 13.12.2009 - 22:03) *
Поскольку используются наблюдения, связанные со временем, то возможно - это Кокс с ковариатой. Возможно Пуассон....
Не могу судить. Знаю только, что это не временной ряд, потому что рассматривается не зависимость показателя роста (например, высоты) от возраста для одного и того же насаждения, а зависимость показателя от возраста по разным насаждениям.

Цитата(Green @ 13.12.2009 - 22:03) *
Если покажите описание единиц измерения X и У - будет еще понятнее.
X измеряется в годах, Y например в метрах.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Green
сообщение 13.12.2009 - 22:23
Сообщение #39





Группа: Пользователи
Сообщений: 120
Регистрация: 27.08.2009
Пользователь №: 6284



Pinus, я местами фантазировала, не имея достаточной информации.
Типа мысли вслух -может вы считали количество новых лапок за какой-то интервал времени:) Нет там Кокса, Пуассона.

Увидела данные.
Годы, метры, тип посадки (одномоментный срез).

Посмотрю данные с разных сторон.









Signature
Это не кованализ :)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 14.12.2009 - 00:26
Сообщение #40





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(Green @ 14.12.2009 - 05:23) *
Увидела данные.
Годы, метры, тип посадки (одномоментный срез).
На месте Z могут быть самые разные условия: плодородие почвы, класс атмосферного загрязнения, условия освещенности места и т.п. На месте Y также: диаметр ствола, диаметр кроны, объем кроны и пр. Подобные задачи могут возникать хоть где: и в биологии, и в медицине, и в сельском хозяйстве, и в любых других отраслях. На мой взгляд такой тип задач должен почти неизбежно сопровождать процесс регрессионного моделирования. Странно почему он слабо проработан на русском языке.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 14.12.2009 - 00:32
Сообщение #41





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(Игорь @ 13.12.2009 - 17:28) *
Особенность книги в том, что для всех описанных методов автор сразу предлагает ПО - либо on-line, либо загружаемое (макросы Excel).
Игорь, в очередной раз спасибо за ссылку. Вы не планируете включить ковариационный анализ в Attestate?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 14.12.2009 - 08:24
Сообщение #42





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Pinus @ 14.12.2009 - 00:32) *
Игорь, в очередной раз спасибо за ссылку. Вы не планируете включить ковариационный анализ в Attestate?

Да, наверное, включу. Т.к. метод необходим пользователям. Часто возникают аналогичные задачи.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Green
сообщение 14.12.2009 - 12:59
Сообщение #43





Группа: Пользователи
Сообщений: 120
Регистрация: 27.08.2009
Пользователь №: 6284



Pinus,

1. Я не вижу оснований для ковариационного анализа в представленных данных.
Ковариата должна влять на зависимую и независимые переменные.
рассмотрим Ваши: возраст влияет на рост, но не влияет на тип посадки. Тип посадки не влияет на возраст, возможно влияет на рост. Рост не влияет на тип и на возраст.
Ковариации нет.

2. По поводу нормальности данных.
Вы случайным образом выбираете образцы и снимаете с них некоторые показатели ( в данном случае пара возраст-рост).
Нормально распределено у Вас кол-во деревьев разного возраста, что и означает репрезентативность выборки. А возраст -рост и не должны быть норм. распределены.

3. Переменной для изучения в представленных данных является тип посадки( группа), независимые переменные возраст и рост. Рост есть функция от возраста. Причем эта функция достаточно хорошо аппроксимируется прямой.
В принципе я вижу такую постановку задачи - можно ли определить тип посадки, зная возраст и рост. Или спрогнозировать высоту, зная год и тип посадки ?...Это мои домыслы к конкретным данным, которые Вы дали.
( Кстати, индекс роста =высота/возраст - распределен нормально и не различается в группах.
Еще немного покрутила данные по возрастам. До 22-23 лет они растут быстрее, потом медленнее - в обоих типах посадки, но значимого различия нет.)

4. Вы назвали еще несколько параметров - плодородие почвы, класс атмосферного загрязнения, условия освещенности места и т.п., а также диаметр ствола, диаметр кроны, объем кроны и пр. Я не знаток в биологии, ботанике. Что именно Вы хотите предсказывать по регрессионной модели ( которую хотите построить) ? Возможно, комбинация этих показателей даст различия в моделях. Но что именно изучается?

(Продожение следует)


Signature
Это не кованализ :)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 14.12.2009 - 13:53
Сообщение #44





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(Green @ 14.12.2009 - 19:59) *
Вы назвали еще несколько параметров - плодородие почвы, класс атмосферного загрязнения, условия освещенности места и т.п., а также диаметр ствола, диаметр кроны, объем кроны и пр. Я не знаток в биологии, ботанике. Что именно Вы хотите предсказывать по регрессионной модели ( которую хотите построить) ? Возможно, комбинация этих показателей даст различия в моделях. Но что именно изучается?

Я назвал эти варианты X и Y просто в качестве примера. По регрессионной модели хочу предсказывать Y (т.е. какой-либо параметр роста), задавая X (возраст). Другими словами какой высоты (например) будет насаждение в заданном возрасте. Но, по-моему это не имеет никакого значения. Для меня сейчас важно разобраться с теорией. Для этого вполне достаточно оперировать буквами X, Y и Z, зная какой тип переменных за ними стоит. А ботаника это или механика абсолютно без разницы.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Green
сообщение 14.12.2009 - 14:24
Сообщение #45





Группа: Пользователи
Сообщений: 120
Регистрация: 27.08.2009
Пользователь №: 6284



Pinus,

Регрессия вам может позволить предсказывать Y в зависимости от (Х1, Х2, Х3....,Хn).
На сегодняшний момент зависимость роста от возраста (Т.е. Y=f(X1) ) такова, что объясняет около 90% вариации. Дальнейшее улучшение модели (т.е. дополнительная параметризация, включение переменных Х2, Х3....,Хn) будет борьбой за оставшиеся 10%.

Уточняющий вопрос в контексте Ваших слов ( "хочу предсказывать Y (т.е. какой-либо параметр роста), задавая X (возраст)")
Вы хотите многомерную модель (несколько независимых переменных) или только одномерную (одна независимая переменная)?

Сообщение отредактировал Green - 14.12.2009 - 14:26


Signature
Это не кованализ :)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

13 страниц V  < 1 2 3 4 5 > » 
Добавить ответ в эту темуОткрыть тему