Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Непараметрическая статистика
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Страницы: 1, 2, 3, 4
DrgLena
Можно и так. Я сделала логистическую регрессию с тремя количественными предикторами. ПО расчетному значению "р" - выделила 4 группы риска по сочетанию этих предикторов.
Через час поезд в Карпаты, потому времени нет увидеть продолжение ...
Green
Я ее тоже делала frown.gif

F=b1*x1+b2*x2+b3*y+b4

У меня получились такие значимые коэффициенты

b1=-0,086887
b2=-0,032111
b3=0,721294



Тогда сделалa full fraction
dur - это длительность x1
age - это возраст x2

Приведены значения p

dur 0,251336
age 0,573126
y 0,175546
dur*age 0,623894
dur*y 0,607620
age*y 0,141068
dur*age*y 0,942329



Убрала часть эффектов
в результате получилось при значимом р



dur -0,247173
y 2,657539
dur*age 0,003044
age*y -0,037909




Вопросы: Отсюда как группу риска достать?
Вы же ищите прогностические факторы? или все-таки факторы риска?

--------
Если на отдых, то приятного:)
nokh
Цитата(Green @ 10.01.2010 - 14:08) *
nokh,
У Pinus на представленных данных есть все возраста. Правда, в группе z1 есть есть 50-55 лет,которые не представлены в z2.
Но выборка достаточно большая, поэтому ничего особенного.
Теперь, предположим маргинальный случай.
из z1 возьмем данные 40-55 лет,
из z2 - от 15 до 19. ...
... Поэтому прошу подкорректировать Ваше мнение о рандомизации.

Отношение к рандомизации у меня прежнее: ставишь эксперимент - рандомизируй что не можешь/хочешь контролировать (сейчас в зависимости от дизайна исследования разработаны типовые процедуры рандомизации). Если собираешь данные в природе - контролируй потенциальные мешающие факторы. Рандомизация возможна и в случае Pinus для сведения к минимуму различий в почве, освещённости, влажности и т.п. экологическим факторам. Как вариант - определить направления в посадках и исследовать только деревья по таблице случайных чисел. Но я боюсь, что для увеличения объёма выборки исследовались все объекты, а тогда и простенькая рандомизация невозможна.

Идею, которую Вы доносили в рисунках понял. Полностью согласен. Выходит, что действительно ковариационный анализ нужно начинать именно с проверки сопоставимости выборок по величине ковариаты. И как раз здесь, врачи обычно очень педантичны: проверка сопоставимости выборок по полу, возрасту и др. важным в исследовании показателям в ретроспективных исследованиях является необходимым условием последующих сравнений по исследуемым факторам.
Pinus
Цитата(nokh @ 22.01.2010 - 06:33) *
Но я боюсь, что для увеличения объёма выборки исследовались все объекты...
Так и есть. Просто сначала не было гарантии, что вообще можно будет приемлемые выборки набрать. Так же было мнение, что в разных типах посадок параметры роста будут отличаться, что тоже толкало на увеличение массива наблюдений. Выборка не совсем сплошная. На территориях военных ведомств не удалось померить.

Цитата(nokh @ 22.01.2010 - 06:33) *
Выходит, что действительно ковариационный анализ нужно начинать именно с проверки сопоставимости выборок по величине ковариаты.

Если зависимость прямолинейная (не спрямленная, а изначально прямая), как можно выйти из положения? Если обрезать длинный хвост (со значениями ковариаты, отсутствующими для других зависимостей) и сравнить значимость различий регрессий по таким усеченным выборкам. А потом сделать сравнение регрессий с первоначальными выборками и посмотреть различаются ли результаты?
Какие существуют обоснованные подходы для преодоления разбалансированности? Есть ли какие-либо придержки для оценки степени разбалансированности? Ведь одинаковые по ковариате выборки получаются только при контролируемом эксперименте. В случае наблюдений часто сначала даже нельзя предположить, какой будет размах той или иной переменной в разных сравниваемых группах. По идее должны существовать какие-то стандартные подходы для преодоления этой проблемы. Вообще насколько значительны нарушения при несоответствии по величине ковариаты?
Где об это можно почитать (вопрос в т.ч. и к Green)?

Pinus
Попутно возникла идея. Когда разбирали тему выбросов и влияющих наблюдений, там была мера DFBETAS для оценки степени влияния i-го наблюдения на параметры регрессии. Посмотрел формулы, что нам мешает применить эту меру для оценки степени влияния не одного, а одновременно нескольких наблюдений? Тогда подход такой (для линейной регрессии): усекаем выборку до пределов значения ковариаты, соответствующих другим сравниваемым регрессиям. Проверяем мерой DFBETAS значимость изменения параметров регрессии. Если влияние несильное, делаем ANCOVA (можно и по усеченной выборке, и по первоначальной для сравнения). Как думаете?
Green
Доброго времени суток. Прошу прощения за долгое отсутствие.
Попробую ответить сразу для nokh и Pinus.

>какие-то стандартные подходы для преодоления этой проблемы
>ставишь эксперимент - рандомизируй что не можешь/хочешь контролировать (сейчас в зависимости от дизайна исследования разработаны типовые процедуры рандомизации)

Pinus, Ваш вопрос больше адресуется к постановке эксперимента. Т.е. должен быть продуман дизайн эксперимента.
Есть типовые дизайны экспериментов (не только процедуры рандомизации).

>Ведь одинаковые по ковариате выборки получаются только при контролируемом эксперименте.
"Одинаковые" - немного не то слово. Взяты из одной генеральной совокупности, принадлежащие одной популяции, скорее так правильнее.

> . В случае наблюдений часто сначала даже нельзя предположить, какой будет размах той или иной переменной в разных сравниваемых группах
Не путайте зависимые и независимые переменные.
Опять же, начнем "от печки".
В случае регрессии: есть независимые переменные ( которые контролирует исследователь и даже может задавать) и зависимая переменная ( которую он не контролирует, а только измеряет при некоторых значениях X). Пусть независимая переменная одна. Для регрессии - это ось Х. Поставьте эксперимент таким образом, чтобы данные по оси Х - принадлежали одной выборке. В случае с ирисками - Х это было время рассасывания контрольной ириски неким субъектом.

Но если бы ставили эксперимент с ирисками, где часть субъектов были обычные люди, а часть... ну, к примеру с нарушением слюноотделения... и их свалили в одну кучу, имхо, это было бы неверным экспериментом для сравнения скорости рассасывания различных ирисок. Но для изучения нарушения слюноотделения по скорости рассасывания одного типа ирисок - возможно, только - это не кованализ:)

------
Ковариационный анализ был в первую очередь разработан для устранения конфаундеров. Идея удалять регрессию с помощью кованализа мне не принадлежит. В Вашем случае с деревьями... я писала, что возраст ( ось X) у вас рандомный в обеих группах. В средних нет различия. Там мне не нравилась другая идея, о параллельности. Ведь эффект способа посадки должен накапливаться во времени. А это и значит, что не могут они быть параллельными... как-то так...
--------
Я придерживаюсь идеи, которую сама себе назвала "follow the data".
Мне на анализ иногда попадают данные из не очень продуманных экспериментов. И, тогда я думаю, какие методы анализа тут можно использовать, что можно вытянуть из данных. Что допустимо, что нет, что имеет смысл, объяснение, а что нет.

Например, мысль о том, что фактор "накапливается" во времени приводил к мысли, что параллельность линий регрессии - это неправильная посылка, т.е. кованализ туда не пойдет. Потом пролистала книги, нигде в кованализе по оси Х не идет возраст.
В эпидемиологических исследованиях возраст стратифицируется, например.
Время - вообще "отдельная" категория, есть спецметоды для исследования изменений во времени.

Т.е. если понять данные, то найдется адекватный способ анализа. Нельзя использовать методы, видя перед собой только цифры.

> Попутно возникла идея.

Я уже писала для nokh, повторю.

Идея кованализа в том, что отрезок (кусочек прямой линии, линии регрессии) заменяется точками (средними) с координатами по оси Х и Y, и при одинаковых х начинают различаться y ( или не различаются).
"х одинаковы" это условно одинаковы, точнее неразличимы, ибо данные для расчета x взяты рандомно из одной генсовокупности.
Замена линии (у которой уравнение) точкой (у которой координата x,y).
Надеюсь, что понятно написала.
Это грубое изложение, но я постаралась передать суть. Посмотрите рисунки выше.

Если Вы рассчитали средние по одним данным, потом заменяете их другими? Подумайте, что получится?
Pinus
Green, Ваша идея про то, что в сравниваемых регрессиях должны быть примерно равны размахи предиктора, мне понятна, и я с ней тоже согласен. Что касается планируемого эксперимента, то в моем случае это организовать вряд ли возможно. Приходится довольствоваться выборочными методами пассивного наблюдения (измерения) и соответственно получать то, что есть, а не то, чего бы хотелось.
Нашел еще один источник на русском с главой по ANCOVA: Джонстон Дж. Эконометрические методы / Пер. с англ. ? М.: Статистика, 1980. ? 444 с. (есть в сети)
Для обсуждения вопросов сравнения нелинейных регрессий приглашаю в тему ?Нелинейная регрессия?.
Игорь
Цитата(Pinus @ 6.02.2010 - 02:20) *
... вопросов сравнения нелинейных регрессий ...

Для этой задачи можно применить ковариационный анализ.
Pinus
Цитата(Игорь @ 6.02.2010 - 20:36) *
Для этой задачи можно применить ковариационный анализ.

Для нелинеаризуемых? Как?
Игорь
Цитата(Pinus @ 6.02.2010 - 13:42) *
Для нелинеаризуемых? Как?

Примерно так:

Dette H., Neumeyer N. Nonparametric analysis of covariance // The Annals of Statistics, 2001, vol. 29, no. 5, pp. 1361-1400. Есть в Интернете. http://projecteuclid.org/euclid.aos/1013203458

Olejnik S.F., Algina J. A Review of Nonparametric Alternatives To Analysis of Covariance // Evaluation Review, 1985, vol. 9, no. 1, pp. 51-83. Есть в Интернете. http://www.eric.ed.gov/ERICDocs/data/ericd...80/38/a6/39.pdf

Olejnik S.F., Algina J. Parametric ANCOVA vs. Rank Transform ANCOVA when Assumptions of Conditional Normality and Homoscedasticity Are Violated // the Annual Meeting of the American Educational Research Association (67th, Montreal, Quebec, April 11-15, 1983). http://www.eric.ed.gov/ERICDocs/data/ericd...80/31/e5/2b.pdf

Edwards L. Applied Analysis of Variance in Behavioral Science / Ed. by L. Edwards. - New York, NY: Chapman & Hall/CRC, 1993. Есть в Интернете (полную версию надо искать smile.gif, в Гугле - интересующий параграф 3.3.3. имеется)

Vickers A.J. Parametric versus non-parametric statistics in the analysis of randomized trials with non-normally distributed data // BMC Medical Research Methodology, 2005, 5:35. Есть в Интернете. http://www.biomedcentral.com/1471-2288/5/35

Porter A.C., McSweeney M. Comparison of Rank Analysis of Covariance and Nonparametric Randomized Blocks Analysis // The Annual Meeting of the American Educational Research Association, New York, New York, February 1971. Есть в Интернете. http://www.eric.ed.gov/ERICDocs/data/ericd...80/39/98/ba.pdf

Conover W.J., Iman R.L. Analysis of covariance using the rank transformation // Biometrics, September 1982, vol. 38, no. 3, pp. 715-724. В Интернете есть, но авторы хотят денег.

Puri M.L., Sen P.K. Analysis of Covariance Based on General Rank Scores // The Annals of Mathematical Statistics, 1969, vol. 40, no. 2, pp. 610-618. Есть в Интернете. http://projecteuclid.org/euclid.aoms/1177697729

Во-вторых, если регрессии одного параметрического семейства и для параметров регрессий вычислены как точечные оценки, так и дисперсии, то можно сравнить их (параметры) по Стьюденту. Это идея тем более обоснованна, если параметры допускают физическую интерпретацию. Могу ошибаться, но представляется, что сравнить физические параметры процессов интереснее, чем некие абстрактные наборы данных, не допускающих осмысленной интерпретации.
Pinus
Да.... Наша отечественная литература по статистике не просто в хвосте у Запада, а в самой натуральной з-це (извиняюсь). В последнее время, чем больше узнаю, тем больше меня как-то придавливает. Английский неизбежен....
Спасибо, Игорь, за ссылки и за мысль про сравнение параметров по Стьюденту. Как-то это уже несколько раз звучало, но все как-то не доходило. Подумаю, почитаю.
Green
Pinus, осмелюсь Вам дать совет.

У Вас прикладная задача - табулировать данные о росте различных растений в различных условиях.
Для решения таких задач я бы использовала демографическую (эпидемиологическую) аналитическую статистику.
Возраст стратифицируется (диаграмма Лексиса). Далее рассчитываются характеристики страт. Сравниваются, анализируются и проч.
Аналогично этот аппарат можно положить на Вашу задачу. С другими стратами, без учета естественного выбывания и проч.

Поскольку Вы все далее идете в более сложные аспекты анализа, смею заметить, только математика не сможет решить проблему. Прикладные работы, как правило, делаются на простых моделях.

Но это только мое мнение.



Игорь
Цитата(Pinus @ 7.02.2010 - 00:50) *
Да.... Наша отечественная литература по статистике не просто в хвосте у Запада, а в самой натуральной з-це (извиняюсь). В последнее время, чем больше узнаю, тем больше меня как-то придавливает. Английский неизбежен....
Спасибо, Игорь, за ссылки и за мысль про сравнение параметров по Стьюденту. Как-то это уже несколько раз звучало, но все как-то не доходило. Подумаю, почитаю.

Еще немного ссылок:
Quade D. Rank analysis of covariance // Journal of the American Statistical Association, 1967, vol. 62, pp. 1187-1200.

Quade D. Nonparametric analysis of covariance by matching // Biometrics, 1982, vol. 38, pp. 597-611.

Lawson A. Rank analysis of covariance: Alternative approaches // Journal of the Royal Statistical Society. Series D (The Statistician), September 1983, vol. 32, no. 3, pp. 331-337.

Amini S.B., Woolson R.F. Rank covariance methods for the analysis of survival data // Biometrical Journal, 18 January 2007, vol. 33, issue 4, pp. 429-439.

Ramaswamy R., Koch G.G., Amara I.A. Application of rank analysis of covariance methods to analysis of multiple anatomical regions with treatment for seborrheic dermatitis // Journal of Biopharmaceutical Statistics, 1997, vol. 7, issue 3, pp. 403-416.

Adichie J.N. Ranking in analysis of covariance tests // Communications in Statistics - Theory and Methods, 1975, vol. 4, issue 9, pp. 883-890.

Conover W.J., Iman R.L. Analysis of covariance using the rank transformation // Biometrics, September 1982, vol. 38, no. 3, pp. 715-724.

Gary G. A review of some statistical methods for covariance analysis of categorical data / G. Gary, G.G. Koch, I.A. Amara et al. // Biometrics, September 1982, vol. 38, no. 3, Special Issue: Analysis of Covariance, pp. 563-595.

К сожалению, все они недоступны без денег, а авторы не стремятся выложить их на свои сайты (есть информация, что это требование издательств). Есть еще вариант загрузки статей через службу типа JSTOR, но к ней подключены только некоторые университеты (Москва, СПб). Поэтому большинству исследователей статьи недоступны.

Основные источники - это Puri с соавт. и Dana Quade, которая, как считается, первой предложила непараметрический ANCOVA. Тут такая ситуация. По статьям родоначальников метода сделать работающий алгоритм, как правило, не представляется возможным. Они содержат идеи. Нужен некоторый промежуточный слой теоретических и практических исследований (примеров применения), чтобы метод получил широкое употребление в массах. Поэтому, скажем, обзорная статья малоизвестного автора из периферийного университета оказывается более ценной для нас, чем оригинальная работа.
Pinus
Цитата(Игорь @ 8.02.2010 - 16:01) *
Поэтому, скажем, обзорная статья малоизвестного автора из периферийного университета оказывается более ценной для нас, чем оригинальная работа.

Игорь, а которая из них "малоизвестного автора из периферийного университета" (более ценная для практического применения)? Чтоб наверняка, по-меньше маяться с переводом.
Игорь
Цитата(Pinus @ 8.02.2010 - 12:23) *
Игорь, а которая из них "малоизвестного автора из периферийного университета" (более ценная для практического применения)? Чтоб наверняка, по-меньше маяться с переводом.

Совершенно очевидно, что не классики и не монографии. А Dette с соавт. и Olejnik с соавт. Это из того, что есть в свободном доступе.

Хотелось бы, конечно, современных классиков посмотреть - Conover с соавт. (особенно!) и Quade. Но на них денег нет (точнее - жалко). Если найдете - поделитесь, пожалуйста.

Вы собираетесь переводить? А зачем терять время? Все учили английский, сдавали экзамены и кандидатский минимум? Ну вот - есть возможность практически проявить подтвержденные высокими оценками навыки (мне лично, учившему немецкий и не особо обремененному способностями к языкам, без всякой практики, лет 20 назад хватило 2-месячных курсов английского, чтобы с тех пор понимать смысл статей по интересующим тематикам). Чтобы понять десяток формул с пояснениями, переводить статью нет необходимости.
Green
Игорь, Вы, отвечая на вопрос о нелинейных регрессиях, перешли к литературе о непараметрических моделях. Это одно и тоже? Я полагала, что нелинейные и непараметрические - это разные вещи. Не так?
Игорь
А это вообще странная тема.
Цитата(Green @ 8.02.2010 - 22:18) *
Игорь, Вы, отвечая на вопрос о нелинейных регрессиях, перешли к литературе о непараметрических моделях. Это одно и тоже? Я полагала, что нелинейные и непараметрические - это разные вещи. Не так?

Не одно и то же. Нелинейная модель - параметрическая. Вы невнимательно прочитали вопрос:
Цитата(Pinus @ 6.02.2010 - 14:42) *
Для нелинеаризуемых? Как?

Если у Вас есть идентифицированная нелинейная модель, ничто не мешает использовать преобразования данных для ее "спрямления". Pinus же пишет "нелинеаризуемых". Могу предположить, что имелись в виду данные, для которых не удалось подобрать никакую параметрическую модель. Следовательно, обращаемся к непараметрике.

Ну вот, нашел работу Conover и Iman (парадокс, но не в Интернете, а в закоулках своих архивов). Как и ожидалось - это [методически] лучший источник по теме. Без излишних обобщений, просто, понятно и с примерами. Жалко, монографию Conover в свое время не перевели - многих томов (особенно, отечественных) она стоит. Да и оригинальной в электронном виде нет, что еще хуже.
Green
Игорь, спасибо, понятно. Pinus сначала написал о нелинейной регрессии и вы ему отвечали, потом о нелинеаризуемой. (конец сообщения 157, сообщение 158 и 159 в этой теме). Я разницу понимаю. Надеюсь, Pinus тоже.
-----
Вам в копилку, если не имеете
Анатольев.С. Непараметрическая регрессия. 2009, Квантиль, ?7, стр 37-52.

Лежала в Инете, сейчас не знаю.

----------
И все-таки еще раз внимательно посмотрела весь диалог.
Линейная регрессиия - это понятно
Нелинейная -понятно
Нелианеризуемая - невозможно представить линейной.
Но кто мешает оценить параметры?
Нелинейная параметрическая - почему нет?
Нелинеаризуемая параметрическая - почему нет?

Непараметрическая - вот к ней неприменимо любое слово, ни слово "линейная" ни слово "нелинейная".
Что я не так сказала?
Игорь
Цитата(Green @ 9.02.2010 - 16:55) *
Лежала в Инете, сейчас не знаю.

И сейчас лежит, ибо сетевой журнал "Квантиль" распространяется бесплатно. http://quantile.ru/07/07-SA.pdf В журнале и еще много чего интересного есть.

Выше в теме подробно обсуждался ANCOVA. Еще источник попался: Монтгомери Д.К. Планирование эксперимента и анализ данных. - Л.: Судостроение, 1980, вся гл. 15. Есть в Интернете.
Pinus
Цитата(Игорь @ 9.02.2010 - 14:03) *
Если у Вас есть идентифицированная нелинейная модель, ничто не мешает использовать преобразования данных для ее "спрямления". Pinus же пишет "нелинеаризуемых". Могу предположить, что имелись в виду данные, для которых не удалось подобрать никакую параметрическую модель. Следовательно, обращаемся к непараметрике.

Игорь, под нелинеаризуемыми я имел ввиду функции, которые нельзя привести к линейному виду.
Просто под нелинейными регрессиями часто понимают разное, и встречал, что авторы уточняют, что они имеют ввиду. Например, есть источники (тот же Ферстер с соавт.), в которых линейные - это прямолинейные, а нелинейные делятся на два класса: квазилинейные (которые путем преобразований или введением фиктивных переменных можно привести к прямолинейному виду) и нелинеаризуемые (которые путем математических действий не поддаются линеаризации). Для нахождения оценок параметров нелинеаризуемых регрессий используют различные итерационные методы. То есть получается, что эти методы можно называть непараметрическими?
Pinus
Цитата(Игорь @ 8.02.2010 - 18:41) *
Вы собираетесь переводить? А зачем терять время? Все учили английский, сдавали экзамены и кандидатский минимум? Ну вот - есть возможность практически проявить подтвержденные высокими оценками навыки (мне лично, учившему немецкий и не особо обремененному способностями к языкам, без всякой практики, лет 20 назад хватило 2-месячных курсов английского, чтобы с тех пор понимать смысл статей по интересующим тематикам). Чтобы понять десяток формул с пояснениями, переводить статью нет необходимости.

Английский учил конечно, но как-то особо неблистал? Определенные навыки конечно остались, но словарный запас желает быть лучше. Курсы и кандидатский минимум еще предстоят, а вступительные в аспирантуру не сдавал, поскольку свободно соискательствую. Сразу с листа понимать не получается, в т.ч. справки по разным программам. Поэтому определенные затраты времени неизбежны. Конечно речь не идет о книгах, просто отдельные важные куски и, конечно, при помощи программ-переводчиков.
bubnilkin
Подскажите, пожалуйста, почему получаются разные разультаты между Фридманом и Вилкоксоном? (Группы связанные, считал с поправкой Бонферрони, т.е. для каждого из 10 возможных попарных сравнений установил p < 0.005)

заранее спасибо
Pyrosmani
Цитата(bubnilkin @ 26.05.2010 - 10:55) *
Подскажите, пожалуйста, почему получаются разные разультаты между Фридманом и Вилкоксоном? (Группы связанные, считал с поправкой Бонферрони, т.е. для каждого из 10 возможных попарных сравнений установил p < 0.005)

заранее спасибо


Может разница обусловлена условиями применимости каждого из методов?

http://www.matlab.mgppu.ru/work/0014.htm
http://www.matlab.mgppu.ru/work/0022.htm


книга
http://noleex.ru/

главы
http://noleex.ru/0041.htm
http://noleex.ru/0042.htm

ссылка на руководство по СПСС, где тоже указывается, что есть различия по значимости при использовании Вилкоксона и Фридмана http://lib.socio.msu.ru/l/library?e=d-000-...5b7f3.6&x=1 но нет ответа чем они обусловлены

Лучше если Вам ответит кто-нибудь из наших гуру, я как и вы только осваиваю статистику поэтому могу ошибаться.
nokh
Цитата(bubnilkin @ 26.05.2010 - 12:55) *
Подскажите, пожалуйста, почему получаются разные разультаты между Фридманом и Вилкоксоном? (Группы связанные, считал с поправкой Бонферрони, т.е. для каждого из 10 возможных попарных сравнений установил p < 0.005)
заранее спасибо

Методы разные - разные и результаты. Пакеты могут эту разницу усиливать, т.к. в случае Фридмана использовать аппроксимацию хи-квадратом, а в случае Вилкоксона для разностей пар - t-критерием, что не является правильным для столь малых выборок. Но и в этом случае различия двух методов не должны быть сильными. Например, в паре (1-2) Фридман даёт P=0,005, Вилкоксон P=0,013; для (1-3) это 0,059 и 0,042; для (2-4) это 0,257 и 0,171. Очень близко! Поправка Боферрони итак очень консервативна, а на столь малой выборке вообще всё на нет сводёт. Если использовать непараметрику, то я бы для Ваших данных использовал только Фридмана для всего набора данных - колоссальная значимость различий: P=0,00008. По средним рангам видно где и насколько лучше. Построить соответсвующий график. Если очень нужно попарно сравнить - не обязательно ведь проводить все возможные сравнения, я бы делал упор только на доказательстве эффективности веществ А и В.
bubnilkin
Pyrosmani, спасибо за ссылки smile.gif
nokh, спасибо за разъяснения smile.gif

Цитата(nokh @ 26.05.2010 - 23:04) *
в случае Фридмана использовать аппроксимацию хи-квадратом, а в случае Вилкоксона для разностей пар - t-критерием, что не является правильным для столь малых выборок.

nokh, а что вы посоветуете вместо Фридмана и Вилкоксона?

График строить по средним рангам или по медианам? Что нужно поставить в ДИ (размах или квартильный размах)?


Можно ли использ. разные методы контроля ошибки 1 рода в одной cтатье?

заранее спасибо
nokh
Цитата(bubnilkin @ 6.06.2010 - 13:37) *
nokh, а что вы посоветуете вместо Фридмана и Вилкоксона?

Да, в принципе, и они нормально. Можно сделать дисперсионный анализ с повторными измерениями, но попарные сравнения внутри дисперсионного комплекса провести не получится, т.к. выборки зависимые, а измерения в каждой точке проводились однократно - ошибку выразить нельзя. Поэтому для попарных сравнений и после дисп. анализа придётся прибегать к другим методам. Т.е. в данном случае такой вариант будет не лучше непараметрики, но оставляет вопросы по поводу нормальности распределения показателей.
Цитата(bubnilkin @ 6.06.2010 - 13:37) *
График строить по средним рангам или по медианам? Что нужно поставить в ДИ (размах или квартильный размах)?

Мы сравниваем средние значения, не так важно на что при этом опирается критерий - на ранги, медианы или что-то ещё. Думаю, нужно дать обычный коробчатый график - см. ниже.
Цитата(bubnilkin @ 6.06.2010 - 13:37) *
Можно ли использ. разные методы контроля ошибки 1 рода в одной cтатье?

Это будет выглядеть несколько вычурно, хотя встречал в литературе, что люди дублируют статпроверку для пущей убедительности. Для меня такое дублирование свидетельствует, как правило, не о продвинутости автора в статистике, а о его неумении обоснованно выбрать единственный оптимальный в данном конкретном случае стат. критерий. Иногда это вообще сильно бросается в глаза - автор просто даёт всё подряд, что содержится в отчёте статпакета.

Если бы я делал такой анализ в отчёт - ограничился бы рисунком, куда-то посерьёзнее - делал бы Фридмана и Вилкоксона + рисунок. В особо важном случае преобразовал бы данные по Боксу-Коксу, провёл дисп. анализ с повторными измерениями, попарные сравнения сделал бы парным критерием Стьюдента, а поправку на множественность сравнений провёл бы последовательной техникой Бонферрони (метод Данна-Шидака). После расчёта средних и 95%-ных ДИ для преобразованных по Боксу-Коксу данных ретрансформировал бы их обратно к исходной шкале (ДИ станут асимметричными) и это показал бы на графике.
bubnilkin
nokh, я вам благодарен за исчерпывающий ответ smile.gif!

а скажите, пожалуйста, эту процедуру можно применить для процентных данных (проценты выражают число клеток)?

нужно ли отображать первоначальные (полученные в результате эксперимента, т.е. нетрансформированные) данные на диаграмме с обратно-трансформированными средними и их ДИ? или это ненужные излишества?
nokh
Цитата(bubnilkin @ 22.07.2010 - 11:15) *
а скажите, пожалуйста, эту процедуру можно применить для процентных данных (проценты выражают число клеток)?

Преобразование Бокса-Кокса является лучшим из семейства степенных преобразований (power transformation). Для процентов применяются преобразования из другого семейства - угловые преобразования. Наиболее известное - фи-преобразование y=2arcsin (sqrt(p)). где p - частота (например клеток) в долях единицы. Описано с выводом в Хальд - Математическая статистика, детали в Большев, Смирнов - Математико-статистические таблицы ... и в Урбах - Биометрические методы... Более мощное угловое преобразование - преобразование Фримана-Тьюки (Freeman-Tukey transformation). Для него встречал несколько отличающихся формул.
Цитата(bubnilkin @ 22.07.2010 - 11:15) *
нужно ли отображать первоначальные (полученные в результате эксперимента, т.е. нетрансформированные) данные на диаграмме с обратно-трансформированными средними и их ДИ? или это ненужные излишества?

Т.к. средние значения и ДИ правильны только для ретрансформированных данных - их и нужно приводить. Для угловых преобразований ДИ также будут асимметричными, особенно вблизи 0 и 1 (0 или 100%).
Pinus
Попалась книжка: Любищев А.А. Дисперсионный анализ в биологии, 1986. Она конечно старая (автор почил в 1972 г.), но вот высказывается мысль, что есть методы применения параметрического ANCOVA в случае нелинейных регрессий. Где об этом можно почитать и в каком софте это реализовано?

Плав, зимой в этой теме (Непараметрическая статистика) неудачно стали обсуждать ковариационный анализ (со стр. 2). Может быть есть смысл перенести этот материал в новую отдельную тему?
bubnilkin
уважаемый nokh, спасибо за ответы!

извините за назойливость.... подскажите, пожалуйста, а как быть со статанализом, если данные в виде ПРОЦЕНТОВ, а дизайн -- тот же? Вы рассказали про угловые преобразования..., а дальше делать также как описано (?):

1) угловое преобразование
2) дисп. анализ с повторными измерениями (RM ANOVA)
3) попарные сравнения парным критерием Стьюдента + поправка на множественность сравнений техникой Бонферрони (например, метод Данна-Шидака)
4) расчёт средних и 95%-ных ДИ для преобразованных по Фриману-Тьюки данных
5) ретрансформация их к исходной шкале (ДИ станут асимметричными)
6) диаграмма (M+/- 95CI%).

заранее благодарю
bubnilkin
SOS! подскажите, прошу weep.gif
nokh
Цитата(bubnilkin @ 30.08.2010 - 10:05) *
SOS! подскажите, прошу weep.gif

Цитата(bubnilkin @ 18.08.2010 - 09:52) *
уважаемый nokh, спасибо за ответы!
извините за назойливость.... подскажите, пожалуйста, а как быть со статанализом, если данные в виде ПРОЦЕНТОВ, а дизайн -- тот же? Вы рассказали про угловые преобразования..., а дальше делать также как описано (?):
1) угловое преобразование
2) дисп. анализ с повторными измерениями (RM ANOVA)
3) попарные сравнения парным критерием Стьюдента + поправка на множественность сравнений техникой Бонферрони (например, метод Данна-Шидака)
4) расчёт средних и 95%-ных ДИ для преобразованных по Фриману-Тьюки данных
5) ретрансформация их к исходной шкале (ДИ станут асимметричными)
6) диаграмма (M+/- 95CI%).
заранее благодарю

Как-то пропустил вопрос... Да, всё так, кроме попарных сравнений Стьюдентом - для post-hoc сравнений много других методов (описывал в соседней теме - см. http://forum.disser.ru/index.php?showtopic...amp;#entry10349 сообщение #16). Выводы о статистически значимых эффектах делаются по таблице результатам анализа с преобразованными данными. Но если на рисунке Вы хотите давать непреобразованные проценты (пункт 6) - его придётся строить вручную (программы такого не сделают): т.е. вносить средние и ДИ к ним, при желании соединять точки линиями для получения профилей (как делает Statistica по умолчанию). Для построения таких графиков лучше воспользоваться программой KyPlot, обсуждали её здесь: http://forum.disser.ru/index.php?showtopic...6&hl=KyPlot , скачать можно здесь: http://freestatistics.altervista.org/en/stat.php.
bubnilkin
Цитата(nokh @ 6.08.2010 - 13:24) *
Преобразование Бокса-Кокса является лучшим из семейства степенных преобразований (power transformation). Для процентов применяются преобразования из другого семейства - угловые преобразования. Наиболее известное - фи-преобразование y=2arcsin (sqrt(p)). где p - частота (например клеток) в долях единицы. Описано с выводом в Хальд - Математическая статистика, детали в Большев, Смирнов - Математико-статистические таблицы ... и в Урбах - Биометрические методы... Более мощное угловое преобразование - преобразование Фримана-Тьюки (Freeman-Tukey transformation). Для него встречал несколько отличающихся формул.

Т.к. средние значения и ДИ правильны только для ретрансформированных данных - их и нужно приводить. Для угловых преобразований ДИ также будут асимметричными, особенно вблизи 0 и 1 (0 или 100%).


спасибо за ответ smile.gif

я воспользовался Freeman-Tukey: y=sqrt(x)+sqrt(x+1).
(на вики (http://en.wikipedia.org/wiki/Anscombe_transform) -- эта формула, в статье (http://www.jstor.org/pss/2236611) -- есть ещё одна... но выбрал эту т.к. в статье написано, что (вроде) применима к данным с распределением Пуассона. а раз мы считаем (клетки), то я решил взять эту формулу. это правильно?
хотя опять-таки: данные я проверял на нормальное распределение, а не на распределение Пуассона...
как тут всё состыковать не пойму. подскажите?)

как я делал
шапиро показал "ненормальность"
Freeman-Tukey: y=sqrt(x)+sqrt(x+1), где x -- это процентные значения (а не доли единицы) (верно?)
получил транформированный ряд. тестировал на нём H0: проверял нормальность (Shapiro-Wilk's), однородность (Levene's), делал RM ANOVA, при p < 0.05 делал Tukey's HSD, p отсеивал с помощью Holm(1979).
остались только "значимые" p.

тут возник вопрос: как получить несимметричные интервалы?

я попытался обратно преобразовать трансформированные данные с помощью этой формулы: x=((y-sqrt(x))^2)-1 (я сам попытался рассчитать, может не вижу ошибки..?).
но получаю почему-то не точь-в-точь (а иногда и различающиеся на порядок) данные
расчитываю по ним средее, SEM, SD, CI. но почему-то все они симметричными получаются... frown.gif

или мне только средее, SEM, SD, CI обратно преобразовывать или... ?


вообщем, запутался вконец, помогите, пожалуйста
nokh
Думаю, что да, формула применяется к % или промилле. Хотя если точнее - то к штукам на исследуемую единицу чего-то, раз распределение пуассоновское. Например, к числу телефонных звонков за час, к числу мутаций в локусе на поколение, к числу аномальных клеток на 100 или 1000 изученных (а это и есть % или промилле).
Если среднее и ДИ измеряются тех же единицах, в каких проводилось измерение (метры, граммы, %), то SD и SE - нет. Поэтому SD и SE имеют смысл только для преобразованного ряда значений, а ретрансформировать их в исходную шкалу тем же способом, что и среднее с ДИ нельзя. Поэтому я бы ограничился в итоговой описательной статистике только средним с 95%-ным ДИ для него.
Формулу ретрансформации вы не привели к окончательному виду, и я, честно говоря, не понял как вы по ней вообще что-то считали. Это простая алгебра - нужно выразить x через y. У меня получилось так: х=((у^2-1)/2y)^2. Пробуйте подставлять: если x=2, и после преобразования Ф-Т стало у=3,14626437, то обратное преобразование должно дать снова 2 (ну или чуть отличное значение в результате ошибок округления, но никак не на порядок).
bubnilkin
nokh, спасибо за ответ smile.gif

сейчас всё получается по вашей формуле
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.