Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Как оценить различия в силе связи между переменными?
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Alex_Z
Есть две группы. В каждой применялся различный метод лечения. Оценивалась динамика по шкале APACHE II до лечения, на первые сутки и на пятые сутки. Нужно проанализировать зависимость суммарной динамики (разность баллов этапа "до" и этапа "5 сутки") от исходной тяжести состояния (баллы APACHE II "до")
Гипотезы, которые я хочу проверить (и предполагаемый способ проверки)
1. Суммарная динамика в подгруппах зависит от исходной тяжести состояния.
Оценить силу связи коэффициентом корреляции Спирмена.

2. Суммарная динамика в подгруппах достоверно различается в зависимости от исходной тяжести состояния. - Т.е., возможно, в первой подгруппе достигается более выраженная динамика, но до определенной тяжести состояния (исходного количества баллов). Как хочу проверить: ранжировать динамику (или исходное количество баллов??) и посмотреть различия в суммарной динамике между группами в каждом ранге.

3. Зависимость (сила связи) суммарной динамики от исходной тяжести состояния различается в подгруппах. Как можно оценить?

4. Сила связи суммарной динамики и исходной тяжести меняется с увеличением исходного количества баллов (возможно, в какой-то подгруппе возрастает, в какой-то ? уменьшается, или изменяется одинаково в обеих подгруппах). Сначала оценить графически (как на рисунке). Как выразить это цифрами?

Что посоветуете? Какими методами можно решить данные задачи?

P.S. На рисунке - линия тренда - линия линейной регрессии (1). Если выбрать квадратичную (2) регрессию или кубическую (3), то линия группы сравнения веден себя по-разному. Какую выбрать?
p2004r

Мне представляется что так независимо изображать точки пациентов неправильно. Исследование ведется лонгитудинально. Наилучшим образом для начала данные отобразит http://trellischarts.com/documentation/parallel-plot
Larina Tatjana
Цитата(Alex_Z @ 15.03.2012 - 03:41) *
Есть две группы. В каждой применялся различный метод лечения. Оценивалась динамика по шкале APACHE II до лечения, на первые сутки и на пятые сутки. Нужно проанализировать зависимость суммарной динамики (разность баллов этапа "до" и этапа "5 сутки") от исходной тяжести состояния (баллы APACHE II "до")
Гипотезы, которые я хочу проверить (и предполагаемый способ проверки)
1. Суммарная динамика в подгруппах зависит от исходной тяжести состояния.
Оценить силу связи коэффициентом корреляции Спирмена.

2. Суммарная динамика в подгруппах достоверно различается в зависимости от исходной тяжести состояния. - Т.е., возможно, в первой подгруппе достигается более выраженная динамика, но до определенной тяжести состояния (исходного количества баллов). Как хочу проверить: ранжировать динамику (или исходное количество баллов??) и посмотреть различия в суммарной динамике между группами в каждом ранге.

3. Зависимость (сила связи) суммарной динамики от исходной тяжести состояния различается в подгруппах. Как можно оценить?

4. Сила связи суммарной динамики и исходной тяжести меняется с увеличением исходного количества баллов (возможно, в какой-то подгруппе возрастает, в какой-то ? уменьшается, или изменяется одинаково в обеих подгруппах). Сначала оценить графически (как на рисунке). Как выразить это цифрами?

Что посоветуете? Какими методами можно решить данные задачи?

P.S. На рисунке - линия тренда - линия линейной регрессии (1). Если выбрать квадратичную (2) регрессию или кубическую (3), то линия группы сравнения веден себя по-разному. Какую выбрать?



Привет, Alex_Z'!

Приведённая Вами информация явно недостаточна для ответа на поставленные вопросы.
Во-первых, если Вы используете балльную шкалу, то сразу встаёт вопрос о корректности использования классических процедур регрессии. Поскольку не будут выполняться классические ограничения. Да и на графике есть лишь значения R-квадрат без указания величины достигнутого уровня значимости. А он будет существенно меняться, т.к. при переходе от одной модели к другой будут меняться и значения степеней свободы.
Во-вторых, если бы вместо баллов Вы использовали непрерывный линейный параметр ВЕТА, полученный как линейная сумма взвешенных предикторов, то в этом случае было бы возможно оценить по стандартных критериям качество подгонки. Одним из таких методов была бы проверка гипотез о равенстве дисперсий ошибок всех сравниваемых моделей. Кстати, оборот "достоверно различается" уже говорит о качестве анализа.

Применительно к Вашей задаче самое разумное не идти шаблонным путём, т.е. использовать явно устаревшую методу Пола Марино, а применить более современные методы, например, ту же логистическую регрессию. И тогда можно будет сравнить качество разных моделей как по наборам предикторов. так и по величине конкордации.

Желаю успеха!


Alex_Z
Cпасибо за советы!

В плане влияния на динамику я использую три предиктора: флору, локализацию очага и исходную тяжесть соятояния. Как мне кажется, для постороения более-менее нормальной модели, предикторов маловато. Я рассматривал каждый из них отдельно. Так что набор предикторов в именно этой модели, скорее всего, меняться не будет. Интересует только зависимость динамики от исходной тяжести состояния.

Я предполагал, что смогу работать с баллами APACHE, как с численными, поскольку они имеют достаточно большой диапазон (1-65). Такое часто встречается в медицинских статьях.

Ро Спирмена в 1гр - 0,158; р-0,1.
в 2гр - 0,212; р-0,026
Larina Tatjana
Цитата(Alex_Z @ 15.03.2012 - 14:54) *
Cпасибо за советы!

В плане влияния на динамику я использую три предиктора: флору, локализацию очага и исходную тяжесть соятояния. Как мне кажется, для постороения более-менее нормальной модели, предикторов маловато. Я рассматривал каждый из них отдельно. Так что набор предикторов в именно этой модели, скорее всего, меняться не будет. Интересует только зависимость динамики от исходной тяжести состояния.

Я предполагал, что смогу работать с баллами APACHE, как с численными, поскольку они имеют достаточно большой диапазон (1-65). Такое часто встречается в медицинских статьях.

Ро Спирмена в 1гр - 0,158; р-0,1.
в 2гр - 0,212; р-0,026



Увы, и этой информации маловато. Например, Вы пишите что используете "три предиктора: флору, локализацию очага и исходную тяжесть состояния ". Однако при этом ничего не говорите о том, какие конкретно градации, и сколько таких градаций, используется в анализе. Нет ни слова и про объём наблюдений. Ну а аргумент, что в медицинских статьях часто используется APACHE как числовая переменная, есть лишь констатация слабости знаний медиков в биостатистике. Что вполне естественно, ведь они не профессионалы в этой отрасли знания. И к слову, тот факт, что APACHE имеет диапазон 1-65 ни о чём не говорит. Основное отличие балльной шкалы от непрерывной, числовой заключается в другом. Кстати, сравните сами: 65 значений у балльной шкалы, и БЕСКОНЕЧНОЕ КОЛИЧЕСТВО значений у числовой оси. Вернусь к предикторам. Неплохой шанс повысить надёжность модели, это провести со всеми тремя предикторами процедуру бинаризации. Т.е. ввести для каждой градации свой признак с двумя градациями: 1- есть, 0 - нет. Это позволит использовать и другие многомерные модели.

Успеха!
Alex_Z
Я ничего не пишу об уровнях других предикторов, поскольку не хочу строить регрессионную модель с этими предикторами.
p2004r
Цитата(Alex_Z @ 15.03.2012 - 08:24) *
Cпасибо за советы!

В плане влияния на динамику я использую три предиктора: флору, локализацию очага и исходную тяжесть соятояния. Как мне кажется, для постороения более-менее нормальной модели, предикторов маловато. Я рассматривал каждый из них отдельно. Так что набор предикторов в именно этой модели, скорее всего, меняться не будет. Интересует только зависимость динамики от исходной тяжести состояния.

Я предполагал, что смогу работать с баллами APACHE, как с численными, поскольку они имеют достаточно большой диапазон (1-65). Такое часто встречается в медицинских статьях.

Ро Спирмена в 1гр - 0,158; р-0,1.
в 2гр - 0,212; р-0,026





1. ну вот взяли Вы исходный уровень и разницу исходного уровня с конечным, получилась модель:

(конечный - исходный) ~ исходный

но можно просто взять модель

конечный ~ исходный + (исходный|случай)

или более сложную

конечный ~ исходный + (1|случай) + (0+исходный|случай)

ведь эффект исходного уровня может передаваться конечному уровню и в виде интерцепта и в виде угла наклона.

У Вас интерцепт исключен полностью. (естественно приведенные мной модели расширяются еще фактором группа)

2. в книжке Эфрона есть пример как красиво доказывается вид зависимости с помощью бутстрепа

http://free-books.us.to/search?req=%D1%8D%...orig&column[]=title&column[]=author&column[]=series&column[]=periodical&column[]=publisher&column[]=year

исход операции на сердце от входных параметров там анализируется.
YVR
Цитата(Alex_Z @ 14.03.2012 - 23:11) *
P.S. На рисунке - линия тренда - линия линейной регрессии (1). Если выбрать квадратичную (2) регрессию или кубическую (3), то линия группы сравнения веден себя по-разному. Какую выбрать?

Наиболее адекватную. Адекватность для регрессионных моделей - максимальная близость абсолютного значения коэффициента корреляции к 1
100$
Цитата(YVR @ 20.03.2012 - 16:38) *
Наиболее адекватную. Адекватность для регрессионных моделей - максимальная близость абсолютного значения коэффициента корреляции к 1


Только не корреляции, а детерминации, причем скорректированный
YVR
Цитата(100$ @ 20.03.2012 - 18:56) *
Только не корреляции, а детерминации, причем скорректированный


Вы о чем?

Детерминация в данном случае неадекватна, т.к. речь в обоих выборках идет о динамике, т.е. функции от одной переменной - времени, модель которой топикстатер пытается построить для каждой выборки. Детерминация вычисляется в случаях двух или более объясняющих переменных.

Практически, явных зависимостей вообще не видно, дисперсия остатков зашкаливает. Да и судя по данным на скринах, максимальный R^2 = 0.125, а следовательно коэффициент корреляции 0.353. Т.е. это заведомый глухарь, а не тема для исследований.
100$
Цитата
Вы о чем?


Мы - о скорректированном коэффициенте детерминации, а вы- о квадратном корне из R^2.

Цитата
Детерминация в данном случае неадекватна... Детерминация вычисляется в случаях двух или более объясняющих переменных.


Это ваш личный вклад в науку? А в чем принципиальное отличие множественной линейной регресии от парной?
YVR
Цитата(100$ @ 21.03.2012 - 02:11) *
Мы - о скорректированном коэффициенте детерминации, а вы- о квадратном корне из R^2.


Квадратный корень из R^2 (коэф. детерминации) в случае парной регрессии - коэффициент корреляции по абсолютному значению. Но коэффициент детерминации менее информативен по сравнению с коэффициентом корреляции, т.к. коэффициент корреляции всегда имеет знак, а коэффициент детерминации его не имеет. Скорректированный может иметь и отрицательное значение, но в случае его отрицательности результаты вообще не стоит принимать во внимание.

А адекватным применение скорректированного коэффициента детерминации является только лишь в случаях когда сравниваются две или более регрессионные модели, но при этом количество объясняющих переменных в моделях различно. Потому что основное предназначение скорректированного коэффициента детерминации - умалить влияние разности количества переменных, объясняющих зависимую переменную.

В случаях, когда сравниваемые регрессионные модели имеют одинаковое количество объясняющих переменных, корректировать коэффициент детерминации нет никакой необходимости - это уже эпигонство. В таком случае нескорректированный коэффициент детерминации является более информативным, в особенности когда сравниваемые модели имеют одинаковое количество объясняющих переменных, но эти самые объясняющие переменные различны. Ведь с помощью нескорректированного коэффициента детерминации мы можем адекватно оценить степень влияния объясняющих переменных.

Т.е. например берем две модели, в одной присутствует независимая переменная А, а во второй переменная А заменяется на переменную B. Вычисляем для этих самых моделей коэффициент детерминации. Если коэффициент значительно выше для модели с переменной А, значит замена А на B не является адекватной. В случае, когда модель с переменной B заметно улучшит коэффициент, замена переменных А на B является адекватной.


Цитата(100$ @ 21.03.2012 - 02:11) *
Это ваш личный вклад в науку?


Это не мой личный вклад в науку, а элементарные базовые принципы, согласно которым те или иные математические методы необходимо применять лишь в тех случаях, когда для этого имеются явные показания. Что такое коэффициент детерминации и в каких случаях его необходимо корректировать, подробно описано в соответствующей справочной литературе без меня, т.е. без моего вклада. Я всего лишь поясняю прописные истины, дабы другие не пытались наступить на грабли, которые Вы советуете подставить под ноги, не разобравшись в вопросе.

Цитата(100$ @ 21.03.2012 - 02:11) *
А в чем принципиальное отличие множественной линейной регресии от парной?


С трех раз самостоятельно не можете догадаться? Тогда подскажу: множественная от парной отличается множеством объясняющих переменных, а парная - единственной.
100$
Цитата(YVR @ 21.03.2012 - 06:32) *
Квадратный корень из R^2 (коэф. детерминации) в случае парной регрессии - коэффициент корреляции по абсолютному значению. Но коэффициент детерминации менее информативен по сравнению с коэффициентом корреляции, т.к. коэффициент корреляции всегда имеет знак, а коэффициент детерминации его не имеет. Скорректированный может иметь и отрицательное значение, но в случае его отрицательности результаты вообще не стоит принимать во внимание.


Т.е. например берем две модели, в одной присутствует независимая переменная А, а во второй переменная А заменяется на переменную B. Вычисляем для этих самых моделей коэффициент детерминации. Если коэффициент значительно выше для модели с переменной А, значит замена А на B не является адекватной. В случае, когда модель с переменной B заметно улучшит коэффициент, замена переменных А на B является адекватной.


Это не мой личный вклад в науку, а элементарные базовые принципы, согласно которым те или иные математические методы необходимо применять лишь в тех случаях, когда для этого имеются явные показания. Что такое коэффициент детерминации и в каких случаях его необходимо корректировать, подробно описано в соответствующей справочной литературе без меня, т.е. без моего вклада. Я всего лишь поясняю прописные истины, дабы другие не пытались наступить на грабли, которые Вы советуете подставить под ноги, не разобравшись в вопросе.



Цитата
Квадратный корень из R^2 (коэф. детерминации) в случае парной регрессии - коэффициент корреляции по абсолютному значению. Но коэффициент детерминации менее информативен по сравнению с коэффициентом корреляции, т.к. коэффициент корреляции всегда имеет знак, а коэффициент детерминации его не имеет. Скорректированный может иметь и отрицательное значение, но в случае его отрицательности результаты вообще не стоит принимать во внимание.



Чаще всего корреляционный анализ предшествует регрессионному: сначала устанавливается факт наличия связи между двумя явлениями: определили силу связи (абс. значение и стат. значимость к-та корр.), потом - направление (знак). Затем приступают к моделированию зависимостей.
Кроме того, в регрессионном анализе коэф-т корреляции - линейный (Пирсон), применение которого по отношению к балльным шкалам - моветон.
А знак коэф-та корреляции в регресиионном анализе н-р, в случае парной линейной регресии определяется знаком коэффициента угла наклона.

И вообще в регрессионном анализе вся информация - перед глазами: к-т детерминации R^2, скорректированный R^2 adjusted, значение логарифмической функции правдоподобия, SSR, SER , F- ratio, статистика Дарбина-Уотсона, etc. Вот только сравнивать ее по степени информативности можно только после затянувшегося застолья.

Цитата
В случаях, когда сравниваемые регрессионные модели имеют одинаковое количество объясняющих переменных, корректировать коэффициент детерминации нет никакой необходимости - это уже эпигонство. В таком случае нескорректированный коэффициент детерминации является более информативным, в особенности когда сравниваемые модели имеют одинаковое количество объясняющих переменных, но эти самые объясняющие переменные различны. Ведь с помощью нескорректированного коэффициента детерминации мы можем адекватно оценить степень влияния объясняющих переменных.


Давайте внесем ясность: человек в посте ?1 вывесил три регрессионные модели, отличающиеся разным количеством переменных: парную линейную, параболическую и кубическую и задал вопрос: как выбрать наилучшую? Ему было любезно отвечено. В этой связи предлагаю сократить вашу (интересную) лекцыю до единственного абзаца:

Цитата
А адекватным применение скорректированного коэффициента детерминации является только лишь в случаях когда сравниваются две или более регрессионные модели, но при этом количество объясняющих переменных в моделях различно. Потому что основное предназначение скорректированного коэффициента детерминации - умалить влияние разности количества переменных, объясняющих зависимую переменную.


тем более, что после введения в обиход информационных критериев Акайке, Шварца и Хеннана-Куинна применение скорректированного критерия (R^2 adj) как-то отошло на второй план.

Цитата
Т.е. например берем две модели, в одной присутствует независимая переменная А, а во второй переменная А заменяется на переменную B. Вычисляем для этих самых моделей коэффициент детерминации. Если коэффициент значительно выше для модели с переменной А, значит замена А на B не является адекватной. В случае, когда модель с переменной B заметно улучшит коэффициент, замена переменных А на B является адекватной.


Модель в обоих случаях - одна и та же (парная линейная регрессия). А то, что разные предикторы- так это называется спецификацией модели. То, что две по-разному специфицированные модели обладают разной объясняющей способностью - так я этого и не оспаривал.


Цитата
С трех раз самостоятельно не можете догадаться? Тогда подскажу: множественная от парной отличается множеством объясняющих переменных, а парная - единственной.


То есть по-вашему это принципиально?

И последнее. Регрессия - это моделирование условного (по распределению регрессоров) математического ожидания зависимой величины (отклика). У топикстартера и зависимая величина (динамика) и регрессор (тяжесть исходного состояния) - величины, измеренные в порядковой шкале. Оперировать по отношению к ним категорией математического ожидания - не корректно. Следовательно, основная предпосылка регрессионного анализа на выполнена. Это-задача не для линейного регресионного анализа. На это человеку также было указано в посте ?3. В этой связи наш треп в отсутствие топикстартера не стоит выеденного яйца. Предлагаю на этом уняться.
DrgLena
Нет формулировки цели исследования. Что значит есть две группы с различными методами лечения? Если цель сравнить эффективность двух методов лечения, то нужно начать с того , как эти группы были сформированы, была ли рандомизация или нужно доказывать их сопоставимость по каким то признакам, связанным с прогнозом. Скорее всего, уровень по шкале APACHE II до лечения в группах различался, потому и придумали странное понятие суммарной динамики на конечный этап наблюдения. Как я поняла задачу, нужно оценить степень снижения риска по шкале APACHE II. Сама по себе эта шкала, (полученная по значениям 17 предикторов), является важнейшим предиктором риска смерти, который также рассчитывается в моделях логистической регрессии, куда могут входить и другие предикторы (скорректированный риск). Возможно, цель состоит в том, чтобы найти дополнительные предикторы для повышения чувствительности и специфичности шкалы APACHE II для определенной патологии.

А теперь о том, как сравнивают различия по шкале APACHE II. Да, приводят средние значения по шкале и SD, да, как правило, средние имеют большой разброс данных, как в группах выживших, так и в группах умерших, и даже очень умные журналы и в самых последних номерах используют такой подход. И это не от незнания статистики, а от желания быть понятым. Прежде всего в сравниваемых группах должна быть оценена доля умерших, а как изменилась оценка по APACHE II можно проанализировать для выживших используя дисперсионный анализ для повторных измерений, будет понятно, каковы различия до лечения, в 1 день и на 5 день.
Степень изменения ? разность между до и на 5 день в двух группах можно сравнить посредством 95% ДИ, посчитав для этого среднеквадратическую ошибку разности (SD разности выдает Statistica, можно посчитать и m).

Можно, конечно использовать и другой статистический подход к анализу различий в группах. Имеется 8 градаций оценки шкалы APACHE II, можно посчитать долю больных с переходом в более низкую градацию в результате лечения в одной и второй группе и сравнить эти доли. Но вряд ли этот подход даст больше информации, чем дисперсионный анализ.
Почему не регрессия, по здравому смыслу. Больные с высокими оценками по этой шкале не выживают, у них на много снизить эти оценки просто не получится, а у кого они были низкие, так сильно и не снизишь. А в срединных категориях могут быть переходы на более низкие оценки, и это можно сравнивать в двух группах.
100$
Цитата
можно проанализировать для выживших используя дисперсионный анализ для повторных измерений, будет понятно, каковы различия до лечения, в 1 день и на 5 день.
Степень изменения ? разность между до и на 5 день в двух группах можно сравнить посредством 95% ДИ, посчитав для этого среднеквадратическую ошибку разности (SD разности выдает Statistica, можно посчитать и m).


Вообще-то ДА - это всего лишь способ множественного сравнения средних: по сути - тест Стьюдента для 3 и более групп. Так что тестировать балльную шкалу критерием Стьюдента-верный способ попасть к Леонову в его кунсткамеру. Правда, он уже устал над этим хохотать.

Поскольку баллы-это квазичисла (порядковая шкала), понятие среднего для них не определено. Так же как не определены арифметические операции в порядковой шкале. Следовательно, разность баллов - неинформативная галиматья: по жизни дистанция от двоечника до троечника не равна расстоянию от хорошиста до троечника, и уж тем более не равна расстоянию от хорошиста до отличника. А разность баллов везде одинакова: 3-2=4-3=5-4.

Единственный статистический объект по результатам применения балльной шкалы - ранжировка. Это-объект нечисловой природы. Так что все срочно читаем проф. Орлова. Об успехах сообщайте. О неудачах - тоже.

DrgLena
Конкретно эти оценки я не называю баллами, это скорее скоринговая оценка. В логистической регрессии эта шкала участвует как количественная, для того она и была разработана
100$
Цитата(DrgLena @ 21.03.2012 - 17:01) *
Конкретно эти оценки я не называю баллами, это скорее скоринговая оценка. В логистической регрессии эта шкала участвует как количественная, для того она и была разработана


А хрен редьки не слаще.
Что балльная, что скоринговая конструкция финитна по определению.
Вот, скажем, для 5-балльной шкалы (1-2-3-4-5) чел рассчитал разницу 5-4=1 и строит для нее ДИ только лишь для того, чтобы с 95%-ной уверенностью втиснуть эту величину между парой значений (нижней и верхней квантилями несуществующего распределения), в то время как в вероятностью 1 эта величина (разница) лежит в интервале max-min.
DrgLena
Цитата(100$ @ 21.03.2012 - 17:22) *
Вообще-то ДА - это всего лишь способ множественного сравнения средних: по сути - тест Стьюдента для 3 и более групп.

Это вы зря так про ДА, ищите больше отличий smile.gif

не про школьные отметки идет речь
http://www.ncbi.nlm.nih.gov/pubmed/20219387
100$
Цитата
Это вы зря так про ДА, ищите больше отличий smile.gif


Отличий по форме или по содержанию? confused.gif

Вообще-то все выборочные исследования сводятся к проверке гипотезы о средней и к проверке гипотезы о доле.
YVR
Цитата(100$ @ 21.03.2012 - 16:21) *
Чаще всего корреляционный анализ предшествует регрессионному: сначала устанавливается факт наличия связи между двумя явлениями: определили силу связи (абс. значение и стат. значимость к-та корр.), потом - направление (знак). Затем приступают к моделированию зависимостей.


Во первых, не чаще, а всегда, потому что сначала вычисляется коэффициент корреляции, а только потом по его значению вычисляются остальные коэффициенты регрессионной модели. Во вторых, никакие связи сначала не устанавливаются, а первым делом вычисляется коэффициент корреляции вместе со знаком, т.r. знак вычисляется не после того, как известно значение коэффициента корреляции, а до, поскольку значение со знаком в числителе формулы вычисления коэффициента корреляции, а с положительным значением в знаменателе. В третьих никакие статистические значимости коэффициента корреляции не определяются.

Прежде, чем сочинять отсебятину лучше бы взяли любой алгоритм вычисления регрессии (они не являются секретными и есть практически для любых общеизвестных и общеупотребительных языков программирования) и убедились бы, что Ваши выдумки не соответствуют действительности.

Цитата(100$ @ 21.03.2012 - 16:21) *
Давайте внесем ясность: человек в посте ?1 вывесил три регрессионные модели, отличающиеся разным количеством переменных: парную линейную, параболическую и кубическую ...


Давайте не будем Вашу отсебятину считать "ясностью". В модели всего две переменные: зависимая - тяжесть состояния и объясняющая - время. Т.е. во всех без исключения случаях мы имеем дело с функцией от одной переменной y = f(t). И что Вы бы там не сочиняли и не выдумывали, других переменных нет и быть не может и взяться им неоткуда, независимо от того, линейная функция, квадратная, кубическая или еще какая.


Цитата(100$ @ 21.03.2012 - 16:21) *
То есть по-вашему это принципиально?


Для эпигонов вообще ничего принципиального не существует, кроме собственного мнения, т.к. для них главное не результат, а процесс. Взял некий пакет по перемалыванию цифр, засунул одни цифры, получил другие. Зачем и для чего он их получил - не принципиально. Принципиально важно в процессе состряпать умную рожу и разбавить все это хозяйство наукообразными терминами, о смысле которых он и не догадывается, а также громкими именами, для пущей важности.

Цитата(100$ @ 21.03.2012 - 16:21) *
В этой связи предлагаю сократить вашу (интересную) лекцыю до единственного абзаца:


Поступлю гораздо проще. Поскольку с эпигонами нет вообще никакого смысла общаться, т.к. у них все точки зрения делятся на две категории: собственная и неправильная, то заношу Ваш ник в черный список.

100$
Цитата
Поступлю гораздо проще. Поскольку с эпигонами нет вообще никакого смысла общаться, т.к. у них все точки зрения делятся на две категории: собственная и неправильная, то заношу Ваш ник в черный список.


Ты мне, мил человек, только монитор своими физиологичскими жидкостями не забрызгивай. Все прочее я переживу.

P.S. Да, кстати, у меня - лицо. А рожа - это то, чем природа, желая развлечься, наградила тебя.
TheThing
Цитата(YVR @ 21.03.2012 - 21:13) *
В третьих никакие статистические значимости коэффициента корреляции не определяются.


Здравствуйте!

Вы могли бы более детально описать, почему статистическая значимость коэффициента корреляции не рассчитывается? Может быть пару источников на эту тему..

Спасибо!
ИкРИНКА
Помогите!Шарики за ролики уже зашли с этим диссером. Есть 2 группы больных циррозом печени и портальной гипертензией,одна группа без функционирующей пупочной вены,вторая С, т.е. практически одинаковые больные. Но при расчете корреляции УЗ показателей,получается что некоторые из этих показателей в одной группе имеют отрицательную корреляцию например - 0,5 а вдругой группе эти же показатели уже положительную, ну к примеру 0,6. Как такое может быть и что это может значить?
nokh
Цитата(ИкРИНКА @ 30.04.2012 - 17:28) *
Помогите!Шарики за ролики уже зашли с этим диссером. Есть 2 группы больных циррозом печени и портальной гипертензией,одна группа без функционирующей пупочной вены,вторая С, т.е. практически одинаковые больные. Но при расчете корреляции УЗ показателей,получается что некоторые из этих показателей в одной группе имеют отрицательную корреляцию например - 0,5 а вдругой группе эти же показатели уже положительную, ну к примеру 0,6. Как такое может быть и что это может значить?

Помимо направления связи и её силы существует ещё статистическая значимость, про которую вы ничего не сказали. Поэтому если в одной группе коэффициент корреляции -0,5, а в другой +0,6, но они не значимы статистически - это ничего не значит, это - одно и то же. Если же они были значимыми, то возможны варианты.
1). Признак, по которому различаются группы прямо или опосредованно влияет на связь показателей, изменяя её знак на противоположный. Интерпретировать это должны вы с коллегами, т.к. если это входит в тему вашей диссертации, то вы разбираетесь в этом заведомо лучше, чем участники ветки по анализу данных.
2). Связь может быть ложной, т.е. "натянутой" внутренней неоднородностью групп. Здесь также возможны варианты, но принцип следующий. Например, группа пациентов у которых всё функционирует - однородна и связь между 2 показателями положительная. А группа более тяжёлых пациентов неоднородна и состоит из двух подгрупп, в одной из которых которых значения одного или сразу 2х исследуемых признаков сильно отличаются от первой. В каждой из этих подгрупп связь между показателями может быть положительной, но при их совместном анализе ?превращаться? в отрицательную из-за различий в средних. Посмотреть как подобная ситуация выглядит можно на рис. из сообщения #1 этой темы: http://forum.disser.ru/index.php?showtopic...&#entry7082
Чтобы понять, с чем вы имеете дело нужен графический анализ.
ИкРИНКА
[quote name='nokh' date='30.04.2012 - 21:20' post='13479']
ох,спасибо.
У меня просто бешенный массив данных и надеялась по корреляции отсеять лишние,которые не отсеялись после достоверности( Соответсвенно сократить объем обсчета. Но видимо не удастся(
nokh
Цитата(ИкРИНКА @ 30.04.2012 - 22:33) *
[У меня просто бешенный массив данных и надеялась по корреляции отсеять лишние,которые не отсеялись после достоверности( Соответсвенно сократить объем обсчета. Но видимо не удастся(

А что объём? Весь объём уже оцифрован, а считает компьютер. Но если не хотите брать в работу всё - можно прибегнуть к методам редукции данных с обобщением, типа компонентного и факторного анализа. В принципе, можно разобраться с факторной структурой связей показателей в каждой из групп, а затем сравнить эти структуры. Можно целенаправленно искать именно те паттерны связей показателей, которые обусловлены межгрупповыми различиями (анализ избыточности), или паттерны тех особенностей групп, которые позволят их максимально разделить (дискриминантный анализ) и др. Основываясь на результатах такого анализа можно выделить ключевые показали, характеризующие разные стороны рассматриваемого явления, и классической одномерной статистикой сработать только по ним, подтвердив выводы многомерного анализа.
Но если идти этим путём, важно чтобы вам на первых порах кто-то из окружения показал и объяснил кухню многомерного анализа данных.
stok1946
Цитата(100$ @ 21.03.2012 - 17:22) *
Тестировать балльную шкалу критерием Стьюдента-верный способ попасть к Леонову в его кунсткамеру. Правда, он уже устал над этим хохотать.
Поскольку баллы-это квазичисла (порядковая шкала), понятие среднего для них не определено. Так же как не определены арифметические операции в порядковой шкале. Следовательно, разность баллов - неинформативная галиматья: по жизни дистанция от двоечника до троечника не равна расстоянию от хорошиста до троечника, и уж тем более не равна расстоянию от хорошиста до отличника. А разность баллов везде одинакова: 3-2=4-3=5-4.
Единственный статистический объект по результатам применения балльной шкалы - ранжировка. Это-объект нечисловой природы. Так что все срочно читаем проф. Орлова.

За что Вы так баллы обругали? Есть себе вполне изячный способ обойти "проклятие порядковой шкалы". Предположим, что мы имеем совокупность оцененных баллов В1,В2, .... Вn. Рассмотрим выборку, измеренную в шкале отношений x [0,∞], такую, что Вi = [xi]. Далее преспокойно работаем с Х?ми, т.е. непрерывным аналогом порядковой шкалы: считаем среднее, Стьюдента и проч. и никакой уставший хохотать Леонов нам не указ. Как яхту назовете, так она и поплывет.
Это - теоретическая отмазка. Но ведь точно так делают высоколобые математики, пописывая : "Предположим, что случайная величина распределена нормально с параметрами....", нисколько не смущаясь, что нормального распределения в реальной природе не существует (есть только некоторая похожесть на него).
А какие аргументы против баллов на практике? Мол расстояние от троечника до двоечника не равно расстоянию от троечника до хорошиста... Отнюдь - это расстояние равно точно одному баллу. Но оказывается нужно оговаривать - по жизни ( rolleyes.gif).
А по жизни есть только несколько шкал (см. Палату эталонов мер и весов), которые измеряют действительные процессы. А все остальное - косвенное измерение неких латентных переменных. Например, температура - олицетворение кинетической энергии движения молекул вещества. И если вы скажете, что при температуре 10 град эта энергия в 2 раза меньше, чем при 20 град С, Больцман с Гиббсом перевернутся от негодования в гробу. 99% иных шкал тоже экспоненциально, нормально, потенциально или как-то иначе. Миром правит нелинейность и все реальные непрерывные шкалы напрочь деформированы.

А баллы по опыту вполне пригодны для включения в регрессионные модели, оценки статистических гипотез и проч. И почему это в кунст-камеру еще не попали судьи по фигурному катанию или художественной гимнастике, которые преспокойно рассчитывают средний балл?
Об успехах сообщайте. О неудачах - тоже.
p2004r
Цитата(stok1946 @ 23.05.2012 - 21:08) *
А баллы по опыту вполне пригодны для включения в регрессионные модели, оценки статистических гипотез и проч. И почему это в кунст-камеру еще не попали судьи по фигурному катанию или художественной гимнастике, которые преспокойно рассчитывают средний балл?
Об успехах сообщайте. О неудачах - тоже.


матожидание можно посчитать практически для всего, но вот все готовые приемы проверки матгипотез по таблицам уйдут рыдая smile.gif останется только бутстреп.
stok1946
Цитата(p2004r @ 24.05.2012 - 15:39) *
матожидание можно посчитать практически для всего, но вот все готовые приемы проверки матгипотез по таблицам уйдут рыдая smile.gif останется только бутстреп.

1. Параметрические методы зависят исключительно от характера распределения выборок обрабатываемых данных, а не от того, как субъективно кем-то была названа шкала. Из данных в 12-бальной шкале вполне можно получить выборку, очень "похожую" на нормальное распределение, тогда как другая выборка из чудненькой метрической шкалы может оказаться совершенно неудобоваримой.
2. А чем Вас, собственно, не устраивает бутстреп и пермутационный тест. Я позволил себе перевести некоторые материалы по ресамплингу с сайта проф. Хауэлла (см. http://www.ievbras.ru/ecostat/Kiril/Article/A32/Stare.htm), и получил убеждение, что чем скорее "готовые приемы проверки матгипотез по таблицам уйдут рыдая", тем лучше.
p2004r
Цитата(stok1946 @ 24.05.2012 - 15:55) *
1. Параметрические методы зависят исключительно от характера распределения выборок обрабатываемых данных, а не от того, как субъективно кем-то была названа шкала. Из данных в 12-бальной шкале вполне можно получить выборку, очень "похожую" на нормальное распределение, тогда как другая выборка из чудненькой метрической шкалы может оказаться совершенно неудобоваримой.
2. А чем Вас, собственно, не устраивает бутстреп и пермутационный тест. Я позволил себе перевести некоторые материалы по ресамплингу с сайта проф. Хауэлла (см. http://www.ievbras.ru/ecostat/Kiril/Article/A32/Stare.htm), и получил убеждение, что чем скорее "готовые приемы проверки матгипотез по таблицам уйдут рыдая", тем лучше.


1. Собственно распределение для которого были построены таблицы критических значений и не соблюдается. А когда такие данные участвуют в более менее сложной схеме эксперимента это обстоятельство становится уже чревато неверными выводами.

2. Я против бутстрепа не имею ничего против, и сам его всячески (в том числе на данном форуме : ) пропагандирую.
RomanPetrov
Цитата(stok1946 @ 24.05.2012 - 16:55) *
1. Параметрические методы зависят исключительно от характера распределения выборок обрабатываемых данных, а не от того, как субъективно кем-то была названа шкала. Из данных в 12-бальной шкале вполне можно получить выборку, очень "похожую" на нормальное распределение, тогда как другая выборка из чудненькой метрической шкалы может оказаться совершенно неудобоваримой.
2. А чем Вас, собственно, не устраивает бутстреп и пермутационный тест. Я позволил себе перевести некоторые материалы по ресамплингу с сайта проф. Хауэлла (см. http://www.ievbras.ru/ecostat/Kiril/Article/A32/Stare.htm), и получил убеждение, что чем скорее "готовые приемы проверки матгипотез по таблицам уйдут рыдая", тем лучше.

ССЫЛКА НЕ РАБОТАЕТ.
DrgLena
Ссылка работает, за что автору СПАСИБО!
Скобочку уберите в конце, она к линку цепляется smile.gif
RomanPetrov
ДА!
Alex_Z
Удалите сообщение, пожалуйста.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.