Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Оценить корреляцию в Excel
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Олик)
Добрый день! Помогите, пожалуйста, решить проблему. Только начала осваивать статистику и одновременно хочу научиться использовать для этих целей Excel.
Есть порядка 600 пар данных, подозреваю, что они должны быть взаимосвязаны, но как это обосновать - не знаю.
Коэффициент корреляции Пирсона с помощью Excel расчитать могу, но он работает на нормальном распределении. Мои данные, боюсь, не имеют нормального.
Выглядит это примерно так:
1 175 750
2 175 1225
3 45 350
4 125 350
5 125 500
6 175 1000
7 80 500
8 250 875
9 45 75
10 175 525
11 175 750
12 125 625
13 175 350
14 125 525
15 125 375
16 80 300
17 175 500
18 175 875
19 30 225
20 125 500
21 80 750
22 80 500
23 30 300
24 30 150
25 80 250
26 80 500
27 30 225
28 45 225
29 45 175
30 45 375
Начала оценивать нормальность распределения каждого из столбцов отдельно, чтобы хотя бы опровергнуть, но и этого даже не получилось. В общем запуталась:).
Подскажите, пожалуйста, может, есть какой-то алгоритм?
Скорее всего данные распределены не по нормальному закону (1), как это определить?
Что выбрать для оценки корреляции?
Спасибо заранее))
DoctorStat
Цитата(Олик) @ 16.12.2008 - 13:55) *
Скорее всего данные распределены не по нормальному закону (1), как это определить?
Что выбрать для оценки корреляции?
Первая величина (столбец) распределена явно не по нормальному закону, см.приложенный рисунок. Ее кривая распределения не похожа на колокол, несимметрична. Поэтому использовать коэффициент корреляции Пирсона (есть в Excel) нельзя. Необходимо использовать ранговый (непараметрический) коэффициент корреляции Спирмена (нет в Excel, зато есть во всех других статистических программах). В программе Statistica, например, Спирмен вычисляется в меню: Statistics->Nonparametrics->Correlations(Spearman). В программе SPSS меню Analyse->Correlate->Bivariate (Флаг Spearman)
Олик)
Спасибо большое!)
еще небольшое уточнение: теперь, прежде чем сравнивать 2 столбца в SPSS, я должна убедиться, что оба имеют отличное от нормального распределение или это лишнее?
Олик)
хотя, наверное, я уже и сама поняла, что лишнее, еще раз спасибо!
плав
Цитата(Олик) @ 16.12.2008 - 17:15) *
хотя, наверное, я уже и сама поняла, что лишнее, еще раз спасибо!

Для корреляции Пирсона - должно быть не просто нормальное, а бивариантно нормальное распределение, для Спирмена - просто доказательство монотонности (т.е. возрастания или падения и там и там, без явных изгибов и перегибов).
Олик)
Correlations V2 V3
Spearman's rho
V2 Correlation Coefficient 1,000 ,583(**)
Sig. (2-tailed) . ,000
N 536 536
V3 Correlation Coefficient ,583(**) 1,000
Sig. (2-tailed) ,000 .
N 536 536
** Корреляция значима на уровне 0.01 (2-сторонняя).

Добралась до SPSS, вот такую красоту получила!
Осталася 1 вопрос: почему значима на уровне 0,01? что это значит?
я бы это интерпретировала как коэффициенты корреляции 1 и 0,6...
какие еще уровни бывают?
DoctorStat
Цитата(Олик) @ 18.12.2008 - 15:41) *
Осталася 1 вопрос: почему значима на уровне 0,01? что это значит?
какие еще уровни бывают?
Коэффициент парной корреляции Спирмена равен 0,583. Значимость корреляции p=0,01 - означает, что вероятность того, что 2 переменные не связаны между собой меньше 0,01 (1 случай из 100). Это достаточно высокая значимость. В медицине часто используют 3 уровня значимости p-value: 0,05 (средняя); 0,01(высокая); 0,001(очень высокая).
Олик)
у меня продолжение того же вопроса:
имею много данных по различным параметрам, построила для них гистограммы (некоторые из них прикрепила).
В конечном результате хочу добиться следующего: для определенной модели нужно включить эти данные, но только в том случае, если нет взаимовлияния. Снова нужно оценить корреляцию и снова я стою перед проблемой оценки нормальности распределения...
Судя по гистограммам, я бы последние три отнесла к нормальному распределению. Но как доказать, что я не ошибаюсь, если я не ошибаюсь? Какие все-таки четкие способы, кроме "глазомерного"? Есть в какой-нибудь программе возможность путем каких-либо комбинаций добиться подписи - вот эти данные распределены по нормальному закону, а вот эти по такому-то...?
И как проводить корреляционный анализ между данными с разным распределением?
Заранее прошу прощения, если что-то глупое пишу - учусь...smile.gif

...ну вот, а прикрепить не получается... попробую разобраться...
Олик)
кажется вышло)
DoctorStat
Цитата(Олик) @ 19.12.2008 - 13:15) *
кажется вышло)
1. ОЦЕНКА НОРМАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ В ПРОГРАММЕ SPSS.
Analyze->Descriptive Statistics->Explore - Plots - Флаг - Normality plots with tests.
В результатах нужно смотреть таблицу Критерий нормальности. Там 2 теста: Колмогоров-Смирнов и Шапиро-Уилк. Смотрите последний столбец таблицы - значимость. Если полученная значимость в обоих тестах слишком мала (<0,05), то распределение отлично от нормального.
2. ОЦЕНКА ЗАВИСИМОСТИ 2-Х ВЕЛИЧИН.
Ваши графики распределений, показанные на рисунках, скорее всего отличны от нормального, поэтому для оценки парной зависимости используйте непараметрический ранговый коэффициент корреляции Спирмена.
Олик)
посчитала, спасибо за помощь, но вот получила как раз то, чего опасалась:
Kolmogorov-Smirnov(a) Shapiro-Wilk
есть уровень значимости по двум тестам > 0,05
0,2 0,088
0,088 0,089
есть уровень значимости по двум тестам < 0,05
0,001 0
0,005 0,001
а есть для разных тестов разный, кому доверять?
0,051 0,022
0,2 0,022

и как теперь оценить корреляцию? что делать, если два параметра имеют разное распределение, можно ли сделать уже из этого вывод, что они никак друг с другом не связаны?
DoctorStat
Цитата(Олик) @ 19.12.2008 - 16:35) *
и как теперь оценить корреляцию?
Используйте непараметрический коэффициент корреляции Спирмена
Цитата(Олик) @ 19.12.2008 - 16:35) *
что делать, если два параметра имеют разное распределение, можно ли сделать уже из этого вывод, что они никак друг с другом не связаны?
Вы не доказали, что у них РАЗНОЕ распределение. Вы только доказали, что ОДНА выборка распределена не по нормальному закону. Две связанные величины могут быть распределены как угодно. Возьмите, например, рост и пол человека. Рост распределен нормально, а пол биноминально, т.е. распределения этих 2-х величин отличаются. Тем не менее, мальчики в среднем выше девочек, значит эти величины взаимосвязаны.
Игорь
Цитата(Олик) @ 19.12.2008 - 16:35) *
посчитала, спасибо за помощь, но вот получила как раз то, чего опасалась:
Kolmogorov-Smirnov(a) Shapiro-Wilk

...

и как теперь оценить корреляцию? что делать, если два параметра имеют разное распределение, можно ли сделать уже из этого вывод, что они никак друг с другом не связаны?

Да уж - "помощь". Все посчитано категорически неверно.

Как уже говорил плав, необходима не просто [маргинальная] нормальность каждой выборки, а нормальность двумерная. Указанные в посте критерии не проверяют данный факт.

Двумерную нормальность можно проверить с помощью специальных критериев: асимметрии и эксцесса (т.е. "сферичности") Мардиа, критерия Хенце-Цирклера (многомерный аналог Эппса-Палли). Имеется многомерный аналог Шапиро-Уилка, однако в программах он, по-моему, пока не реализован.
плав
Цитата(DoctorStat @ 18.12.2008 - 16:18) *
Коэффициент парной корреляции Спирмена равен 0,583. Значимость корреляции p=0,01 - означает, что вероятность того, что 2 переменные не связаны между собой меньше 0,01 (1 случай из 100). Это достаточно высокая значимость. В медицине часто используют 3 уровня значимости p-value: 0,05 (средняя); 0,01(высокая); 0,001(очень высокая).

Уппс... Нет. Если значимость корреляции 0,01 это НЕ означает, что "2 переменные не связаны между собой меньше 0,01". Это означает, что если бы две переменные НЕ БЫЛИ БЫ связаны между собой, то вероятность получить коэффициент корреляции такой или большей величины была бы 1%. Иными словами, если взять двадцать переменных, которые не связаны друг с другом, то, по крайней мере один коэффициент корреляции будет иметь р<0.01. Для корреляционных решеток с большим количеством переменных использовать правила, пришедшие из сравнения групп (0,05 и т.п.) нельзя, надо, по крайней мере использовать поправку Бонферрони.
Олик)
Только начала осваивать статистику...

Наверное, вы уже просто между собой общаетесь smile.gif
у меня при каждом новом ответе почему-то возникает все больше и больше вопросов:)

Правильно ли я поняла, что имея выборку, для оценки корреляции каждых двух параметров, я сначала определяю характер распределения каждого из параметров.

- если два параметра распределены нормально, то применяю коэффициент Пирсона. Причем, нормальность проверяю только с помощью асимметрии и эксцесса и т.д., как писал Игорь.

- если хоть один параметр имеет распределение, отличное от нормального, то для оценки корреляции можно использовать коэффициент Спирмена.

- дальше, получив результаты, можно уже оценивать степень корреляции, принимая во внимание уровень значимости. так?

про поправку Бонферрони и корреляционные решетки с большим количеством переменных я даже спрашивать пока боюсь, лучше для начала почитаю.
Олик)
Только начала осваивать статистику...

Наверное, вы уже просто между собой общаетесь smile.gif
у меня при каждом новом ответе почему-то возникает все больше и больше вопросов:)

Правильно ли я поняла, что имея выборку, для оценки корреляции каждых двух параметров, я сначала определяю характер распределения каждого из параметров.

- если два параметра распределены нормально, то применяю коэффициент Пирсона. Причем, нормальность проверяю только с помощью асимметрии и эксцесса и т.д., как писал Игорь.

- если хоть один параметр имеет распределение, отличное от нормального, то для оценки корреляции можно использовать коэффициент Спирмена.

- дальше, получив результаты, можно уже оценивать степень корреляции, принимая во внимание уровень значимости. так?

про поправку Бонферрони и корреляционные решетки с большим количеством переменных я даже спрашивать пока боюсь, лучше для начала почитаю.
DoctorStat
Цитата(Олик) @ 21.12.2008 - 13:23) *
Правильно ли я поняла, что имея выборку, для оценки корреляции каждых двух параметров, я сначала определяю характер распределения каждого из параметров.
Совсем необязательно заранее проверять распределение параметров. Чаще всего они распределены не по Гауссу. Зачем делать лишнюю работу? На малых выборках проверить нормальность вообще невозможно. Любой тест для малочисленной выборки скажет Вам, что она нормальна. При количестве наблюдений <30 лучше не предполагать и не проверять нормальность распределения.
Цитата(Олик) @ 21.12.2008 - 13:23) *
- если два параметра распределены нормально, то применяю коэффициент Пирсона. Причем, нормальность проверяю только с помощью асимметрии и эксцесса и т.д., как писал Игорь.
Правильно. Нормальность проверяете любыми тестами, которые есть в Вашем распоряжении. Чем больше тестов «дадут добро», тем больше уверенность.
Цитата(Олик) @ 21.12.2008 - 13:23) *
- если хоть один параметр имеет распределение, отличное от нормального, то для оценки корреляции можно использовать коэффициент Спирмена.
Правильно. Только лучше используйте Спирмена всегда, не задумываясь, нормальна выборка или нет. Коэффициент Пирсона по сравнению со Спирменом дает небольшой выигрыш в мощности, но только для нормального распределения.
Цитата(Олик) @ 21.12.2008 - 13:23) *
дальше, получив результаты, можно уже оценивать степень корреляции, принимая во внимание уровень значимости. так?
Так. Уровень значимости должен быть меньше заданной величины, например, 0,05.
Цитата(Олик) @ 21.12.2008 - 13:23) *
про поправку Бонферрони и корреляционные решетки с большим количеством переменных я даже спрашивать пока боюсь, лучше для начала почитаю.
Есть такая пословица: волков бояться на форум не ходить. А читать никогда не вредно. Начинайте с книги Стентон Гланц "Медико-биологическая статистика". Там все понятно изложено с расчетом на "чайников".
плав
Множественные сравнения большая проблема, чем ненормальность (кстати, для достижения того же уровня значимости при использовании критерия Пирсона надо на 30% меньше данных, чем для Спирмена, так что рекомендация использовать только Спирмена не всегда оптимальна). Проблема множественных сравнений заключается в том, что Вы рассчитываете одновременно много коэффициентов, каждый из которых может быть "случайно" достоверен. Соответственно, чем больше у Вас коэффициентов, тем выше вероятность такой ошибки. Грубо говоря если у Вас 5 коэффициентов для достижения номинального уровня в 0,05 надо чтобы каждый конкретный коэффициент имел значимость не более 0,01, если 10 - 0,005 и т.д. (0,05/к - где к - количество коэффициентов - это и есть поправка Бонферрони)
Victor1980
Всем добрый день.
Извините за вторжение в Ваш разговор. У меня тот же вопрос.
Заранее прошу простить меня за мою некомпетентность в статистике. Вопрос вот какой.
Я анализирую данные полученные в когортном исследовании. Исследуются исходы в одной выборке до и после операции. Например появилось ли недержание мочи после операции или исчезло.
Насколько я понимаю, поскольку в данном случае речь идет о сравнении частот бинарного признак (есть недержание - 1; нет недержания -0) в двух связанных (зависимых группах).
Таким образом для проверки гипотез следует применить Мак Немара хи квадрат с построением четырехпольной таблицы абсолютных частот.
Далее мне нужно изучит корреляцию между двумя рядами. Один из которых построен из количественных признаков например (возраст или индекс массы тела а второй из
бинарных (есть недержание - 1; нет недержания -0). Если я правильно понимаю в данном случае корреляцию следует анализировать методом Спирмена.
Ответьте пожалуйста на вопрос. Все ли правильно ли в моих расчетах? Нет ли некорректно выбранного метода? И могу ли рассчитать корреляцию Спирмена таким образом - подставляя в первый ряд (например значение индекса массы тела - 29,5) а во второй ряд значение бинарного признака - 0 или 1 (что соответствует наличию или отсутствию заболевания).

Заранее благодарен.
Виктор
плав
Цитата(Victor1980 @ 10.08.2010 - 00:31) *
Всем добрый день.
Извините за вторжение в Ваш разговор. У меня тот же вопрос.
Заранее прошу простить меня за мою некомпетентность в статистике. Вопрос вот какой.
Я анализирую данные полученные в когортном исследовании. Исследуются исходы в одной выборке до и после операции. Например появилось ли недержание мочи после операции или исчезло.
Насколько я понимаю, поскольку в данном случае речь идет о сравнении частот бинарного признак (есть недержание - 1; нет недержания -0) в двух связанных (зависимых группах).
Таким образом для проверки гипотез следует применить Мак Немара хи квадрат с построением четырехпольной таблицы абсолютных частот.
Далее мне нужно изучит корреляцию между двумя рядами. Один из которых построен из количественных признаков например (возраст или индекс массы тела а второй из
бинарных (есть недержание - 1; нет недержания -0). Если я правильно понимаю в данном случае корреляцию следует анализировать методом Спирмена.
Ответьте пожалуйста на вопрос. Все ли правильно ли в моих расчетах? Нет ли некорректно выбранного метода? И могу ли рассчитать корреляцию Спирмена таким образом - подставляя в первый ряд (например значение индекса массы тела - 29,5) а во второй ряд значение бинарного признака - 0 или 1 (что соответствует наличию или отсутствию заболевания).

Заранее благодарен.
Виктор

Рассуждения не вполне оптимальны. Если у Вас есть две точки у одного и того же пациента, то тогда речь должна идти о смешанных моделях (моделях с повторными измерениями), которые неоднократно обсуждались ранее. Учитывая бинарность зависимого признака (есть/нет недержание) речь будет идти о логистической регрессии (с повторными измерениями). С ее помощью будет изучаться вопрос о влиянии группы (если есть два типа вмешательства) и индекса массы тела.
Вместе с тем, анализ можно упростить, если анализировать только точку исхода. Вообще возможны следующие варианты
до: было, после: осталось (0)
до: было, после: исчезло (1)
до: не было, после: нет (2)
до: не было, после: появилось (3)
Группы можно разделить по ситуации "до" (возможно, у Вас именно так, но я прописываю общий алгоритм). Тогда у нас есть группы
до: было (1)
после: осталось (0)
после: исчезло (1)
до: не было (0)
после: нет (0)
после: появилось (1)
Анализируем отдельно группу "до: было" и "до: не было"
Оценка частот (частота исчезновения недержания в группе, где оно было) оценивается одним из методов оценки ДИ частот (обсуждалось ранее - Клоппера-Пирсона, Агрести-Коула). Сам анализ выполняется при помощи обычной логистической регрессии.

Примечание. Если у Вас была группа у которой исходно были одинаковые показатели "недержания" (например, было), то тест Мак-Немара не применим. Коэффициент корреляции Спирмена теоретически может использоваться на бинарных данных, но трудно интерпретируется и поэтому к использованию не рекомендуется. Показатель связи для бинарных переменных - отношение риска/отношение шансов и, если хочется корреляции - точечно-бисериальный коэффициент корреляции.

Victor1980
[/left]
Цитата(плав @ 10.08.2010 - 11:18) *
Рассуждения не вполне оптимальны. Если у Вас есть две точки у одного и того же пациента, то тогда речь должна идти о смешанных моделях (моделях с повторными измерениями), которые неоднократно обсуждались ранее. Учитывая бинарность зависимого признака (есть/нет недержание) речь будет идти о логистической регрессии (с повторными измерениями). С ее помощью будет изучаться вопрос о влиянии группы (если есть два типа вмешательства) и индекса массы тела.
Вместе с тем, анализ можно упростить, если анализировать только точку исхода. Вообще возможны следующие варианты
до: было, после: осталось (0)
до: было, после: исчезло (1)
до: не было, после: нет (2)
до: не было, после: появилось (3)
Группы можно разделить по ситуации "до" (возможно, у Вас именно так, но я прописываю общий алгоритм). Тогда у нас есть группы
до: было (1)
после: осталось (0)
после: исчезло (1)
до: не было (0)
после: нет (0)
после: появилось (1)
Анализируем отдельно группу "до: было" и "до: не было"
Оценка частот (частота исчезновения недержания в группе, где оно было) оценивается одним из методов оценки ДИ частот (обсуждалось ранее - Клоппера-Пирсона, Агрести-Коула). Сам анализ выполняется при помощи обычной логистической регрессии.

Примечание. Если у Вас была группа у которой исходно были одинаковые показатели "недержания" (например, было), то тест Мак-Немара не применим. Коэффициент корреляции Спирмена теоретически может использоваться на бинарных данных, но трудно интерпретируется и поэтому к использованию не рекомендуется. Показатель связи для бинарных переменных - отношение риска/отношение шансов и, если хочется корреляции - точечно-бисериальный коэффициент корреляции.


Большое спасибо за Ваш внятный и профессиональный ответ.
Как профан в области статистики, прошу простить мою непонятливость. Я бы хотел пояснить дизайн исследования, для последующего вопроса.
Имеется группа пациенток (все женщины),у всех один и тот же диагноз (опущение тазовых органов) все подверглись одной и той же операции Prolift, у 24 пациенток было недержание мочи (НМ) у 15 было скрыто недержание (два отдельных признака) (всего с недержанием 39). После операции у 14 женщин исчезло недержание, а у 10 осталось, а у пациенток с скрытым недержанием исчезло в 9 случаях а у 6 осталось. Кроме того, у 56 был ГАМП (гиперактивный мочевой пузырь) из которых после операции у 36 исчезло а у 20 осталось. А среди пациенток у которых не было ГАМП (49) он появился появилось у 4 пациенток. Я так понимаю расчеты в этих подгруппах должны выполнятся отдельно и аналогичными методами. Поэтому можно рассмотреть только группу НМ.
Я думаю в данной ситуации критерий Мак-Немара для оценки различия отн частот до и после применим !? Далее известны другие показатели ИМТ, возраст, количество родов. Хотелось бы определить как эти факторы влияют на исход т.е. исчезнет НМ, останется или появиться. Мне представляется что в общей группе до операции следует привести коэф точечно-биссерной корреляции НМ - возраст, НМ-ИМТ, НМ-количество родов. Далее, следуя Вашей подсказке: следует провести расчет логистической регрессии НМ vs ИМТ, НМ vs возраст, НМ vs количество родов в группах до и после операции с последующим сравнением показателей Л-регресии, чтобы вынести суждение о том, что данный фактор влияет на появление или исчезновение симптомов?????? Это если я правильно понял Вашу подсказку. Или (опять если я правильно понял) можно построить таблицу:(примерно) (ПО)-постоперационно

НМ возникло(ПО) - НМ не возникло(ПО)
N женщин с ИМТ менш 30 A - B
Т женщин с ИМТ бол 30 C - D

Далее просто расчитать Odds Ratio = A/B = x C/D = y
и просто отнести эти два показателя. x/y
Последний метод прост до гениальности и соблазнителен. Однако применим ли он в данной ситуации и если да то требует ли он проверки гипотиз и какой метод оптимальнее всего для этого?
Извините что извожу Вас,остался последний вопрос.
Какой метод Вы бы посоветовали для анализа связь, частоты рецидива выраженного либо в процентах либо в абсолютных числах и степени выпадения?

Заранее благодарен.
[left]
Victor1980
Я имел ввиду, то что учитывая необходимость в случае вычисления Odds Ratio потребуется перевод количественного признака ИМТ в бинарный т.е. (1)- ИМТ <30 (2) - ИМТ > 30, является такой подход целесообразным, оправданным и не снижает ли он чувствительность вычисления (с учетом того, что соблазн применения этого метода связан с тем что он гораздо более простой для понимания , в моем случае, чем та же самая логистическая ргрессия.

Еще раз спасибо!
плав
Цитата(Victor1980 @ 10.08.2010 - 16:18) *
Я имел ввиду, то что учитывая необходимость в случае вычисления Odds Ratio потребуется перевод количественного признака ИМТ в бинарный т.е. (1)- ИМТ <30 (2) - ИМТ > 30, является такой подход целесообразным, оправданным и не снижает ли он чувствительность вычисления (с учетом того, что соблазн применения этого метода связан с тем что он гораздо более простой для понимания , в моем случае, чем та же самая логистическая ргрессия.

Еще раз спасибо!

Сразу на два поста. Итак у Вас группа НМ - 24 женщины (у всех недержание). После операции у 14 исчезло у 10 осталось. Соответственно, учитывая гомогенность по признаку недержания группы у Вас всего две цифры 14 и 10. Тест Мак-Немара требует 4 пары данных:
+- было исчезло
++ было осталось
-+ не было появилось
-- не было не появилось
Для расчетов используются численности групп (число пар) +- и -+. Второго типа данных у Вас просто нет, поэтому тест Мак-Немара не применим (его можно только использовать в случае ГАМП).
Соответственно, у Вас 24 женщины, которых можно закодировать 1 (исчезло), таких а человек и 0 (осталось), таких b человек. Описание этих значений сводится к расчету доли успешности операции a/(a+b) и определению 95% доверительного интервала по методам, указанным выше.
Теперь, на результат операции у Вас влияют вмешивающиеся значения. Насколько они важны можно было бы вначале проанализировать с помощью четырехпольных таблиц, но у Вас нет качественных, а тем более бинарных независимых переменных. Если бы они были, то таблица выглядела бы так
НМ/ Ф+ Ф-
1 m n
0 o p
, где m+n=a и o+p=b
Тогда OR=mp/no
и делается расчет 95%ДИ для OR.
В Вашем случае все показатели, повторюсь, количественные. Дихотомизировать количественные переменные, как Вы предлагаете - плохая практика, поскольку теряется значительная информация (тогда женщина с ИМТ 30.1 и 44.4 рассматриваются как имеющие одно значение ИМТ, а это разница для 150 см женщины в весе 67 и 100 кг). Соответственно, надо пользоваться методами, анализирующими зависимость качественной бинарной переменной от количественных - это логистическая регрессия.
Вначале делаете унивариантную логистическую регрессию (НМ-возраст, НМ-ИМТ, НМ-кол-во родов (тут надо посмотреть, если категорий мало, лучше их превратить в набо переменных-пустышек)), а затем - суммарную (не включая те показатели, которые в унивариантной регрессии оказались сильно незначимыми, например р>0,20).
После логистической регрессии также рассчитываете OR, только это буду шансы при росте, например ИМТ на 1 кг/м2 (можно и на 5 сделать).
Victor1980
Цитата(плав @ 10.08.2010 - 23:40) *
Сразу на два поста. Итак у Вас группа НМ - 24 женщины (у всех недержание). После операции у 14 исчезло у 10 осталось. Соответственно, учитывая гомогенность по признаку недержания группы у Вас всего две цифры 14 и 10. Тест Мак-Немара требует 4 пары данных:
+- было исчезло
++ было осталось
-+ не было появилось
-- не было не появилось
Для расчетов используются численности групп (число пар) +- и -+. Второго типа данных у Вас просто нет, поэтому тест Мак-Немара не применим (его можно только использовать в случае ГАМП).
Соответственно, у Вас 24 женщины, которых можно закодировать 1 (исчезло), таких а человек и 0 (осталось), таких b человек. Описание этих значений сводится к расчету доли успешности операции a/(a+b) и определению 95% доверительного интервала по методам, указанным выше.
Теперь, на результат операции у Вас влияют вмешивающиеся значения. Насколько они важны можно было бы вначале проанализировать с помощью четырехпольных таблиц, но у Вас нет качественных, а тем более бинарных независимых переменных. Если бы они были, то таблица выглядела бы так
НМ/ Ф+ Ф-
1 m n
0 o p
, где m+n=a и o+p=b
Тогда OR=mp/no
и делается расчет 95%ДИ для OR.
В Вашем случае все показатели, повторюсь, количественные. Дихотомизировать количественные переменные, как Вы предлагаете - плохая практика, поскольку теряется значительная информация (тогда женщина с ИМТ 30.1 и 44.4 рассматриваются как имеющие одно значение ИМТ, а это разница для 150 см женщины в весе 67 и 100 кг). Соответственно, надо пользоваться методами, анализирующими зависимость качественной бинарной переменной от количественных - это логистическая регрессия.
Вначале делаете унивариантную логистическую регрессию (НМ-возраст, НМ-ИМТ, НМ-кол-во родов (тут надо посмотреть, если категорий мало, лучше их превратить в набо переменных-пустышек)), а затем - суммарную (не включая те показатели, которые в унивариантной регрессии оказались сильно незначимыми, например р>0,20).
После логистической регрессии также рассчитываете OR, только это буду шансы при росте, например ИМТ на 1 кг/м2 (можно и на 5 сделать).

Спасибо!

Несмотря на то, что мое знакомство со статистикой исчисляется днями метод дихтомизации мне то же показался грубоватым.
Спасибо что дали экспертное мнение. Придется осваивать логистическу регрессию, метод который для дилетанта кажется зловеще загадочным
и непостижимым. Вы так же советуете выразить эффективность в виде частот и построить для них ДИ. Дело в том, что как я уже говорил опыта
и теоретических познаний в статистике у меня мягко говоря маловато. За это время я успел прочитать книгу Ребровой.
Где говорится буквально следующее. Построение границ для бинарного признака сложная задача, поэтому мы приводим таблицы с их
значениями в приложении 4.
Таблицы в этом приложении явно не подходят для моего исследования, исходя из количества исследуемых пациентов.
Вы говорили, что метод описан выше. Я прсмотрел почти весь форум и не нашел ничего, что (в моем понимании) описывает методику
построения ДИ для долей. Не исключаю варианта, что я читал но не понял о чем речь.
Не могли бы Вы дать мне ссылку на страницу где обсуждается данная тема?
Заранее благодарен,
Виктор
плав
Цитата(Victor1980 @ 13.08.2010 - 00:07) *
Таблицы в этом приложении явно не подходят для моего исследования, исходя из количества исследуемых пациентов.
Вы говорили, что метод описан выше. Я прсмотрел почти весь форум и не нашел ничего, что (в моем понимании) описывает методику
построения ДИ для долей. Не исключаю варианта, что я читал но не понял о чем речь.
Не могли бы Вы дать мне ссылку на страницу где обсуждается данная тема?

В теме http://forum.disser.ru/index.php?showtopic=1784 было обсуждение и я выкладывал экселевскую табличку для расчета ДИ, кроме того, ДИ считает AtteStat - посмотрите на форуме (поиском) или попросите Игоря дать ссылку - я быстро чего-то не нахожу (Игорь, пожалуйста, дайте ссылку на тему или на программу, спасибо)
Игорь
Цитата(плав @ 13.08.2010 - 15:05) *
... (Игорь, пожалуйста, дайте ссылку на тему или на программу, спасибо)

Тут обсуждали http://forum.disser.ru/index.php?showtopic...%EE%EF%EF%E5%F0
Ссылка на программу http://attestatsoft.narod.ru
Расчет ДИ в программе явился результатом обсуждений, в том числе и на данном сайте.
Victor1980
Цитата(Игорь @ 13.08.2010 - 18:35) *
Тут обсуждали http://forum.disser.ru/index.php?showtopic...%EE%EF%EF%E5%F0
Ссылка на программу http://attestatsoft.narod.ru
Расчет ДИ в программе явился результатом обсуждений, в том числе и на данном сайте.



Цитата(плав @ 13.08.2010 - 18:05) *
В теме http://forum.disser.ru/index.php?showtopic=1784 было обсуждение и я выкладывал экселевскую табличку для расчета ДИ, кроме того, ДИ считает AtteStat - посмотрите на форуме (поиском) или попросите Игоря дать ссылку - я быстро чего-то не нахожу (Игорь, пожалуйста, дайте ссылку на тему или на программу, спасибо)


Господа спасибо Вам большое. Позволю себе несколько сентиментальных фраз. Когда я начал изучать статистику мои коллеги аспиранты хихикали надо мной и за спиной крутили пальцем у виска! Мол, зачем обсчитывать и так ведь прокатит. А хочешь быть знайкой найми статистика 12 штук и так все обсчитает!!! Мне же самому хотелось столкнутся с этим, чтоб разобраться. Благо есть такой форум и есть такие модераторы. Благодаря которым рядовой аспирант из самого захолустья имеет возможность получить квалифицированную консультацию профессионала. Не люблю громких напыщенных фраз, но это очевидным образом способствует развитию доказательной медицины в нашей стране. К сожалению должен констатировать, что мои оппоненты правы в одном, многие научные руководители порой находятся в своих познаниях от статистики дальше аспиранта.
Таблица супер. Доступно, понятно, доходчиво.
Если позволите (надеюсь, что это мой последний вопрос) хочу уточнить итак в моем случае (когортное исследование, 1 группа - до и после операции) 105 женщин, у
56 (53,3%) был ГАМП (гиперактивный мочевой пузырь) из которых после операции у 36 (34,2%) исчез а у 20 остался и появилось у 4 у которых не было.
Итак вычисляем долю успешности операции a/(a+b) = 56/36 = 0,64 или 64,2% и определяем 95% доверительный интервал вычисленный по таблице Плава равен 50,36% 76,64%. Достаточен ли данный результат для утверждения о статистической значимости результата?

Спасибо большое
Victor1980
Учитывая вышесказанное, хочу сделать что то полезное для форум ( в меру своих сил) а именно поделиться ссылкой на онлайн калькулятор, который я нашел в процессе поиска. Возможно он многим уже известен, но enyway. http://www.graphpad.com/quickcalcs/index.cfm

Виктор
плав
Цитата(Victor1980 @ 14.08.2010 - 01:21) *
Если позволите (надеюсь, что это мой последний вопрос) хочу уточнить итак в моем случае (когортное исследование, 1 группа - до и после операции) 105 женщин, у
56 (53,3%) был ГАМП (гиперактивный мочевой пузырь) из которых после операции у 36 (34,2%) исчез а у 20 остался и появилось у 4 у которых не было.
Итак вычисляем долю успешности операции a/(a+b) = 56/36 = 0,64 или 64,2% и определяем 95% доверительный интервал вычисленный по таблице Плава равен 50,36% 76,64%. Достаточен ли данный результат для утверждения о статистической значимости результата?

Спасибо большое


Ваши расчеты отвечают на вопрос об эффективности операции у лиц с ГАМП, а не вообще (т.е. интерпретация Вашего варианта - среди лиц с ГАМП после проведения операции она исчезает у 64% (95%ДИ=50,4-76,6%)). И это ничего не говорит о возможности возникновения ГАМП в результате операции. Соответственно надо еще и сделать расчеты для 4/49 женщин без ГАМП исходно. Имеем - частота возникновения ГАМП 8,2% (95%ДИ=2,3-19,6%). Иными словами, у тех, у кого ГАМП есть операция значимо снижает частоту ГАМП, у кого нет - повышает (если в такой интерпретации есть смысл).
Victor1980
[quote name='плав' post='10261' date='14.08.2010 - 14:40']
Плав.
Огромное спасибо!
Отдельное спасибо за ручные расчеты!
С вашего позволения буду вопрошать еще по мере возникновения других вопросов.
Виктор
плав
Цитата(Victor1980 @ 14.08.2010 - 13:10) *
Плав.
Огромное спасибо!
Отдельное спасибо за ручные расчеты!
С вашего позволения буду вопрошать еще по мере возникновения других вопросов.
Виктор

Обратите внимание, я исправил пост. Мак-Немар не очень хорош по следующей причине: представьте себе, что у Вас не 49, а 490 женщин без ГАМП. Тогда пар -+ будет 40 и никаких различий не появится. Это противоречит логике. Посему лучше сравнивать просто ДИ долей.
Victor1980
Цитата(плав @ 14.08.2010 - 14:40) *
Ваши расчеты отвечают на вопрос об эффективности операции у лиц с ГАМП, а не вообще (т.е. интерпретация Вашего варианта - среди лиц с ГАМП после проведения операции она исчезает у 64% (95%ДИ=50,4-76,6%)). И это ничего не говорит о возможности возникновения ГАМП в результате операции. Соответственно надо еще и сделать расчеты для 4/49 женщин без ГАМП исходно. Имеем - частота возникновения ГАМП 8,2% (95%ДИ=2,3-19,6%). Иными словами, у тех, у кого ГАМП есть операция значимо снижает частоту ГАМП, у кого нет - повышает (если в такой интерпретации есть смысл).

БОЛЬШОЕ СПАСИБО! Мне все понятно!
Все сходится и подходит для моего исследования. Единственное о чем бы хотелось еще спросить, если интерпретация такова что: (у кого ГАМП есть операция значимо снижает частоту ГАМП, у кого нет - повышает) можно ли выдвинуть статистически обоснованное заключение о том, что (несмотря на то что операция способна провоцировать (вызывать de novo) ГАМП у женщин у которых исходно не было ГАМП, операция все равно целесообразна, так как исходное количество (доля) женщин с ГАМП 56 (53,3%) до операции и количество (доля)женщин без ГАМП 24(22,85%) после операции существенно различаются.
Возможно ли такое заключение на основании сопоставления доли ГАМП до операции 56 (53,33%) (95% ДИ =43,34%-63,13%) и доли ГАМП после операции 24 (22,86%) (95% ДИ =15,23%-32,07%) или для этого следует вычислять ДИ для разности относительных частот ?

Еще раз спасибо!




плав
Цитата(Victor1980 @ 14.08.2010 - 18:17) *
БОЛЬШОЕ СПАСИБО! Мне все понятно!
Все сходится и подходит для моего исследования. Единственное о чем бы хотелось еще спросить, если интерпретация такова что: (у кого ГАМП есть операция значимо снижает частоту ГАМП, у кого нет - повышает) можно ли выдвинуть статистически обоснованное заключение о том, что (несмотря на то что операция способна провоцировать (вызывать de novo) ГАМП у женщин у которых исходно не было ГАМП, операция все равно целесообразна, так как исходное количество (доля) женщин с ГАМП 56 (53,3%) до операции и количество (доля)женщин без ГАМП 24(22,85%) после операции существенно различаются.
Возможно ли такое заключение на основании сопоставления доли ГАМП до операции 56 (53,33%) (95% ДИ =43,34%-63,13%) и доли ГАМП после операции 24 (22,86%) (95% ДИ =15,23%-32,07%) или для этого следует вычислять ДИ для разности относительных частот ?

Еще раз спасибо!

Да, такой вывод обоснован, поскольку доверительные интервалы не перекрываются, можно заключить, что частота возникновения ГАМП достоверно ниже, чем частота исчезновения (p<0,05 на самом деле много меньше).
Victor1980
Спасибо за науку!

Цитата(плав @ 14.08.2010 - 21:51) *
Да, такой вывод обоснован, поскольку доверительные интервалы не перекрываются, можно заключить, что частота возникновения ГАМП достоверно ниже, чем частота исчезновения (p<0,05 на самом деле много меньше).

Спасибо за науку!
Victor1980
Цитата(Victor1980 @ 14.08.2010 - 22:11) *
Спасибо за науку!


Спасибо за науку!


Здравствуйте Плав.
Простите пожалуйста!
Это уже чисто из любви к науке.
Я тут с Ребровой переключился на книжку Statistical aspects of the design and analisis of clinical trials (Brian Everrit) и там не могу понять что такое (two tailed test) и (one tailed test) применительно в основном к корреляции Пирсона. К сожалению по ходу чтения термин употребляется повсеместно но внятного определения нигде не дается! Не просветите что сиё такое и как его подают на стол?

Спасибо
Виктор
Victor1980
Цитата(плав @ 14.08.2010 - 21:51) *
Да, такой вывод обоснован, поскольку доверительные интервалы не перекрываются, можно заключить, что частота возникновения ГАМП достоверно ниже, чем частота исчезновения (p<0,05 на самом деле много меньше).

Здравствуйте Плав.
Простите пожалуйста!
Это уже чисто из любви к науке.
Я тут с Ребровой переключился на книжку Statistical aspects of the design and analisis of clinical trials (Brian Everrit) и там не могу понять что такое (two tailed test) и (one tailed test) применительно в основном к корреляции Пирсона. К сожалению по ходу чтения термин употребляется повсеместно но внятного определения нигде не дается! Не просветите что сиё такое и как его подают на стол?

P S И еще один вопрос в вдогонку. Хотелось бы уточнить если доверительные интервалы долей перекрываются частично скажем ДИ N1 = 44,28-64,04 а ДИ N2 = 35,96-55,72 то все равно следует считать, что различия статистически недостоверны. Я правильно понимаю?
Спасибо
Виктор
Pinus
Наверно нет смысла писать в новую тему такой вопрос, напишу здесь:
Можно ли как-нибудь перевести данные из такого текстового формата http://www.ats.ucla.edu/stat/sas/library/SASNLin_os.htm в Excel или только вручную набирать?
Игорь
Цитата(Pinus @ 25.08.2010 - 14:47) *
Можно ли как-нибудь перевести данные из такого текстового формата http://www.ats.ucla.edu/stat/sas/library/SASNLin_os.htm в Excel ...

Можно, например, так.
Работаем в Windows.

1. Копируем массив данных в буфер обмена.
В программе "Блокнот" создаем файл.
Копируем из буфера обмена.
Нажимаем Ctrl-H
В строке "Что" вводим два пробела
В строке "Чем" вводим один пробел
Нажимаем кнопку "Заменить все" несколько раз (пока не прекратит что-либо заменяться)
Аналогично заменяем точку на запятую (если в настройках Excel запятая применяется для отделения целой части от дробной).
Сохраняем полученный текстовый файл.

2. В Excel открываем текстовый файл.
Когда спросят, указываем. что разделитель - пробел.

Все. Можно пользоваться данными из Excel. Для других случаев (разделителем иногда бывает символ табуляции) принцип тот же - максимально экономично сделать текстовый файл, понятный Excel. В-общем, экспериментируйте.
DrgLena
Можно использовать ворд
1. Скопировать в ворд, активировать скрытые символы (знак абзаца).
2. Пометить 7 кружочков и скопировать в буфер обмена и заменить их например на ?,?.
3. Преобразовать в таблицу, используя эту запятую.
4. Когда таблица в ворде готова, найти и заменить точку на 0,
5. Дальше все копируется в эксел
Pinus
Игорь, DrgLena, спасибо!
Все получилось. Полезный способ.
Можно еще экономичнее, если в блокноте только менять точку на запятую, а в Excel устанавливать флажок "Считать последовательные разделители одним", тогда все лишние пробелы автоматически убираются за один раз.
плав
Цитата(Victor1980 @ 15.08.2010 - 19:00) *
Здравствуйте Плав.
Простите пожалуйста!
Это уже чисто из любви к науке.
Я тут с Ребровой переключился на книжку Statistical aspects of the design and analisis of clinical trials (Brian Everrit) и там не могу понять что такое (two tailed test) и (one tailed test) применительно в основном к корреляции Пирсона. К сожалению по ходу чтения термин употребляется повсеместно но внятного определения нигде не дается! Не просветите что сиё такое и как его подают на стол?

P S И еще один вопрос в вдогонку. Хотелось бы уточнить если доверительные интервалы долей перекрываются частично скажем ДИ N1 = 44,28-64,04 а ДИ N2 = 35,96-55,72 то все равно следует считать, что различия статистически недостоверны. Я правильно понимаю?
Спасибо
Виктор


На последний вопрос - да,
на первый - two tailed test - альтернативная гипотеза заключается в том, что два средних не равны друг другу, при one-tailed предполагается, что направление различий известно (т.е. одно среднее не может быть меньше другого, поэтому альтернативная гипотеза заключается в том, что одно среднее больше другого). Это относится ко всем тестам, однако в медицине при сравении групп крайне редко точно известно направление различий, поэтому принято использовать двухсторонние тесты (хотя споры периодически вспыхивают, последний крупный был после публикации LRC CPPT, где использовали односторонний тест).
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.