Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

44 страниц V   1 2 3 > » 

nokh
Отправлено: 26.03.2019 - 22:19


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(p2004r @ 26.03.2019 - 23:02) *
На графике синими линиями изображен the confidence intervals, default to 50, 90 and 95 percent.

Мне понравилась оптическая иллюзия: если смотреть на облако точек и мелко качать или трясти головой, то синие контуры ДИ начинают плавать над неподвижными точками. Завораживает однако)) Под сайко особенно хорошо: https://www.youtube.com/watch?v=PcNSmRrKQP0
Это ggtern?
  Форум: Медицинская статистика · Просмотр сообщения: #23848 · Ответов: 9 · Просмотров: 758

nokh
Отправлено: 26.03.2019 - 15:00


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(aknothing @ 26.03.2019 - 12:10) *
...Имеется группа больных общим числом например 100 человек (то бишь 100%). Вся эта группа делится на 3 патологии исследуемого заболевания: 1-я - 25 человек 2-я - 30 и 3-я - соответственно 100 - (25+30) = 45 Все это выражено в процентном соотношении по группам: 25%, 30% и 45%. Так вот в чем вопрос, руководитель человека, которого я консультирую требует сравнить эти процентные соотношения, а так же указать в виде р достоверность этих различий.

Всё зависит от того как собирались данные и для какой нулевой гипотезы нужны р-значения. Вариантов вижу два.

1) Если группа делится на 3 патологии искусственно, то "особая специфика" в том, что руководитель - неадекват, аспиранту - не повезло, вам - опыт в копилку и отстраниться.

2) Но будем исходить из более правдоподобного и радостного варианта: данные собраны таким образом, что каждая из 3 патологий имела равные шансы попасть в выборку. В этом случае частоты патологий являются выборочными оценками вероятностей представленности этих патологий в генеральной совокупности, т.е. распространённости (преваленса) патологий в популяции. В этом случае всё что можно сравнить и обнаружить - это неодинаковую распространённость патологий. Другое дело: сколько в этом логики и медицины. Но, допустим, с медицинской точки зрения действительно важно доказать, что патологии представлены неравномерно. Тогда нулевая гипотеза: равномерная распространённость патологий. Т.е. для 100 случаев - 100/3=33,3(3) для каждой. Можно сравнить наблюдаемые частоты с этими ожидаемыми частотами критериями типа хи-квадрат.

Поскольку гипотеза одна, то и проверок - одна. Но в случае обнаружения статистически значимой неоднородности можно дополнительно рассчитать р-значение для каждой ячейки, чтобы обнаружить те, которые неслучайно вложились в статистику критерия и обеспечили (преимущественно) статистическую значимость различий. Для этого для каждой ячейки нужно рассчитать либо (а) согласованные стандартизованные остатки (остатки Хабермана, statdardized adjusted residuals), либо (б) отклонения Фримана - Тьюки (Freeman-Tukey deviation). Считать придётся вручную по формулам.

Для описательной статистики помимо абсолютных и относительных частот желательно привести 95%-ные доверительные интервалы. В случае если речь идёт именно о композиции ( в сумме - 100%), то их вроде можно рассчитать точнее, чем традиционными методами типа Клоппера - Пирсона (вроде бы в сопровождении MedCalc видел, но это не точно); может меня поправят/дополнят...
  Форум: Медицинская статистика · Просмотр сообщения: #23844 · Ответов: 9 · Просмотров: 758

nokh
Отправлено: 26.03.2019 - 09:46


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(зоо @ 25.03.2019 - 20:55) *
...Есть Document Term Matrix и Term Document Matrix...
Есть ли принципиальное различие? Есть ли разница что использовать, если есть? то когда какую матрицу нужно использовать.

Я не спец в этом, но думаю принципы универсальные. Это зависит от варианта многомерного метода, которыми данные собираются обрабатывать. Есть методы:
(1) основанные на вычислении собственных чисел (eugenvalue-based methods). Это типа анализа главных компонент (с вариантами), анализа соответствий.
(2) основанные на расстояниях (distance-based methods). Это типа анализа главных координат, многомерного шкалирования.
Деление достаточно условное и скорее историческое, т.к. (1) можно выразить через (2) и наоборот. Также могут быть тонкие настройки в самих методах. Например, в анализе соответствий матрица обрабатывается симметрично для строк и столбцов, но встречал программы с опциями акцента на строках или колонках.
Также в корпусной лингвистике есть свои любимые техники и программы. Думаю, проще всего поискать ролики на ютубе и посмотреть что подают на вход и далее по аналогии.
  Форум: Медицинская статистика · Просмотр сообщения: #23842 · Ответов: 1 · Просмотров: 281

nokh
Отправлено: 26.03.2019 - 09:27


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(тот кото ый @ 24.03.2019 - 21:02) *
Спасибо огромное!

Подскажите еще пожалуйста, значит выглядеть это должно примерно так? -
...

"Выглядеть это должно примерно так", как описано в пособии, ссылку на которую я дал. Как вы собрались заниматься наукой, если не можете принять помощь из 4 пунктов?
  Форум: Медицинская статистика · Просмотр сообщения: #23841 · Ответов: 4 · Просмотров: 468

nokh
Отправлено: 24.03.2019 - 18:29


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Н-критерий Краскелла - Уоллиса имеет асимптотическое распределение хи-квадрат. Т.е. число степеней свободы для него Df=число групп - 1., т.е. в вашем случае 3-1=2.
Для критерия Манна - Уитни нет числа степеней свободы, поэтому приводят просто объёмы выборок.
Использовать Манна- Уитни для попарных сравнений без поправки на множественность сравнений (типа Бонферрони) некорректно. Лучше использовать специальные апостериорные критерии (Данна или Стила - Двасса)
Оформить можно как в этом практикуме: https://yadi.sk/d/g50i73pt3J6pAa
Прикрепленные изображения
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #23836 · Ответов: 4 · Просмотров: 468

nokh
Отправлено: 6.03.2019 - 09:44


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Nerbi @ 6.03.2019 - 11:06) *
... Подскажите, как в этом случае рассчитать объем выборки и мощность исследования еще на этапе планирования.

Чем сложнее исследование, тем сложнее его заранее обсчитать. Выберите несколько основных показателей и проведите прикидку объёмов выборок по ним для задачи сравнения двух групп. Если объёмов хватит для сравнения двух выборок, то тем более хватит для их сравнения в динамике.
Прочитайте лабораторное занятие No 18 в этом практикуме: https://yadi.sk/d/g50i73pt3J6pAa
  Форум: Медицинская статистика · Просмотр сообщения: #23784 · Ответов: 1 · Просмотров: 368

nokh
Отправлено: 5.03.2019 - 23:08


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Я бы тоже начал с разности "до-после", или учётом увеличения значений после нагрузки, для положительного знака (после-до). Для каждой из двух разностей можно построить гистограмму и плотность распределения, чтобы оценить однородность выборки. Ну а для описанной 100$ диаграммы рассеяния можно построить оценить двумерную плотность распределения (пример см. здесь: http://molbiol.ru/forums/index.php?showtop...51#entry1526151 ) В принципе, кластерный анализ можно применить и для этих двух разностей.
  Форум: Медицинская статистика · Просмотр сообщения: #23782 · Ответов: 7 · Просмотров: 1155

nokh
Отправлено: 21.02.2019 - 20:37


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(metalmary @ 21.02.2019 - 21:29) *
Народ, help.gif плиз! Есть данные в абсолютных числах, нужно среднее арифметическое перевести в процент от начального значения (контроля, принятого за 100 процентов). Как пересчитать стандартную ошибку среднего относительно процентов? Например. среднее значение составило 4.57+-1.25, это составило 125,1 %+-... процентов от контроля. Видела такое в некоторых зарубежных статьях. Как это пересчитать.?

По большому счёту это - глупости. Не следует их множить. Лучше рассчитайте вместо ст. ошибки 95% доверительный интервал (ДИ) для среднего. И если уж так сильно хочется, то границы ДИ легко пересчитываются в % как и само среднее.
  Форум: Медицинская статистика · Просмотр сообщения: #23752 · Ответов: 4 · Просмотров: 736

nokh
Отправлено: 19.02.2019 - 08:06


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Med_Elena @ 17.02.2019 - 11:43) *
Не рекомендую приводить подобные описания. Поскольку в них нет никакой конкретики. В частности не приводится корректное описание типа корреляционного анализа.
А этот анализ бывает разный, и не все их применения всегда корректны. Ну а если в базе данных есть группы наблюдений, то в этом случае продуктивно сравнивать
эти группы разными многомерными методами. Например, разными алгоритмами дискриминантного анализа, или разными алгоритмами логистической регрессии.
И тогда станет ясно, какие именно признаки доминируют в различии как между собой в этих группах, так и по интенсивности связи между собой. Естественно что
сделать такие анализы могут не все медики, поскольку это методы очень сложные, но зато очень продуктивные.

Странная рекомендация. Если бы вы ознакомились с содержанием ветки по ссылке выше, то узнали бы, что парадокс объединений неразрешим в принципе. Даже с помощью многомерных техник. Даже если их применяют не медики, а (био)статистики. Кстати, логистическая регрессия, как и прочие варианты множественной регрессии с одним откликом, не относятся к многомерным методам.
  Форум: Медицинская статистика · Просмотр сообщения: #23745 · Ответов: 4 · Просмотров: 982

nokh
Отправлено: 7.02.2019 - 19:36


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(comisora @ 7.02.2019 - 15:37) *
...Спросили - как можно "объективно" сравнить наборы услуг.
Я подумал, что это из области MCA/PCA/MDS, но не уверен (смущает большое количество разношёрстных условий и предложений)...

Не совсем понятна цель сравнения. Оценить уровень общего сходства наборов или выйти на самые-самые особенности? В любом случае у меня опыта в таком почти нет. В голову приходит прокрустов анализ, который позволяет сравнить многомерные матрицы данных. Его можно применять как исходным данным, так и к редуцированным в ходе MCA/PCA/MDS. В сочетании с рандомизационной процедурой можно оценить статистическую значимость различия двух матриц данных, а также её элементов.
  Форум: Медицинская статистика · Просмотр сообщения: #23724 · Ответов: 7 · Просмотров: 1115

nokh
Отправлено: 1.02.2019 - 13:48


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Choledochus @ 1.02.2019 - 15:07) *
... Вот так можно (?):
"Последнее может интерпретироваться как ложное снижение корреляции вследствие неоднородности данных, вызванной принадлежностью опрошенных к разным категориям индивидуумов или как нелинейная корреляционная связь".

Полагаю, что можно. Звучит тоже нормально: лаконично, для меня - понятно. Когда мы анализируем связи в большой неоднородной группе, то можем сделать выводы с точностью до наоборот. Это - парадокс Симпсона, см. рисунок в этой теме: http://forum.disser.ru/index.php?showtopic=1998
  Форум: Медицинская статистика · Просмотр сообщения: #23716 · Ответов: 4 · Просмотров: 982

nokh
Отправлено: 29.01.2019 - 19:49


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(DJAp @ 29.01.2019 - 19:50) *
К сожалению, я неправильно выразился. Моя ошибка. Имелось в виду, получали 6 разных эффектов, которые не были связаны друг с другом.
В таком случае, приведенные выше методы будут актуальны?

Тогда только 1)
  Форум: Медицинская статистика · Просмотр сообщения: #23709 · Ответов: 6 · Просмотров: 893

nokh
Отправлено: 29.01.2019 - 01:08


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(fattymouse @ 29.01.2019 - 01:03) *
Что такое OR и CI?

OR - Odds ratio - Отношение шансов
CI - Confidence interval - Доверительный интервал (ДИ). В данном случае 95%-ный ДИ для отношения шансов.
  Форум: Медицинская статистика · Просмотр сообщения: #23701 · Ответов: 2 · Просмотров: 518

nokh
Отправлено: 29.01.2019 - 01:05


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(DJAp @ 28.01.2019 - 02:48) *
Есть пример, пациенты принимали два разных лекарства и получали эффект, который оценивался от 0 до 5.
Таким образом, нужно сравнить, есть ли в этих двух группах (лекарствах) достоверные отличия по частоте явления. То есть, эффект 0 был у 39 пациентов, эффект 1 у 3 пациентов и так далее (таблица ниже).
Как я понял, что если сравнивать количество пациентов есть эффект/нет эффекта, можно использовать критерии Фишера/хи2 в четырехпольных таблицах, например в ПО Statistica.
А в случае когда нужно сравнить несколько вариантов? Есть ли какое то решение этой проблемы?
преп1 преп2
0 39 28
1 3 1
2 3 5
3 6 8
4 0 3
5 3 4

1) Как уже сказали, таблица сопряжённости может быть не только 2 x 2 но и r x c, и даже быть не двумерной, а многомерной. Её можно обсчитать хи-квадратом Пирсона, отношением правдоподобия (G-критерий), критерием Фримана -Тьюки и т.д. Но все критерии, опирающиеся на статистическое распределение хи-квадрат имеют проблему допустимого минимального ожидаемого, т.е. имеются требования к насыщенности ячеек таблицы данными. Ваша таблица слабонасыщенная (есть даже нули), а значит использовать классические критерии некорректно. Нужно использовать точные рандомизационные критерии (exact permutation) или хотя бы рандомизацию Монте-Карло.
2) В вашем случае даже при таком корректном обсчёте мощность сравнения будет недостаточной, т.к. при простом анализе таблиц сопряжённости упорядоченность категорий игнорируется. Т.е. вы просто обнаружите (а для ваших данных - не обнаружите) различие распределения пациентов по категориям. Чтобы учесть упорядоченность ("получали эффект, который оценивался от 0 до 5") нужно использовать другие методы. Например, анализ на тренд методом Кохрана - Армитаж, есть другие малоизвестные методы на нелинейный тренд.
3) Также можно развернуть таблицу сопряжённости в длинный формат и сравнить выборки критерием Манна - Уитни. Т.е. для первого препарата набить 39 нулей, 3 единицы, 3 двойки, 6 троек и т.д. Аналогично для второго и сравнить. Таким способом обсчитывает таблицы с упорядоченными категориями один из самых продвинутых пакетов StatXact. Критерий Манна -Уитни будет искать именно сдвиг.
4) Рекомендации 1-3 даны только для независимых выборок. Если препараты оценивались на одних и тех же пациентах - нужны другие методы.


  Форум: Медицинская статистика · Просмотр сообщения: #23700 · Ответов: 6 · Просмотров: 893

nokh
Отправлено: 6.01.2019 - 23:43


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Ulugbek @ 5.01.2019 - 20:40) *
Добрый вечер! В статистике я новичок и очень сильно надеюсь на вашу помощь. Есть два диагностических метода(определение плотности хрусталика). Один- инструментальный, другой- не инструментальный. В обоих результаты распределяются по степеням: всего 5 степеней. Отличием является то, что инструментальный метод дает результаты в процентах, а второй- по цвету хрусталика. Число исследований 30. Вопрос:Как можно определить точность инструментального по отношению к не инструментальному(как бы странно это не звучало). Направьте , пожалуйста. Заранее благодарю.

Под "точностью" в разных областях науки понимаются несколько разные вещи, но можно подобрать что-то наиболее близкое к подразумеваемому.

1) Точность как близость оценок. Можно использовать коэффициент корреляции: если корреляция между двумя рядами оценок плотности будет статистически значимой, значит между двумя способами оценок есть связь, причём величина коэффициента корреляции укажет на силу этой связи: чем она ближе к 1, тем она ближе к идеальной (perfect). Корреляцию в вашем случае по-любому нужно брать ранговую - Спирмена или Кендалла. Если разберётесь с вероятностной интерпретацией к. Кендалла, здесь лучше взять её, не разберётесь - без разницы какую. Корреляцию я бы посчитал двумя способами:
а) Для исходных данных в тех единицах, в каких выдают результат методики. Это будет оценка истинной связи - без привнесения в неё наших представлений о разбиении на степени. Практика показывает, что зачастую предложенные кем-то и когда-то искусственные классификации могут не совпадать с естественными, но поскольку такие классификации уже "прижились" и создают в научных дисциплинах подобие порядка, проще продолжать пользоваться ими, чем постоянно перекраивать классификации.
б) Для ранжированных в соответствии с классификацией данных. Т.е. для первого ряда вместо % проставляете соответствующие степени от 1 до 5. Для второго - аналогично перекодируете его результаты в эти же 5 степеней. Корреляция двух этих рядов рангов покажет степень согласия именно двух диагностических критериев определения степени плотности хрусталика.
Т.о. получите две меры близости методов: биологическую и диагностическую.

2) Точность как отсутствие различий в средних значениях оценок, т.е. что оба метода измеряют в среднем одинаково. В данном случае это более слабый критерий чем (1), т.к. будет обнаруживать только значимость сдвига в большую или меньшую сторону. Но учитывая, что "В статистике я новичок", будет полезно освоить. Нужно ранжировать значения обоих рядов по степеням 1-5 (см. выше) и сравнить ряды критерием Уилкоксона для разностей пар. Учитывая, вероятно, большое число нулевых разностей (одинаковые значения в обоих рядах) и малую выборку лучше использовать точный или хотя бы рандомизационный вариант критерия для оценки р.

3) Точность как идентичность классификации. Скорее всего вам нужна именно такая оценка, но беда в том, что для неё у вас очень мало данных, а значит будет велика ошибка второго рода - не обнаружить имеющихся различий. Т.е. посчитать-то вы сможете, но отсутствие различий может оказаться как следствием их отсутствия, так и следствием малого объёма выборки. В отличие от (1) и (2) в данном варианте мы будем относиться к степеням не как к упорядоченным категориям, а как к номинальным категориям. Т.е. в этом подходе одинаковой будет цена любой ошибки классификации: что между степенями 1 и 2 или 4 и 5, что между 1 и 5. Считается критериями симметрии и краевой однородности. Нужно построить таблицу 5 х 5. В строках - степени первого (инструментального) метода, в колонках - степени второго метода. Берёте ваш первый хрусталик, например по обеим классификациям он дал степень 2 - ставите точку на пересечении строки 2 и столбца 2. И так до конца. В итоге получите 30 точек в 25 полях таблицы. Если между методами диагностики идеальное соответствие, то все значения (точки) окажутся на главной диагонали таблицы (1-1, 2-2, 3-3, 4-4, 5-5). Если есть какие-то различия, то будут также значения в ячейках над и под диагональю. Тогда точность диагностики можно посчитать как отношение числа значений в ячейках диагонали к объёму выборки (n=30). О том как вручную обсчитать такую таблицу статистически критерием Боукера - см. в Лабораторном практикуме из этой темы http://forum.disser.ru/index.php?showtopic=4304 на стр. 139 и далее.

Описанные способы - рабочие статистические заготовки. Можно придумать другие способы. p2004r предлагает построить модель непосредственно под ваш запрос. Причём она даже проще, т.к. по условию двигать границы отрезков можно только на второй линейке (неинструментальный метод), тогда как на первой они жёсткие (вероятно - классическая диагностика). Такой способ позволит также найти оптимальное разбиение на отрезки второй линейки (если степень квантификации это позволяет в принципе), чтобы получить наилучшее соответствие с первой шкалой. Я такую модель не построю, но может p2004r покажет это на ваших данных.
  Форум: Медицинская статистика · Просмотр сообщения: #23629 · Ответов: 3 · Просмотров: 995

nokh
Отправлено: 28.12.2018 - 11:10


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(thebassea @ 28.12.2018 - 02:07) *
Здравствуйте уважаемые коллеги!
... Как вы считаете, стоит ли сравнивать отдельно по 2 подгруппы (40 и 21; 6 и 6) применимыми по возможности методами статистического анализа (например, хи-квадрат для первой пары и точный тест Фишера для второй)? Или все же не позориться?)))

Статистика нужна чтобы принимать решения в условиях неопределённости, поэтому считать нужно. Если вы даже на малой выборке обнаружите статистически значимый эффект, значит к нему можно относиться как к неслучайному (на достигнутом уровне Р). Но вот если вы чего-то не обнаружите, то утверждать, что "различий нет" вы не сможете - ввиду малой мощности исследования (большая ошибка второго рода). О том как сравнивать несколько выборок - см. в Лабораторном практикуме в этой теме http://forum.disser.ru/index.php?showtopic=4304 Лучше это делать сначала для всех групп одновременно, а уже затем, если нужно - проводят апостериорные попарные сравнения.
Ну а о том, что это всё несерьёзно - будьте готовы выслушать; на это нужно иметь свои контраргументы.
  Форум: Медицинская статистика · Просмотр сообщения: #23614 · Ответов: 4 · Просмотров: 1195

nokh
Отправлено: 25.12.2018 - 20:24


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Ну и "до кучи": сингулярный спектральный анализ:
https://ru.wikipedia.org/wiki/SSA_(%D0%BC%D...82%D0%BE%D0%B4)
https://en.wikipedia.org/wiki/Singular_spectrum_analysis
  Форум: Медицинская статистика · Просмотр сообщения: #23606 · Ответов: 21 · Просмотров: 3303

nokh
Отправлено: 1.12.2018 - 19:50


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(kont @ 1.12.2018 - 16:08) *
Подскажите, вот провел я множественную регрессию. Смотрю остатки. У меня возник, а какие остатки приемлемые, а какие нет.
Например исходное значение 24, предсказано 23, остаток=1. Нормально ли это? Т.е. вопрос какое максимальное расхождение считается допустимо, чтобы сказать, это модель крута?(с учетом того, что остаток в ноль, не такое частое явление, увы)

В вашем вопросе - несколько вопросов, имеющих разные ответы, поэтому вам ответили кто что считал важнее.

1) Вопрос о статистической значимости модели. Модели подгоняются таким образом, чтобы минимизировать остатки. В классическом варианте (метод наименьших квадратов) минимизируется сумма квадратов остатков. В этом смысле отдельные остатки, действительно, не имеют значения: важно чтобы дисперсия (средний квадрат - MS) регрессии была значимо больше дисперсии остатков. Эти две дисперсии сравниваются F-критерием (Снедекора - Фишера). Если Р-значение для F-критерия оказывается мало (например, меньше или равно 0,05), то модель следует считать статистически значимой и в этом смысле она - "крута". Рекомендации использовать коэффициент детерминации R2 распространены в литературе, сложно сказать откуда это пошло, но это идеологически неверно. Коэффициент детерминации позволяет оценить тесноту связи, корреляции - это мера общей дисперсии для Х и Y (в простейшем случае). Она одинакова для регрессии Y по Х и для регрессии X по Y, хотя уравнения этих зависимостей разные, их статистическая значимость - разная. И хотя для более сильной модели R2 действительно будет больше, но как-то нехорошо оценивать силу зависимости по силе связи - только как быстрый ориентир, эмпирика.

2) Качество модели. Если для одних и тех же данных можно предложить разные модели, то возможны варианты. Качественная модель модель должна быть не только статистически значимой, но и хорошо работать на других выборках. Построив более сложную модель мы добьёмся высокой статистической значимости для описания нашей конкретной выборки. Но где гарантии, что она так же хорошо опишет следующие выборки, т.е. подходит для всей генеральной совокупности? Практика показывает, что более универсальны не сложные модели с частностями и малыми остатками, а более простые модели. Баланс между сложностью и простотой находится с помощью информационных критериев и перекрёстной проверки (кросс-проверки). В этом смысле самая "крутая модель" - наиболее универсальная, воспроизводимая на других данных или хотя-бы - на части этих же данных.

3) Качество данных для построения зависимости и дополнительный контроль правильности выбора модели. Если мы более-менее определились с моделью - имеет смысл провести углублённый анализ остатков. Он покажет насколько хорошо отдельные наблюдения вписываются в модель, какие наблюдения наиболее сильно влияют на форму зависимости, и насколько эта форма была выбрана правильно. В этом смысле наиболее "крутая" модель - та, которая не содержит выбросов (outliers), применительно к моделям регрессии - статистически значимых внешних (удалённых) стьюдентизированных остатков. Именно такие остатки считаются "неприемлемыми". В своё время я сводил эту информацию воедино, поэтому прочитайте этот материал: http://forum.disser.ru/index.php?act=attac...post&id=284
Он для линейной регрессии, но для множественной меры те же. Также там есть информация по влиятельным наблюдениям.

Можно ещё упомянуть о методах и критериях анализа остатков, типа автокорреляции и однородности дисперсий, про это кратко есть в моём пособии: https://yadi.sk/d/g50i73pt3J6pAa

PS Посмотрел нашу дискуссию по выбросам, куда выкладывал материал. Она была ровно 9 лет назад. Это - ужасно mega_shok.gif
  Форум: Медицинская статистика · Просмотр сообщения: #23559 · Ответов: 3 · Просмотров: 1031

nokh
Отправлено: 26.11.2018 - 12:34


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(paravoz @ 26.11.2018 - 06:37) *
...Подскажите, действительно ли необходимо/корректно рассчитывать доверительные интервалы в таких ситуациях? Если нет, то подскажите как грамотно обосновать рецензенту это или на какую литературу сослаться? Сам я нигде прямого запрета на это не нашел. Заранее всем спасибо!

Для меня это тоже был мучительный вопрос, хорошо что больше "играю на другом поле":) Но недавно участвовал в статье по генетическим нарушениям (ещё не закончили) и решил таки считать ДИ. Помимо отмеченного р2004r хронологического аспекта, есть ещё и хорологический аспект. Такие работы делаются как правило не для того, чтобы только охарактеризовать интересующую совокупность сейчас и здесь, но и чтобы сравнить её с другими совокупностями: городами, областями, странами. Допустим, что в одном населённом пункте из 10,0 тыс человек было 2 больных, а в другом - из 10,1 тыс человек - 3 больных. Можем ли мы руководствуясь тем, что имеем дело с конечными совокупностями, просто и безо всякой статистики констатировать более высокую заболеваемость во втором н.п.? Размышления привели меня к тому, что скорее не можем, что правильнее думать о неких условиях или факторах, лежащих в основе заболеваемости / смертности и реализующихся конкретными дискретными числами. И что если бы в н.п. жило в 5 раз больше жителей, то мы могли бы с большей надёжностью оценить уровень заболеваемости. А раз речь заходит о надёжности оценки, то это прямой путь к ДИ. Получается, что время и пространство размывают границы конечной ГС, наделяя её свойствами бесконечной домысливаемой... Тема важная, прошу поделиться потом тем, что ещё найдёте и к чему пришли.
  Форум: Медицинская статистика · Просмотр сообщения: #23527 · Ответов: 24 · Просмотров: 3934

nokh
Отправлено: 19.11.2018 - 11:57


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Yaroslava @ 17.11.2018 - 03:08) *
...
Ох...надеюсь, не запутала) Заранее спасибо за ответы!))

Запутала! Если сравниваете многолетнюю динамику, то это - одни методы, если один год - другие. За один год сравнивать со средним показателем будет некорректно, т.к. данные по интересующей области А будут входить частью в полные данные. Но можно сравнить однородность заболеваемости по областям, т.е. сделать таблицу частот из двух колонок (число лиц с заболеванием, число лиц без заболевания) и числа строк, равному числу областей, и проанализировать её критериями типа хи-квадрат. Если будет значимая неоднородность - смотреть по остаткам Хабермана какие области отклонились "в плюс", какие - "в минус" от нулевой гипотезы (заболеваемость везде одинаковая). Если в качестве третьего входа в таблицу сопряжённости добавить год, то можно проанализировать сразу весь массив данных в ходе логлинейного анализа.
  Форум: Медицинская статистика · Просмотр сообщения: #23512 · Ответов: 29 · Просмотров: 17397

nokh
Отправлено: 12.11.2018 - 14:08


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


[quote name='rokotyanskaya.ea' post='23504' date='12.11.2018 - 12:55']Добрый день! help.gif, пожалуйста, интерпретировать полученные данные в программе Statistica. Благодаря вашему форуму получилось разобраться в проведении бинарной логистической регрессии в этой программе по нескольким независимым переменным (считаю факторы риска развития ПЭ у беременных), дошла до интерпретации, ничего не понятно. Какой фактор имеет большее влияние? help.gif разобраться!/quote]

А какие конкретно просмотренные вами книги/источники по логистической регрессии не позволили разобраться? Назовите штуки 3. Ну а далее посмотрим что конкретно, какие места в этих книгах/источниках было непонятны. Потому что такие вопросы производят впечатление, что человек в принципе не желает разбираться.
  Форум: Медицинская статистика · Просмотр сообщения: #23507 · Ответов: 3 · Просмотров: 1238

nokh
Отправлено: 20.10.2018 - 22:31


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 20.10.2018 - 23:58) *
Да, галерея графики - няшная, из статистических "фенечек" впечатлился наличием процедуры Двасса - Стила в качестве пост хоков в дисперсионном анализе. Впрочем, имея перед глазами Холлендера и Вульфа (1999) не так это все сложно запрогать и самому... В общем, миленько, но не более того...

Пакет очень хорош как конструктор для научной графики: этакий мини Origin (OriginLab Corp.). Я сейчас всю графику в отчёты и статьи строю в KyPLot и R. Планирую несколько роликов по KyPLot сделать - надоело одно и то же показывать людям.
А статистических фенек в нём больше. Например можно факторный анализ проводить методом главных факторов с итерациями по общностям и использовать в качестве начальных значений таковые, вычисленные по Йореско - именно как в "Факторный, дискриминантый и кластерный анализ" рекомендуется (+ другие методы факторного анализа с разными как ортогональными, так и косоугольными вращениями). Также если подать на вход матрицу сходства, можно кластеризацию методом Уорда делать для любых расстояний (досчитывал так за PAST). Ну а встроенных функций нелинейных зависимостей там просто больше, чем где-либо (центральное меню двойным кликом на рисунке и далее Fit)...
  Форум: Медицинская статистика · Просмотр сообщения: #23462 · Ответов: 15 · Просмотров: 48071

nokh
Отправлено: 20.10.2018 - 21:26


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Последняя версия пакета KyPlot, ещё недавно стоившая 1000$, стала бесплатной. Слава Коичи Йошиоке!
http://www.kyenslab.com/en/index.html
  Форум: Медицинская статистика · Просмотр сообщения: #23460 · Ответов: 15 · Просмотров: 48071

nokh
Отправлено: 18.10.2018 - 05:42


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 18.10.2018 - 01:37) *
Ну, вот, прочитал первые 37 страниц и ... "я вас прошу, нет, я вас просто умоляю" словосочетание "математического ожидаемого" на с. 37 заменить на "математического ожидания".

Меня сильно торопили, поэтому не было возможности выкладывать и публично шлифовать черновик как сделал Шитиков. Имеем что есть. Поэтому просьба писать исключительно на почту. Надеюсь на понимание.
  Форум: Медицинская статистика · Просмотр сообщения: #23444 · Ответов: 8 · Просмотров: 2226

nokh
Отправлено: 17.10.2018 - 21:01


Дух форума
*

Группа: Пользователи
Сообщений: 1090
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(ogurtsov @ 17.10.2018 - 22:10) *
Поменять бы PAST на R, и будет полная годнота.

У меня в среднем в подгруппе на 15 чел 13 девочек. Из них 1-2 интересуется чем-то близким мне, остальные 10 интересуются чем-то в своих смартфонах. Не потянут они R в бакалавриате.
Но может во втором издании:) Или сделать "R companion", что проще.
  Форум: Медицинская статистика · Просмотр сообщения: #23441 · Ответов: 8 · Просмотров: 2226

44 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена