Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

43 страниц V   1 2 3 > » 

nokh
Отправлено: 6.03.2019 - 09:44


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Nerbi @ 6.03.2019 - 11:06) *
... Подскажите, как в этом случае рассчитать объем выборки и мощность исследования еще на этапе планирования.

Чем сложнее исследование, тем сложнее его заранее обсчитать. Выберите несколько основных показателей и проведите прикидку объёмов выборок по ним для задачи сравнения двух групп. Если объёмов хватит для сравнения двух выборок, то тем более хватит для их сравнения в динамике.
Прочитайте лабораторное занятие No 18 в этом практикуме: https://yadi.sk/d/g50i73pt3J6pAa
  Форум: Медицинская статистика · Просмотр сообщения: #23784 · Ответов: 1 · Просмотров: 135

nokh
Отправлено: 5.03.2019 - 23:08


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Я бы тоже начал с разности "до-после", или учётом увеличения значений после нагрузки, для положительного знака (после-до). Для каждой из двух разностей можно построить гистограмму и плотность распределения, чтобы оценить однородность выборки. Ну а для описанной 100$ диаграммы рассеяния можно построить оценить двумерную плотность распределения (пример см. здесь: http://molbiol.ru/forums/index.php?showtop...51#entry1526151 ) В принципе, кластерный анализ можно применить и для этих двух разностей.
  Форум: Медицинская статистика · Просмотр сообщения: #23782 · Ответов: 7 · Просмотров: 432

nokh
Отправлено: 21.02.2019 - 20:37


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(metalmary @ 21.02.2019 - 21:29) *
Народ, help.gif плиз! Есть данные в абсолютных числах, нужно среднее арифметическое перевести в процент от начального значения (контроля, принятого за 100 процентов). Как пересчитать стандартную ошибку среднего относительно процентов? Например. среднее значение составило 4.57+-1.25, это составило 125,1 %+-... процентов от контроля. Видела такое в некоторых зарубежных статьях. Как это пересчитать.?

По большому счёту это - глупости. Не следует их множить. Лучше рассчитайте вместо ст. ошибки 95% доверительный интервал (ДИ) для среднего. И если уж так сильно хочется, то границы ДИ легко пересчитываются в % как и само среднее.
  Форум: Медицинская статистика · Просмотр сообщения: #23752 · Ответов: 4 · Просмотров: 452

nokh
Отправлено: 19.02.2019 - 08:06


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Med_Elena @ 17.02.2019 - 11:43) *
Не рекомендую приводить подобные описания. Поскольку в них нет никакой конкретики. В частности не приводится корректное описание типа корреляционного анализа.
А этот анализ бывает разный, и не все их применения всегда корректны. Ну а если в базе данных есть группы наблюдений, то в этом случае продуктивно сравнивать
эти группы разными многомерными методами. Например, разными алгоритмами дискриминантного анализа, или разными алгоритмами логистической регрессии.
И тогда станет ясно, какие именно признаки доминируют в различии как между собой в этих группах, так и по интенсивности связи между собой. Естественно что
сделать такие анализы могут не все медики, поскольку это методы очень сложные, но зато очень продуктивные.

Странная рекомендация. Если бы вы ознакомились с содержанием ветки по ссылке выше, то узнали бы, что парадокс объединений неразрешим в принципе. Даже с помощью многомерных техник. Даже если их применяют не медики, а (био)статистики. Кстати, логистическая регрессия, как и прочие варианты множественной регрессии с одним откликом, не относятся к многомерным методам.
  Форум: Медицинская статистика · Просмотр сообщения: #23745 · Ответов: 4 · Просмотров: 694

nokh
Отправлено: 7.02.2019 - 19:36


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(comisora @ 7.02.2019 - 15:37) *
...Спросили - как можно "объективно" сравнить наборы услуг.
Я подумал, что это из области MCA/PCA/MDS, но не уверен (смущает большое количество разношёрстных условий и предложений)...

Не совсем понятна цель сравнения. Оценить уровень общего сходства наборов или выйти на самые-самые особенности? В любом случае у меня опыта в таком почти нет. В голову приходит прокрустов анализ, который позволяет сравнить многомерные матрицы данных. Его можно применять как исходным данным, так и к редуцированным в ходе MCA/PCA/MDS. В сочетании с рандомизационной процедурой можно оценить статистическую значимость различия двух матриц данных, а также её элементов.
  Форум: Медицинская статистика · Просмотр сообщения: #23724 · Ответов: 7 · Просмотров: 592

nokh
Отправлено: 1.02.2019 - 13:48


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Choledochus @ 1.02.2019 - 15:07) *
... Вот так можно (?):
"Последнее может интерпретироваться как ложное снижение корреляции вследствие неоднородности данных, вызванной принадлежностью опрошенных к разным категориям индивидуумов или как нелинейная корреляционная связь".

Полагаю, что можно. Звучит тоже нормально: лаконично, для меня - понятно. Когда мы анализируем связи в большой неоднородной группе, то можем сделать выводы с точностью до наоборот. Это - парадокс Симпсона, см. рисунок в этой теме: http://forum.disser.ru/index.php?showtopic=1998
  Форум: Медицинская статистика · Просмотр сообщения: #23716 · Ответов: 4 · Просмотров: 694

nokh
Отправлено: 29.01.2019 - 19:49


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(DJAp @ 29.01.2019 - 19:50) *
К сожалению, я неправильно выразился. Моя ошибка. Имелось в виду, получали 6 разных эффектов, которые не были связаны друг с другом.
В таком случае, приведенные выше методы будут актуальны?

Тогда только 1)
  Форум: Медицинская статистика · Просмотр сообщения: #23709 · Ответов: 6 · Просмотров: 612

nokh
Отправлено: 29.01.2019 - 01:08


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(fattymouse @ 29.01.2019 - 01:03) *
Что такое OR и CI?

OR - Odds ratio - Отношение шансов
CI - Confidence interval - Доверительный интервал (ДИ). В данном случае 95%-ный ДИ для отношения шансов.
  Форум: Медицинская статистика · Просмотр сообщения: #23701 · Ответов: 2 · Просмотров: 347

nokh
Отправлено: 29.01.2019 - 01:05


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(DJAp @ 28.01.2019 - 02:48) *
Есть пример, пациенты принимали два разных лекарства и получали эффект, который оценивался от 0 до 5.
Таким образом, нужно сравнить, есть ли в этих двух группах (лекарствах) достоверные отличия по частоте явления. То есть, эффект 0 был у 39 пациентов, эффект 1 у 3 пациентов и так далее (таблица ниже).
Как я понял, что если сравнивать количество пациентов есть эффект/нет эффекта, можно использовать критерии Фишера/хи2 в четырехпольных таблицах, например в ПО Statistica.
А в случае когда нужно сравнить несколько вариантов? Есть ли какое то решение этой проблемы?
преп1 преп2
0 39 28
1 3 1
2 3 5
3 6 8
4 0 3
5 3 4

1) Как уже сказали, таблица сопряжённости может быть не только 2 x 2 но и r x c, и даже быть не двумерной, а многомерной. Её можно обсчитать хи-квадратом Пирсона, отношением правдоподобия (G-критерий), критерием Фримана -Тьюки и т.д. Но все критерии, опирающиеся на статистическое распределение хи-квадрат имеют проблему допустимого минимального ожидаемого, т.е. имеются требования к насыщенности ячеек таблицы данными. Ваша таблица слабонасыщенная (есть даже нули), а значит использовать классические критерии некорректно. Нужно использовать точные рандомизационные критерии (exact permutation) или хотя бы рандомизацию Монте-Карло.
2) В вашем случае даже при таком корректном обсчёте мощность сравнения будет недостаточной, т.к. при простом анализе таблиц сопряжённости упорядоченность категорий игнорируется. Т.е. вы просто обнаружите (а для ваших данных - не обнаружите) различие распределения пациентов по категориям. Чтобы учесть упорядоченность ("получали эффект, который оценивался от 0 до 5") нужно использовать другие методы. Например, анализ на тренд методом Кохрана - Армитаж, есть другие малоизвестные методы на нелинейный тренд.
3) Также можно развернуть таблицу сопряжённости в длинный формат и сравнить выборки критерием Манна - Уитни. Т.е. для первого препарата набить 39 нулей, 3 единицы, 3 двойки, 6 троек и т.д. Аналогично для второго и сравнить. Таким способом обсчитывает таблицы с упорядоченными категориями один из самых продвинутых пакетов StatXact. Критерий Манна -Уитни будет искать именно сдвиг.
4) Рекомендации 1-3 даны только для независимых выборок. Если препараты оценивались на одних и тех же пациентах - нужны другие методы.


  Форум: Медицинская статистика · Просмотр сообщения: #23700 · Ответов: 6 · Просмотров: 612

nokh
Отправлено: 6.01.2019 - 23:43


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Ulugbek @ 5.01.2019 - 20:40) *
Добрый вечер! В статистике я новичок и очень сильно надеюсь на вашу помощь. Есть два диагностических метода(определение плотности хрусталика). Один- инструментальный, другой- не инструментальный. В обоих результаты распределяются по степеням: всего 5 степеней. Отличием является то, что инструментальный метод дает результаты в процентах, а второй- по цвету хрусталика. Число исследований 30. Вопрос:Как можно определить точность инструментального по отношению к не инструментальному(как бы странно это не звучало). Направьте , пожалуйста. Заранее благодарю.

Под "точностью" в разных областях науки понимаются несколько разные вещи, но можно подобрать что-то наиболее близкое к подразумеваемому.

1) Точность как близость оценок. Можно использовать коэффициент корреляции: если корреляция между двумя рядами оценок плотности будет статистически значимой, значит между двумя способами оценок есть связь, причём величина коэффициента корреляции укажет на силу этой связи: чем она ближе к 1, тем она ближе к идеальной (perfect). Корреляцию в вашем случае по-любому нужно брать ранговую - Спирмена или Кендалла. Если разберётесь с вероятностной интерпретацией к. Кендалла, здесь лучше взять её, не разберётесь - без разницы какую. Корреляцию я бы посчитал двумя способами:
а) Для исходных данных в тех единицах, в каких выдают результат методики. Это будет оценка истинной связи - без привнесения в неё наших представлений о разбиении на степени. Практика показывает, что зачастую предложенные кем-то и когда-то искусственные классификации могут не совпадать с естественными, но поскольку такие классификации уже "прижились" и создают в научных дисциплинах подобие порядка, проще продолжать пользоваться ими, чем постоянно перекраивать классификации.
б) Для ранжированных в соответствии с классификацией данных. Т.е. для первого ряда вместо % проставляете соответствующие степени от 1 до 5. Для второго - аналогично перекодируете его результаты в эти же 5 степеней. Корреляция двух этих рядов рангов покажет степень согласия именно двух диагностических критериев определения степени плотности хрусталика.
Т.о. получите две меры близости методов: биологическую и диагностическую.

2) Точность как отсутствие различий в средних значениях оценок, т.е. что оба метода измеряют в среднем одинаково. В данном случае это более слабый критерий чем (1), т.к. будет обнаруживать только значимость сдвига в большую или меньшую сторону. Но учитывая, что "В статистике я новичок", будет полезно освоить. Нужно ранжировать значения обоих рядов по степеням 1-5 (см. выше) и сравнить ряды критерием Уилкоксона для разностей пар. Учитывая, вероятно, большое число нулевых разностей (одинаковые значения в обоих рядах) и малую выборку лучше использовать точный или хотя бы рандомизационный вариант критерия для оценки р.

3) Точность как идентичность классификации. Скорее всего вам нужна именно такая оценка, но беда в том, что для неё у вас очень мало данных, а значит будет велика ошибка второго рода - не обнаружить имеющихся различий. Т.е. посчитать-то вы сможете, но отсутствие различий может оказаться как следствием их отсутствия, так и следствием малого объёма выборки. В отличие от (1) и (2) в данном варианте мы будем относиться к степеням не как к упорядоченным категориям, а как к номинальным категориям. Т.е. в этом подходе одинаковой будет цена любой ошибки классификации: что между степенями 1 и 2 или 4 и 5, что между 1 и 5. Считается критериями симметрии и краевой однородности. Нужно построить таблицу 5 х 5. В строках - степени первого (инструментального) метода, в колонках - степени второго метода. Берёте ваш первый хрусталик, например по обеим классификациям он дал степень 2 - ставите точку на пересечении строки 2 и столбца 2. И так до конца. В итоге получите 30 точек в 25 полях таблицы. Если между методами диагностики идеальное соответствие, то все значения (точки) окажутся на главной диагонали таблицы (1-1, 2-2, 3-3, 4-4, 5-5). Если есть какие-то различия, то будут также значения в ячейках над и под диагональю. Тогда точность диагностики можно посчитать как отношение числа значений в ячейках диагонали к объёму выборки (n=30). О том как вручную обсчитать такую таблицу статистически критерием Боукера - см. в Лабораторном практикуме из этой темы http://forum.disser.ru/index.php?showtopic=4304 на стр. 139 и далее.

Описанные способы - рабочие статистические заготовки. Можно придумать другие способы. p2004r предлагает построить модель непосредственно под ваш запрос. Причём она даже проще, т.к. по условию двигать границы отрезков можно только на второй линейке (неинструментальный метод), тогда как на первой они жёсткие (вероятно - классическая диагностика). Такой способ позволит также найти оптимальное разбиение на отрезки второй линейки (если степень квантификации это позволяет в принципе), чтобы получить наилучшее соответствие с первой шкалой. Я такую модель не построю, но может p2004r покажет это на ваших данных.
  Форум: Медицинская статистика · Просмотр сообщения: #23629 · Ответов: 3 · Просмотров: 807

nokh
Отправлено: 28.12.2018 - 11:10


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(thebassea @ 28.12.2018 - 02:07) *
Здравствуйте уважаемые коллеги!
... Как вы считаете, стоит ли сравнивать отдельно по 2 подгруппы (40 и 21; 6 и 6) применимыми по возможности методами статистического анализа (например, хи-квадрат для первой пары и точный тест Фишера для второй)? Или все же не позориться?)))

Статистика нужна чтобы принимать решения в условиях неопределённости, поэтому считать нужно. Если вы даже на малой выборке обнаружите статистически значимый эффект, значит к нему можно относиться как к неслучайному (на достигнутом уровне Р). Но вот если вы чего-то не обнаружите, то утверждать, что "различий нет" вы не сможете - ввиду малой мощности исследования (большая ошибка второго рода). О том как сравнивать несколько выборок - см. в Лабораторном практикуме в этой теме http://forum.disser.ru/index.php?showtopic=4304 Лучше это делать сначала для всех групп одновременно, а уже затем, если нужно - проводят апостериорные попарные сравнения.
Ну а о том, что это всё несерьёзно - будьте готовы выслушать; на это нужно иметь свои контраргументы.
  Форум: Медицинская статистика · Просмотр сообщения: #23614 · Ответов: 4 · Просмотров: 920

nokh
Отправлено: 25.12.2018 - 20:24


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Ну и "до кучи": сингулярный спектральный анализ:
https://ru.wikipedia.org/wiki/SSA_(%D0%BC%D...82%D0%BE%D0%B4)
https://en.wikipedia.org/wiki/Singular_spectrum_analysis
  Форум: Медицинская статистика · Просмотр сообщения: #23606 · Ответов: 21 · Просмотров: 2482

nokh
Отправлено: 1.12.2018 - 19:50


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(kont @ 1.12.2018 - 16:08) *
Подскажите, вот провел я множественную регрессию. Смотрю остатки. У меня возник, а какие остатки приемлемые, а какие нет.
Например исходное значение 24, предсказано 23, остаток=1. Нормально ли это? Т.е. вопрос какое максимальное расхождение считается допустимо, чтобы сказать, это модель крута?(с учетом того, что остаток в ноль, не такое частое явление, увы)

В вашем вопросе - несколько вопросов, имеющих разные ответы, поэтому вам ответили кто что считал важнее.

1) Вопрос о статистической значимости модели. Модели подгоняются таким образом, чтобы минимизировать остатки. В классическом варианте (метод наименьших квадратов) минимизируется сумма квадратов остатков. В этом смысле отдельные остатки, действительно, не имеют значения: важно чтобы дисперсия (средний квадрат - MS) регрессии была значимо больше дисперсии остатков. Эти две дисперсии сравниваются F-критерием (Снедекора - Фишера). Если Р-значение для F-критерия оказывается мало (например, меньше или равно 0,05), то модель следует считать статистически значимой и в этом смысле она - "крута". Рекомендации использовать коэффициент детерминации R2 распространены в литературе, сложно сказать откуда это пошло, но это идеологически неверно. Коэффициент детерминации позволяет оценить тесноту связи, корреляции - это мера общей дисперсии для Х и Y (в простейшем случае). Она одинакова для регрессии Y по Х и для регрессии X по Y, хотя уравнения этих зависимостей разные, их статистическая значимость - разная. И хотя для более сильной модели R2 действительно будет больше, но как-то нехорошо оценивать силу зависимости по силе связи - только как быстрый ориентир, эмпирика.

2) Качество модели. Если для одних и тех же данных можно предложить разные модели, то возможны варианты. Качественная модель модель должна быть не только статистически значимой, но и хорошо работать на других выборках. Построив более сложную модель мы добьёмся высокой статистической значимости для описания нашей конкретной выборки. Но где гарантии, что она так же хорошо опишет следующие выборки, т.е. подходит для всей генеральной совокупности? Практика показывает, что более универсальны не сложные модели с частностями и малыми остатками, а более простые модели. Баланс между сложностью и простотой находится с помощью информационных критериев и перекрёстной проверки (кросс-проверки). В этом смысле самая "крутая модель" - наиболее универсальная, воспроизводимая на других данных или хотя-бы - на части этих же данных.

3) Качество данных для построения зависимости и дополнительный контроль правильности выбора модели. Если мы более-менее определились с моделью - имеет смысл провести углублённый анализ остатков. Он покажет насколько хорошо отдельные наблюдения вписываются в модель, какие наблюдения наиболее сильно влияют на форму зависимости, и насколько эта форма была выбрана правильно. В этом смысле наиболее "крутая" модель - та, которая не содержит выбросов (outliers), применительно к моделям регрессии - статистически значимых внешних (удалённых) стьюдентизированных остатков. Именно такие остатки считаются "неприемлемыми". В своё время я сводил эту информацию воедино, поэтому прочитайте этот материал: http://forum.disser.ru/index.php?act=attac...post&id=284
Он для линейной регрессии, но для множественной меры те же. Также там есть информация по влиятельным наблюдениям.

Можно ещё упомянуть о методах и критериях анализа остатков, типа автокорреляции и однородности дисперсий, про это кратко есть в моём пособии: https://yadi.sk/d/g50i73pt3J6pAa

PS Посмотрел нашу дискуссию по выбросам, куда выкладывал материал. Она была ровно 9 лет назад. Это - ужасно mega_shok.gif
  Форум: Медицинская статистика · Просмотр сообщения: #23559 · Ответов: 3 · Просмотров: 875

nokh
Отправлено: 26.11.2018 - 12:34


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(paravoz @ 26.11.2018 - 06:37) *
...Подскажите, действительно ли необходимо/корректно рассчитывать доверительные интервалы в таких ситуациях? Если нет, то подскажите как грамотно обосновать рецензенту это или на какую литературу сослаться? Сам я нигде прямого запрета на это не нашел. Заранее всем спасибо!

Для меня это тоже был мучительный вопрос, хорошо что больше "играю на другом поле":) Но недавно участвовал в статье по генетическим нарушениям (ещё не закончили) и решил таки считать ДИ. Помимо отмеченного р2004r хронологического аспекта, есть ещё и хорологический аспект. Такие работы делаются как правило не для того, чтобы только охарактеризовать интересующую совокупность сейчас и здесь, но и чтобы сравнить её с другими совокупностями: городами, областями, странами. Допустим, что в одном населённом пункте из 10,0 тыс человек было 2 больных, а в другом - из 10,1 тыс человек - 3 больных. Можем ли мы руководствуясь тем, что имеем дело с конечными совокупностями, просто и безо всякой статистики констатировать более высокую заболеваемость во втором н.п.? Размышления привели меня к тому, что скорее не можем, что правильнее думать о неких условиях или факторах, лежащих в основе заболеваемости / смертности и реализующихся конкретными дискретными числами. И что если бы в н.п. жило в 5 раз больше жителей, то мы могли бы с большей надёжностью оценить уровень заболеваемости. А раз речь заходит о надёжности оценки, то это прямой путь к ДИ. Получается, что время и пространство размывают границы конечной ГС, наделяя её свойствами бесконечной домысливаемой... Тема важная, прошу поделиться потом тем, что ещё найдёте и к чему пришли.
  Форум: Медицинская статистика · Просмотр сообщения: #23527 · Ответов: 24 · Просмотров: 3280

nokh
Отправлено: 19.11.2018 - 11:57


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Yaroslava @ 17.11.2018 - 03:08) *
...
Ох...надеюсь, не запутала) Заранее спасибо за ответы!))

Запутала! Если сравниваете многолетнюю динамику, то это - одни методы, если один год - другие. За один год сравнивать со средним показателем будет некорректно, т.к. данные по интересующей области А будут входить частью в полные данные. Но можно сравнить однородность заболеваемости по областям, т.е. сделать таблицу частот из двух колонок (число лиц с заболеванием, число лиц без заболевания) и числа строк, равному числу областей, и проанализировать её критериями типа хи-квадрат. Если будет значимая неоднородность - смотреть по остаткам Хабермана какие области отклонились "в плюс", какие - "в минус" от нулевой гипотезы (заболеваемость везде одинаковая). Если в качестве третьего входа в таблицу сопряжённости добавить год, то можно проанализировать сразу весь массив данных в ходе логлинейного анализа.
  Форум: Медицинская статистика · Просмотр сообщения: #23512 · Ответов: 29 · Просмотров: 16775

nokh
Отправлено: 12.11.2018 - 14:08


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


[quote name='rokotyanskaya.ea' post='23504' date='12.11.2018 - 12:55']Добрый день! help.gif, пожалуйста, интерпретировать полученные данные в программе Statistica. Благодаря вашему форуму получилось разобраться в проведении бинарной логистической регрессии в этой программе по нескольким независимым переменным (считаю факторы риска развития ПЭ у беременных), дошла до интерпретации, ничего не понятно. Какой фактор имеет большее влияние? help.gif разобраться!/quote]

А какие конкретно просмотренные вами книги/источники по логистической регрессии не позволили разобраться? Назовите штуки 3. Ну а далее посмотрим что конкретно, какие места в этих книгах/источниках было непонятны. Потому что такие вопросы производят впечатление, что человек в принципе не желает разбираться.
  Форум: Медицинская статистика · Просмотр сообщения: #23507 · Ответов: 3 · Просмотров: 1097

nokh
Отправлено: 20.10.2018 - 22:31


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 20.10.2018 - 23:58) *
Да, галерея графики - няшная, из статистических "фенечек" впечатлился наличием процедуры Двасса - Стила в качестве пост хоков в дисперсионном анализе. Впрочем, имея перед глазами Холлендера и Вульфа (1999) не так это все сложно запрогать и самому... В общем, миленько, но не более того...

Пакет очень хорош как конструктор для научной графики: этакий мини Origin (OriginLab Corp.). Я сейчас всю графику в отчёты и статьи строю в KyPLot и R. Планирую несколько роликов по KyPLot сделать - надоело одно и то же показывать людям.
А статистических фенек в нём больше. Например можно факторный анализ проводить методом главных факторов с итерациями по общностям и использовать в качестве начальных значений таковые, вычисленные по Йореско - именно как в "Факторный, дискриминантый и кластерный анализ" рекомендуется (+ другие методы факторного анализа с разными как ортогональными, так и косоугольными вращениями). Также если подать на вход матрицу сходства, можно кластеризацию методом Уорда делать для любых расстояний (досчитывал так за PAST). Ну а встроенных функций нелинейных зависимостей там просто больше, чем где-либо (центральное меню двойным кликом на рисунке и далее Fit)...
  Форум: Медицинская статистика · Просмотр сообщения: #23462 · Ответов: 15 · Просмотров: 46996

nokh
Отправлено: 20.10.2018 - 21:26


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Последняя версия пакета KyPlot, ещё недавно стоившая 1000$, стала бесплатной. Слава Коичи Йошиоке!
http://www.kyenslab.com/en/index.html
  Форум: Медицинская статистика · Просмотр сообщения: #23460 · Ответов: 15 · Просмотров: 46996

nokh
Отправлено: 18.10.2018 - 05:42


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 18.10.2018 - 01:37) *
Ну, вот, прочитал первые 37 страниц и ... "я вас прошу, нет, я вас просто умоляю" словосочетание "математического ожидаемого" на с. 37 заменить на "математического ожидания".

Меня сильно торопили, поэтому не было возможности выкладывать и публично шлифовать черновик как сделал Шитиков. Имеем что есть. Поэтому просьба писать исключительно на почту. Надеюсь на понимание.
  Форум: Медицинская статистика · Просмотр сообщения: #23444 · Ответов: 8 · Просмотров: 1987

nokh
Отправлено: 17.10.2018 - 21:01


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(ogurtsov @ 17.10.2018 - 22:10) *
Поменять бы PAST на R, и будет полная годнота.

У меня в среднем в подгруппе на 15 чел 13 девочек. Из них 1-2 интересуется чем-то близким мне, остальные 10 интересуются чем-то в своих смартфонах. Не потянут они R в бакалавриате.
Но может во втором издании:) Или сделать "R companion", что проще.
  Форум: Медицинская статистика · Просмотр сообщения: #23441 · Ответов: 8 · Просмотров: 1987

nokh
Отправлено: 17.10.2018 - 19:33


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 17.10.2018 - 17:30) *
Я с превеликим удовольствием и несомненной пользой для себя посмотрел бы, но по ссылке мне ничего не открылось, кроме предложения "Установить диск для Windows", на каковую кнопку я нажимать поопасился. Может, тут можно выложить?

У меня на одном из компов такая же проблема: из slimjet не открывается, но из Pale Moon открывается нормиально. Сюда могу выложить только книжку (без данных и расчётных файлов).
  Форум: Медицинская статистика · Просмотр сообщения: #23439 · Ответов: 8 · Просмотров: 1987

nokh
Отправлено: 17.10.2018 - 13:17


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(nikita_zab @ 16.10.2018 - 19:38) *
...Прошу напомнить термин, которым называют применение всевозможных статистических методов к одним и тем же данным в попытке найти значимую разницу или закономерности.

См. ещё здесь: https://en.wikipedia.org/wiki/Data_dredging
Цитата(nikita_zab @ 16.10.2018 - 19:38) *
И второй вопрос из области философии. Имеет ли смысл применять несколько методов для оценки "здесь что-то есть". И если применяется сразу несколько методов как быть, если некоторые из них показывают "р меньше 5 сотых", а другие нет?

Любое применение статистических методов - это приложение некоей математической модели к данным, а все модели условны. Как говаривал Джорж Бокс "All models are wrong but some are useful". Вот мы ими и пользуемся. Всегда есть модель, которая подходит к данным лучше всего, её и нужно искать и использовать. Проблема в том, что какая из них лучше не всегда видно по данным. И философский вопрос здесь скорее другой: а вправе ли мы по данным подбирать лучшую модель, или это нужно делать, исходя из других принципов? В любом случае, грамотный подход будет включать не выбор теста с самым маленьким Р, а выбор такого, который является наиболее мощным "в данной ситуации". Соответственно нужно знать что-то и о самих данных, их природе и о статистических критериях, их сильных и слабых сторонах (а они всегда есть, иначе бы не было предложено столько статметодов).

По поводу "массы методов" соглашусь с leo_biostat только в том случае, эти эти методы раскрывают разные стороны данных: например, сочетание классических и многомерных методов, многомерных методов и сетевого анализа и т.п. Если же речь идёт об одной задаче, об одной стороне данных - однозначно нужно искать лучшую модель. Если в публикации человек приведёт, скажем, и критерий Стьюдента, и критерий Манна - Уитни, и медианный критерий, то я сразу запишу его в "непрофессионалы" - ибо не умеет выбрать лучшую модель.
  Форум: Медицинская статистика · Просмотр сообщения: #23437 · Ответов: 6 · Просмотров: 1765

nokh
Отправлено: 17.10.2018 - 13:01


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(nokh @ 4.10.2018 - 12:14) *

В пособии имеются неизбежные недочёты и ошибки (мои и авторов пакета PAST). Буду признателен за информацию о них на почту: biostat74@mail.ru , Тема "Практикум по биостатистике"
В начале 2019 выложу версию со вставкой страниц с исправлениями, комментариями некоторых моментов и т.п.
  Форум: Медицинская статистика · Просмотр сообщения: #23436 · Ответов: 8 · Просмотров: 1987

nokh
Отправлено: 4.10.2018 - 10:14


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


https://yadi.sk/d/g50i73pt3J6pAa
  Форум: Медицинская статистика · Просмотр сообщения: #23398 · Ответов: 8 · Просмотров: 1987

nokh
Отправлено: 2.08.2018 - 00:52


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Daria @ 1.08.2018 - 09:57) *
Почти 150 просмотров и нет ответов... Никто действительно не знает или причина в чем-то другом?

Вопрос нормальный, скорее всего "никто действительно не знает" наверняка + не работают в Statа. Я, например, сомневаюсь, что можно использовать "чисто эпмирически "ln(_t)"". Я бы использовал так называемую нормировку на среднее значение логарифма времени. Т.е. член модели не Р*ln(_t), а Р*ln(_t)-среднее(ln_t). По крайней мере когда я знакомился с регрессией Кокса, то подсмотрел это здесь: http://statistica.ru/local-portals/medicin...ni-kovariatami/ . Сейчас деталей не помню, но помню, что с такой нормировкой оценка предиктора P получалась близкой к его оценке в модели пропорциональных интенсивностей. Смотрел в Statistica и SPSS, в R - только без зависящих от времени ковариат.

Вопрос 1. Ответа не знаю. Обычная "стандартная" модель, вероятно, подразумевает степенное взаимодействие. Возможно, форму зависимости можно более точно установить по остаткам модели.
Вопрос 2. "Построить кривую выживаемости при определенных значениях ковариат" должны смочь. Statistica это позволяет, значит и Stata сможет. Сложнее - с формализацией полученной модели. Т.е. пока данные находятся в памяти пакета, то на основании базовых выживаемостей/рисков эти расчёты сделать можно. Но чтобы создать рабочую формулу для последующих расчётов, скажем, в Excel, насколько понимаю, эти базовые функции нужно будет отдельно приближать какой-либо функцией из числа обычно используемых в анализе выживаемости (типа Гомперца).
  Форум: Медицинская статистика · Просмотр сообщения: #23205 · Ответов: 4 · Просмотров: 1720

43 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена