Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

43 страниц V   1 2 3 > » 

nokh
Отправлено: 7.02.2019 - 19:36


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(comisora @ 7.02.2019 - 15:37) *
...Спросили - как можно "объективно" сравнить наборы услуг.
Я подумал, что это из области MCA/PCA/MDS, но не уверен (смущает большое количество разношёрстных условий и предложений)...

Не совсем понятна цель сравнения. Оценить уровень общего сходства наборов или выйти на самые-самые особенности? В любом случае у меня опыта в таком почти нет. В голову приходит прокрустов анализ, который позволяет сравнить многомерные матрицы данных. Его можно применять как исходным данным, так и к редуцированным в ходе MCA/PCA/MDS. В сочетании с рандомизационной процедурой можно оценить статистическую значимость различия двух матриц данных, а также её элементов.
  Форум: Медицинская статистика · Просмотр сообщения: #23724 · Ответов: 5 · Просмотров: 244

nokh
Отправлено: 1.02.2019 - 13:48


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Choledochus @ 1.02.2019 - 15:07) *
... Вот так можно (?):
"Последнее может интерпретироваться как ложное снижение корреляции вследствие неоднородности данных, вызванной принадлежностью опрошенных к разным категориям индивидуумов или как нелинейная корреляционная связь".

Полагаю, что можно. Звучит тоже нормально: лаконично, для меня - понятно. Когда мы анализируем связи в большой неоднородной группе, то можем сделать выводы с точностью до наоборот. Это - парадокс Симпсона, см. рисунок в этой теме: http://forum.disser.ru/index.php?showtopic=1998
  Форум: Медицинская статистика · Просмотр сообщения: #23716 · Ответов: 3 · Просмотров: 316

nokh
Отправлено: 29.01.2019 - 19:49


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(DJAp @ 29.01.2019 - 19:50) *
К сожалению, я неправильно выразился. Моя ошибка. Имелось в виду, получали 6 разных эффектов, которые не были связаны друг с другом.
В таком случае, приведенные выше методы будут актуальны?

Тогда только 1)
  Форум: Медицинская статистика · Просмотр сообщения: #23709 · Ответов: 6 · Просмотров: 392

nokh
Отправлено: 29.01.2019 - 01:08


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(fattymouse @ 29.01.2019 - 01:03) *
Что такое OR и CI?

OR - Odds ratio - Отношение шансов
CI - Confidence interval - Доверительный интервал (ДИ). В данном случае 95%-ный ДИ для отношения шансов.
  Форум: Медицинская статистика · Просмотр сообщения: #23701 · Ответов: 2 · Просмотров: 195

nokh
Отправлено: 29.01.2019 - 01:05


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(DJAp @ 28.01.2019 - 02:48) *
Есть пример, пациенты принимали два разных лекарства и получали эффект, который оценивался от 0 до 5.
Таким образом, нужно сравнить, есть ли в этих двух группах (лекарствах) достоверные отличия по частоте явления. То есть, эффект 0 был у 39 пациентов, эффект 1 у 3 пациентов и так далее (таблица ниже).
Как я понял, что если сравнивать количество пациентов есть эффект/нет эффекта, можно использовать критерии Фишера/хи2 в четырехпольных таблицах, например в ПО Statistica.
А в случае когда нужно сравнить несколько вариантов? Есть ли какое то решение этой проблемы?
преп1 преп2
0 39 28
1 3 1
2 3 5
3 6 8
4 0 3
5 3 4

1) Как уже сказали, таблица сопряжённости может быть не только 2 x 2 но и r x c, и даже быть не двумерной, а многомерной. Её можно обсчитать хи-квадратом Пирсона, отношением правдоподобия (G-критерий), критерием Фримана -Тьюки и т.д. Но все критерии, опирающиеся на статистическое распределение хи-квадрат имеют проблему допустимого минимального ожидаемого, т.е. имеются требования к насыщенности ячеек таблицы данными. Ваша таблица слабонасыщенная (есть даже нули), а значит использовать классические критерии некорректно. Нужно использовать точные рандомизационные критерии (exact permutation) или хотя бы рандомизацию Монте-Карло.
2) В вашем случае даже при таком корректном обсчёте мощность сравнения будет недостаточной, т.к. при простом анализе таблиц сопряжённости упорядоченность категорий игнорируется. Т.е. вы просто обнаружите (а для ваших данных - не обнаружите) различие распределения пациентов по категориям. Чтобы учесть упорядоченность ("получали эффект, который оценивался от 0 до 5") нужно использовать другие методы. Например, анализ на тренд методом Кохрана - Армитаж, есть другие малоизвестные методы на нелинейный тренд.
3) Также можно развернуть таблицу сопряжённости в длинный формат и сравнить выборки критерием Манна - Уитни. Т.е. для первого препарата набить 39 нулей, 3 единицы, 3 двойки, 6 троек и т.д. Аналогично для второго и сравнить. Таким способом обсчитывает таблицы с упорядоченными категориями один из самых продвинутых пакетов StatXact. Критерий Манна -Уитни будет искать именно сдвиг.
4) Рекомендации 1-3 даны только для независимых выборок. Если препараты оценивались на одних и тех же пациентах - нужны другие методы.


  Форум: Медицинская статистика · Просмотр сообщения: #23700 · Ответов: 6 · Просмотров: 392

nokh
Отправлено: 6.01.2019 - 23:43


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Ulugbek @ 5.01.2019 - 20:40) *
Добрый вечер! В статистике я новичок и очень сильно надеюсь на вашу помощь. Есть два диагностических метода(определение плотности хрусталика). Один- инструментальный, другой- не инструментальный. В обоих результаты распределяются по степеням: всего 5 степеней. Отличием является то, что инструментальный метод дает результаты в процентах, а второй- по цвету хрусталика. Число исследований 30. Вопрос:Как можно определить точность инструментального по отношению к не инструментальному(как бы странно это не звучало). Направьте , пожалуйста. Заранее благодарю.

Под "точностью" в разных областях науки понимаются несколько разные вещи, но можно подобрать что-то наиболее близкое к подразумеваемому.

1) Точность как близость оценок. Можно использовать коэффициент корреляции: если корреляция между двумя рядами оценок плотности будет статистически значимой, значит между двумя способами оценок есть связь, причём величина коэффициента корреляции укажет на силу этой связи: чем она ближе к 1, тем она ближе к идеальной (perfect). Корреляцию в вашем случае по-любому нужно брать ранговую - Спирмена или Кендалла. Если разберётесь с вероятностной интерпретацией к. Кендалла, здесь лучше взять её, не разберётесь - без разницы какую. Корреляцию я бы посчитал двумя способами:
а) Для исходных данных в тех единицах, в каких выдают результат методики. Это будет оценка истинной связи - без привнесения в неё наших представлений о разбиении на степени. Практика показывает, что зачастую предложенные кем-то и когда-то искусственные классификации могут не совпадать с естественными, но поскольку такие классификации уже "прижились" и создают в научных дисциплинах подобие порядка, проще продолжать пользоваться ими, чем постоянно перекраивать классификации.
б) Для ранжированных в соответствии с классификацией данных. Т.е. для первого ряда вместо % проставляете соответствующие степени от 1 до 5. Для второго - аналогично перекодируете его результаты в эти же 5 степеней. Корреляция двух этих рядов рангов покажет степень согласия именно двух диагностических критериев определения степени плотности хрусталика.
Т.о. получите две меры близости методов: биологическую и диагностическую.

2) Точность как отсутствие различий в средних значениях оценок, т.е. что оба метода измеряют в среднем одинаково. В данном случае это более слабый критерий чем (1), т.к. будет обнаруживать только значимость сдвига в большую или меньшую сторону. Но учитывая, что "В статистике я новичок", будет полезно освоить. Нужно ранжировать значения обоих рядов по степеням 1-5 (см. выше) и сравнить ряды критерием Уилкоксона для разностей пар. Учитывая, вероятно, большое число нулевых разностей (одинаковые значения в обоих рядах) и малую выборку лучше использовать точный или хотя бы рандомизационный вариант критерия для оценки р.

3) Точность как идентичность классификации. Скорее всего вам нужна именно такая оценка, но беда в том, что для неё у вас очень мало данных, а значит будет велика ошибка второго рода - не обнаружить имеющихся различий. Т.е. посчитать-то вы сможете, но отсутствие различий может оказаться как следствием их отсутствия, так и следствием малого объёма выборки. В отличие от (1) и (2) в данном варианте мы будем относиться к степеням не как к упорядоченным категориям, а как к номинальным категориям. Т.е. в этом подходе одинаковой будет цена любой ошибки классификации: что между степенями 1 и 2 или 4 и 5, что между 1 и 5. Считается критериями симметрии и краевой однородности. Нужно построить таблицу 5 х 5. В строках - степени первого (инструментального) метода, в колонках - степени второго метода. Берёте ваш первый хрусталик, например по обеим классификациям он дал степень 2 - ставите точку на пересечении строки 2 и столбца 2. И так до конца. В итоге получите 30 точек в 25 полях таблицы. Если между методами диагностики идеальное соответствие, то все значения (точки) окажутся на главной диагонали таблицы (1-1, 2-2, 3-3, 4-4, 5-5). Если есть какие-то различия, то будут также значения в ячейках над и под диагональю. Тогда точность диагностики можно посчитать как отношение числа значений в ячейках диагонали к объёму выборки (n=30). О том как вручную обсчитать такую таблицу статистически критерием Боукера - см. в Лабораторном практикуме из этой темы http://forum.disser.ru/index.php?showtopic=4304 на стр. 139 и далее.

Описанные способы - рабочие статистические заготовки. Можно придумать другие способы. p2004r предлагает построить модель непосредственно под ваш запрос. Причём она даже проще, т.к. по условию двигать границы отрезков можно только на второй линейке (неинструментальный метод), тогда как на первой они жёсткие (вероятно - классическая диагностика). Такой способ позволит также найти оптимальное разбиение на отрезки второй линейки (если степень квантификации это позволяет в принципе), чтобы получить наилучшее соответствие с первой шкалой. Я такую модель не построю, но может p2004r покажет это на ваших данных.
  Форум: Медицинская статистика · Просмотр сообщения: #23629 · Ответов: 3 · Просмотров: 633

nokh
Отправлено: 28.12.2018 - 11:10


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(thebassea @ 28.12.2018 - 02:07) *
Здравствуйте уважаемые коллеги!
... Как вы считаете, стоит ли сравнивать отдельно по 2 подгруппы (40 и 21; 6 и 6) применимыми по возможности методами статистического анализа (например, хи-квадрат для первой пары и точный тест Фишера для второй)? Или все же не позориться?)))

Статистика нужна чтобы принимать решения в условиях неопределённости, поэтому считать нужно. Если вы даже на малой выборке обнаружите статистически значимый эффект, значит к нему можно относиться как к неслучайному (на достигнутом уровне Р). Но вот если вы чего-то не обнаружите, то утверждать, что "различий нет" вы не сможете - ввиду малой мощности исследования (большая ошибка второго рода). О том как сравнивать несколько выборок - см. в Лабораторном практикуме в этой теме http://forum.disser.ru/index.php?showtopic=4304 Лучше это делать сначала для всех групп одновременно, а уже затем, если нужно - проводят апостериорные попарные сравнения.
Ну а о том, что это всё несерьёзно - будьте готовы выслушать; на это нужно иметь свои контраргументы.
  Форум: Медицинская статистика · Просмотр сообщения: #23614 · Ответов: 4 · Просмотров: 634

nokh
Отправлено: 25.12.2018 - 20:24


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Ну и "до кучи": сингулярный спектральный анализ:
https://ru.wikipedia.org/wiki/SSA_(%D0%BC%D...82%D0%BE%D0%B4)
https://en.wikipedia.org/wiki/Singular_spectrum_analysis
  Форум: Медицинская статистика · Просмотр сообщения: #23606 · Ответов: 21 · Просмотров: 1894

nokh
Отправлено: 1.12.2018 - 19:50


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(kont @ 1.12.2018 - 16:08) *
Подскажите, вот провел я множественную регрессию. Смотрю остатки. У меня возник, а какие остатки приемлемые, а какие нет.
Например исходное значение 24, предсказано 23, остаток=1. Нормально ли это? Т.е. вопрос какое максимальное расхождение считается допустимо, чтобы сказать, это модель крута?(с учетом того, что остаток в ноль, не такое частое явление, увы)

В вашем вопросе - несколько вопросов, имеющих разные ответы, поэтому вам ответили кто что считал важнее.

1) Вопрос о статистической значимости модели. Модели подгоняются таким образом, чтобы минимизировать остатки. В классическом варианте (метод наименьших квадратов) минимизируется сумма квадратов остатков. В этом смысле отдельные остатки, действительно, не имеют значения: важно чтобы дисперсия (средний квадрат - MS) регрессии была значимо больше дисперсии остатков. Эти две дисперсии сравниваются F-критерием (Снедекора - Фишера). Если Р-значение для F-критерия оказывается мало (например, меньше или равно 0,05), то модель следует считать статистически значимой и в этом смысле она - "крута". Рекомендации использовать коэффициент детерминации R2 распространены в литературе, сложно сказать откуда это пошло, но это идеологически неверно. Коэффициент детерминации позволяет оценить тесноту связи, корреляции - это мера общей дисперсии для Х и Y (в простейшем случае). Она одинакова для регрессии Y по Х и для регрессии X по Y, хотя уравнения этих зависимостей разные, их статистическая значимость - разная. И хотя для более сильной модели R2 действительно будет больше, но как-то нехорошо оценивать силу зависимости по силе связи - только как быстрый ориентир, эмпирика.

2) Качество модели. Если для одних и тех же данных можно предложить разные модели, то возможны варианты. Качественная модель модель должна быть не только статистически значимой, но и хорошо работать на других выборках. Построив более сложную модель мы добьёмся высокой статистической значимости для описания нашей конкретной выборки. Но где гарантии, что она так же хорошо опишет следующие выборки, т.е. подходит для всей генеральной совокупности? Практика показывает, что более универсальны не сложные модели с частностями и малыми остатками, а более простые модели. Баланс между сложностью и простотой находится с помощью информационных критериев и перекрёстной проверки (кросс-проверки). В этом смысле самая "крутая модель" - наиболее универсальная, воспроизводимая на других данных или хотя-бы - на части этих же данных.

3) Качество данных для построения зависимости и дополнительный контроль правильности выбора модели. Если мы более-менее определились с моделью - имеет смысл провести углублённый анализ остатков. Он покажет насколько хорошо отдельные наблюдения вписываются в модель, какие наблюдения наиболее сильно влияют на форму зависимости, и насколько эта форма была выбрана правильно. В этом смысле наиболее "крутая" модель - та, которая не содержит выбросов (outliers), применительно к моделям регрессии - статистически значимых внешних (удалённых) стьюдентизированных остатков. Именно такие остатки считаются "неприемлемыми". В своё время я сводил эту информацию воедино, поэтому прочитайте этот материал: http://forum.disser.ru/index.php?act=attac...post&id=284
Он для линейной регрессии, но для множественной меры те же. Также там есть информация по влиятельным наблюдениям.

Можно ещё упомянуть о методах и критериях анализа остатков, типа автокорреляции и однородности дисперсий, про это кратко есть в моём пособии: https://yadi.sk/d/g50i73pt3J6pAa

PS Посмотрел нашу дискуссию по выбросам, куда выкладывал материал. Она была ровно 9 лет назад. Это - ужасно mega_shok.gif
  Форум: Медицинская статистика · Просмотр сообщения: #23559 · Ответов: 3 · Просмотров: 702

nokh
Отправлено: 26.11.2018 - 12:34


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(paravoz @ 26.11.2018 - 06:37) *
...Подскажите, действительно ли необходимо/корректно рассчитывать доверительные интервалы в таких ситуациях? Если нет, то подскажите как грамотно обосновать рецензенту это или на какую литературу сослаться? Сам я нигде прямого запрета на это не нашел. Заранее всем спасибо!

Для меня это тоже был мучительный вопрос, хорошо что больше "играю на другом поле":) Но недавно участвовал в статье по генетическим нарушениям (ещё не закончили) и решил таки считать ДИ. Помимо отмеченного р2004r хронологического аспекта, есть ещё и хорологический аспект. Такие работы делаются как правило не для того, чтобы только охарактеризовать интересующую совокупность сейчас и здесь, но и чтобы сравнить её с другими совокупностями: городами, областями, странами. Допустим, что в одном населённом пункте из 10,0 тыс человек было 2 больных, а в другом - из 10,1 тыс человек - 3 больных. Можем ли мы руководствуясь тем, что имеем дело с конечными совокупностями, просто и безо всякой статистики констатировать более высокую заболеваемость во втором н.п.? Размышления привели меня к тому, что скорее не можем, что правильнее думать о неких условиях или факторах, лежащих в основе заболеваемости / смертности и реализующихся конкретными дискретными числами. И что если бы в н.п. жило в 5 раз больше жителей, то мы могли бы с большей надёжностью оценить уровень заболеваемости. А раз речь заходит о надёжности оценки, то это прямой путь к ДИ. Получается, что время и пространство размывают границы конечной ГС, наделяя её свойствами бесконечной домысливаемой... Тема важная, прошу поделиться потом тем, что ещё найдёте и к чему пришли.
  Форум: Медицинская статистика · Просмотр сообщения: #23527 · Ответов: 24 · Просмотров: 2653

nokh
Отправлено: 19.11.2018 - 11:57


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Yaroslava @ 17.11.2018 - 03:08) *
...
Ох...надеюсь, не запутала) Заранее спасибо за ответы!))

Запутала! Если сравниваете многолетнюю динамику, то это - одни методы, если один год - другие. За один год сравнивать со средним показателем будет некорректно, т.к. данные по интересующей области А будут входить частью в полные данные. Но можно сравнить однородность заболеваемости по областям, т.е. сделать таблицу частот из двух колонок (число лиц с заболеванием, число лиц без заболевания) и числа строк, равному числу областей, и проанализировать её критериями типа хи-квадрат. Если будет значимая неоднородность - смотреть по остаткам Хабермана какие области отклонились "в плюс", какие - "в минус" от нулевой гипотезы (заболеваемость везде одинаковая). Если в качестве третьего входа в таблицу сопряжённости добавить год, то можно проанализировать сразу весь массив данных в ходе логлинейного анализа.
  Форум: Медицинская статистика · Просмотр сообщения: #23512 · Ответов: 29 · Просмотров: 15936

nokh
Отправлено: 12.11.2018 - 14:08


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


[quote name='rokotyanskaya.ea' post='23504' date='12.11.2018 - 12:55']Добрый день! help.gif, пожалуйста, интерпретировать полученные данные в программе Statistica. Благодаря вашему форуму получилось разобраться в проведении бинарной логистической регрессии в этой программе по нескольким независимым переменным (считаю факторы риска развития ПЭ у беременных), дошла до интерпретации, ничего не понятно. Какой фактор имеет большее влияние? help.gif разобраться!/quote]

А какие конкретно просмотренные вами книги/источники по логистической регрессии не позволили разобраться? Назовите штуки 3. Ну а далее посмотрим что конкретно, какие места в этих книгах/источниках было непонятны. Потому что такие вопросы производят впечатление, что человек в принципе не желает разбираться.
  Форум: Медицинская статистика · Просмотр сообщения: #23507 · Ответов: 3 · Просмотров: 935

nokh
Отправлено: 20.10.2018 - 22:31


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 20.10.2018 - 23:58) *
Да, галерея графики - няшная, из статистических "фенечек" впечатлился наличием процедуры Двасса - Стила в качестве пост хоков в дисперсионном анализе. Впрочем, имея перед глазами Холлендера и Вульфа (1999) не так это все сложно запрогать и самому... В общем, миленько, но не более того...

Пакет очень хорош как конструктор для научной графики: этакий мини Origin (OriginLab Corp.). Я сейчас всю графику в отчёты и статьи строю в KyPLot и R. Планирую несколько роликов по KyPLot сделать - надоело одно и то же показывать людям.
А статистических фенек в нём больше. Например можно факторный анализ проводить методом главных факторов с итерациями по общностям и использовать в качестве начальных значений таковые, вычисленные по Йореско - именно как в "Факторный, дискриминантый и кластерный анализ" рекомендуется (+ другие методы факторного анализа с разными как ортогональными, так и косоугольными вращениями). Также если подать на вход матрицу сходства, можно кластеризацию методом Уорда делать для любых расстояний (досчитывал так за PAST). Ну а встроенных функций нелинейных зависимостей там просто больше, чем где-либо (центральное меню двойным кликом на рисунке и далее Fit)...
  Форум: Медицинская статистика · Просмотр сообщения: #23462 · Ответов: 15 · Просмотров: 46235

nokh
Отправлено: 20.10.2018 - 21:26


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Последняя версия пакета KyPlot, ещё недавно стоившая 1000$, стала бесплатной. Слава Коичи Йошиоке!
http://www.kyenslab.com/en/index.html
  Форум: Медицинская статистика · Просмотр сообщения: #23460 · Ответов: 15 · Просмотров: 46235

nokh
Отправлено: 18.10.2018 - 05:42


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 18.10.2018 - 01:37) *
Ну, вот, прочитал первые 37 страниц и ... "я вас прошу, нет, я вас просто умоляю" словосочетание "математического ожидаемого" на с. 37 заменить на "математического ожидания".

Меня сильно торопили, поэтому не было возможности выкладывать и публично шлифовать черновик как сделал Шитиков. Имеем что есть. Поэтому просьба писать исключительно на почту. Надеюсь на понимание.
  Форум: Медицинская статистика · Просмотр сообщения: #23444 · Ответов: 8 · Просмотров: 1753

nokh
Отправлено: 17.10.2018 - 21:01


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(ogurtsov @ 17.10.2018 - 22:10) *
Поменять бы PAST на R, и будет полная годнота.

У меня в среднем в подгруппе на 15 чел 13 девочек. Из них 1-2 интересуется чем-то близким мне, остальные 10 интересуются чем-то в своих смартфонах. Не потянут они R в бакалавриате.
Но может во втором издании:) Или сделать "R companion", что проще.
  Форум: Медицинская статистика · Просмотр сообщения: #23441 · Ответов: 8 · Просмотров: 1753

nokh
Отправлено: 17.10.2018 - 19:33


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 17.10.2018 - 17:30) *
Я с превеликим удовольствием и несомненной пользой для себя посмотрел бы, но по ссылке мне ничего не открылось, кроме предложения "Установить диск для Windows", на каковую кнопку я нажимать поопасился. Может, тут можно выложить?

У меня на одном из компов такая же проблема: из slimjet не открывается, но из Pale Moon открывается нормиально. Сюда могу выложить только книжку (без данных и расчётных файлов).
Прикрепленные файлы
Прикрепленный файл  Нохрин_Лабораторный_практикум_по_биостатистике_2018.pdf ( 11,72 мегабайт ) Кол-во скачиваний: 45
 
  Форум: Медицинская статистика · Просмотр сообщения: #23439 · Ответов: 8 · Просмотров: 1753

nokh
Отправлено: 17.10.2018 - 13:17


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(nikita_zab @ 16.10.2018 - 19:38) *
...Прошу напомнить термин, которым называют применение всевозможных статистических методов к одним и тем же данным в попытке найти значимую разницу или закономерности.

См. ещё здесь: https://en.wikipedia.org/wiki/Data_dredging
Цитата(nikita_zab @ 16.10.2018 - 19:38) *
И второй вопрос из области философии. Имеет ли смысл применять несколько методов для оценки "здесь что-то есть". И если применяется сразу несколько методов как быть, если некоторые из них показывают "р меньше 5 сотых", а другие нет?

Любое применение статистических методов - это приложение некоей математической модели к данным, а все модели условны. Как говаривал Джорж Бокс "All models are wrong but some are useful". Вот мы ими и пользуемся. Всегда есть модель, которая подходит к данным лучше всего, её и нужно искать и использовать. Проблема в том, что какая из них лучше не всегда видно по данным. И философский вопрос здесь скорее другой: а вправе ли мы по данным подбирать лучшую модель, или это нужно делать, исходя из других принципов? В любом случае, грамотный подход будет включать не выбор теста с самым маленьким Р, а выбор такого, который является наиболее мощным "в данной ситуации". Соответственно нужно знать что-то и о самих данных, их природе и о статистических критериях, их сильных и слабых сторонах (а они всегда есть, иначе бы не было предложено столько статметодов).

По поводу "массы методов" соглашусь с leo_biostat только в том случае, эти эти методы раскрывают разные стороны данных: например, сочетание классических и многомерных методов, многомерных методов и сетевого анализа и т.п. Если же речь идёт об одной задаче, об одной стороне данных - однозначно нужно искать лучшую модель. Если в публикации человек приведёт, скажем, и критерий Стьюдента, и критерий Манна - Уитни, и медианный критерий, то я сразу запишу его в "непрофессионалы" - ибо не умеет выбрать лучшую модель.
  Форум: Медицинская статистика · Просмотр сообщения: #23437 · Ответов: 6 · Просмотров: 1604

nokh
Отправлено: 17.10.2018 - 13:01


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(nokh @ 4.10.2018 - 12:14) *

В пособии имеются неизбежные недочёты и ошибки (мои и авторов пакета PAST). Буду признателен за информацию о них на почту: biostat74@mail.ru , Тема "Практикум по биостатистике"
В начале 2019 выложу версию со вставкой страниц с исправлениями, комментариями некоторых моментов и т.п.
  Форум: Медицинская статистика · Просмотр сообщения: #23436 · Ответов: 8 · Просмотров: 1753

nokh
Отправлено: 4.10.2018 - 10:14


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


https://yadi.sk/d/g50i73pt3J6pAa
  Форум: Медицинская статистика · Просмотр сообщения: #23398 · Ответов: 8 · Просмотров: 1753

nokh
Отправлено: 2.08.2018 - 00:52


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Daria @ 1.08.2018 - 09:57) *
Почти 150 просмотров и нет ответов... Никто действительно не знает или причина в чем-то другом?

Вопрос нормальный, скорее всего "никто действительно не знает" наверняка + не работают в Statа. Я, например, сомневаюсь, что можно использовать "чисто эпмирически "ln(_t)"". Я бы использовал так называемую нормировку на среднее значение логарифма времени. Т.е. член модели не Р*ln(_t), а Р*ln(_t)-среднее(ln_t). По крайней мере когда я знакомился с регрессией Кокса, то подсмотрел это здесь: http://statistica.ru/local-portals/medicin...ni-kovariatami/ . Сейчас деталей не помню, но помню, что с такой нормировкой оценка предиктора P получалась близкой к его оценке в модели пропорциональных интенсивностей. Смотрел в Statistica и SPSS, в R - только без зависящих от времени ковариат.

Вопрос 1. Ответа не знаю. Обычная "стандартная" модель, вероятно, подразумевает степенное взаимодействие. Возможно, форму зависимости можно более точно установить по остаткам модели.
Вопрос 2. "Построить кривую выживаемости при определенных значениях ковариат" должны смочь. Statistica это позволяет, значит и Stata сможет. Сложнее - с формализацией полученной модели. Т.е. пока данные находятся в памяти пакета, то на основании базовых выживаемостей/рисков эти расчёты сделать можно. Но чтобы создать рабочую формулу для последующих расчётов, скажем, в Excel, насколько понимаю, эти базовые функции нужно будет отдельно приближать какой-либо функцией из числа обычно используемых в анализе выживаемости (типа Гомперца).
  Форум: Медицинская статистика · Просмотр сообщения: #23205 · Ответов: 4 · Просмотров: 1556

nokh
Отправлено: 8.07.2018 - 05:54


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(bubnilkin @ 4.07.2018 - 11:24) *
уважаемый nokh, не могли бы поделиться ссылками на этот подход?

Этот подход - мой опыт. Про то, что ресэмплинг техники работают с асимметричными распределениями хуже, можно найти у классиков (про складной нож ссылка под рукой, про бутстреп нужно рыться). Подход с трансформацией-ретрансформацией используется широко. Кое-какие ссылки по ретрансформации выкладывал сюда: https://yadi.sk/d/yd9ihstL3KLVuD
  Форум: Медицинская статистика · Просмотр сообщения: #23149 · Ответов: 11 · Просмотров: 4655

nokh
Отправлено: 10.05.2018 - 01:07


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 9.05.2018 - 02:35) *
Nokh, что-то я вас нынче не узнаю: фактор, измеренный по альтернативному признаку (Есть/Нет, Наличествует/Отсутствует) нельзя объявлять "типом" поражения и на равных включать в вектор (отсутствует, а потом присутствует в виде грибка, бактерий и их комбинации). Особи, для которых тип поражения="отсутствует" - это здоровые псы, которые к ветврачу не попадают, и для которых понятие "Локализация" не определено.

Зато вы всегда узнаваемы: цепляетесь ко всему и ко всем... Но когда ради правого дела, я готов потерпеть ;) Здоровые псы здесь действительно лишние. Ну тем сложнее. Получается таблица сопряжённости с четырьмя входами:
1) Порода - 8 категорий
2) Локализация поражения - 5 категорий
3) Тип поражения - 3 категории (грибковое, бактериальное, комбинированное). Комбинированное нужно для обработки таблицы некоторыми методами (типа логлинейного анализа), чтобы каждая собака попала в какую-то ячейку многомерной таблицы частот. Но для некоторых методов можно обойтись без него, т.к. это просто наличие и первого, и второго типа поражений. Если формировать матрицу данных построчно так, что каждая строка - отдельная собака, то "комбинированное" не понадобится, просто в колонках "грибковое" и "бактериальное" будут стоять единицы.
4) Наличие поражения - 2 категории (есть, нет)
Получаем 8х5х3х2=240 ячеек, из которых заполнены 88 (36,7%). Это почти информационный вакуум. Однозначно нужно концентрировать информацию с опорой на ординационные техники.

? Вы каким софтом логлинейный делаете?

Цитата(passant @ 9.05.2018 - 02:18) *
Немного не так.
8 пород. 5 локализаций.
От типа поражения ТС отказалась.

Иш ты, отказалась! То что ТС от чего-то типа отказалась говорит о трёх вещах: одна - хорошая, одна - нейтральная и одна плохая.
1. Хорошая - что ТС чётко знает, что ей нужно. А то некоторые наберут данных, а что, для чего - полная беспомощность... Когда есть чёткое понимание цели - её можно достичь, пусть даже путём анализа миллиона таблиц 2х2.
2. Нейтральная (констатация факта): данные ТС дались слишком легко. Вот если, скажем, это были бы не пёсики, принесённые немецкому профессору, а бродячие собаки, которых для осмотра нужно было сперва найти, затем отловить и только затем осмотреть, исследователь хватался бы за всё что можно, лишь бы извлечь из с трудом добытого материала всю возможную информацию. А так, ну конечно: это - беру, это не беру...
3. Отказ от уже имеющихся в данных информации - это капитуляция. Если информация в данных есть - её нужно извлекать. Если не хватает квалификации - читать и спрашивать: форум ведь не молчит, скорее бурлит: вот уже и дурным запашком логистической регрессии повеяло... Извлекать нужно не только потому, что "нельзя добру пропадать". Бездумное объединение исходно различных категорий чревато парадоксом Симпсона и получением выводов, прямо противоположных реальной картине. Объединять можно, но с умом.
  Форум: Медицинская статистика · Просмотр сообщения: #22980 · Ответов: 36 · Просмотров: 9026

nokh
Отправлено: 9.05.2018 - 00:02


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Cules2013 @ 23.04.2018 - 19:58) *
nokh, спасибо за ответ!
Я так группировал данные: 1 столбец - день, остальные - различные препараты, где данные расположены по строкам. Вроде как это вариант 1 из тех двух, что у вас есть. Только вы говорите о попарных сравнениях связанных выборок, а я сравнивал все группы между собой по каждому из дней, т.е. несвязанные выборки. Главное, что я не могу понять, что по факту мне даёт фактор "день". Как его воспринимать? Если я смотрю только один фактор "препарат", то всё ясно, а когда "препарат+день", то не совсем понятно какую смысловую нагрузку несёт "день"? Разве не очевидно, что это просто n-ное кол-во времени, в течение которого проявляется эффект препаратов. Меня смущает то, что фактор "день" неразрывно связан с фактором "препарат", без него "день" сам по себе ничего в общем-то и не значит - в контроле изо дня в день данные почти не меняются.

Фактор "День" не связан с фактором "Препарат", это - самостоятельный фактор. То, что вы решили, что он связан с препаратом - это уже интерпретация результатов ANOVA. А прежде чем интерпретировать - нужно анализ провести. К тому же в каких-то ситуациях фактор день может сработать для всех пациентов. Например, метеоусловия, магнитные бури, фазы луны, катастрофы в параллельных мирах, да мало ли что... Короче, это известный экспериментальный план (дизайн эксперимента) для обработки которого не нужно изобретать велосипед. К сожалению, здесь есть терминологическая неразбериха. Где-то он может называться Repeated measurement ANOVA, хотя это его сложный вариант, где-то - как mixed ANOVA. Как задать его в GraphPad не знаю, а в Statistica мы делали это на форуме двумя способами. Как делать в SPSS попалось такое: https://statistics.laerd.com/spss-tutorials...-statistics.php Полюбившийся мне PAST пока считает его с ошибками для неравномерных комплексов, поэтому там показывать не буду... Имеет смысл только с R повозиться, но это - время...
  Форум: Медицинская статистика · Просмотр сообщения: #22970 · Ответов: 4 · Просмотров: 1586

nokh
Отправлено: 8.05.2018 - 23:32


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 9.05.2018 - 00:50) *
В статье на 133 с. затаился косметический дефект: 10^5.88=758 578, а не 75 858.

Есть такой дефект. Там ещё где-то косяк с RR находил. Свой pdf подправить можно, но в журнале уже никак((

>Елена Гогуа. Отсутствие связи лап с ушами - это пока заблуждение. Если анализ данных покажет это - будем такой гипотезы и придерживаться, а если покажет ассоциацию этих локализаций для каких-то типов или пород - нужно будет искать этому объяснения. Также локализаций не 24 - см. ниже.

>passant. Таблица сложнее, упрощать не нужно: 8 пород х 5 локализаций х 4 типа поражения (отсутствует, грибковое, бактериальное, комбинированное). Т.е. входов три. Статистика хи-квадрат неаддитивна, точно на эффекты не разложить, поэтому только логлинейный анализ. Поскольку таблица получается наполовину пустой (77/160=0,48) анализировать исходную - плохая затея.

  Форум: Медицинская статистика · Просмотр сообщения: #22968 · Ответов: 36 · Просмотров: 9026

43 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена