Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

43 страниц V   1 2 3 > » 

nokh
Отправлено: 12.11.2018 - 14:08


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


[quote name='rokotyanskaya.ea' post='23504' date='12.11.2018 - 12:55']Добрый день! help.gif, пожалуйста, интерпретировать полученные данные в программе Statistica. Благодаря вашему форуму получилось разобраться в проведении бинарной логистической регрессии в этой программе по нескольким независимым переменным (считаю факторы риска развития ПЭ у беременных), дошла до интерпретации, ничего не понятно. Какой фактор имеет большее влияние? help.gif разобраться!/quote]

А какие конкретно просмотренные вами книги/источники по логистической регрессии не позволили разобраться? Назовите штуки 3. Ну а далее посмотрим что конкретно, какие места в этих книгах/источниках было непонятны. Потому что такие вопросы производят впечатление, что человек в принципе не желает разбираться.
  Форум: Медицинская статистика · Просмотр сообщения: #23507 · Ответов: 3 · Просмотров: 228

nokh
Отправлено: 20.10.2018 - 22:31


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 20.10.2018 - 23:58) *
Да, галерея графики - няшная, из статистических "фенечек" впечатлился наличием процедуры Двасса - Стила в качестве пост хоков в дисперсионном анализе. Впрочем, имея перед глазами Холлендера и Вульфа (1999) не так это все сложно запрогать и самому... В общем, миленько, но не более того...

Пакет очень хорош как конструктор для научной графики: этакий мини Origin (OriginLab Corp.). Я сейчас всю графику в отчёты и статьи строю в KyPLot и R. Планирую несколько роликов по KyPLot сделать - надоело одно и то же показывать людям.
А статистических фенек в нём больше. Например можно факторный анализ проводить методом главных факторов с итерациями по общностям и использовать в качестве начальных значений таковые, вычисленные по Йореско - именно как в "Факторный, дискриминантый и кластерный анализ" рекомендуется (+ другие методы факторного анализа с разными как ортогональными, так и косоугольными вращениями). Также если подать на вход матрицу сходства, можно кластеризацию методом Уорда делать для любых расстояний (досчитывал так за PAST). Ну а встроенных функций нелинейных зависимостей там просто больше, чем где-либо (центральное меню двойным кликом на рисунке и далее Fit)...
  Форум: Медицинская статистика · Просмотр сообщения: #23462 · Ответов: 15 · Просмотров: 43796

nokh
Отправлено: 20.10.2018 - 21:26


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Последняя версия пакета KyPlot, ещё недавно стоившая 1000$, стала бесплатной. Слава Коичи Йошиоке!
http://www.kyenslab.com/en/index.html
  Форум: Медицинская статистика · Просмотр сообщения: #23460 · Ответов: 15 · Просмотров: 43796

nokh
Отправлено: 18.10.2018 - 05:42


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 18.10.2018 - 01:37) *
Ну, вот, прочитал первые 37 страниц и ... "я вас прошу, нет, я вас просто умоляю" словосочетание "математического ожидаемого" на с. 37 заменить на "математического ожидания".

Меня сильно торопили, поэтому не было возможности выкладывать и публично шлифовать черновик как сделал Шитиков. Имеем что есть. Поэтому просьба писать исключительно на почту. Надеюсь на понимание.
  Форум: Медицинская статистика · Просмотр сообщения: #23444 · Ответов: 8 · Просмотров: 834

nokh
Отправлено: 17.10.2018 - 21:01


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(ogurtsov @ 17.10.2018 - 22:10) *
Поменять бы PAST на R, и будет полная годнота.

У меня в среднем в подгруппе на 15 чел 13 девочек. Из них 1-2 интересуется чем-то близким мне, остальные 10 интересуются чем-то в своих смартфонах. Не потянут они R в бакалавриате.
Но может во втором издании:) Или сделать "R companion", что проще.
  Форум: Медицинская статистика · Просмотр сообщения: #23441 · Ответов: 8 · Просмотров: 834

nokh
Отправлено: 17.10.2018 - 19:33


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 17.10.2018 - 17:30) *
Я с превеликим удовольствием и несомненной пользой для себя посмотрел бы, но по ссылке мне ничего не открылось, кроме предложения "Установить диск для Windows", на каковую кнопку я нажимать поопасился. Может, тут можно выложить?

У меня на одном из компов такая же проблема: из slimjet не открывается, но из Pale Moon открывается нормиально. Сюда могу выложить только книжку (без данных и расчётных файлов).
Прикрепленные файлы
Прикрепленный файл  Нохрин_Лабораторный_практикум_по_биостатистике_2018.pdf ( 11,72 мегабайт ) Кол-во скачиваний: 17
 
  Форум: Медицинская статистика · Просмотр сообщения: #23439 · Ответов: 8 · Просмотров: 834

nokh
Отправлено: 17.10.2018 - 13:17


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(nikita_zab @ 16.10.2018 - 19:38) *
...Прошу напомнить термин, которым называют применение всевозможных статистических методов к одним и тем же данным в попытке найти значимую разницу или закономерности.

См. ещё здесь: https://en.wikipedia.org/wiki/Data_dredging
Цитата(nikita_zab @ 16.10.2018 - 19:38) *
И второй вопрос из области философии. Имеет ли смысл применять несколько методов для оценки "здесь что-то есть". И если применяется сразу несколько методов как быть, если некоторые из них показывают "р меньше 5 сотых", а другие нет?

Любое применение статистических методов - это приложение некоей математической модели к данным, а все модели условны. Как говаривал Джорж Бокс "All models are wrong but some are useful". Вот мы ими и пользуемся. Всегда есть модель, которая подходит к данным лучше всего, её и нужно искать и использовать. Проблема в том, что какая из них лучше не всегда видно по данным. И философский вопрос здесь скорее другой: а вправе ли мы по данным подбирать лучшую модель, или это нужно делать, исходя из других принципов? В любом случае, грамотный подход будет включать не выбор теста с самым маленьким Р, а выбор такого, который является наиболее мощным "в данной ситуации". Соответственно нужно знать что-то и о самих данных, их природе и о статистических критериях, их сильных и слабых сторонах (а они всегда есть, иначе бы не было предложено столько статметодов).

По поводу "массы методов" соглашусь с leo_biostat только в том случае, эти эти методы раскрывают разные стороны данных: например, сочетание классических и многомерных методов, многомерных методов и сетевого анализа и т.п. Если же речь идёт об одной задаче, об одной стороне данных - однозначно нужно искать лучшую модель. Если в публикации человек приведёт, скажем, и критерий Стьюдента, и критерий Манна - Уитни, и медианный критерий, то я сразу запишу его в "непрофессионалы" - ибо не умеет выбрать лучшую модель.
  Форум: Медицинская статистика · Просмотр сообщения: #23437 · Ответов: 6 · Просмотров: 904

nokh
Отправлено: 17.10.2018 - 13:01


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(nokh @ 4.10.2018 - 12:14) *

В пособии имеются неизбежные недочёты и ошибки (мои и авторов пакета PAST). Буду признателен за информацию о них на почту: biostat74@mail.ru , Тема "Практикум по биостатистике"
В начале 2019 выложу версию со вставкой страниц с исправлениями, комментариями некоторых моментов и т.п.
  Форум: Медицинская статистика · Просмотр сообщения: #23436 · Ответов: 8 · Просмотров: 834

nokh
Отправлено: 4.10.2018 - 10:14


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


https://yadi.sk/d/g50i73pt3J6pAa
  Форум: Медицинская статистика · Просмотр сообщения: #23398 · Ответов: 8 · Просмотров: 834

nokh
Отправлено: 2.08.2018 - 00:52


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Daria @ 1.08.2018 - 09:57) *
Почти 150 просмотров и нет ответов... Никто действительно не знает или причина в чем-то другом?

Вопрос нормальный, скорее всего "никто действительно не знает" наверняка + не работают в Statа. Я, например, сомневаюсь, что можно использовать "чисто эпмирически "ln(_t)"". Я бы использовал так называемую нормировку на среднее значение логарифма времени. Т.е. член модели не Р*ln(_t), а Р*ln(_t)-среднее(ln_t). По крайней мере когда я знакомился с регрессией Кокса, то подсмотрел это здесь: http://statistica.ru/local-portals/medicin...ni-kovariatami/ . Сейчас деталей не помню, но помню, что с такой нормировкой оценка предиктора P получалась близкой к его оценке в модели пропорциональных интенсивностей. Смотрел в Statistica и SPSS, в R - только без зависящих от времени ковариат.

Вопрос 1. Ответа не знаю. Обычная "стандартная" модель, вероятно, подразумевает степенное взаимодействие. Возможно, форму зависимости можно более точно установить по остаткам модели.
Вопрос 2. "Построить кривую выживаемости при определенных значениях ковариат" должны смочь. Statistica это позволяет, значит и Stata сможет. Сложнее - с формализацией полученной модели. Т.е. пока данные находятся в памяти пакета, то на основании базовых выживаемостей/рисков эти расчёты сделать можно. Но чтобы создать рабочую формулу для последующих расчётов, скажем, в Excel, насколько понимаю, эти базовые функции нужно будет отдельно приближать какой-либо функцией из числа обычно используемых в анализе выживаемости (типа Гомперца).
  Форум: Медицинская статистика · Просмотр сообщения: #23205 · Ответов: 4 · Просмотров: 950

nokh
Отправлено: 8.07.2018 - 05:54


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(bubnilkin @ 4.07.2018 - 11:24) *
уважаемый nokh, не могли бы поделиться ссылками на этот подход?

Этот подход - мой опыт. Про то, что ресэмплинг техники работают с асимметричными распределениями хуже, можно найти у классиков (про складной нож ссылка под рукой, про бутстреп нужно рыться). Подход с трансформацией-ретрансформацией используется широко. Кое-какие ссылки по ретрансформации выкладывал сюда: https://yadi.sk/d/yd9ihstL3KLVuD
  Форум: Медицинская статистика · Просмотр сообщения: #23149 · Ответов: 11 · Просмотров: 3683

nokh
Отправлено: 10.05.2018 - 01:07


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 9.05.2018 - 02:35) *
Nokh, что-то я вас нынче не узнаю: фактор, измеренный по альтернативному признаку (Есть/Нет, Наличествует/Отсутствует) нельзя объявлять "типом" поражения и на равных включать в вектор (отсутствует, а потом присутствует в виде грибка, бактерий и их комбинации). Особи, для которых тип поражения="отсутствует" - это здоровые псы, которые к ветврачу не попадают, и для которых понятие "Локализация" не определено.

Зато вы всегда узнаваемы: цепляетесь ко всему и ко всем... Но когда ради правого дела, я готов потерпеть ;) Здоровые псы здесь действительно лишние. Ну тем сложнее. Получается таблица сопряжённости с четырьмя входами:
1) Порода - 8 категорий
2) Локализация поражения - 5 категорий
3) Тип поражения - 3 категории (грибковое, бактериальное, комбинированное). Комбинированное нужно для обработки таблицы некоторыми методами (типа логлинейного анализа), чтобы каждая собака попала в какую-то ячейку многомерной таблицы частот. Но для некоторых методов можно обойтись без него, т.к. это просто наличие и первого, и второго типа поражений. Если формировать матрицу данных построчно так, что каждая строка - отдельная собака, то "комбинированное" не понадобится, просто в колонках "грибковое" и "бактериальное" будут стоять единицы.
4) Наличие поражения - 2 категории (есть, нет)
Получаем 8х5х3х2=240 ячеек, из которых заполнены 88 (36,7%). Это почти информационный вакуум. Однозначно нужно концентрировать информацию с опорой на ординационные техники.

? Вы каким софтом логлинейный делаете?

Цитата(passant @ 9.05.2018 - 02:18) *
Немного не так.
8 пород. 5 локализаций.
От типа поражения ТС отказалась.

Иш ты, отказалась! То что ТС от чего-то типа отказалась говорит о трёх вещах: одна - хорошая, одна - нейтральная и одна плохая.
1. Хорошая - что ТС чётко знает, что ей нужно. А то некоторые наберут данных, а что, для чего - полная беспомощность... Когда есть чёткое понимание цели - её можно достичь, пусть даже путём анализа миллиона таблиц 2х2.
2. Нейтральная (констатация факта): данные ТС дались слишком легко. Вот если, скажем, это были бы не пёсики, принесённые немецкому профессору, а бродячие собаки, которых для осмотра нужно было сперва найти, затем отловить и только затем осмотреть, исследователь хватался бы за всё что можно, лишь бы извлечь из с трудом добытого материала всю возможную информацию. А так, ну конечно: это - беру, это не беру...
3. Отказ от уже имеющихся в данных информации - это капитуляция. Если информация в данных есть - её нужно извлекать. Если не хватает квалификации - читать и спрашивать: форум ведь не молчит, скорее бурлит: вот уже и дурным запашком логистической регрессии повеяло... Извлекать нужно не только потому, что "нельзя добру пропадать". Бездумное объединение исходно различных категорий чревато парадоксом Симпсона и получением выводов, прямо противоположных реальной картине. Объединять можно, но с умом.
  Форум: Медицинская статистика · Просмотр сообщения: #22980 · Ответов: 36 · Просмотров: 6038

nokh
Отправлено: 9.05.2018 - 00:02


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Cules2013 @ 23.04.2018 - 19:58) *
nokh, спасибо за ответ!
Я так группировал данные: 1 столбец - день, остальные - различные препараты, где данные расположены по строкам. Вроде как это вариант 1 из тех двух, что у вас есть. Только вы говорите о попарных сравнениях связанных выборок, а я сравнивал все группы между собой по каждому из дней, т.е. несвязанные выборки. Главное, что я не могу понять, что по факту мне даёт фактор "день". Как его воспринимать? Если я смотрю только один фактор "препарат", то всё ясно, а когда "препарат+день", то не совсем понятно какую смысловую нагрузку несёт "день"? Разве не очевидно, что это просто n-ное кол-во времени, в течение которого проявляется эффект препаратов. Меня смущает то, что фактор "день" неразрывно связан с фактором "препарат", без него "день" сам по себе ничего в общем-то и не значит - в контроле изо дня в день данные почти не меняются.

Фактор "День" не связан с фактором "Препарат", это - самостоятельный фактор. То, что вы решили, что он связан с препаратом - это уже интерпретация результатов ANOVA. А прежде чем интерпретировать - нужно анализ провести. К тому же в каких-то ситуациях фактор день может сработать для всех пациентов. Например, метеоусловия, магнитные бури, фазы луны, катастрофы в параллельных мирах, да мало ли что... Короче, это известный экспериментальный план (дизайн эксперимента) для обработки которого не нужно изобретать велосипед. К сожалению, здесь есть терминологическая неразбериха. Где-то он может называться Repeated measurement ANOVA, хотя это его сложный вариант, где-то - как mixed ANOVA. Как задать его в GraphPad не знаю, а в Statistica мы делали это на форуме двумя способами. Как делать в SPSS попалось такое: https://statistics.laerd.com/spss-tutorials...-statistics.php Полюбившийся мне PAST пока считает его с ошибками для неравномерных комплексов, поэтому там показывать не буду... Имеет смысл только с R повозиться, но это - время...
  Форум: Медицинская статистика · Просмотр сообщения: #22970 · Ответов: 4 · Просмотров: 1322

nokh
Отправлено: 8.05.2018 - 23:32


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 9.05.2018 - 00:50) *
В статье на 133 с. затаился косметический дефект: 10^5.88=758 578, а не 75 858.

Есть такой дефект. Там ещё где-то косяк с RR находил. Свой pdf подправить можно, но в журнале уже никак((

>Елена Гогуа. Отсутствие связи лап с ушами - это пока заблуждение. Если анализ данных покажет это - будем такой гипотезы и придерживаться, а если покажет ассоциацию этих локализаций для каких-то типов или пород - нужно будет искать этому объяснения. Также локализаций не 24 - см. ниже.

>passant. Таблица сложнее, упрощать не нужно: 8 пород х 5 локализаций х 4 типа поражения (отсутствует, грибковое, бактериальное, комбинированное). Т.е. входов три. Статистика хи-квадрат неаддитивна, точно на эффекты не разложить, поэтому только логлинейный анализ. Поскольку таблица получается наполовину пустой (77/160=0,48) анализировать исходную - плохая затея.

  Форум: Медицинская статистика · Просмотр сообщения: #22968 · Ответов: 36 · Просмотров: 6038

nokh
Отправлено: 8.05.2018 - 21:38


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Елена Гогуа @ 8.05.2018 - 20:51) *
...Я уже несколько раз спрашивала, оправданно ли использовать для оценки зависимости таблицы сопряженности, и если нет, то каким методом воспользоваться.
Еще я спрашивала, нужна ли здесь контрольная группа.
И еще я спрашивала, уместна ли здесь поправка Бонферрони.
Если бы я знала ответы на свои вопросы, я бы не создавала тему.

1. Можно сделать так, что поправка Бонферрони не понадобится. Ясно, что это можно сделать только в том случае, если суметь проанализировать весь материал разом.
2. Контрольная группа не нужна.
3. Как уже отметили ogurtsov и 100$, таблица получается очень большая и слабонасыщенная, а это плохо. Во-первых потому, что число степеней свободы будет столь велико, что статистически значимыми смогут оказаться только очень сильные эффекты, а не факт что они будут. Во-вторых, будет большое число ячеек с нулями и малыми значениями частот, а значит будет проблема допустимого минимального ожидаемого и проблемность использования критериев, основанных на распределении хи-квадрат. Правда тот же Аптон, вслед за Гудменом, считает полезным добавить ко всем ячейкам константу 0,5. Но ясно, что когда к реальным данным добавляется нечто виртуальное это уже не очень хорошо. Поэтому большую таблицу перед анализом желательно свернуть, объединив сходные породы, локализации поражений и их типы. Вся сложность в том, чтобы сделать это обоснованно.
4. Я в таких случаях использую связку из нескольких методов.
4.1. Сначала - разведочные многомерные методы. Здесь подойдут анализ соответствий (correspondence analysis) и канонический анализ соответствий (canonical...). Про них нужно читать. У данных методов есть один недостаток, который в некоторых случаях существенен: они используют расстояние статистики хи-квадрат, которая получается с учётом ячеек таблицы с отсутствующими категориями (например, нет грибкового заболевания на ухе и нет на ноге). Таким образом в основе сходства категорий может оказаться не столько их совместная встречаемость, сколько отсутствие встречаемости. Поэтому полезно также попробовать многомерное шкалирование с использованием в качестве меры сходства индекса сходства Жаккара. Так или иначе, но полученные в результате ординационные диаграммы покажут ассоциации категорий.
4.2. Полученные диаграммы и ассоциации нужно интерпретировать исходя из знаний в предметной области. Это позволит проводить свёртку большой таблицы обоснованно, хотя и опираясь на результат разведочной техники.
4.3. Свернуть таблицу и в зависимости от числа входов анализировать методами типа хи-квадрат или логлинейным анализом.
Статью с примером исследования по такой схеме прикрепил.

Если захотите, можно сделать нечто подобное, но от вас потребуется выложить сюда данные, т.к. многомерные техники - штука не всегда однозначная + может ещё кто захочет их покрутить. Чтобы обезопасить данные информацию по породам лучше закодировать (порода 1, порода 2, ...). Если согласны, то я напишу как должна выглядеть таблица.
Прикрепленные файлы
Прикрепленный файл  Нохрин_Д.Ю._и_др._Группы_крови_и_характер_2016.pdf ( 455,46 килобайт ) Кол-во скачиваний: 94
 
  Форум: Медицинская статистика · Просмотр сообщения: #22964 · Ответов: 36 · Просмотров: 6038

nokh
Отправлено: 7.05.2018 - 23:42


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Антон Т. @ 6.05.2018 - 14:56) *
Суть вопроса - как влияет ( и влияет ли) проблема множественных сравнений на результаты регрессионного анализа? Если нет, то могут ли результаты регрессионного анализа быть способом ?проверки? значимости результатов других статистических методов? ...

Вопрос не совсем корректный, но на тот как его понял я, я бы ответил "Да". Поясню.

1). В ходе анализа таблиц сопряжённости 2х2, из всего массива информации вы вычленяете только один показатель. Помимо увеличения ошибки первого рода, которое вы отметили и о котором беспокоитесь, следует также отметить искусственное устранение взаимодействия показателей при таком подходе. Например, может оказаться, что сочетание локусов A и D приводит к эффекту, который не является суммой эффектов A и D, т.е. их совместное присутствие делает риск заболевания намного больше или намного меньше. А мутация в локусе C модифицирует взаимодействие A*D. Как всё это обнаружить, если анализировать отдельно A против остальных, D против остальных и C против остальных? A если С встречается в популяции очень редко? У меня нет готовых ответов на такие вопросы, но понятно, что проблема намного сложней, чем её пытаетесь решать вы.

2). Когда показателей много, любые поправки становятся консервативными до безобразия. Это может свести на нет любые потенциальные открытия, которые делаются на большом числе выборок или показателей. Поэтому, например, существует мнение, что поправки на множественность начинают вредить при числе групп 5 и более. С другой стороны, биоинформатики используют эти поправки даже для сотен тысяч генов. Ясно, что ни о какой "правильной" статистике здесь речи не идёт, речь идёт лишь о фильтрации данных для обнаружения перспективных показателей.

3). Теперь - что сделали вы.
3.1. Вы отфильтровали перспективные показатели хи-квадратом 2х2. С учётом пункта (1) к этому результату не следует относиться как к окончательному. Тем не менее он может быть полезен, т.к. сокращает число показателей для итоговой модели. Иначе, если это число не сократить, то для регрессионной техники потребуются объёмы выборок, которых у вас скорее всего нет. А на малых и средних выборках анализ "не пойдёт" совсем (программы будут выдавать сообщения о каких-либо ошибках) или будет выдаваться чушь. Почему регрессионный анализ у вас получился я не знаю: либо данных и впрямь много, либо использовалась какая-то пошаговая техника, либо была выбрана некорректная регрессионная техника. Мой небольшой опыт регрессионного анализа с категориальными данными скорее отрицательный. Но так или иначе,
3.2. Вы провели регрессионный анализ. В таком анализе вы учли, что показателей несколько, и все они влияют на признак одновременно. Т.е. вы получили согласованные (adjusted) оценки влияния показателей. Это гораздо лучше и точнее, чем оценки эффектов изолированных таблиц 2х2. Именно в этом смысле можно говорить о том, что регрессия что-то "подтвердила". Хотя точнее, она не подтвердила, а обработала данные полнее.
3.3. Но модель регрессионого анализа скорее всего была достаточно примитивной - аддитивной. Т.е. она учла все показатели, но только линейно, а нелинейные эффекты взаимодействия ушли в ошибку анализа. Насколько полезна такая модель? Даже если модель грубая, она может быть полезна, если позволяет делать более-менее адекватный прогноз, о чём выше уже написали.

4). Что можно было сделать. Не обязательно было фильтровать показатели таблицами сопряжённости. Если эта работа диссертационная, то пойдёт - покажете сперва дедовский статистический инструментарий, а деды это любят. Деды если не увидят среднее +/- станд. ошибку, хи-квадрат и Манна-Уитни, то могут вообще не понять, что статистическая обработка таки была. Но вообще это нерационально. Лучше сразу использовать многомерные разведочные техники типа анализа соответствий (correspondene analysis) и его канонической формы, а также техники "случайного леса" (random forest), чтобы сразу выходить на ценные для прогноза показатели и их сочетания.

5). Для построения полноценных моделей с учётом взаимодействия показателей есть специальные техники. Сталкивался немного применительно к локусам разных генов, не знаю насколько это подойдёт вам. Но погуглите на тему SNP-SNP interaction. Я когда-то ковырялся в этой программе: http://www.multifactordimensionalityreduction.org/ Также прикрепил обзор, который может быть полезен.
Прикрепленные файлы
Прикрепленный файл  poligennyy_podhod_k_issledovaniyam_poligennyh_zabolevaniy.pdf ( 227,74 килобайт ) Кол-во скачиваний: 70
 
  Форум: Медицинская статистика · Просмотр сообщения: #22956 · Ответов: 6 · Просмотров: 1369

nokh
Отправлено: 23.04.2018 - 09:45


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Cules2013 @ 22.04.2018 - 16:42) *
...
Отсюда вопросы: а какой вариант анализа более корректный? Имею ли я право вообще учитывать "день" как фактор, или нет? Меня смущает его неоднозначность и расплывчатость. В примерах двухфакторного ANOVA всегда такие однозначные факторы, вроде пол, возраст и т.п.
Я так понимаю, что оценивая весь массив данных, а не отдельные его части, само собой разумеется, что статистическая мощность возрастает, увеличивается кол-во степеней свободы. Правильно?
Ну и в довесок не до конца понимаю результаты двухфакторного анализа (см. таблицу). Как правильно интерпретировать графу "Source of Variation"? Как правильно оценить вклад каждого из факторов? Значение слов я понимаю, но математический смысл таблицы до меня не доходит.

Для конкретного эксперимента всегда существует наиболее мощный вариант анализа - его и нужно пытаться применить. Если дни присутствуют в схеме - они должны учитываться. Но всё это нужно правильно задать. В вашем случае необходимо использовать сложный анализ повторных измерений. Повторные измерения здесь - измерения одних и тех же крыс в разные дни. Т.е. необходимо учесть, что выборки крыс в разные дни - зависимые выборки. "Сложный" он потому, что помимо общего для всех фактора "День" и случайного фактора "Крыса" (или "Subject"), есть также фактор "Препарат". При этом фактор "Крыса" находится внутри фактора "Препарат", т.к. животные получали только один какой-то препарат и взаимодействие факторов "Крыса х Препарат" невозможно. Это распространённый дизайн и неоднократно обсужался на форуме. Задать его в пакетах можно двумя способами (как делали вы пока непонятно):
1. В модуле "анализ повторных измерений". Обычно здесь крысы - строки, столбцы - дни, и есть ещё столбец с кодами фактора "Препарат", который помечает к какой группе относятся крысы.
2. В модуле общих линейных моделей. В нём один столбец - данные, второй столбец - коды номера животного, третий столбец - код номера дня, четвёртый - код группы (фактор "Препарат").
Результаты обоих подходов идентичны (если не мудрить с типами сумм квадратов SS).

Чтобы понять, как трактовать цифры - нужно читать. Самое доступно-примитивное изложение ANOVA - см. Гланц - Медико-биологическая статистика (1999). Далее нужно понять концепцию взаимодействия факторов, хотя бы на примере двухфакторного перекрёстного ДА. Далее - концепцию иерархического ДА (без взаимодействий). Почитать про случайные и фиксированные факторы: от правильного их задания зависят результаты в сложных ДА (суммы квадратов и средние квадраты получаются одинаковые, но соотносятся MS для получения F по-разному). Фактор "День" в разных схемах может быть как случайным, так и фиксированным. В вашем случае он фиксированный, т.к. мы его можем легко воспроизвести в другом эксперименте: это конкретный день в последовательности приёма препарата.
Далее - "Сложный" ДА, сочетающий перекрёстную и иерархическую модели. По крайней мере я шёл примерно в таком порядке, читал Монтгомери - Планирование эксперимента и анализ данных (1980).
  Форум: Медицинская статистика · Просмотр сообщения: #22926 · Ответов: 4 · Просмотров: 1322

nokh
Отправлено: 7.04.2018 - 18:12


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 7.04.2018 - 19:07) *
Boschloo:
Uses the p-value from Fisher?s exact test as the test statistic.

Автор пакета "Exact" и здесь то же повторяет: https://stats.stackexchange.com/questions/1...hloo-or-barnard
Так что это, в отличие от x13, не ошибка какая-то, но я пока не понимаю что это значит unknw.gif
Поразбираться можно, но очень всё это ресурсозатратно. Видно проще хроники написать, чем нормальный учебник: https://errorstatistics.files.wordpress.com...ston-mielke.pdf
  Форум: Медицинская статистика · Просмотр сообщения: #22892 · Ответов: 18 · Просмотров: 4374

nokh
Отправлено: 7.04.2018 - 08:44


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(DrgLena @ 7.04.2018 - 02:50) *
Не совсем.Чтобы из MS (error), которую выдают программы, получить среднеквадратическую ошибку, нужно извлечь корень, получив SD, а потом разделить на корень из n. Так что ДИ будут одинаковы только в том случае, если число наблюдений на каждом уровне фактора будет одинаковым.

Верное замечание. И - да, я конечно писал о ДИ средних, а никак не о ДИ разностей.
Цитата(Cules2013 @ 7.04.2018 - 00:20) *
Прилагаю сам график. Вот help.gif мне понять на конкретном примере, какие выводы можно сделать из этого графика? Я вижу, что доверительные интервалы А-В и В-С не перекрываются, и что это значит?

Раз речь идёт о ДИ разностей, то интерпретация иная. Здесь важно включает ДИ значение ноль или нет. Если не включает - различия статистически значимы. На вашем рисунке это крайние варианты. Если ДИ включает ноль, то значит разность средних может быть нулевой, т.е. средние не отличаются. Это ваш центральный вариант. Я такими графиками не пользуюсь.
  Форум: Медицинская статистика · Просмотр сообщения: #22886 · Ответов: 12 · Просмотров: 2186

nokh
Отправлено: 7.04.2018 - 08:35


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 6.04.2018 - 22:08) *
А теперь дадим слово разработчикам SPSS:...

Логично. Тогда получается, что и в exact permutation тоже гипергеометрическое распределение, т.к. там также все краевые частоты и общая сумма фиксированы. А что нам делать с би- и поли-?
Про критерий Барнарда мне нужно почитать, по-русски было у Гайдышева: http://forum.disser.ru/index.php?showtopic=1464 и в справочном руководстве AtteStat.

PS
Погуглил урывками и к полудню кое-что прояснилось.


1) Все точные (exact) критерии для анализа таблиц сопряжённости (ТС) делятся на условные (conditional) и безусловные (unconditional).

2) Условные фиксируют краевые частоты. Для таблиц 2х2 имеем точный метод Фишера. Распределение - гипергеометрическое. Есть почти везде. Не особо рекомендуется для анализа ТС с би- и полиномиальным происхождением данных вплоть до "The traditional Fisher's exact test should practically never be used" https://onlinelibrary.wiley.com/doi/pdf/10.1002/sim.3531

3) Безусловные точные критерии не фиксируют краевые частоты частично или совсем, а потому мощнее условных.

3а. Если не фиксируются частоты либо по столбцам, либо по строкам. Для таблиц 2х2 имеем критерий Барнарда. Распределение - биномиальное. Получается обычно в исследованиях типа случай-контроль. Есть в старой версии AtteStat, и пакетах под R "Exact" и "Barnard":
https://cran.r-project.org/web/packages/Exact/Exact.pdf
https://cran.r-project.org/web/packages/Barnard/Barnard.pdf

3б. Если краевые частоты не фиксируются совсем. Для ТС 2х2 имеем критерий Бошлу(?) - Boschloo's test. Распределение - полиномиальное. Получается в перекрёстных исследованиях (cross-sectional study). Есть в пакете под R "Exact"
https://cran.r-project.org/web/packages/Exact/Exact.pdf

4) Монте-Карло для ТС можно организовать также по пути условных и безусловных методов. Пакет StatXact считает безусловные Exact и Monte-Carlo. А видимо SPSS - условные, хотя это непонятно, т.к. читал что они используют точные методы по лицензии Cytel Studio (производитель StatXact и LogXact). Что считает пакет PAST - нужно разбираться.

5) Для более крупных двумерных ТС RxC существуют какие-то аналоги этих критериев. Вы дали параллель ТМФ - критерий Фишера-Фримана-Холтона. Должны быть и другие, но пока не искал даже, т.к. итак узнал сегодня много нового:)).
  Форум: Медицинская статистика · Просмотр сообщения: #22885 · Ответов: 18 · Просмотров: 4374

nokh
Отправлено: 6.04.2018 - 16:07


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 6.04.2018 - 17:57) *
Судя по всему, да - coin. Что-то, наверное, можно выжать и из perm. Однако, "рабочая лошадка" exact-методов в рамках Фишеровской парадигмы - fisher.test(), применимый не только к таблицам 2х2, но и RxC (в каковом случае он называется критерием Фишера - Фримана - Холтона).

Критерий Фишера разработан на основе гипергеометрического распределения, тогда как в реальной жизни мы не имеем фиксированных краевых частот таблицы сопряжённости по всем входам. Т.е. критерий предполагает гипергеометрическое распределение, а мы используем его на практике для анализа би- или полиномиального распределения. С теоретической точки зрения это нехорошо, хотя на практике выводы получаются сходными. Поэтому лучше пытаться реализовать точный рандомизационный критерий или Монте-Карло.
  Форум: Медицинская статистика · Просмотр сообщения: #22877 · Ответов: 18 · Просмотров: 4374

nokh
Отправлено: 6.04.2018 - 15:38


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(kont @ 5.04.2018 - 17:18) *
...
среднее у мужчин по фактору -1,31
у женщин 1,06

Вопрос в знаках, у кого больше выражен фактор у мужчин или у женщин(мы по модулю смотрим или знак учитывается, т.е. чем меньше значение нуля тем менее выражен фактор и наоборот чем больше значения тем больше фактор выражен)?

Я давно подозревал, что желанием выпить отличаются именно женщины, только называют это иначе wink.gif В моём окружении за исключением пары безнадёжных случаев мужики давненько либо не пьют совсем, либо пьют там, где я не вижу...

А если серьёзно, то интерпретация зависит именно от знаков, как вы и написали, а также от того, как вы назвали фактор. Если по положительным нагрузкам показателей вы определили, что фактор интерпретируется именно как "Желание выпить", то бОльшее значение фактора (для биполярного фактора - положительное значение) соответствует увеличению желания, и тогда действительно 1,06 у женщин - это большее желание. Если же основные маркёры желания выпить вошли в фактор с отрицательными нагрузками, то соответственно это будет не фактор "Желание выпить", а фактор "Отсутствие желания выпить" и интерпретация будет обратной. Для удобства интерпретации и обсуждения можно нагрузки фактора и соответствующие ему метки (factor scores) для объектов умножить на (-1): чтобы обсуждать "Возраст", а не "Детскость", "Желание выпить", а не "Отсутствие желания".
  Форум: Медицинская статистика · Просмотр сообщения: #22875 · Ответов: 1 · Просмотров: 763

nokh
Отправлено: 6.04.2018 - 15:18


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(nikita_zab @ 5.04.2018 - 11:43) *
Подскажите, пожалуйста, пакет (coin?) и функцию для методов "в" и "г".

Пока в R такого не делал, но подскажу. Когда я последний раз интересовался этим 3-5 лет назад, в R точным методом можно было обсчитать только таблицы 2 х 2, а пакета coin вроде не было. Я точным методом считал давно в StatXact, а последнее время довольствуюсь Монте-Карло в бесплатном PAST (https://folk.uio.no/ohammer/past/). Когда освоите, можете поделиться функциями здесь; в руководстве coin видел какой-то пример, но не было времени вникать.
  Форум: Медицинская статистика · Просмотр сообщения: #22874 · Ответов: 18 · Просмотров: 4374

nokh
Отправлено: 6.04.2018 - 15:06


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Cules2013 @ 6.04.2018 - 02:18) *
...В чём смысл и преимущество графика по доверительным интервалам?

Когда вы строите ДИ по каждой выборке отдельно, то не учитываете информацию о других выборках. При этом ДИ получаются разными - в соответствии с изменчивостью показателя в разных выборках. Когда вы строите ДИ по результатам одновременного анализа всех групп, то во-первых, используете имеющуюся информацию целиком, а во-вторых ДИ приобретают свойство лучше характеризовать различия между выборками, причём на заранее выбранном уровне значимости (см. сообщение плава). Такие ДИ получаются одинаковыми по величине, поскольку ошибка комплекса данных едина для всего комплекса. Распространённые пакеты типа Statistica по результатам дисперсионного анализа по умолчанию (можно изменить) строят именно такие ДИ.

Я в зависимости от ситуации даю либо первые, либо вторые ДИ, а иногда одновременно. Например, если мы характеризуем высеваемость микроорганизмов в клинике за какой-то период, то логичнее давать ДИ, рассчитанные для каждой выборки в отдельности, хотя они всё равно не теряют свойства говорить о возможной значимости различий. В любых экспериментах, спланированных именно для выявления различий логичнее давать ДИ на основании сравнения всех групп. Кстати различие этих ДИ можно использовать в публикациях - чтобы обойти запрет редакций на дублирование информации в таблицах и графиках. В таблицах можно приводить средние и 95% ДИ как элементы описательной статистики - чтобы данные лучше цитировались и помогали другим исследовать сравнивать свои с вашими. На графиках же приводить ДИ второго типа, чтобы визуализировать различия между группами и чтобы их было удобнее обсуждать. Несколько раз нормально прокатывало...
  Форум: Медицинская статистика · Просмотр сообщения: #22873 · Ответов: 12 · Просмотров: 2186

nokh
Отправлено: 26.03.2018 - 10:47


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Я несколько раз в жизни использовал критерий Хартли проверки на выбросы. Знаю, что его ругают за топорность, но привык видеть сильно асимметричные распределения и боюсь удалить наблюдение в хвосте. Также есть опыт более экзотичной проверки на выбросы с использованием метода складного ножа: на промежуточном этапе получения искомой статистики псевдозначения тоже можно проверить на выбросы.
  Форум: Медицинская статистика · Просмотр сообщения: #22805 · Ответов: 13 · Просмотров: 2835

43 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена