Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

43 страниц V   1 2 3 > » 

nokh
Отправлено: 2.08.2018 - 00:52


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Daria @ 1.08.2018 - 09:57) *
Почти 150 просмотров и нет ответов... Никто действительно не знает или причина в чем-то другом?

Вопрос нормальный, скорее всего "никто действительно не знает" наверняка + не работают в Statа. Я, например, сомневаюсь, что можно использовать "чисто эпмирически "ln(_t)"". Я бы использовал так называемую нормировку на среднее значение логарифма времени. Т.е. член модели не Р*ln(_t), а Р*ln(_t)-среднее(ln_t). По крайней мере когда я знакомился с регрессией Кокса, то подсмотрел это здесь: http://statistica.ru/local-portals/medicin...ni-kovariatami/ . Сейчас деталей не помню, но помню, что с такой нормировкой оценка предиктора P получалась близкой к его оценке в модели пропорциональных интенсивностей. Смотрел в Statistica и SPSS, в R - только без зависящих от времени ковариат.

Вопрос 1. Ответа не знаю. Обычная "стандартная" модель, вероятно, подразумевает степенное взаимодействие. Возможно, форму зависимости можно более точно установить по остаткам модели.
Вопрос 2. "Построить кривую выживаемости при определенных значениях ковариат" должны смочь. Statistica это позволяет, значит и Stata сможет. Сложнее - с формализацией полученной модели. Т.е. пока данные находятся в памяти пакета, то на основании базовых выживаемостей/рисков эти расчёты сделать можно. Но чтобы создать рабочую формулу для последующих расчётов, скажем, в Excel, насколько понимаю, эти базовые функции нужно будет отдельно приближать какой-либо функцией из числа обычно используемых в анализе выживаемости (типа Гомперца).
  Форум: Медицинская статистика · Просмотр сообщения: #23205 · Ответов: 4 · Просмотров: 588

nokh
Отправлено: 8.07.2018 - 05:54


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(bubnilkin @ 4.07.2018 - 11:24) *
уважаемый nokh, не могли бы поделиться ссылками на этот подход?

Этот подход - мой опыт. Про то, что ресэмплинг техники работают с асимметричными распределениями хуже, можно найти у классиков (про складной нож ссылка под рукой, про бутстреп нужно рыться). Подход с трансформацией-ретрансформацией используется широко. Кое-какие ссылки по ретрансформации выкладывал сюда: https://yadi.sk/d/yd9ihstL3KLVuD
  Форум: Медицинская статистика · Просмотр сообщения: #23149 · Ответов: 11 · Просмотров: 3157

nokh
Отправлено: 10.05.2018 - 01:07


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 9.05.2018 - 02:35) *
Nokh, что-то я вас нынче не узнаю: фактор, измеренный по альтернативному признаку (Есть/Нет, Наличествует/Отсутствует) нельзя объявлять "типом" поражения и на равных включать в вектор (отсутствует, а потом присутствует в виде грибка, бактерий и их комбинации). Особи, для которых тип поражения="отсутствует" - это здоровые псы, которые к ветврачу не попадают, и для которых понятие "Локализация" не определено.

Зато вы всегда узнаваемы: цепляетесь ко всему и ко всем... Но когда ради правого дела, я готов потерпеть ;) Здоровые псы здесь действительно лишние. Ну тем сложнее. Получается таблица сопряжённости с четырьмя входами:
1) Порода - 8 категорий
2) Локализация поражения - 5 категорий
3) Тип поражения - 3 категории (грибковое, бактериальное, комбинированное). Комбинированное нужно для обработки таблицы некоторыми методами (типа логлинейного анализа), чтобы каждая собака попала в какую-то ячейку многомерной таблицы частот. Но для некоторых методов можно обойтись без него, т.к. это просто наличие и первого, и второго типа поражений. Если формировать матрицу данных построчно так, что каждая строка - отдельная собака, то "комбинированное" не понадобится, просто в колонках "грибковое" и "бактериальное" будут стоять единицы.
4) Наличие поражения - 2 категории (есть, нет)
Получаем 8х5х3х2=240 ячеек, из которых заполнены 88 (36,7%). Это почти информационный вакуум. Однозначно нужно концентрировать информацию с опорой на ординационные техники.

? Вы каким софтом логлинейный делаете?

Цитата(passant @ 9.05.2018 - 02:18) *
Немного не так.
8 пород. 5 локализаций.
От типа поражения ТС отказалась.

Иш ты, отказалась! То что ТС от чего-то типа отказалась говорит о трёх вещах: одна - хорошая, одна - нейтральная и одна плохая.
1. Хорошая - что ТС чётко знает, что ей нужно. А то некоторые наберут данных, а что, для чего - полная беспомощность... Когда есть чёткое понимание цели - её можно достичь, пусть даже путём анализа миллиона таблиц 2х2.
2. Нейтральная (констатация факта): данные ТС дались слишком легко. Вот если, скажем, это были бы не пёсики, принесённые немецкому профессору, а бродячие собаки, которых для осмотра нужно было сперва найти, затем отловить и только затем осмотреть, исследователь хватался бы за всё что можно, лишь бы извлечь из с трудом добытого материала всю возможную информацию. А так, ну конечно: это - беру, это не беру...
3. Отказ от уже имеющихся в данных информации - это капитуляция. Если информация в данных есть - её нужно извлекать. Если не хватает квалификации - читать и спрашивать: форум ведь не молчит, скорее бурлит: вот уже и дурным запашком логистической регрессии повеяло... Извлекать нужно не только потому, что "нельзя добру пропадать". Бездумное объединение исходно различных категорий чревато парадоксом Симпсона и получением выводов, прямо противоположных реальной картине. Объединять можно, но с умом.
  Форум: Медицинская статистика · Просмотр сообщения: #22980 · Ответов: 36 · Просмотров: 4813

nokh
Отправлено: 9.05.2018 - 00:02


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Cules2013 @ 23.04.2018 - 19:58) *
nokh, спасибо за ответ!
Я так группировал данные: 1 столбец - день, остальные - различные препараты, где данные расположены по строкам. Вроде как это вариант 1 из тех двух, что у вас есть. Только вы говорите о попарных сравнениях связанных выборок, а я сравнивал все группы между собой по каждому из дней, т.е. несвязанные выборки. Главное, что я не могу понять, что по факту мне даёт фактор "день". Как его воспринимать? Если я смотрю только один фактор "препарат", то всё ясно, а когда "препарат+день", то не совсем понятно какую смысловую нагрузку несёт "день"? Разве не очевидно, что это просто n-ное кол-во времени, в течение которого проявляется эффект препаратов. Меня смущает то, что фактор "день" неразрывно связан с фактором "препарат", без него "день" сам по себе ничего в общем-то и не значит - в контроле изо дня в день данные почти не меняются.

Фактор "День" не связан с фактором "Препарат", это - самостоятельный фактор. То, что вы решили, что он связан с препаратом - это уже интерпретация результатов ANOVA. А прежде чем интерпретировать - нужно анализ провести. К тому же в каких-то ситуациях фактор день может сработать для всех пациентов. Например, метеоусловия, магнитные бури, фазы луны, катастрофы в параллельных мирах, да мало ли что... Короче, это известный экспериментальный план (дизайн эксперимента) для обработки которого не нужно изобретать велосипед. К сожалению, здесь есть терминологическая неразбериха. Где-то он может называться Repeated measurement ANOVA, хотя это его сложный вариант, где-то - как mixed ANOVA. Как задать его в GraphPad не знаю, а в Statistica мы делали это на форуме двумя способами. Как делать в SPSS попалось такое: https://statistics.laerd.com/spss-tutorials...-statistics.php Полюбившийся мне PAST пока считает его с ошибками для неравномерных комплексов, поэтому там показывать не буду... Имеет смысл только с R повозиться, но это - время...
  Форум: Медицинская статистика · Просмотр сообщения: #22970 · Ответов: 4 · Просмотров: 1204

nokh
Отправлено: 8.05.2018 - 23:32


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 9.05.2018 - 00:50) *
В статье на 133 с. затаился косметический дефект: 10^5.88=758 578, а не 75 858.

Есть такой дефект. Там ещё где-то косяк с RR находил. Свой pdf подправить можно, но в журнале уже никак((

>Елена Гогуа. Отсутствие связи лап с ушами - это пока заблуждение. Если анализ данных покажет это - будем такой гипотезы и придерживаться, а если покажет ассоциацию этих локализаций для каких-то типов или пород - нужно будет искать этому объяснения. Также локализаций не 24 - см. ниже.

>passant. Таблица сложнее, упрощать не нужно: 8 пород х 5 локализаций х 4 типа поражения (отсутствует, грибковое, бактериальное, комбинированное). Т.е. входов три. Статистика хи-квадрат неаддитивна, точно на эффекты не разложить, поэтому только логлинейный анализ. Поскольку таблица получается наполовину пустой (77/160=0,48) анализировать исходную - плохая затея.

  Форум: Медицинская статистика · Просмотр сообщения: #22968 · Ответов: 36 · Просмотров: 4813

nokh
Отправлено: 8.05.2018 - 21:38


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Елена Гогуа @ 8.05.2018 - 20:51) *
...Я уже несколько раз спрашивала, оправданно ли использовать для оценки зависимости таблицы сопряженности, и если нет, то каким методом воспользоваться.
Еще я спрашивала, нужна ли здесь контрольная группа.
И еще я спрашивала, уместна ли здесь поправка Бонферрони.
Если бы я знала ответы на свои вопросы, я бы не создавала тему.

1. Можно сделать так, что поправка Бонферрони не понадобится. Ясно, что это можно сделать только в том случае, если суметь проанализировать весь материал разом.
2. Контрольная группа не нужна.
3. Как уже отметили ogurtsov и 100$, таблица получается очень большая и слабонасыщенная, а это плохо. Во-первых потому, что число степеней свободы будет столь велико, что статистически значимыми смогут оказаться только очень сильные эффекты, а не факт что они будут. Во-вторых, будет большое число ячеек с нулями и малыми значениями частот, а значит будет проблема допустимого минимального ожидаемого и проблемность использования критериев, основанных на распределении хи-квадрат. Правда тот же Аптон, вслед за Гудменом, считает полезным добавить ко всем ячейкам константу 0,5. Но ясно, что когда к реальным данным добавляется нечто виртуальное это уже не очень хорошо. Поэтому большую таблицу перед анализом желательно свернуть, объединив сходные породы, локализации поражений и их типы. Вся сложность в том, чтобы сделать это обоснованно.
4. Я в таких случаях использую связку из нескольких методов.
4.1. Сначала - разведочные многомерные методы. Здесь подойдут анализ соответствий (correspondence analysis) и канонический анализ соответствий (canonical...). Про них нужно читать. У данных методов есть один недостаток, который в некоторых случаях существенен: они используют расстояние статистики хи-квадрат, которая получается с учётом ячеек таблицы с отсутствующими категориями (например, нет грибкового заболевания на ухе и нет на ноге). Таким образом в основе сходства категорий может оказаться не столько их совместная встречаемость, сколько отсутствие встречаемости. Поэтому полезно также попробовать многомерное шкалирование с использованием в качестве меры сходства индекса сходства Жаккара. Так или иначе, но полученные в результате ординационные диаграммы покажут ассоциации категорий.
4.2. Полученные диаграммы и ассоциации нужно интерпретировать исходя из знаний в предметной области. Это позволит проводить свёртку большой таблицы обоснованно, хотя и опираясь на результат разведочной техники.
4.3. Свернуть таблицу и в зависимости от числа входов анализировать методами типа хи-квадрат или логлинейным анализом.
Статью с примером исследования по такой схеме прикрепил.

Если захотите, можно сделать нечто подобное, но от вас потребуется выложить сюда данные, т.к. многомерные техники - штука не всегда однозначная + может ещё кто захочет их покрутить. Чтобы обезопасить данные информацию по породам лучше закодировать (порода 1, порода 2, ...). Если согласны, то я напишу как должна выглядеть таблица.
Прикрепленные файлы
Прикрепленный файл  Нохрин_Д.Ю._и_др._Группы_крови_и_характер_2016.pdf ( 455,46 килобайт ) Кол-во скачиваний: 77
 
  Форум: Медицинская статистика · Просмотр сообщения: #22964 · Ответов: 36 · Просмотров: 4813

nokh
Отправлено: 7.05.2018 - 23:42


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Антон Т. @ 6.05.2018 - 14:56) *
Суть вопроса - как влияет ( и влияет ли) проблема множественных сравнений на результаты регрессионного анализа? Если нет, то могут ли результаты регрессионного анализа быть способом ?проверки? значимости результатов других статистических методов? ...

Вопрос не совсем корректный, но на тот как его понял я, я бы ответил "Да". Поясню.

1). В ходе анализа таблиц сопряжённости 2х2, из всего массива информации вы вычленяете только один показатель. Помимо увеличения ошибки первого рода, которое вы отметили и о котором беспокоитесь, следует также отметить искусственное устранение взаимодействия показателей при таком подходе. Например, может оказаться, что сочетание локусов A и D приводит к эффекту, который не является суммой эффектов A и D, т.е. их совместное присутствие делает риск заболевания намного больше или намного меньше. А мутация в локусе C модифицирует взаимодействие A*D. Как всё это обнаружить, если анализировать отдельно A против остальных, D против остальных и C против остальных? A если С встречается в популяции очень редко? У меня нет готовых ответов на такие вопросы, но понятно, что проблема намного сложней, чем её пытаетесь решать вы.

2). Когда показателей много, любые поправки становятся консервативными до безобразия. Это может свести на нет любые потенциальные открытия, которые делаются на большом числе выборок или показателей. Поэтому, например, существует мнение, что поправки на множественность начинают вредить при числе групп 5 и более. С другой стороны, биоинформатики используют эти поправки даже для сотен тысяч генов. Ясно, что ни о какой "правильной" статистике здесь речи не идёт, речь идёт лишь о фильтрации данных для обнаружения перспективных показателей.

3). Теперь - что сделали вы.
3.1. Вы отфильтровали перспективные показатели хи-квадратом 2х2. С учётом пункта (1) к этому результату не следует относиться как к окончательному. Тем не менее он может быть полезен, т.к. сокращает число показателей для итоговой модели. Иначе, если это число не сократить, то для регрессионной техники потребуются объёмы выборок, которых у вас скорее всего нет. А на малых и средних выборках анализ "не пойдёт" совсем (программы будут выдавать сообщения о каких-либо ошибках) или будет выдаваться чушь. Почему регрессионный анализ у вас получился я не знаю: либо данных и впрямь много, либо использовалась какая-то пошаговая техника, либо была выбрана некорректная регрессионная техника. Мой небольшой опыт регрессионного анализа с категориальными данными скорее отрицательный. Но так или иначе,
3.2. Вы провели регрессионный анализ. В таком анализе вы учли, что показателей несколько, и все они влияют на признак одновременно. Т.е. вы получили согласованные (adjusted) оценки влияния показателей. Это гораздо лучше и точнее, чем оценки эффектов изолированных таблиц 2х2. Именно в этом смысле можно говорить о том, что регрессия что-то "подтвердила". Хотя точнее, она не подтвердила, а обработала данные полнее.
3.3. Но модель регрессионого анализа скорее всего была достаточно примитивной - аддитивной. Т.е. она учла все показатели, но только линейно, а нелинейные эффекты взаимодействия ушли в ошибку анализа. Насколько полезна такая модель? Даже если модель грубая, она может быть полезна, если позволяет делать более-менее адекватный прогноз, о чём выше уже написали.

4). Что можно было сделать. Не обязательно было фильтровать показатели таблицами сопряжённости. Если эта работа диссертационная, то пойдёт - покажете сперва дедовский статистический инструментарий, а деды это любят. Деды если не увидят среднее +/- станд. ошибку, хи-квадрат и Манна-Уитни, то могут вообще не понять, что статистическая обработка таки была. Но вообще это нерационально. Лучше сразу использовать многомерные разведочные техники типа анализа соответствий (correspondene analysis) и его канонической формы, а также техники "случайного леса" (random forest), чтобы сразу выходить на ценные для прогноза показатели и их сочетания.

5). Для построения полноценных моделей с учётом взаимодействия показателей есть специальные техники. Сталкивался немного применительно к локусам разных генов, не знаю насколько это подойдёт вам. Но погуглите на тему SNP-SNP interaction. Я когда-то ковырялся в этой программе: http://www.multifactordimensionalityreduction.org/ Также прикрепил обзор, который может быть полезен.
Прикрепленные файлы
Прикрепленный файл  poligennyy_podhod_k_issledovaniyam_poligennyh_zabolevaniy.pdf ( 227,74 килобайт ) Кол-во скачиваний: 66
 
  Форум: Медицинская статистика · Просмотр сообщения: #22956 · Ответов: 6 · Просмотров: 1226

nokh
Отправлено: 23.04.2018 - 09:45


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Cules2013 @ 22.04.2018 - 16:42) *
...
Отсюда вопросы: а какой вариант анализа более корректный? Имею ли я право вообще учитывать "день" как фактор, или нет? Меня смущает его неоднозначность и расплывчатость. В примерах двухфакторного ANOVA всегда такие однозначные факторы, вроде пол, возраст и т.п.
Я так понимаю, что оценивая весь массив данных, а не отдельные его части, само собой разумеется, что статистическая мощность возрастает, увеличивается кол-во степеней свободы. Правильно?
Ну и в довесок не до конца понимаю результаты двухфакторного анализа (см. таблицу). Как правильно интерпретировать графу "Source of Variation"? Как правильно оценить вклад каждого из факторов? Значение слов я понимаю, но математический смысл таблицы до меня не доходит.

Для конкретного эксперимента всегда существует наиболее мощный вариант анализа - его и нужно пытаться применить. Если дни присутствуют в схеме - они должны учитываться. Но всё это нужно правильно задать. В вашем случае необходимо использовать сложный анализ повторных измерений. Повторные измерения здесь - измерения одних и тех же крыс в разные дни. Т.е. необходимо учесть, что выборки крыс в разные дни - зависимые выборки. "Сложный" он потому, что помимо общего для всех фактора "День" и случайного фактора "Крыса" (или "Subject"), есть также фактор "Препарат". При этом фактор "Крыса" находится внутри фактора "Препарат", т.к. животные получали только один какой-то препарат и взаимодействие факторов "Крыса х Препарат" невозможно. Это распространённый дизайн и неоднократно обсужался на форуме. Задать его в пакетах можно двумя способами (как делали вы пока непонятно):
1. В модуле "анализ повторных измерений". Обычно здесь крысы - строки, столбцы - дни, и есть ещё столбец с кодами фактора "Препарат", который помечает к какой группе относятся крысы.
2. В модуле общих линейных моделей. В нём один столбец - данные, второй столбец - коды номера животного, третий столбец - код номера дня, четвёртый - код группы (фактор "Препарат").
Результаты обоих подходов идентичны (если не мудрить с типами сумм квадратов SS).

Чтобы понять, как трактовать цифры - нужно читать. Самое доступно-примитивное изложение ANOVA - см. Гланц - Медико-биологическая статистика (1999). Далее нужно понять концепцию взаимодействия факторов, хотя бы на примере двухфакторного перекрёстного ДА. Далее - концепцию иерархического ДА (без взаимодействий). Почитать про случайные и фиксированные факторы: от правильного их задания зависят результаты в сложных ДА (суммы квадратов и средние квадраты получаются одинаковые, но соотносятся MS для получения F по-разному). Фактор "День" в разных схемах может быть как случайным, так и фиксированным. В вашем случае он фиксированный, т.к. мы его можем легко воспроизвести в другом эксперименте: это конкретный день в последовательности приёма препарата.
Далее - "Сложный" ДА, сочетающий перекрёстную и иерархическую модели. По крайней мере я шёл примерно в таком порядке, читал Монтгомери - Планирование эксперимента и анализ данных (1980).
  Форум: Медицинская статистика · Просмотр сообщения: #22926 · Ответов: 4 · Просмотров: 1204

nokh
Отправлено: 7.04.2018 - 18:12


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 7.04.2018 - 19:07) *
Boschloo:
Uses the p-value from Fisher?s exact test as the test statistic.

Автор пакета "Exact" и здесь то же повторяет: https://stats.stackexchange.com/questions/1...hloo-or-barnard
Так что это, в отличие от x13, не ошибка какая-то, но я пока не понимаю что это значит unknw.gif
Поразбираться можно, но очень всё это ресурсозатратно. Видно проще хроники написать, чем нормальный учебник: https://errorstatistics.files.wordpress.com...ston-mielke.pdf
  Форум: Медицинская статистика · Просмотр сообщения: #22892 · Ответов: 18 · Просмотров: 3792

nokh
Отправлено: 7.04.2018 - 08:44


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(DrgLena @ 7.04.2018 - 02:50) *
Не совсем.Чтобы из MS (error), которую выдают программы, получить среднеквадратическую ошибку, нужно извлечь корень, получив SD, а потом разделить на корень из n. Так что ДИ будут одинаковы только в том случае, если число наблюдений на каждом уровне фактора будет одинаковым.

Верное замечание. И - да, я конечно писал о ДИ средних, а никак не о ДИ разностей.
Цитата(Cules2013 @ 7.04.2018 - 00:20) *
Прилагаю сам график. Вот help.gif мне понять на конкретном примере, какие выводы можно сделать из этого графика? Я вижу, что доверительные интервалы А-В и В-С не перекрываются, и что это значит?

Раз речь идёт о ДИ разностей, то интерпретация иная. Здесь важно включает ДИ значение ноль или нет. Если не включает - различия статистически значимы. На вашем рисунке это крайние варианты. Если ДИ включает ноль, то значит разность средних может быть нулевой, т.е. средние не отличаются. Это ваш центральный вариант. Я такими графиками не пользуюсь.
  Форум: Медицинская статистика · Просмотр сообщения: #22886 · Ответов: 12 · Просмотров: 1967

nokh
Отправлено: 7.04.2018 - 08:35


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 6.04.2018 - 22:08) *
А теперь дадим слово разработчикам SPSS:...

Логично. Тогда получается, что и в exact permutation тоже гипергеометрическое распределение, т.к. там также все краевые частоты и общая сумма фиксированы. А что нам делать с би- и поли-?
Про критерий Барнарда мне нужно почитать, по-русски было у Гайдышева: http://forum.disser.ru/index.php?showtopic=1464 и в справочном руководстве AtteStat.

PS
Погуглил урывками и к полудню кое-что прояснилось.


1) Все точные (exact) критерии для анализа таблиц сопряжённости (ТС) делятся на условные (conditional) и безусловные (unconditional).

2) Условные фиксируют краевые частоты. Для таблиц 2х2 имеем точный метод Фишера. Распределение - гипергеометрическое. Есть почти везде. Не особо рекомендуется для анализа ТС с би- и полиномиальным происхождением данных вплоть до "The traditional Fisher's exact test should practically never be used" https://onlinelibrary.wiley.com/doi/pdf/10.1002/sim.3531

3) Безусловные точные критерии не фиксируют краевые частоты частично или совсем, а потому мощнее условных.

3а. Если не фиксируются частоты либо по столбцам, либо по строкам. Для таблиц 2х2 имеем критерий Барнарда. Распределение - биномиальное. Получается обычно в исследованиях типа случай-контроль. Есть в старой версии AtteStat, и пакетах под R "Exact" и "Barnard":
https://cran.r-project.org/web/packages/Exact/Exact.pdf
https://cran.r-project.org/web/packages/Barnard/Barnard.pdf

3б. Если краевые частоты не фиксируются совсем. Для ТС 2х2 имеем критерий Бошлу(?) - Boschloo's test. Распределение - полиномиальное. Получается в перекрёстных исследованиях (cross-sectional study). Есть в пакете под R "Exact"
https://cran.r-project.org/web/packages/Exact/Exact.pdf

4) Монте-Карло для ТС можно организовать также по пути условных и безусловных методов. Пакет StatXact считает безусловные Exact и Monte-Carlo. А видимо SPSS - условные, хотя это непонятно, т.к. читал что они используют точные методы по лицензии Cytel Studio (производитель StatXact и LogXact). Что считает пакет PAST - нужно разбираться.

5) Для более крупных двумерных ТС RxC существуют какие-то аналоги этих критериев. Вы дали параллель ТМФ - критерий Фишера-Фримана-Холтона. Должны быть и другие, но пока не искал даже, т.к. итак узнал сегодня много нового:)).
  Форум: Медицинская статистика · Просмотр сообщения: #22885 · Ответов: 18 · Просмотров: 3792

nokh
Отправлено: 6.04.2018 - 16:07


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 6.04.2018 - 17:57) *
Судя по всему, да - coin. Что-то, наверное, можно выжать и из perm. Однако, "рабочая лошадка" exact-методов в рамках Фишеровской парадигмы - fisher.test(), применимый не только к таблицам 2х2, но и RxC (в каковом случае он называется критерием Фишера - Фримана - Холтона).

Критерий Фишера разработан на основе гипергеометрического распределения, тогда как в реальной жизни мы не имеем фиксированных краевых частот таблицы сопряжённости по всем входам. Т.е. критерий предполагает гипергеометрическое распределение, а мы используем его на практике для анализа би- или полиномиального распределения. С теоретической точки зрения это нехорошо, хотя на практике выводы получаются сходными. Поэтому лучше пытаться реализовать точный рандомизационный критерий или Монте-Карло.
  Форум: Медицинская статистика · Просмотр сообщения: #22877 · Ответов: 18 · Просмотров: 3792

nokh
Отправлено: 6.04.2018 - 15:38


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(kont @ 5.04.2018 - 17:18) *
...
среднее у мужчин по фактору -1,31
у женщин 1,06

Вопрос в знаках, у кого больше выражен фактор у мужчин или у женщин(мы по модулю смотрим или знак учитывается, т.е. чем меньше значение нуля тем менее выражен фактор и наоборот чем больше значения тем больше фактор выражен)?

Я давно подозревал, что желанием выпить отличаются именно женщины, только называют это иначе wink.gif В моём окружении за исключением пары безнадёжных случаев мужики давненько либо не пьют совсем, либо пьют там, где я не вижу...

А если серьёзно, то интерпретация зависит именно от знаков, как вы и написали, а также от того, как вы назвали фактор. Если по положительным нагрузкам показателей вы определили, что фактор интерпретируется именно как "Желание выпить", то бОльшее значение фактора (для биполярного фактора - положительное значение) соответствует увеличению желания, и тогда действительно 1,06 у женщин - это большее желание. Если же основные маркёры желания выпить вошли в фактор с отрицательными нагрузками, то соответственно это будет не фактор "Желание выпить", а фактор "Отсутствие желания выпить" и интерпретация будет обратной. Для удобства интерпретации и обсуждения можно нагрузки фактора и соответствующие ему метки (factor scores) для объектов умножить на (-1): чтобы обсуждать "Возраст", а не "Детскость", "Желание выпить", а не "Отсутствие желания".
  Форум: Медицинская статистика · Просмотр сообщения: #22875 · Ответов: 1 · Просмотров: 700

nokh
Отправлено: 6.04.2018 - 15:18


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(nikita_zab @ 5.04.2018 - 11:43) *
Подскажите, пожалуйста, пакет (coin?) и функцию для методов "в" и "г".

Пока в R такого не делал, но подскажу. Когда я последний раз интересовался этим 3-5 лет назад, в R точным методом можно было обсчитать только таблицы 2 х 2, а пакета coin вроде не было. Я точным методом считал давно в StatXact, а последнее время довольствуюсь Монте-Карло в бесплатном PAST (https://folk.uio.no/ohammer/past/). Когда освоите, можете поделиться функциями здесь; в руководстве coin видел какой-то пример, но не было времени вникать.
  Форум: Медицинская статистика · Просмотр сообщения: #22874 · Ответов: 18 · Просмотров: 3792

nokh
Отправлено: 6.04.2018 - 15:06


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Cules2013 @ 6.04.2018 - 02:18) *
...В чём смысл и преимущество графика по доверительным интервалам?

Когда вы строите ДИ по каждой выборке отдельно, то не учитываете информацию о других выборках. При этом ДИ получаются разными - в соответствии с изменчивостью показателя в разных выборках. Когда вы строите ДИ по результатам одновременного анализа всех групп, то во-первых, используете имеющуюся информацию целиком, а во-вторых ДИ приобретают свойство лучше характеризовать различия между выборками, причём на заранее выбранном уровне значимости (см. сообщение плава). Такие ДИ получаются одинаковыми по величине, поскольку ошибка комплекса данных едина для всего комплекса. Распространённые пакеты типа Statistica по результатам дисперсионного анализа по умолчанию (можно изменить) строят именно такие ДИ.

Я в зависимости от ситуации даю либо первые, либо вторые ДИ, а иногда одновременно. Например, если мы характеризуем высеваемость микроорганизмов в клинике за какой-то период, то логичнее давать ДИ, рассчитанные для каждой выборки в отдельности, хотя они всё равно не теряют свойства говорить о возможной значимости различий. В любых экспериментах, спланированных именно для выявления различий логичнее давать ДИ на основании сравнения всех групп. Кстати различие этих ДИ можно использовать в публикациях - чтобы обойти запрет редакций на дублирование информации в таблицах и графиках. В таблицах можно приводить средние и 95% ДИ как элементы описательной статистики - чтобы данные лучше цитировались и помогали другим исследовать сравнивать свои с вашими. На графиках же приводить ДИ второго типа, чтобы визуализировать различия между группами и чтобы их было удобнее обсуждать. Несколько раз нормально прокатывало...
  Форум: Медицинская статистика · Просмотр сообщения: #22873 · Ответов: 12 · Просмотров: 1967

nokh
Отправлено: 26.03.2018 - 10:47


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Я несколько раз в жизни использовал критерий Хартли проверки на выбросы. Знаю, что его ругают за топорность, но привык видеть сильно асимметричные распределения и боюсь удалить наблюдение в хвосте. Также есть опыт более экзотичной проверки на выбросы с использованием метода складного ножа: на промежуточном этапе получения искомой статистики псевдозначения тоже можно проверить на выбросы.
  Форум: Медицинская статистика · Просмотр сообщения: #22805 · Ответов: 13 · Просмотров: 2664

nokh
Отправлено: 25.03.2018 - 18:18


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(medmonitor @ 25.03.2018 - 19:03) *
Допустим мне надо проверить.... Подойдет ли для этого коэффициент эта(из кросс-табов в spss)

Допустим, я скажу что подойдёт. А, допустим, кто-то скажет, что нет. И что дальше?
Не проще ли самому прочитать про этот коэффициент? Что говорит о нём литература по SPSS, что он предназначен для проверки однородности выборки?
А если он предназначен для другого - зачем было задавать эту часть вопроса? И раз вы знаете конкретно, что вам нужно - почему не загуглить "проверка однородности выборки"?
Такие вопросы вызывают больше вопросов, чем желания ответить...
  Форум: Медицинская статистика · Просмотр сообщения: #22800 · Ответов: 13 · Просмотров: 2664

nokh
Отправлено: 17.03.2018 - 05:27


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 17.03.2018 - 03:48) *
... Откуда следует, что согласно нормам русского языка Quade test = "Тест Даны Квейда"

Выходит, что так)). Видать родители девочку ждали... На него можно посмотреть на Fig. 1 отсюда: https://sph.unc.edu/files/2014/02/bios_2013...-CH-CHAPTER.pdf
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #22769 · Ответов: 2 · Просмотров: 775

nokh
Отправлено: 12.03.2018 - 23:35


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Vano-34@yandex.ru @ 12.03.2018 - 17:57) *
При анализе значимости с помощью непараметрического критерия Манна-Уитни.
Какие результаты нужно представлять в таблице.
Медиану и интерквартильнфй размах мли среднее и ошибку среднего.
По механизмусамого анализа вроде медиана и интерквартильный размах.

Однозначно только что не (среднее и ошибку среднего) - эта форма осталась в ХХ веке. Остальное - обсуждаемо. Соображения следующие.
1. Важнее сами данные, а не критерий, которым они сравниваются. Мало ли какие механизмы и алгоритмы задействует критерий. Мы должны подавать данные так, чтобы они хорошо представляли выборку и были удобны для сопоставления разных выборок, а как работает критерий - его внутренняя кухня. Хотя логика в подаче данных с единых позиций (в данном случае - с позиций порядковой статистики), конечно есть.
2. Можно рекомендовать ориентироваться на статьи в своей области, опубликованные в англоязычных журналах с высоким импакт-фактором. В разных областях науки существуют свои устоявшиеся каноны подачи информации, порушить которые рецензенты могут не дать, даже если вы более правы.
3. Удобен ли стандарт (медиана и межквартильный размах) для сравнения данных? Беда в том, что не удобен, т.к. для любой пары выборок по этим цифрам нельзя предположить статистическую значимость различий. Куда лучше (среднее и 95% доверительный интервал), т.к. если интервалы не перекрываются, значит скорее всего выборки принадлежат разным генеральным совокупностям (Р<0,05). Но здесь беда в том, что для сильно асимметричных распределений среднее арифметическое плохо характеризует центральную тенденцию, да и 95% ДИ нужно грамотно рассчитать...

Лично я в последнее время полностью отказался от медианы и квартилей в описании данных (за исключением цензурированных данных). Привожу всегда среднее и 95% ДИ. Но вычисляю их так:
а) для не сильно асимметрично распределённых данных (данные в пределах выборки не изменяются на порядки) и для очень малых выборок рассчитываю обычное среднее арифметическое, а 95% ДИ вычисляю непараметрическим бутстрепом (методом процентилей, или чаще ВСа).
б) для данных, для которых известно, как именно их распределение отличается от нормального 1) нормализую данные преобразованием, 2) вычисляю среднее и 95% ДИ, 3) полученные 3 значения ретрансформирую в исходную шкалу с помощью наивного обратного преобразования. Это, например, для логнормально распределённых данных (логарифмическое преобразование), для площадей (преобразование квадратного корня), для % (фи-преобразование арксинуса).
в) для резко асимметрично распределённых данных, для которых теоретическое распределение неизвестно, использую схему (б), но только с прямым и обратным преобразованием Бокса - Кокса.

Именно так я бы представил данные в таблице, а подкрепить различия статистически можно любым хорошим критерием. Критерий Манна - Уитни - "хороший", в том смысле, что мощный: на больших выборках из нормально распределённых генеральных совокупностей только на 5% уступает в мощности критерию Стьюдента. Но мне не нравится сама идея заменять исходные количественные значения (шкалы отношений и интервалов) рангами и таким образом недоиспользовать имеющуюся информацию. Поэтому для количественных, а не исходно порядковых (порядковая шкала) данных лучше провести сравнение точным рандомизационным критерием (Exact permutatuion test) или, если точный вариант невозможен ввиду вычислительных ограничений - рандомизационным критерием Монте-Карло (Monte Carlo permutatuion test). Рандомизационный критерий можно организовать напрямую для разности средних значений. Но если ориентироваться на пакеты с кнопочным интерфейсом - использовать доступные рандомизационные техники.
  Форум: Медицинская статистика · Просмотр сообщения: #22761 · Ответов: 11 · Просмотров: 3157

nokh
Отправлено: 7.03.2018 - 22:36


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(sanabat @ 7.03.2018 - 04:04) *
... У меня есть 5 независимих групп сравнения респондентов. Они отвечали на несколько вопросов 'да','нет' или 'не знаю'. Сделала таблицу 5х3. Корректно ли сравнивать ети 5 груп используя хи-квадрат? и если есть различия надо ли делать попарние сравнения? какой критерий при етом можно использовать? спасибо

1. Как уже было указано выше, в простом варианте задачу можно решать с использованием разных методов. Другое дело что не нужно.
а) Критерий хи-квадрат Пирсона был предложен в 1901 г и до сих пор популярен.
б) Его более современный аналог, известный как джи-квадрат или критерий отношения правдоподобия многократно переоткрывался в 1950-70-е потому известен также как информационный критерий Кульбака, G-критерий Вулфа, хи-квадрат максимального правдоподобия и критерий максимального логправдоподобия. Ввиду отличной теоретической проработанности (в отличие от эмпирического хи-квадрата) Сокалом и Рольфом рекомендуется использовать всегда вместо хи-квадрата.
в) Поскольку а) и б) основаны на теоретическом распределении хи-квадрат для них существует проблема допустимого минимального ожидаемого, которая заключается в том, что для слабонасыщенных таблиц сопряжённости (ТС), критерии плохо аппроксимируются распределением хи-квадрат. Этого недостатка лишён рандомизационный критерий Монте-Карло (Permutation test, Monte Carlo test) который стал практически доступен только с появлением компьютеров уровня 1990-х гг. В нём р-значение получается компьютерным перебором десятков и сотен тысяч вариантов минуя любые распределения.
г) Ещё лучше в) точный рандомизационный критерий (Exact permutation test). Он похож на в), но в ходе проверки генерируются не случайные таблицы с такими же краевыми частотами как у исходной, а в точности все возможные. Для ТС с большим числом наблюдений это может быть непосильной задачей даже для современных компьютеров, но это - самый точный из всех существующих функциональных аналогов.
Теперь, зная это, а также то, что критерий Пирсона корректен, ответьте себе: на каком уровне вы хотите сработать в XXI веке: 1930-х, 1970-х или 1990-х годов?

2. В анализе ТС попарные сравнения не проводят. Если омнибусный критерий пункта 1 отклоняет нулевую гипотезу об отсутствии различий, то далее ищутся ячейки, давшие наибольший и неслучаный вклад в статистику критерия. Это делается с помощью расчёта отклонений Фримана - Тьюки (Freeman-Tukey deviation) или согласованных стандартизованных остатков, называемых также остатками Хабермана (Adjusted residuals). Они дают р-значение для каждой ячейки ТС.

3. Применяя схему 1+2 к каждому вопросу в отдельности вы недоиспользуете имеющуюся информацию. Почитайте про логлинейный анализ (Log-linear analysis) и анализ соответствий (Correspondence analysis). Я бы вообще начал с последнего, а обнаруженные тенденции выборочно подтвердил бы простыми тестами.

4. Варианты 1-3 подразумевают, что категории 'да','нет', 'не знаю' - номинальные. Хотя, возможно, где-то они и порядковые, т.е. "не знаю" может стоять не особняком от "да" и "нет", а между ними. Также для каких-то вопросов "не знаю" может быть почти "да", для каких-то - почти "нет" и т.п. Психологи пользуются многомерными техниками, основанными на преобразовании Джифи (Gifi) , которые позволяют оцифровать порядковые и номинальные данные и разобраться с этим.
  Форум: Медицинская статистика · Просмотр сообщения: #22737 · Ответов: 18 · Просмотров: 3792

nokh
Отправлено: 7.03.2018 - 21:44


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Рассуждения ошибочны. Читайте про двухфакторный дисперсионный анализ (ДА) и нормализующие преобразования данных. Ну а чтобы впредь не возникало даже мысли обсчитывать один эксперимент десятками примитивных методов также читайте про принципы статистической проверки, про удержание проверки семейства гипотез на заданном уровне значимости, про ужасные поправки типа Бонферрони и про мощность статистической проверки.
А вообще, чем сложнее анализ, тем сложнее найти для него непараметрический ранговый аналог. Т.е. это - потенциально тупиковый путь. Если и использовать непараметрику, то ресэмплинг. Двухфакторному ДА уже просто нет рангового аналога, т.к. даже критерий Даны Квейд не способен обнаружить взаимодействие факторов.
  Форум: Медицинская статистика · Просмотр сообщения: #22736 · Ответов: 7 · Просмотров: 1263

nokh
Отправлено: 22.02.2018 - 23:07


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(nastushka @ 22.02.2018 - 17:04) *
1. есть данные, в них 20 переменных
2. нужно кластеризовать эти 20 переменных, т.е. выделить классы схожим переменных
3.затем найти людей, которые "кучкуются" у каждого класса переменных.

Задачу лучше решать ординационными (проекционными), а не кластерными техниками. Повторяю это из поста в пост, т.к. в учебниках проблема прописана плохо. Ваши 20 переменных могут образовать, скажем 3 паттерна, за каждым из которых стоит отдельный процесс, причём 15 переменных изменяются согласованно, т.к. обусловлены одним процессом, 4 - другим процессом, 1 переменная отражает третий процесс. Если пытаться кластеризовать 20 переменных, то ведущий процесс подавит при кластеризации более слабые. Или неудачный выбор переменных выведет на первое место второстепенный процесс. Психологи это знают и при разработке тестов (тестология) стараются нагрузить разные предварительно выявленные процессы примерно равным числом показателей. Иначе вы будете думать, что провели кластеризацию по всем 20 переменным, тогда как на дендрограмме будет отражено сходство только по 15. Кластерный анализ - хорошая эксплораторная техника, но её лучше проводить не на исходных данных, а на метках (scores) латентных обобщающих переменных, выделенных с помощью ординационных техник типа главных компонент, главных координат, факторного анализа. А ординационные техники позволят выйти на число таких кластерообразующих процессов. В ходе их применения возможно построение двойных графиков (biplot) - биплотов, которые в пространстве выбранных осей отобразят векторами сами переменные, а точками - объекты. Таким образом из анализа полученной ординационной дендрограммы становится понятным: (1) какие переменные и с каким знаком "участвуют" в латентной переменной, (2) какие объекты имеют большие значения по этим переменным и, собственно, обусловливают формирование наблюдаемых патттернов показателей. Часто точки объектов образуют на таких графиках скопления, т.е. собственно кластеры. В зависимости от объёмов выборок номера таких объектов можно либо просто выписать вручную, а можно применить к рассчитанным для кажого объекта значениям обобщающих шкал (меткам) кластеризацию методом к-средних, введя в качестве числа кластеров то число, которое подсказали ординационные диаграммы.
  Форум: Медицинская статистика · Просмотр сообщения: #22665 · Ответов: 9 · Просмотров: 1498

nokh
Отправлено: 16.02.2018 - 22:55


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(bubnilkin @ 16.02.2018 - 03:53) *
Прошу прощения, что вклиниваюсь. Хотел уточнить: А не надо ли случайно рисовать разницы между средними и ДИ к этим разницам ? Или это как доп. иллюстрации ?

Вы же читаете статьи, много графиков с разностями вы видели? И доп. иллюстрации редакция не пропустит. Я видел мало, но у гигиенистов встречаются, у токсикологов, только они разность выражают в % от исходного значения (дельта, % ) или норматива. Также разность с ДИ кажется более уместной для иллюстрации величины эффекта в зависимых выборках, но, я всё равно строю обычно сами средние с ДИ...
  Форум: Медицинская статистика · Просмотр сообщения: #22646 · Ответов: 22 · Просмотров: 4500

nokh
Отправлено: 16.02.2018 - 22:17


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(med-ick @ 16.02.2018 - 19:09) *
... Как в случае беспилотного транспорта выглядят данные для классификации или сегментации...

Беспилотный транспорт беспрепятственно везёт пациентов в психоневрологическое отделение для классификации: майнили data! на феRмах!
Интересно: в строках - объекты, в столбцах - атрибуты, а где же зависимая переменная?
И которая из них выглядит как картинка, а которая как беспилотный транспорт?
Все загримированы и улыбаются: сегментация уже началась... Но почему-то один всегда плачет - распознан?
К сожелению опять excel! А ведь я так хотел поделиться радостью, что тоже, тоже "иногда читаю некоторые статьи"!!!
Но leo_biostat меня опередил... Они нашлись! Сэта гудьба (с) И полный фейерверк (с)
  Форум: Медицинская статистика · Просмотр сообщения: #22645 · Ответов: 3 · Просмотров: 782

nokh
Отправлено: 15.02.2018 - 19:47


Дух форума
*

Группа: Пользователи
Сообщений: 1061
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Cules2013 @ 8.02.2018 - 15:05) *
1. Требования к ANOVA. Я тут почитал, в т.ч. темы данного форума и пришёл к выводу, что одни считают, что нужна нормальность данных по каждой выборке (ссылаются на Петри "Наглядная статистика в медицине"), другие (в т.ч. и вы) говорят о нормальности распределения остатков. Кто больше прав? Хотелось бы знать, на кого ссылаетесь вы.

Любой учебник, где говорится о требовании нормальности распределения в выборке - сразу в топку. Речь может идти только о нормальном распределении в генеральной совокупности (ГС), откуда эта выборка извлекается. Широко известный в узких кругах отечественных статистиков и прикладников профессор Орлов вообще против подхода с оценкой нормальности по выборкам и остаткам типа для выбора грамотного способа выборочных сравнений, поскольку сама такая проверка принципиально сложнее задачи выборочных сравнений. Тем не менее в массе - проверяют. Если распределение в ГС нормальное, то и остатки модели будут распределены нормально. Но распределение в ГС мы часто не знаем, а оценить его по выборке не можем, ввиду её малого объёма (3 мышки DrgLena). Поэтому проверяем остатки: это и грамотнее, и реализуемо практически. Почитать нужно обязательно учебник(и) Дугласа Монтгомери - дядька крутой. Есть старое (2 или 4-ое) издание его книги на русском, а на английском уже 7 изданий. В переводной версии см. на стр. 36-37 формулу и его ответ на вопрос, хотя читать нужно всё.
Цитата(Cules2013 @ 8.02.2018 - 15:05) *
2. GraphPadPrism 7 позволяет считать нормальность остатков и строить график, но ...

Чё вы к этому Графпаду прицепились? Потому что немного её освоили? А если в освоенной программе нет нужного метода или он плохо реализован? Путь от пакета - тупиковый. Нужно наоборот идти от метода и искать такой пакет, где он реализован лучше всего. Далее. ДА - одно, регрессия - другое, и хотя это неверно, но на данном этапе вам будет полезнее думать об этих методах как о разных техниках (хотя ДА можно описать регрессионной моделью - разобрано понятно у Сокала и Рольфа).
Цитата(Cules2013 @ 8.02.2018 - 15:05) *
3. Вы говорите о нормальности остатков, но в тоже время и о критерии Шапиро-Уилка. Это же разные вещи...

Лопата - инструмент, позволяющий копать. Почву, песок, дресву и т.д, мы даже как-то донные отложения умудрились штыковой лопатой отобрать... Критерии проверки нормальности - инструмент, проверяющий нормальность. Выборок, остатков ANOVA, остатков регрессий любой сложности... Нет разницы.
Цитата(Cules2013 @ 8.02.2018 - 15:05) *
4. На форуме тут откопал такое мнение, что ANOVA - это робастный метод, поэтому нормальность и однородность могут быть частично нарушены. Что значит "частично" и как это определить количественно в стат. программе - вопрос на миллион.

Робастны. Количественно - вряд ли. В 2х словах не ответить, нужно начитывать литературу и пробовать. Однозначно: нужно стремиться выполнять требования модели анализа максимально. Но если они не выполняются, то выбор (1) делать всё равно "ибо модель робастна" или (2) преобразовывать данные для удовлетворения требованиям модели или (3) искать более подходящую модель - не столь однозначно. Это - не верная дверь, это - путь.
Цитата(Cules2013 @ 8.02.2018 - 15:05) *
5. Понимаю, что прошу немало, но всё же, пожалуйста, если можете, подкрепляйте свои выводы конкретными ссылками на лит-ру. ... И те, кто пишет о сравнениях и прочих подобных вещах, часто углубляется в формулы, чистую математику, и среди деревьев леса не видно.

Ну дак математики тоже люди. Им интересно заниматься именно тем, что умеют - это их поле. Прикладникам часто сложно читать такие работы. А выбор в пользу тех или иных методов делается обычно на основе численных экспериментов: генерируются данные с нужными свойствами и на них проверяются насколько хорошо справляются с задачей те или иные методы. С приходом среды R такие симуляции стали доступны не только математикам и атишникам.

Ссылка на хорошие книги: https://yadi.sk/d/0Jb-3hSLmK837
Обратите особое внимание на 2 англоязычные: по ним преподают биостатистистику во многих университах.
Бонусом - несколько программ и рассчётный файл Excel, сделанный когда-то плавом и дополненный мной байесовским апостериорным интервалом Джеффриса.
  Форум: Медицинская статистика · Просмотр сообщения: #22638 · Ответов: 22 · Просмотров: 4500

43 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена