Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

42 страниц V   1 2 3 > » 

nokh
Отправлено: 7.04.2018 - 18:12


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 7.04.2018 - 19:07) *
Boschloo:
Uses the p-value from Fisher?s exact test as the test statistic.

Автор пакета "Exact" и здесь то же повторяет: https://stats.stackexchange.com/questions/1...hloo-or-barnard
Так что это, в отличие от x13, не ошибка какая-то, но я пока не понимаю что это значит unknw.gif
Поразбираться можно, но очень всё это ресурсозатратно. Видно проще хроники написать, чем нормальный учебник: https://errorstatistics.files.wordpress.com...ston-mielke.pdf
  Форум: Медицинская статистика · Просмотр сообщения: #22892 · Ответов: 17 · Просмотров: 1606

nokh
Отправлено: 7.04.2018 - 08:44


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(DrgLena @ 7.04.2018 - 02:50) *
Не совсем.Чтобы из MS (error), которую выдают программы, получить среднеквадратическую ошибку, нужно извлечь корень, получив SD, а потом разделить на корень из n. Так что ДИ будут одинаковы только в том случае, если число наблюдений на каждом уровне фактора будет одинаковым.

Верное замечание. И - да, я конечно писал о ДИ средних, а никак не о ДИ разностей.
Цитата(Cules2013 @ 7.04.2018 - 00:20) *
Прилагаю сам график. Вот help.gif мне понять на конкретном примере, какие выводы можно сделать из этого графика? Я вижу, что доверительные интервалы А-В и В-С не перекрываются, и что это значит?

Раз речь идёт о ДИ разностей, то интерпретация иная. Здесь важно включает ДИ значение ноль или нет. Если не включает - различия статистически значимы. На вашем рисунке это крайние варианты. Если ДИ включает ноль, то значит разность средних может быть нулевой, т.е. средние не отличаются. Это ваш центральный вариант. Я такими графиками не пользуюсь.
  Форум: Медицинская статистика · Просмотр сообщения: #22886 · Ответов: 12 · Просмотров: 880

nokh
Отправлено: 7.04.2018 - 08:35


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 6.04.2018 - 22:08) *
А теперь дадим слово разработчикам SPSS:...

Логично. Тогда получается, что и в exact permutation тоже гипергеометрическое распределение, т.к. там также все краевые частоты и общая сумма фиксированы. А что нам делать с би- и поли-?
Про критерий Барнарда мне нужно почитать, по-русски было у Гайдышева: http://forum.disser.ru/index.php?showtopic=1464 и в справочном руководстве AtteStat.

PS
Погуглил урывками и к полудню кое-что прояснилось.


1) Все точные (exact) критерии для анализа таблиц сопряжённости (ТС) делятся на условные (conditional) и безусловные (unconditional).

2) Условные фиксируют краевые частоты. Для таблиц 2х2 имеем точный метод Фишера. Распределение - гипергеометрическое. Есть почти везде. Не особо рекомендуется для анализа ТС с би- и полиномиальным происхождением данных вплоть до "The traditional Fisher's exact test should practically never be used" https://onlinelibrary.wiley.com/doi/pdf/10.1002/sim.3531

3) Безусловные точные критерии не фиксируют краевые частоты частично или совсем, а потому мощнее условных.

3а. Если не фиксируются частоты либо по столбцам, либо по строкам. Для таблиц 2х2 имеем критерий Барнарда. Распределение - биномиальное. Получается обычно в исследованиях типа случай-контроль. Есть в старой версии AtteStat, и пакетах под R "Exact" и "Barnard":
https://cran.r-project.org/web/packages/Exact/Exact.pdf
https://cran.r-project.org/web/packages/Barnard/Barnard.pdf

3б. Если краевые частоты не фиксируются совсем. Для ТС 2х2 имеем критерий Бошлу(?) - Boschloo's test. Распределение - полиномиальное. Получается в перекрёстных исследованиях (cross-sectional study). Есть в пакете под R "Exact"
https://cran.r-project.org/web/packages/Exact/Exact.pdf

4) Монте-Карло для ТС можно организовать также по пути условных и безусловных методов. Пакет StatXact считает безусловные Exact и Monte-Carlo. А видимо SPSS - условные, хотя это непонятно, т.к. читал что они используют точные методы по лицензии Cytel Studio (производитель StatXact и LogXact). Что считает пакет PAST - нужно разбираться.

5) Для более крупных двумерных ТС RxC существуют какие-то аналоги этих критериев. Вы дали параллель ТМФ - критерий Фишера-Фримана-Холтона. Должны быть и другие, но пока не искал даже, т.к. итак узнал сегодня много нового:)).
  Форум: Медицинская статистика · Просмотр сообщения: #22885 · Ответов: 17 · Просмотров: 1606

nokh
Отправлено: 6.04.2018 - 16:07


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 6.04.2018 - 17:57) *
Судя по всему, да - coin. Что-то, наверное, можно выжать и из perm. Однако, "рабочая лошадка" exact-методов в рамках Фишеровской парадигмы - fisher.test(), применимый не только к таблицам 2х2, но и RxC (в каковом случае он называется критерием Фишера - Фримана - Холтона).

Критерий Фишера разработан на основе гипергеометрического распределения, тогда как в реальной жизни мы не имеем фиксированных краевых частот таблицы сопряжённости по всем входам. Т.е. критерий предполагает гипергеометрическое распределение, а мы используем его на практике для анализа би- или полиномиального распределения. С теоретической точки зрения это нехорошо, хотя на практике выводы получаются сходными. Поэтому лучше пытаться реализовать точный рандомизационный критерий или Монте-Карло.
  Форум: Медицинская статистика · Просмотр сообщения: #22877 · Ответов: 17 · Просмотров: 1606

nokh
Отправлено: 6.04.2018 - 15:38


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(kont @ 5.04.2018 - 17:18) *
...
среднее у мужчин по фактору -1,31
у женщин 1,06

Вопрос в знаках, у кого больше выражен фактор у мужчин или у женщин(мы по модулю смотрим или знак учитывается, т.е. чем меньше значение нуля тем менее выражен фактор и наоборот чем больше значения тем больше фактор выражен)?

Я давно подозревал, что желанием выпить отличаются именно женщины, только называют это иначе wink.gif В моём окружении за исключением пары безнадёжных случаев мужики давненько либо не пьют совсем, либо пьют там, где я не вижу...

А если серьёзно, то интерпретация зависит именно от знаков, как вы и написали, а также от того, как вы назвали фактор. Если по положительным нагрузкам показателей вы определили, что фактор интерпретируется именно как "Желание выпить", то бОльшее значение фактора (для биполярного фактора - положительное значение) соответствует увеличению желания, и тогда действительно 1,06 у женщин - это большее желание. Если же основные маркёры желания выпить вошли в фактор с отрицательными нагрузками, то соответственно это будет не фактор "Желание выпить", а фактор "Отсутствие желания выпить" и интерпретация будет обратной. Для удобства интерпретации и обсуждения можно нагрузки фактора и соответствующие ему метки (factor scores) для объектов умножить на (-1): чтобы обсуждать "Возраст", а не "Детскость", "Желание выпить", а не "Отсутствие желания".
  Форум: Медицинская статистика · Просмотр сообщения: #22875 · Ответов: 1 · Просмотров: 254

nokh
Отправлено: 6.04.2018 - 15:18


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(nikita_zab @ 5.04.2018 - 11:43) *
Подскажите, пожалуйста, пакет (coin?) и функцию для методов "в" и "г".

Пока в R такого не делал, но подскажу. Когда я последний раз интересовался этим 3-5 лет назад, в R точным методом можно было обсчитать только таблицы 2 х 2, а пакета coin вроде не было. Я точным методом считал давно в StatXact, а последнее время довольствуюсь Монте-Карло в бесплатном PAST (https://folk.uio.no/ohammer/past/). Когда освоите, можете поделиться функциями здесь; в руководстве coin видел какой-то пример, но не было времени вникать.
  Форум: Медицинская статистика · Просмотр сообщения: #22874 · Ответов: 17 · Просмотров: 1606

nokh
Отправлено: 6.04.2018 - 15:06


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Cules2013 @ 6.04.2018 - 02:18) *
...В чём смысл и преимущество графика по доверительным интервалам?

Когда вы строите ДИ по каждой выборке отдельно, то не учитываете информацию о других выборках. При этом ДИ получаются разными - в соответствии с изменчивостью показателя в разных выборках. Когда вы строите ДИ по результатам одновременного анализа всех групп, то во-первых, используете имеющуюся информацию целиком, а во-вторых ДИ приобретают свойство лучше характеризовать различия между выборками, причём на заранее выбранном уровне значимости (см. сообщение плава). Такие ДИ получаются одинаковыми по величине, поскольку ошибка комплекса данных едина для всего комплекса. Распространённые пакеты типа Statistica по результатам дисперсионного анализа по умолчанию (можно изменить) строят именно такие ДИ.

Я в зависимости от ситуации даю либо первые, либо вторые ДИ, а иногда одновременно. Например, если мы характеризуем высеваемость микроорганизмов в клинике за какой-то период, то логичнее давать ДИ, рассчитанные для каждой выборки в отдельности, хотя они всё равно не теряют свойства говорить о возможной значимости различий. В любых экспериментах, спланированных именно для выявления различий логичнее давать ДИ на основании сравнения всех групп. Кстати различие этих ДИ можно использовать в публикациях - чтобы обойти запрет редакций на дублирование информации в таблицах и графиках. В таблицах можно приводить средние и 95% ДИ как элементы описательной статистики - чтобы данные лучше цитировались и помогали другим исследовать сравнивать свои с вашими. На графиках же приводить ДИ второго типа, чтобы визуализировать различия между группами и чтобы их было удобнее обсуждать. Несколько раз нормально прокатывало...
  Форум: Медицинская статистика · Просмотр сообщения: #22873 · Ответов: 12 · Просмотров: 880

nokh
Отправлено: 26.03.2018 - 10:47


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Я несколько раз в жизни использовал критерий Хартли проверки на выбросы. Знаю, что его ругают за топорность, но привык видеть сильно асимметричные распределения и боюсь удалить наблюдение в хвосте. Также есть опыт более экзотичной проверки на выбросы с использованием метода складного ножа: на промежуточном этапе получения искомой статистики псевдозначения тоже можно проверить на выбросы.
  Форум: Медицинская статистика · Просмотр сообщения: #22805 · Ответов: 13 · Просмотров: 1292

nokh
Отправлено: 25.03.2018 - 18:18


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(medmonitor @ 25.03.2018 - 19:03) *
Допустим мне надо проверить.... Подойдет ли для этого коэффициент эта(из кросс-табов в spss)

Допустим, я скажу что подойдёт. А, допустим, кто-то скажет, что нет. И что дальше?
Не проще ли самому прочитать про этот коэффициент? Что говорит о нём литература по SPSS, что он предназначен для проверки однородности выборки?
А если он предназначен для другого - зачем было задавать эту часть вопроса? И раз вы знаете конкретно, что вам нужно - почему не загуглить "проверка однородности выборки"?
Такие вопросы вызывают больше вопросов, чем желания ответить...
  Форум: Медицинская статистика · Просмотр сообщения: #22800 · Ответов: 13 · Просмотров: 1292

nokh
Отправлено: 17.03.2018 - 05:27


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 17.03.2018 - 03:48) *
... Откуда следует, что согласно нормам русского языка Quade test = "Тест Даны Квейда"

Выходит, что так)). Видать родители девочку ждали... На него можно посмотреть на Fig. 1 отсюда: https://sph.unc.edu/files/2014/02/bios_2013...-CH-CHAPTER.pdf
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #22769 · Ответов: 2 · Просмотров: 453

nokh
Отправлено: 12.03.2018 - 23:35


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Vano-34@yandex.ru @ 12.03.2018 - 17:57) *
При анализе значимости с помощью непараметрического критерия Манна-Уитни.
Какие результаты нужно представлять в таблице.
Медиану и интерквартильнфй размах мли среднее и ошибку среднего.
По механизмусамого анализа вроде медиана и интерквартильный размах.

Однозначно только что не (среднее и ошибку среднего) - эта форма осталась в ХХ веке. Остальное - обсуждаемо. Соображения следующие.
1. Важнее сами данные, а не критерий, которым они сравниваются. Мало ли какие механизмы и алгоритмы задействует критерий. Мы должны подавать данные так, чтобы они хорошо представляли выборку и были удобны для сопоставления разных выборок, а как работает критерий - его внутренняя кухня. Хотя логика в подаче данных с единых позиций (в данном случае - с позиций порядковой статистики), конечно есть.
2. Можно рекомендовать ориентироваться на статьи в своей области, опубликованные в англоязычных журналах с высоким импакт-фактором. В разных областях науки существуют свои устоявшиеся каноны подачи информации, порушить которые рецензенты могут не дать, даже если вы более правы.
3. Удобен ли стандарт (медиана и межквартильный размах) для сравнения данных? Беда в том, что не удобен, т.к. для любой пары выборок по этим цифрам нельзя предположить статистическую значимость различий. Куда лучше (среднее и 95% доверительный интервал), т.к. если интервалы не перекрываются, значит скорее всего выборки принадлежат разным генеральным совокупностям (Р<0,05). Но здесь беда в том, что для сильно асимметричных распределений среднее арифметическое плохо характеризует центральную тенденцию, да и 95% ДИ нужно грамотно рассчитать...

Лично я в последнее время полностью отказался от медианы и квартилей в описании данных (за исключением цензурированных данных). Привожу всегда среднее и 95% ДИ. Но вычисляю их так:
а) для не сильно асимметрично распределённых данных (данные в пределах выборки не изменяются на порядки) и для очень малых выборок рассчитываю обычное среднее арифметическое, а 95% ДИ вычисляю непараметрическим бутстрепом (методом процентилей, или чаще ВСа).
б) для данных, для которых известно, как именно их распределение отличается от нормального 1) нормализую данные преобразованием, 2) вычисляю среднее и 95% ДИ, 3) полученные 3 значения ретрансформирую в исходную шкалу с помощью наивного обратного преобразования. Это, например, для логнормально распределённых данных (логарифмическое преобразование), для площадей (преобразование квадратного корня), для % (фи-преобразование арксинуса).
в) для резко асимметрично распределённых данных, для которых теоретическое распределение неизвестно, использую схему (б), но только с прямым и обратным преобразованием Бокса - Кокса.

Именно так я бы представил данные в таблице, а подкрепить различия статистически можно любым хорошим критерием. Критерий Манна - Уитни - "хороший", в том смысле, что мощный: на больших выборках из нормально распределённых генеральных совокупностей только на 5% уступает в мощности критерию Стьюдента. Но мне не нравится сама идея заменять исходные количественные значения (шкалы отношений и интервалов) рангами и таким образом недоиспользовать имеющуюся информацию. Поэтому для количественных, а не исходно порядковых (порядковая шкала) данных лучше провести сравнение точным рандомизационным критерием (Exact permutatuion test) или, если точный вариант невозможен ввиду вычислительных ограничений - рандомизационным критерием Монте-Карло (Monte Carlo permutatuion test). Рандомизационный критерий можно организовать напрямую для разности средних значений. Но если ориентироваться на пакеты с кнопочным интерфейсом - использовать доступные рандомизационные техники.
  Форум: Медицинская статистика · Просмотр сообщения: #22761 · Ответов: 2 · Просмотров: 765

nokh
Отправлено: 7.03.2018 - 22:36


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(sanabat @ 7.03.2018 - 04:04) *
... У меня есть 5 независимих групп сравнения респондентов. Они отвечали на несколько вопросов 'да','нет' или 'не знаю'. Сделала таблицу 5х3. Корректно ли сравнивать ети 5 груп используя хи-квадрат? и если есть различия надо ли делать попарние сравнения? какой критерий при етом можно использовать? спасибо

1. Как уже было указано выше, в простом варианте задачу можно решать с использованием разных методов. Другое дело что не нужно.
а) Критерий хи-квадрат Пирсона был предложен в 1901 г и до сих пор популярен.
б) Его более современный аналог, известный как джи-квадрат или критерий отношения правдоподобия многократно переоткрывался в 1950-70-е потому известен также как информационный критерий Кульбака, G-критерий Вулфа, хи-квадрат максимального правдоподобия и критерий максимального логправдоподобия. Ввиду отличной теоретической проработанности (в отличие от эмпирического хи-квадрата) Сокалом и Рольфом рекомендуется использовать всегда вместо хи-квадрата.
в) Поскольку а) и б) основаны на теоретическом распределении хи-квадрат для них существует проблема допустимого минимального ожидаемого, которая заключается в том, что для слабонасыщенных таблиц сопряжённости (ТС), критерии плохо аппроксимируются распределением хи-квадрат. Этого недостатка лишён рандомизационный критерий Монте-Карло (Permutation test, Monte Carlo test) который стал практически доступен только с появлением компьютеров уровня 1990-х гг. В нём р-значение получается компьютерным перебором десятков и сотен тысяч вариантов минуя любые распределения.
г) Ещё лучше в) точный рандомизационный критерий (Exact permutation test). Он похож на в), но в ходе проверки генерируются не случайные таблицы с такими же краевыми частотами как у исходной, а в точности все возможные. Для ТС с большим числом наблюдений это может быть непосильной задачей даже для современных компьютеров, но это - самый точный из всех существующих функциональных аналогов.
Теперь, зная это, а также то, что критерий Пирсона корректен, ответьте себе: на каком уровне вы хотите сработать в XXI веке: 1930-х, 1970-х или 1990-х годов?

2. В анализе ТС попарные сравнения не проводят. Если омнибусный критерий пункта 1 отклоняет нулевую гипотезу об отсутствии различий, то далее ищутся ячейки, давшие наибольший и неслучаный вклад в статистику критерия. Это делается с помощью расчёта отклонений Фримана - Тьюки (Freeman-Tukey deviation) или согласованных стандартизованных остатков, называемых также остатками Хабермана (Adjusted residuals). Они дают р-значение для каждой ячейки ТС.

3. Применяя схему 1+2 к каждому вопросу в отдельности вы недоиспользуете имеющуюся информацию. Почитайте про логлинейный анализ (Log-linear analysis) и анализ соответствий (Correspondence analysis). Я бы вообще начал с последнего, а обнаруженные тенденции выборочно подтвердил бы простыми тестами.

4. Варианты 1-3 подразумевают, что категории 'да','нет', 'не знаю' - номинальные. Хотя, возможно, где-то они и порядковые, т.е. "не знаю" может стоять не особняком от "да" и "нет", а между ними. Также для каких-то вопросов "не знаю" может быть почти "да", для каких-то - почти "нет" и т.п. Психологи пользуются многомерными техниками, основанными на преобразовании Джифи (Gifi) , которые позволяют оцифровать порядковые и номинальные данные и разобраться с этим.
  Форум: Медицинская статистика · Просмотр сообщения: #22737 · Ответов: 17 · Просмотров: 1606

nokh
Отправлено: 7.03.2018 - 21:44


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Рассуждения ошибочны. Читайте про двухфакторный дисперсионный анализ (ДА) и нормализующие преобразования данных. Ну а чтобы впредь не возникало даже мысли обсчитывать один эксперимент десятками примитивных методов также читайте про принципы статистической проверки, про удержание проверки семейства гипотез на заданном уровне значимости, про ужасные поправки типа Бонферрони и про мощность статистической проверки.
А вообще, чем сложнее анализ, тем сложнее найти для него непараметрический ранговый аналог. Т.е. это - потенциально тупиковый путь. Если и использовать непараметрику, то ресэмплинг. Двухфакторному ДА уже просто нет рангового аналога, т.к. даже критерий Даны Квейд не способен обнаружить взаимодействие факторов.
  Форум: Медицинская статистика · Просмотр сообщения: #22736 · Ответов: 7 · Просмотров: 633

nokh
Отправлено: 22.02.2018 - 23:07


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(nastushka @ 22.02.2018 - 17:04) *
1. есть данные, в них 20 переменных
2. нужно кластеризовать эти 20 переменных, т.е. выделить классы схожим переменных
3.затем найти людей, которые "кучкуются" у каждого класса переменных.

Задачу лучше решать ординационными (проекционными), а не кластерными техниками. Повторяю это из поста в пост, т.к. в учебниках проблема прописана плохо. Ваши 20 переменных могут образовать, скажем 3 паттерна, за каждым из которых стоит отдельный процесс, причём 15 переменных изменяются согласованно, т.к. обусловлены одним процессом, 4 - другим процессом, 1 переменная отражает третий процесс. Если пытаться кластеризовать 20 переменных, то ведущий процесс подавит при кластеризации более слабые. Или неудачный выбор переменных выведет на первое место второстепенный процесс. Психологи это знают и при разработке тестов (тестология) стараются нагрузить разные предварительно выявленные процессы примерно равным числом показателей. Иначе вы будете думать, что провели кластеризацию по всем 20 переменным, тогда как на дендрограмме будет отражено сходство только по 15. Кластерный анализ - хорошая эксплораторная техника, но её лучше проводить не на исходных данных, а на метках (scores) латентных обобщающих переменных, выделенных с помощью ординационных техник типа главных компонент, главных координат, факторного анализа. А ординационные техники позволят выйти на число таких кластерообразующих процессов. В ходе их применения возможно построение двойных графиков (biplot) - биплотов, которые в пространстве выбранных осей отобразят векторами сами переменные, а точками - объекты. Таким образом из анализа полученной ординационной дендрограммы становится понятным: (1) какие переменные и с каким знаком "участвуют" в латентной переменной, (2) какие объекты имеют большие значения по этим переменным и, собственно, обусловливают формирование наблюдаемых патттернов показателей. Часто точки объектов образуют на таких графиках скопления, т.е. собственно кластеры. В зависимости от объёмов выборок номера таких объектов можно либо просто выписать вручную, а можно применить к рассчитанным для кажого объекта значениям обобщающих шкал (меткам) кластеризацию методом к-средних, введя в качестве числа кластеров то число, которое подсказали ординационные диаграммы.
  Форум: Медицинская статистика · Просмотр сообщения: #22665 · Ответов: 9 · Просмотров: 949

nokh
Отправлено: 16.02.2018 - 22:55


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(bubnilkin @ 16.02.2018 - 03:53) *
Прошу прощения, что вклиниваюсь. Хотел уточнить: А не надо ли случайно рисовать разницы между средними и ДИ к этим разницам ? Или это как доп. иллюстрации ?

Вы же читаете статьи, много графиков с разностями вы видели? И доп. иллюстрации редакция не пропустит. Я видел мало, но у гигиенистов встречаются, у токсикологов, только они разность выражают в % от исходного значения (дельта, % ) или норматива. Также разность с ДИ кажется более уместной для иллюстрации величины эффекта в зависимых выборках, но, я всё равно строю обычно сами средние с ДИ...
  Форум: Медицинская статистика · Просмотр сообщения: #22646 · Ответов: 22 · Просмотров: 2775

nokh
Отправлено: 16.02.2018 - 22:17


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(med-ick @ 16.02.2018 - 19:09) *
... Как в случае беспилотного транспорта выглядят данные для классификации или сегментации...

Беспилотный транспорт беспрепятственно везёт пациентов в психоневрологическое отделение для классификации: майнили data! на феRмах!
Интересно: в строках - объекты, в столбцах - атрибуты, а где же зависимая переменная?
И которая из них выглядит как картинка, а которая как беспилотный транспорт?
Все загримированы и улыбаются: сегментация уже началась... Но почему-то один всегда плачет - распознан?
К сожелению опять excel! А ведь я так хотел поделиться радостью, что тоже, тоже "иногда читаю некоторые статьи"!!!
Но leo_biostat меня опередил... Они нашлись! Сэта гудьба (с) И полный фейерверк (с)
  Форум: Медицинская статистика · Просмотр сообщения: #22645 · Ответов: 3 · Просмотров: 428

nokh
Отправлено: 15.02.2018 - 19:47


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Cules2013 @ 8.02.2018 - 15:05) *
1. Требования к ANOVA. Я тут почитал, в т.ч. темы данного форума и пришёл к выводу, что одни считают, что нужна нормальность данных по каждой выборке (ссылаются на Петри "Наглядная статистика в медицине"), другие (в т.ч. и вы) говорят о нормальности распределения остатков. Кто больше прав? Хотелось бы знать, на кого ссылаетесь вы.

Любой учебник, где говорится о требовании нормальности распределения в выборке - сразу в топку. Речь может идти только о нормальном распределении в генеральной совокупности (ГС), откуда эта выборка извлекается. Широко известный в узких кругах отечественных статистиков и прикладников профессор Орлов вообще против подхода с оценкой нормальности по выборкам и остаткам типа для выбора грамотного способа выборочных сравнений, поскольку сама такая проверка принципиально сложнее задачи выборочных сравнений. Тем не менее в массе - проверяют. Если распределение в ГС нормальное, то и остатки модели будут распределены нормально. Но распределение в ГС мы часто не знаем, а оценить его по выборке не можем, ввиду её малого объёма (3 мышки DrgLena). Поэтому проверяем остатки: это и грамотнее, и реализуемо практически. Почитать нужно обязательно учебник(и) Дугласа Монтгомери - дядька крутой. Есть старое (2 или 4-ое) издание его книги на русском, а на английском уже 7 изданий. В переводной версии см. на стр. 36-37 формулу и его ответ на вопрос, хотя читать нужно всё.
Цитата(Cules2013 @ 8.02.2018 - 15:05) *
2. GraphPadPrism 7 позволяет считать нормальность остатков и строить график, но ...

Чё вы к этому Графпаду прицепились? Потому что немного её освоили? А если в освоенной программе нет нужного метода или он плохо реализован? Путь от пакета - тупиковый. Нужно наоборот идти от метода и искать такой пакет, где он реализован лучше всего. Далее. ДА - одно, регрессия - другое, и хотя это неверно, но на данном этапе вам будет полезнее думать об этих методах как о разных техниках (хотя ДА можно описать регрессионной моделью - разобрано понятно у Сокала и Рольфа).
Цитата(Cules2013 @ 8.02.2018 - 15:05) *
3. Вы говорите о нормальности остатков, но в тоже время и о критерии Шапиро-Уилка. Это же разные вещи...

Лопата - инструмент, позволяющий копать. Почву, песок, дресву и т.д, мы даже как-то донные отложения умудрились штыковой лопатой отобрать... Критерии проверки нормальности - инструмент, проверяющий нормальность. Выборок, остатков ANOVA, остатков регрессий любой сложности... Нет разницы.
Цитата(Cules2013 @ 8.02.2018 - 15:05) *
4. На форуме тут откопал такое мнение, что ANOVA - это робастный метод, поэтому нормальность и однородность могут быть частично нарушены. Что значит "частично" и как это определить количественно в стат. программе - вопрос на миллион.

Робастны. Количественно - вряд ли. В 2х словах не ответить, нужно начитывать литературу и пробовать. Однозначно: нужно стремиться выполнять требования модели анализа максимально. Но если они не выполняются, то выбор (1) делать всё равно "ибо модель робастна" или (2) преобразовывать данные для удовлетворения требованиям модели или (3) искать более подходящую модель - не столь однозначно. Это - не верная дверь, это - путь.
Цитата(Cules2013 @ 8.02.2018 - 15:05) *
5. Понимаю, что прошу немало, но всё же, пожалуйста, если можете, подкрепляйте свои выводы конкретными ссылками на лит-ру. ... И те, кто пишет о сравнениях и прочих подобных вещах, часто углубляется в формулы, чистую математику, и среди деревьев леса не видно.

Ну дак математики тоже люди. Им интересно заниматься именно тем, что умеют - это их поле. Прикладникам часто сложно читать такие работы. А выбор в пользу тех или иных методов делается обычно на основе численных экспериментов: генерируются данные с нужными свойствами и на них проверяются насколько хорошо справляются с задачей те или иные методы. С приходом среды R такие симуляции стали доступны не только математикам и атишникам.

Ссылка на хорошие книги: https://yadi.sk/d/0Jb-3hSLmK837
Обратите особое внимание на 2 англоязычные: по ним преподают биостатистистику во многих университах.
Бонусом - несколько программ и рассчётный файл Excel, сделанный когда-то плавом и дополненный мной байесовским апостериорным интервалом Джеффриса.
  Форум: Медицинская статистика · Просмотр сообщения: #22638 · Ответов: 22 · Просмотров: 2775

nokh
Отправлено: 15.02.2018 - 14:52


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(passant @ 15.02.2018 - 15:00) *
.... А делов-то - на 24 бумажках написать фамилии (или номера),перемешать и вытянуть из шапки случайным образом. Между прочим, теоретически - действительно, самое "случайное" из возможных решений. Но нет, высоконаучный совет-редакция не пропустит. smile.gif

Раньше вместо всех этих сложных схем обходились одной таблицей случайных чисел, хотя действительно можно и шапкой с бумажками обойтись:

Вариант 1. Кладём в шапку 24 фамилии и вытягиваем 12 случайных назначенцев в первую группу, а те что останутся - вторая группа. Это - тот вариант рандомизации (Р), который предложил я и который топикстартер так и не осилил.
Вариант 2. Берём 2 шапки (группа 1 и 2) с 24 фамилиями каждая. Достаём сначала фамилию из шапки1 - быть ему в группе 1. Затем достаём из шапки 2 - быть ему в группе 2. Если на очередном шаге оказывается фамилия, по которой решение уже принято - просто пропускаем её и тянем следующую. Получаем вариант с "задвоениями", который тем не менее тоже делит выборку на 2 части случайным образом.
Вариант 3. Берём 2 шапки: в одной 24 фамилии, в другой две бумажки: группа 1 и группа 2. Достаём из первой шапки фамилию, а из второй - решение по ней. Получаем вариант "полной" Р, где "случайное назначение" применяется к каждому испытуемому и который сопровождается дисбалансом объёмов выборок.

Полагаю, за множеством подходов к Р важно не потерять суть: для чего она нужна. Р нужна, чтобы неконтролируемую исследователем изменчивость случайным образом "размазать" по группам, чтобы вдруг не принять за лечебный или иной эффект совсем другой неконтролиролирумый эффект. Пусть в фаворе вариант 3, но если у нас в выборке есть скрытый больной, то при всех трёх вариантах он имеет равные шансы оказаться в одной из 2х групп, аналогично по другим "вмешивающимся" показателям. И пока я решительно не понимаю, чем вариант 1 или 2 хуже 3. Более того, полная рандомизация с неравным числом участников в группах приведёт к более сильным смещениям интересующих и иных харакеристик. Предположим мы сработали по варианту 3 и получили 20 фамилий в одной группе и 4 - в другой. Если больной окажется в группе из четырёх - он будет в состоянии сильно сместить результат. Если же его "замешать" в большую группу - его эффект будет не столь сильным. Т.е. оптимальным является равное число участников в группах, из теории планирования исследования это давно известно, но вот "теория рандомизации" против. Про латинские и греко-латинские квадраты тогда вообще забыть нужно как "неполиткорректные" антагонисты рандомизации...

То, что "полная" и какие-то ещё рандомизации - не панацея, тоже известно. DrgLena предложила наложить на такую Р ограничение - стратификацию по полу. Исходя из биологии это - логично. Но тогда мы будем иметь не случайную в узком смысле слова выборку, а вероятностную стратифицированную выборку. А раз мы уходим от чисто случайных, то почему бы не взять другой вариант вероятностной выборки - ту же механическую, которую выше тоже рекомендовали. Короче, здравый смысл иногда допускает, а иногда просто заставляет накладывать на полную рандомизацию ограничения, но рецензенты будут требовать "рандомизации и мощности" - ну да, этакий модный тренд (своё мнение о рецензентах озвучивал в соседней теме).

Но! Учиться хотим и будем mad.gif ! Поэтому благодарен DrgLen'е за все экзерсисы и ссылки.

PS. Перечитал... Шапки, конечно, это по нашему, но контрастирует с дегустирующими чай ледями, омнибусными критериями, сломанными тростями и шнурками от ботфорт... Поэтому автохтонный и аутентичный способ рандомизации - мешать бумажки в циллиндрах там или котелках...
  Форум: Медицинская статистика · Просмотр сообщения: #22636 · Ответов: 35 · Просмотров: 4712

nokh
Отправлено: 12.02.2018 - 23:13


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(passant @ 12.02.2018 - 18:39) *
... Зная подходы к учебе у студентов, я бы все-таки это вписал в методичку, а то задерут вопросами :-)

Благодарю за совет! Может и стоит это сделать, чтобы не было когнитивного дисонанса от изменения самих величин случайных значений после сортировки. Но, полагаю, для решения задачи рандомизации это не принципиально: ведь динамически генерируемые случайные числа остаюся случайными и в первой колонке всё равно будет случайная последовательность. Ведь так? И ещё вам везёт со студентами, у меня дети хорошие, но преимущественно - инфантильные или слабомотивированные какие-то, сильные и любознательные есть, но их мало. Хотя в магистратуре уже повеселее...

У меня тоже есть вопрос к форумчанам по рандомизации. В статьях нередко описывается полная рандомизация, приводящая к разному числу объектов в экспериментальных группах. Зачем это делается? В чём преимущество такой полноты в ущерб мощности?

>100$ Подколки - подколками, но поработав над монографиями я стал иначе относится к авторам "больших" форматов. Имею в виду форматы, которые больше научной статьи. Раньше сам щедро разавал "комплименты" авторам. Когда-то было даже так: принесу странички из книг на занятие и даю задание найти ошибки у авторов по пройденной теме. Сейчас только хвалю хорошие работы, а про слабые просто умалчиваю (к статьям это не относится). Потому что понял, сколько времени и труда нужно авторам хотя бы на то, чтобы скомпиллировать разрозненный материал, не говоря уже о практически полном оригинальном авторском изложении. Когда Практикум выйдет - выложу в открытй доступ. Там не ахти - 16 лабораторных, но зато полностью моё. Ляпы, конечно тоже будут, надеюсь только что не много и не сильных... А за студентов я тоже боюсь, но их калечит не ВУЗовский формат, не преподы, а нереализовавшиеся или гиперреализовавшиеся родители, довузовская система образования и неуверенность в востребованности получаемых знаний для хорошего трудоустройства и карьеры.
  Форум: Медицинская статистика · Просмотр сообщения: #22616 · Ответов: 35 · Просмотров: 4712

nokh
Отправлено: 12.02.2018 - 04:44


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(ЛенвГо ошко @ 11.02.2018 - 18:21) *
...По прежнему не получается сделать то, что нужно. Во-первых, не срабатывает функция Rnd(). Ы ячейке так и остается название функции, а никакое новой число не появляется. Во-вторых, после выделения двух столбцов не нахожу "Сортировка и фильтр" и т.д. Пожалуйста, дайте мне еще подсказку! Очень нужно!

Ну так "по аналогии" не означает "в точности так же". Согласно первому попавшемуся толковому словарю Ефремовой, аналогично - это "основываясь на сходстве с кем-л., чем-либо, по образцу кого-л., чего-л., согласно какой-л. формуле, схеме". Схема-то та же:
(1) первый столбец - числа от 1 до n,
(2) во втором - случайные числа,
(3) сортировка массива по второму столбцу,
(4) назначение нужного количества первых номеров в первую группу.
Про функцию Rnd() нужно было прочитать и догадаться написать хотя бы Rnd(1) чтобы было как в Экселе (хотя выбор числа не принципиален), а сортировку провести в Data - Sort или где она там находится в 13-ой версии (читайте инструкцию к пакету). За желание и попытку провести рандомизацию ставлю вам 5, за несамостоятельность и несообразительность - 2, в среднем пока 3,5 - округлим по результату. Остальные работы ещё не проверял:)
  Форум: Медицинская статистика · Просмотр сообщения: #22610 · Ответов: 35 · Просмотров: 4712

nokh
Отправлено: 11.02.2018 - 16:02


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


У меня есть заготовка с ответом из выходящего в этом году Лабораторного практикума по биостатистике, но только в Excel - прикрепил. Если нужно сделать именно в Statistica - по аналогии самостоятельно. Там функция генератора случайных чисел - Rnd(). Чтобы веселее работалось - замечательная песня в стиле сайкобилли: Matchless - Randomly Generated Numbers ( https://www.youtube.com/watch?v=Z1tz91d6rZc ).
Прикрепленные файлы
Прикрепленный файл  Rundom_Excel.pdf ( 109,82 килобайт ) Кол-во скачиваний: 31
 
  Форум: Медицинская статистика · Просмотр сообщения: #22602 · Ответов: 35 · Просмотров: 4712

nokh
Отправлено: 7.02.2018 - 15:07


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Ещё в догонку по поводу того, что БК не нормализует идеально, а где-то даже ухудшает нормальность. Такой результат - несовпадение того как работает преобразование БК, и как оценвает его результаты критерий Д'Агостино - Пирсона. Преобразование Бокса - Кокса, будучи гибким степенным преобразованием, идеально устраняет асимметрию распределения. Поскольку многие биологические, химические, экономические и др. показатели имеют часто положительно асимметричные распределения, для их нормализации традиционно применяются степенные преобразования. Кто не умеет БК - логарифмирует и т.о., пусть не идельно, но поджимает хвост распределения. БК делает это идеально. Другая мера формы - эксцесс - более сложная и "мутная", т.к. процессы, которые к ней приводят не столь очевидны как в случае асимметрии. Это может быть и смесь распределений с близкими средними, и действие стабилизирующего отбора, может что-то ещё... Как исправлять (нормализовать) эксцессы и нужно ли это - не ясно.

Критерий Д'Агостино - Пирсона, как и критерий Харке - Бера, задействует в расчётах обе меры формы: и асимметрию, и эксцесс. Поэтому в случаях, когда распределение изначально было не слишком асимметричным, преобразование БК даже немного ухудшая эксцесс, приводит к более плохим значениям статистики критериев. Поэтому идеально оценивать результативность преобразования БК - по критерию асимметрии. Я обычно смотрю критерием Шапиро - Уилка (считается, что он чаще других правильно оценивает отклонения от нормальности - см. Кобзарь. Прикладная мат. статистика) и пока противоречий не замечал.
  Форум: Медицинская статистика · Просмотр сообщения: #22566 · Ответов: 22 · Просмотров: 2775

nokh
Отправлено: 7.02.2018 - 09:04


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Cules2013 @ 6.02.2018 - 16:32) *
1. Ошибка модели - это что значит? Не совсем понимаю.

Так ведь читать нужно. В хорошей книжке найдёте формулу модели дисперсионного анализа. А в этой модели есть член - ошибка или остатки (residuals). О нём речь.
Цитата(Cules2013 @ 6.02.2018 - 16:32) *
2. Бокс-Кокс я применял к каждой отдельной группе. Разве адекватно объединять все группы в один массив и приводить его целиком к нормальности? Это же несвязанные группы, а экспериментальное воздействие на каждую из них разное. По идее, каждая же группа, должна относится к своей ген совокупности...

По идее, согласно нулевой гипотезе, все группы относятся к одной генеральной совокупности, а статметоды проверяют именно нулевую гипотезу. Вот что вы сделали: вместо значений одной группы взяли обратные значения 1/х (лямбда=-1), из значений другой группы взяли логарифм (лямбда=0), значения третьей группы оставили без изменений (лямбда=1), а значения четвёртой группы возвели, скажем, в квадрат (лямбда=2). И как после этого вы собираетесь сравнивать преобразованные средние? shok.gif Очевидно, что нужно либо всё оставлять без изменений, либо всё логарифмировать, либо ещё что...
Цитата(Cules2013 @ 6.02.2018 - 16:32) *
3. ...Бокса-Вискера не такое дно, как вы описали, тем более, что ясень пень, что я указываю достоверность различий звёздочками, а как иначе?

А разве я писал про "достоверность" (которая, кстати, таковой не является и на что указывалось выше) применительно к звёздочкам? И да, если в статье даны такие коробчатые графики, как я описал - это именно дно. Хорошая аналогия, порождающая целый ассоциативный ряд. Я так и вижу этих красненьких самоуверенных червячков, копошащихся в донных отложениях, весело пожирающих остатки друг друга и то, что нападало сверху. Но только на поверку кто-то из них окажется хирономидой, всплывёт и полетит (возможно, выше и дальше меня), а кто-то - трубочником, удел которого всю жизнь ковыряться в этом ... детрите. И за рубежом - подобное. Анализ публикаций биомедицинской тематики за вычетом обзоров показывает, что около 20-30% из них содержит некорректную статистику, а около 50% и более - мозаичные работы, когда отдельные части сделаны типа корректно, но общая идея или концепция подхода к анализу данных не прослеживается: одно подсмотрели у одних, другое - у других и получается такой более-менее статистически сносный винегрет. И только 10-20% работ действительно хороши или даже безупречны, на которые стоит равняться. Соглашусь с вами в том, что по сравнению с отечественными работами это очень высокий процент. И - да, рецензенты нередко такие же черви...
Цитата(Cules2013 @ 6.02.2018 - 16:32) *
Смотреть форму распределения на Бокса-Вискера - это как? А всякие бэгплоты и Q-Q плоты зачем тогда?

Так если читать у тех, кто про "Бокса-Вискера" пишет, так и не понять. Читайте тех, кто пишет про "Box-and-Whisker PLot".

PS
> модератор. Квотинг есть, но надеюсь - не овер:). Если "оверквотинг" запрешён, это следует прописать в правилах форума, а то "мужики-то не знают" (с)
  Форум: Медицинская статистика · Просмотр сообщения: #22559 · Ответов: 22 · Просмотров: 2775

nokh
Отправлено: 6.02.2018 - 12:33


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


1. Про то, что данные не могут быть (не)параметрическими вам уже указали.

2. Про то, что проверять нужно нормальность распределения ошибки модели, а не лазить по отдельным группам - тоже.
Поскольку все преобразования применяются к единому массиву данных, то и оценивать его результативность нужно применительно ко всему массиву. Естественно, что в отдельных группах при этом возможно появление положительной или отрицательной асимметрии распределения, т.е. типа "ухудшение" нормальности.

3. Формула обратного преобразования Бокса - Кокса правильная. Нужно только определиться что по ней вычислять. Однозначно нельзя вычислять ретрансформированием ошибку среднего, т.к. это просто неверно. По преобразованным данным вам нужно рассчитать среднее и 95%-ные доверительные интервалы (ДИ) для среднего - их и ретрансформировать. Про то, что ретрансформация по приведённой вами формуле называется наивной я уже писал и давал литературу - см. мои сообщения #8, #10 здесь: http://forum.disser.ru/index.php?showtopic=4111 ДИ после ретрансформации в исходную шкалу станут асимметричными, как собственно и само распределение - это логично. Также см. сообщение #10 здесь: http://forum.disser.ru/index.php?showtopic=3591

4. На графике следует давать среднее с ДИ, а не строить коробчатый график (Box-and-Whiskers Plot). Кстати это не "Бокса-Вискера", а "ящик с усами" smile.gif . Этот тип графика хорош для быстрого взгляда на форму распределения и только. Подавляющее большинство исследователей строят такие графики только потому, что видят их в работах по своей тематике у других. А эти другие строят такие графики только потому, что не умеют построить графики среднего с асимметричными 95% ДИ. Рискну утверждать, что те, кто строит такие графики с обозначенными снежинками якобы выбросами вообще мало что понимают в биостатистике, потому что просто не знают про асимметрию распределения большинства биологических показателей. Короче, Box-and-Whiskers Plot в статью гораздо чаще правильнее не строить. В свои черновики - можно, хотя если позволяет объём выборок, то лучше посмотреть гистограммы распределений.

5. По графикам. Насколько я знаю, в Statistica вы графики с ретрансформированными средними и ДИ не построите. Достаточно просто это можно сделать в R: пакет scales позволяет прописать лямбду и шкала графика + все объекты на нём автоматически ретрансформируются из Бокса - Кокса в исходный масштаб. Также в R можно построить графики по средним с ДИ, уже вычисленным ретрансформацией где-либо до этого (Statistica, Excel, ...). Я обычно строю такие графики в пакете KyPlot; нужны версии до 3.0 - они были бесплатными и не урезанными, в сети можно найти 2.13 и 2.15 . Там можно вручную прописать в ячейках средние и ДИ и строить график типа как в Excel. Лучше, конечно, сразу осваивать R, а не заведомо устаревший пакет, но версию 2.15 горячо любимого мной KyPlot могу выложить.

PS сообщение выше не читал ещё, отвечал на первый пост...
  Форум: Медицинская статистика · Просмотр сообщения: #22554 · Ответов: 22 · Просмотров: 2775

nokh
Отправлено: 1.02.2018 - 22:59


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


> ogurtsov, p2004r
Благодарю! Буду пробовать кроссвалидацию, включающую стадию препроцессинга, когда напишу такую функцию, чтобы в процессе анализа ни разу не выпрыгнуть из R в Excel (грешу этим:)
  Форум: Медицинская статистика · Просмотр сообщения: #22531 · Ответов: 5 · Просмотров: 796

42 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена