Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

41 страниц V   1 2 3 > » 

nokh
Отправлено: 7.12.2017 - 23:02


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


А какова всё-таки цель работы? От этого зависят ответы.
1) Если цель - прогноз, то регрессия типа вашей уместна. Другое дело, что данных для неё маловато (есть редкие сочетания предикторов). И не совсем ясна практическая польза: её можно использовать только для тех лет, которые есть в наборе, т.к. фактор "Год" - случайный, т.е. его нельзя воспроизвести в других исследованиях (в отличие от месяца или породы).
2) Если цель - разобраться с влиянием на признак всяких факторов и их взаимодействий, то просится ANOVA. Но процитированный вами отрывок - грубый подход. По хорошему здесь нужно раскладывать изменчивость (дисперсию) на компоненты. Это делается исходя из формул математических ожидаемых средних квадратов: оттуда берутся дисперсии (для случайных эффектов) или квадратичные формы (для фиксированных эффектов), всё суммируется и пересчитывается в %. По-русски можно прочитать в Дуглас Монтгомери "Планирование эксперимента и анализ данных" (есть в сети). Пакеты могут с этим справляться плохо, т.к. работают с моделями случайных эффектов, а не смешанных. Но может какие-то и справятся. Найдёте - поделитесь, надоело вручную считать...
  Форум: Медицинская статистика · Просмотр сообщения: #22308 · Ответов: 7 · Просмотров: 212

nokh
Отправлено: 1.12.2017 - 23:23


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(vitako @ 1.12.2017 - 13:28) *
Добрый день, уважаемые колеги!
Прошу совета по использованию критерия Уилкоксона (связанные выборки, критерии нормальности не выполняются)
для сравнения данных, полученных до и после лечения.

Столкнулся с тем, что различные программыные продукты выдают различные значения (р) для этого критерия.
Перепроверял на различных выборках, но результаты постоянно разнятся.

...
Более того, Программа Биостат (Гланц) выдает еще одно, третье значение того же критерия.

Раннее с ситуацией столь сильных различий в рассчитанны показателях не сталкивался.

Подскажите, пожалуйста, почему результаты вычислений разнятся и какой программой лучше пользоваться в моем случае.


1. Различия в значениях статистики Уилкоксона. Для вашего примера разные пакеты могут выдавать в качестве результата:
372 - сумма рангов отрицательных разостей
93 - сумма рангов положительных разностей
Статистику можно считать по любому из этих значений, но обычно для критериев Уилкоксона и Уилклксона - Манна - Уитни берётся меньшая сумма рангов. Т.е. более "книжный" ответ 93. Хотя разницы никакой: 93-239,5=-139,5, а 372-239,5=+139,5, а в формуле берётся абсолютное значение этой разности.

2. Различия в р-значениях. Для вашего примера разные пакеты могут выдавать в качестве результата:
Асимптотическое значение без поправок: z=2,8693; Р=0,004114
Асимптотическое с поправками на непрерывность и ещё чем-то: z=3,2863; Р=0,001015 или z=3,2746; Р=0,001058
(не разобрался быстро что за поправки, т.к. если использовать обычную поправку 0,5, то значение z должно быть меньше, а не больше. В учебнике Zar приводится 4 формулы с разными поправками, учётом нулевых разностей и связанных значений. Похоже увеличивает z поправка на связки)
Рандомизационный критерий методом Монте-Карло (n=500000): Р=0,001450
Точный рандомизационный критерий: Р=0,001431.

Аналогичная ситуация, например, с критерием Макнемара, который тоже везде считается по-разному.

3. Результаты всех известных пакетов по-своему правильны, т.к. берут формулы в лучших учебниках - можно использовать любой пакет. Только в "Материалах и методах" нужно не забыть указать какой именно пакет и его версию. Лучше если это будет пакет на который у вас есть лицензия или бесплатный.

4. Анализ связанных выборок желательно дополнять анализом разностей:
- привести среднюю разность с 95% ДИ бутстрепом (раз нормальность не выполняется),
- поработать с данными по объектам, отличающимся от основной массы. В вашем примере это 6 случаев с положительной разностью против 24 с отрицательной. Можно поискать особенности для этих 6 случаев в других показателях: почему именно они среагировали иначе. В этом будет больше "доказательной медицины".
  Форум: Медицинская статистика · Просмотр сообщения: #22284 · Ответов: 5 · Просмотров: 220

nokh
Отправлено: 29.11.2017 - 00:25


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Я тут подумал и решил усомниться в исходно композиционном характере данных. Очень часто люди загоняют в композиции полноценные (ну или почти полноценные данные), т.к. смешивают статистический анализ с удобством интерпретации. Интерпретировать иногда, действительно, удобнее в %, но если человек пару-тройку раз прошёл через ад всяких лог-преобразований Эйчисона со структурными нулями и с потолка взятыми значениями для неструктурных нулей, то остатвит всё это на тогда, когда без этого вообще никак не обойтись.
Например, аммоний, нитриты и нитраты в воде являются последовательными стадиями окисления азота органического происхождения. Они выражаются в мг/л, т.е. строго говоря это тоже композиция, но речь идёт о миллионных долях (ppm), когда композиция никак не влияет на связь между показателями. Если для интерпретации возникает желание оперировать %-ным соотношением азота в разных формах, то пересчёт на % даст полноценную композицию со всеми вытекающими проблемами. В то же время хлориды, сульфаты и гидрокарбонаты в воде представляют собой классическую композицию: они выражаются в % от общего состава и если чего-то станет меньше, то остального станет больше автоматически - здесь придётся повозиться. Кстати, если геологи почти сразу пришли к грамотному анализу таких данных, то гидрохимики уже 25 лет в пути, медики (в массе) - в начале пути (формула крови - композиция), а биологи (в массе) даже не слышали про такое. Оно и понятно, проблемы появляются только при многомерном анализе, а до него многие просто не дорастают.

>Света К
Если ваши фракции исходно выражаются, скажем, в миллимолях на литр, то нужно пересчитать % в эти исходные величины и забыть про % как страшный сон. Вне жёсткой композиции можно прекрасно проверить 1 наблюдение на многомерный выброс по расстоянию Махаланобиса (с расчётом р-значения), а для 2х наблюдений - провести дискриминантный анализ (т.к. это - "совсем другое дело":)). Но опять-таки, это - чисто технические вещи, ими научную методологию не заменить.
  Форум: Медицинская статистика · Просмотр сообщения: #22268 · Ответов: 22 · Просмотров: 1269

nokh
Отправлено: 27.11.2017 - 06:51


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(p2004r @ 24.11.2017 - 03:35) *
PCA прекрасно расправляет "смеси" в тернарные трафики, отжимая лишнюю размерность. Здесь просто крайне мал размах варьирования состава, вот и не видно результирующего "треугольника(пирамиды)".

Прикольно! У меня никогда не было столько данных, чтобы увидеть треугольник, а с симуляциями не играл.
Цитата(comisora @ 26.11.2017 - 00:48) *
... Можете показать пример, как "сравнить/обработать" p1 и p2 и заполучить "заветное p<0.05"?

Сравнить два набора PC можно прокрустовым анализом с расчётом р рандомизационным критерием.
library(vegan)
protest(p1, p2, scores = "sites", permutations = how(nperm = 999))
#можно посмотреть статистику и разности матриц после прокрустова преобразования для определения наиболее сильных невязок:
difpc12<-procrustes(p1,p2)
summary(difpc12)
plot(difpc12)
plot(difpc12, kind=2)
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #22260 · Ответов: 22 · Просмотров: 1269

nokh
Отправлено: 23.11.2017 - 22:46


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


>p2004r
С обычным PCA здесь засада в виде композиционного характера данных. Где проходит граница допустимой степени "композиционности" не известно. Но традиционно для долей процентов (типа миллиграммы на литр или килограмм) ей пренебрегают и скорее всего обосновано. Но когда речь идёт о % и десятках процентов, композиции будут натягивать ложные корреляции. С 1990-х для многомерного анализа композиционных данных используют статистику Эйчисона, в т.ч. специальные предварительные преобразования "разворачивающие" constrained данные в как бы независимые. Разбирался давно и использовал ещё аддон к экселю "CoDaPack". Сейчас это есть в r, но пока не было подходящей задачи:
http://www.stat.boogaart.de/compositions/
https://cran.r-project.org/web/packages/rob...ions/index.html
  Форум: Медицинская статистика · Просмотр сообщения: #22233 · Ответов: 22 · Просмотров: 1269

nokh
Отправлено: 23.11.2017 - 22:07


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Диагностик @ 22.11.2017 - 19:00) *
Смотри [Закс Л., с.270-281].
Ранговый критерий Манна и Уитни [Mann, Whitney, 1947] основан на критерии Уилкоксона для независимых выборок. Он является непараметрическим аналогом t-критерия для сравнения двух средних значений непрерывных распределений.

Вопрос был о том, какую гипотезу проверяет критерий. Заметьте, не о том: (1) на чём основан критерий, (2) для каких выборок применяется, (3) аналогом чего он является, (4) для чего используется. У вас 4 ответа, но не на тот вопрос. Это сродни неверной диагностике: похоже, но не то.
passant сбил мой воинственный настрой задать вам последовательно все 3 технических вопроса и 1 риторический, который я хотел задать. Поэтому выложу всё кучей.

1). Во-первых, критерий УМУ, как уже было сказано, не проверяет гипотезу о различии средних. Соответственно вывод о том, что "Эффекта обработки не выявлено, статистически значимой разницы между средними значениями не обнаружено" является некорректным.

2). Ветка форума в формулировке топикстартера называется "Разница между средними значениями, Описать разницу". Критерий УМУ не позволяет вычислить разницу между средними значениями даже чисто технически, т.к. является ранговым критерием. А уж как описать разницу в терминах УМУ ума не приложу.

3). Почти всегда непараметрические критерии являются менее мощными по сравнению с параметрическими. Это логично, т.к. раз используется меньше информации, то её нехватку нужно чем-то компенсировать. Обычно - увеличением объёма выброк. Поэтому очевидно, что в условиях мизерных выборок нужно брать самое мощное, что только есть - параметрику. Ну или использовать самые современные подходы типа ресэмплинга, которыми сейчас поверяют и параметрику, и непараметрику. Вы же предлагаете использовать для малых выборок менее мощный УМУ, вероятно прочитав эту глупость в русскоязычной википедии. Т.о. даже корректный вывод о принадлежности выборок к разным совокупностям может не быть правильным, т.к. для обнаружения истиных различий просто не хватает мощности (хотя, как уже писал выше, её и так не хватает, причём всем, начиная с научного руководителя).

Т.о. технически критерий УМУ не уместен по трём причинам. И всё было бы ничего, если бы вы ответили в ветку первым: уровень и опыт у всех разный, а чтобы ресурс жил нужно чтобы кто-то отвечал на зачастую примитивные и потворяющиеся вопросы новичков. И ничего страшного, если совет не самый лучший - кто-нибудь поправит если что... Но вы пришли уже после того, как были предложены и доверительные интервалы, и ресэмплинг, и его вариант в конкретной программе: типа считайте УМУ. Т.е. вы не согласны с предложенными до вас подходами и уверены что предлагаете лучший варант? Тогда напишите чем он лучше, и мы подискутируем. Иначе вы просто вводите топикстартера в заблуждение, а консультантов в ветке провоцируете на агрессию по отношению к вам.
  Форум: Медицинская статистика · Просмотр сообщения: #22231 · Ответов: 35 · Просмотров: 2680

nokh
Отправлено: 22.11.2017 - 16:31


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Диагностик @ 22.11.2017 - 16:00) *
Я посмотрел по таблице Uкр=1. У Вас 2. Вывод - гипотеза о том, что эти две выборки принадлежат к разным распределениям не подтверждается. Эффекта обработки не выявлено, статистически значимой разницы между средними значениями не обнаружено.

Вы бы ещё критерий знаков использовали и всех обучили этому. Кстати, Диагностик, а разве U-критерий проверяет гипотезу о равестве средних? Для дальнейшего роста и улучшения качества диагностики нужно ответить на этот вопрос.
PS Ответ о "равенстве медиан" тоже неверный...
  Форум: Медицинская статистика · Просмотр сообщения: #22221 · Ответов: 35 · Просмотров: 2680

nokh
Отправлено: 18.11.2017 - 19:27


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(nastushka @ 18.11.2017 - 14:42) *
nokh, спасибо Вам, в каждой группе 25 чел. А как усреднить стандартные отклонения?

Нужно гуглить, формулы видел. Также у Урбаха (Биометрические методы) есть на стр. 118 для дисперсий. Но теперь стало понятно, что вам это не подойдёт, т.к. ваши дисперисии сильно отличаются, например, для крайних вариантов 4 и 10, (т.е. дисперсий 16 и 100) F(24; 24)=100/16=6,25; P=0,000014. Т.о. усреднять ст. отклонения нельзя. Но столь сильные различия дисперсий наводят на мысль о ненормальном, возможно, сильно асимметричном распределении ошибки модели anova. Вы проверяли остатки на нормальность, использовали нормализующие преобразования в дисперсионном анализе?
  Форум: Медицинская статистика · Просмотр сообщения: #22206 · Ответов: 8 · Просмотров: 441

nokh
Отправлено: 17.11.2017 - 22:19


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Во-первых, классический дисперсионный анализ (как и классический t-критерий) требует равенства (однородности) дисперсий в группах. Это прописано во всех учебниках. Неправильно требовать от пакетов решений для неклассических задач. То, что на практике это требование может нарушаться и придуманы какие-то манёвры для его обхода - из другой области. Хотя можно попытаться использовать что-то из этих наработок для вашего случая. Например, модифицировать (уменьшить) степени свободы для F-критерия, т.е. попробовать посчитать мощность для Welch ANOVA. Но пока не очень себе представляю получится ли сделать это в рамках готовых пакетов типа рекомендованного pwr2.

Во-вторых, вы не указали количества наблюдений в группах. Без этого не понятно, отличаются ли дисперсии в группах (квадраты стандартных отклонений) статистически значимо или это может быть случайными выборочными вариациями одной и той же дисперсии. Если не отличаются - всё проще: нужно специальным образом усреднить ст. отклонения и считать мощность как для обычного случая. Всё-таки, приведите ещё и n - вдруг руки дойдут...
  Форум: Медицинская статистика · Просмотр сообщения: #22202 · Ответов: 8 · Просмотров: 441

nokh
Отправлено: 12.11.2017 - 15:01


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Когда я сижу дома, мои деньги в кошельке в сохранности. После похода в магазин их становится меньше. Как доказать статистически, что деньги я трачу в магазине?

Если сравнения сделаны, то вопрос не из области статистики. Вы попали на рецензента-дурочка. Бодайтесь с редакцией или отправьте статью в другой журнал.
  Форум: Медицинская статистика · Просмотр сообщения: #22178 · Ответов: 4 · Просмотров: 883

nokh
Отправлено: 7.11.2017 - 20:32


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Света K @ 7.11.2017 - 17:23) *
Понятно, спасибо, хотя Путь PAST 2.17 и не совсем такой. Правильно так: Statistics - Univariate - галочка Bootstrap (N=9999). Действительно быстро и удобно.
...
Ну да, ну да. В идеале. А в реальности - ни согласия по поводу самих методов, ни четких алгоритмов и примеров, ни доступных объяснений. Так, мельком, по ходу, как будто все изначально все знают. Особенно ценны "существенные закономерности" когда одни и те же данные можно интерпретировать и так, и в обратную сторону. Недаром еще Гексли сказал, что математика, статистика как жернова - любую засыпку смелет...

У меня указан верный путь, т.е. все написано ПРАВИЛЬНО. А если вы умудрились скачать по моей ссылке древнюю версию вместо 3.16 - это ваши проблемы. У вас снижен порог самокритики: я бы трижды проверил почему люди пишут одно, а уменя получается иначе. Вас же это ни капельки не смутило - типа советуете тут мне неправильно. Плохое качество для науки в сочетании с нежеланием разбираться в деталях.

Если не стремиться к идеалам, то ни человеку наука не нужна, ни человек науке. Впрочем как и в любом деле...
  Форум: Медицинская статистика · Просмотр сообщения: #22150 · Ответов: 35 · Просмотров: 2680

nokh
Отправлено: 4.11.2017 - 18:03


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Света K @ 3.11.2017 - 17:40) *
После воздействия неким фактором (А) измерили длину 4 побегов в опыте и контроле.
Без действия:
75,2
78,3
88,9
87,0

После:
80,1
90,5
95,9
99,2

Как правильно написать (и вначале посчитать), что их длина увеличилась?
Судя по Вашему пункту 2, наверное, так: действие "А" эффективно, в результате длина увеличилась на 9 +- 5,3 см. (корень(44/4+69/4)=5,3)

А как по пункту 3? (В наличии только Excel 2003-2007 и калькулятор). Разные PAST недоступны, да и где их брать?


1. Скачать PAST и G*Power
https://folk.uio.no/ohammer/past/
http://www.gpower.hhu.de/en.html

2. В PAST набить данные, выделить. Путь: Univariate - Summary statistics. Выписать: средние, станд. отклонения. Для средних (см. строку Mean) получить 95% ДИ бутстрепом (лучше BCa).

3. Univariate - Two-sample tests (F, t, ?). См. 95% ДИ разности.
Параметрический по t-распределению содержит ноль и близок к тому, что 100$ рассчитал вам вручную по z-распределению.
ДИ бутстрепом не содержит ноля, т.е. в таком варианте различия статистически значимы на 5%-ном уровне (P<0,05). Что тут за бутстреп, какие они бывают и чем отличаются в худшую сторону от процентильного, рассчитанного вам p2004r - см. в мануале и литературе.

4. В G*Power вносим средние и стандартные отклонения. Считаем мощность (power) исследования = 0,3. Ставим себе и научному руководителю двойку за планирование исследования. Относимся к результатам как результатам пилотного исследования и рассчитываем в G*Power необходимые объёмы выборок (Type...: Sample size calculation...) для альфа=0,05 и бета=0,20, т.е. мощности = 0,8 (самостоятельно).

PS По поводу "обычных людей". Обычные люди работают на заводах, в офисах, магазинах и т.п. Они не измеряют длину побегов и не тусуются на статистических форумах. Процитирую сам себя (пособие скоро должно выйти):
"Я - биолог (я – врач), а не статистик". Такая не всегда верная установка тиражируется в некоторых медицинских, педагогических и даже научных коллективах, а потому встречается не так уж редко. Она справедлива до тех пор, пока человек не приступает к выполнению научной квалификационной работы. Статистический анализ данных является неотъемлемой частью современной научной методологии. Поэтому, если человек работает над школьным научным проектом, дипломной работой бакалавра, магистерской, кандидатской или докторской диссертацией, он должен предъявить соответствующие данному квалификационному уровню умения грамотно получать данные и выделять из них наиболее существенные закономерности с использованием статистических методов. Поэтому, пока Вы занимаетесь научной работой, Вы – статистик.
Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #22121 · Ответов: 35 · Просмотров: 2680

nokh
Отправлено: 31.10.2017 - 02:14


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Никто не хочет вникать в вашу узкую специфику, обильно сдобренную всякими буковками. Вот такая вот ЖЖЖЖ!
Общая рекомендация: раз есть специфика, привносимая вмешательством, то от общего количества считать смысла нет. Считайте % в А и Б для сопоставимых групп.
  Форум: Медицинская статистика · Просмотр сообщения: #22076 · Ответов: 2 · Просмотров: 771

nokh
Отправлено: 31.10.2017 - 01:50


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(bubnilkin @ 29.10.2017 - 03:39) *
Уважаемый nokh, спасибо за наводку с компонентами дисперсии. Bот что всё-таки вышло. Для простоты я использовал пример (dataset.txt) в Монтгомери с батарейками (8th ed., p.192-194, прикрепил).
...
С другой стороны, формулы для EMS на стр.191 (Montgomery), если я правильно понимаю, приведены для случая сбалансированных планов. В моём же эксперименте количество значений в ячейках дисперсионного компекса очень сильно разнится. Как быть ?

Пока нет возможности вникать sad.gif , может ближе к концу недели... Но вообще с неравномерными комплексами - засада, там нужно типа взвешенное среднее n вычислять. Для однофакторного ДА это- не проблема, описано у Sokal, Rohlf (Biometry, 1995) на стр. 214 (Box 9.2). Но в сложном ДА неравномерность может вылиться в то, что в математических ожидаемых для разных эффектов окажутся по-разному взвешенные n, и как это всё раскручивать вручную я не знаю. Если не получится подобрать софт для этого, то может типа смоделировать? Сделать из своих данных несколько случайных равномерных комплексов, их обсчитать, вычислить без проблем компоненты дисперсии и усреднить по вариантам? В R это можно пробовать автоматизировать...
  Форум: Медицинская статистика · Просмотр сообщения: #22075 · Ответов: 17 · Просмотров: 8046

nokh
Отправлено: 27.10.2017 - 19:08


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Света K @ 27.10.2017 - 18:16) *
Во-первых спасибо за разъяснения. Во-вторых, данные (исходные) конечно есть, но мне не совсем понятно - есть только две конечные цифры - начальная длина (среднее из 4 измерений) и после действия фактора. Имеется в виду, что никаких промежуточных данных нет. Стоит ли тут при таких данных вообще говорить о каком-то изменении размеров? Кстати, Вы правы, используются методы именно 80-х годов. Но многие считают, что вряд ли подобные методы могут измениться.

Раз у вас есть исходные данные, значит цифр у вас не 2 (начальная и конечная средние), а больше. Вот с этими самыми исходными цифрами (индивидуальными промерами) и нужно работать чтобы рассчитать 95% ДИ прироста и статистическую значимость влияния фактора (ваши динозавры назовут её "достоверностью"), раз был ещё какой-то фактор. Кстати этот фактор всё запутал, опишите свой материал и эксперимент и тогда решим как его грамотно обсчитать и представить (ну это если такое нужно, если не нужно - см. формулу стандартной ошибки разности в предыдущем сообщении).

PS. А методы и подходы устаревают. Хи-квадрат Пирсона устарел, точный метод Фишера устарел, классический t-критерий Стьюдента тоже не рекомендуют использовать на практике, точные ДИ Клоппера-Пирсона не точны, двумерного нормального распределения (для корреляции Пирсона) в природе не сыскать и т.д. Многие известные методы получаются в качестве частных решений современных статистических моделей... Посмотрите насколько сильно компьютеры изменили мир с 1980-х: наивно думать что в научной методологии и статистике они ничего не изменили (это я про бутстреп и т.п.). Подходы устаревают морально, т.е. не потому, что были неправильные, а потому что взамен было предложено что-то лучше.
  Форум: Медицинская статистика · Просмотр сообщения: #22065 · Ответов: 35 · Просмотров: 2680

nokh
Отправлено: 26.10.2017 - 16:54


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Света K @ 26.10.2017 - 13:46) *
Подскажите, пожалуйста, как правильно написать о разнице в приросте побегов если вначале они были 82,4 +- 3,34 см, а после воздействия определенным фактором стали 91,4 +- 4,14 см. Других данных нет. Просто сказать, что длина побегов увеличилась на 9 см (91,4-82,4)? Или нужно еще сложить ошибки и разделить на два и привести эту ошибку? Или как?

1. Прирост побегов, как и другие показатели, зависящие от времени, имеет асимметричное распределение. Следовательно, все эти плюс-минус не имеют ничего общего с реальностью: чисто виртуальные показатели. В приличные журналы данные вида "среднее +/- станд. ошибка" не принимают. Уровень проведённой статобработки - низкий, образца максимум 1980-х годов.

2. Если научный руководитель - динозавр, и требует именно древних методов, то рассчитать такую же виртуальную ошибку разности средних можно. Но только, конечно, не усреднением, а по специальной формуле. Для этого понадобятся значения дисперсий s2 в обеих выборках. Их можете рассчитать из значений стандартной ошибки и объёма выборок (формулу найдёте в любом учебнике).
Стандартная ошибка разности будет равна se (разности средних)=Корень (s21/n1 + s22/n2)
Погуглите на предмет стандартной ошибки разности, чтобы найти что-то для ссылки.

3. Но правильнее рассчитать доверительные интервалы (ДИ) и привести 1) средние с 95% ДИ и 2) разность средних с 95% ДИ. ДИ лучше считать бутстрепом ввиду отличия распределения от нормального. Если есть 2 колонки исходных данных, то в пакете PAST делается за 2-3 клика. Кстати, что значит "Других данных нет", куда делись оригинальные данные? Если у вас нет исходных данных, значит у вас нет данных, т.к. приведённые числа - это не данные, а результат не вполне корректной обработки данных.
  Форум: Медицинская статистика · Просмотр сообщения: #22060 · Ответов: 35 · Просмотров: 2680

nokh
Отправлено: 21.10.2017 - 13:05


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(tvsova80 @ 19.10.2017 - 16:25) *
Здравствуйте. Мне порекомендовали ваш форум, где можно получить очень грамотные консультации по стат. методам. Исследование не относится к медицине, но, возможно, что кто-либо сталкивался с подобным/похожим исследованием в медицине или какой-либо другой области.

Я обращаюсь к Вам не совсем, возможно, с обычным вопросом: сталкивались ли Вы с исследованиями (а возможно, что сами проводили), направленными на изучение срока действия заключений по результатам психодиагностического обследования? В течение какого периода времени можно опираться на полученные данные без перепроведения психодиагностического обследования у одного и того же человека (полгода, 1 год, 2 года и др.срок). Как возможно осуществить данное исследование? Понятно, что это лонгитюдное исследование с учетом, по возможности, всех внешних факторов, влияющих на когнитивные/личностные/мотивационные составляющие (в том числе и травмы головы, аварии, заболевания и т.д., и т.п.), но в настоящее время нет возможности исследовать устойчивость (стабильность) психологических характеристик в течение нескольких лет у одних и тех же обследуемых. Есть база, в которой отражены результаты по психодиагностическим обследованиям одних и тех же людей в разный период времени и больше ничего. Это по большей части исследование изменений когнитивных/личностных/мотивационных составляющих у специалистов идущих на повышение по должности. При этом те данные, что я имею, находятся исключительно в базе Excel, исследования одних и тех же людей были проведены в разный промежуток времени, который не всегда совпадал у всех вместе. Никакие внешние факторы, которые могли бы повлиять на какие-либо изменения/не изменения мне не известны и известны не будут. Поэтому я исхожу лишь из того, что у меня, как говорится, "на руках". Этого, конечно, не совсем достаточно... но, как говорится, то, что есть..... Пришла в голову мысль про проведение корреляционного анализа изучаемых показателей между годами, а также про коэффициент вариации по всей имеющейся выборке за каждый год. Поэтому я составила примерный проект исследования, включающий в себя и использование критерия Вилкоксона, и корреляционный анализ между годами и показателями, также возможно попробую и коэффициент вариативности, и определение средних значений и ст. отклонений. Думала и о дисперсионном и кластерном анализах. В правильном ли направлении мыслю? Как можно рассчитать коэффициент вариации по разным годам у одних и тех же обследуемых? Каким образом можно определить "точные коэффициенты и погрешности при попытке измерить диапазон колебания личностных свойств"?

Буду благодарна за любую информацию, подсказку, направление, в котором двигаться.

Вы не обозначили чётко какова задача исследования. Судя по тексту может быть и (1) и (2), но схемы действий будут различаться принципиально, за исключением начального этапа smile.gif . Итак:
(1) Необходимо задать научно обоснованные интервалы для проведения периодического тестирования специалистов. Можно опираться на литературные данные, также в помощь предоставлена реальная база данных.
(2) Неоходимо проанализировать предоставленную базу данных и именно на её основе выработать интервалы для проведения периодического тестирования специалистов.

Если (1), то начинать нужно с обзора литературы. Поднимать всё, что касается устойчивости когнитивных, личностных и мотивационных характеристик во времени. Дело кропотливое, но куда более простое по сравнению выработкой нового на основе анализа не предназначавшихся для этого данных. Тестология - разработанная область, особенно - за рубежом, и я полагаю, что в своё время проводились достаточно масштабные экспериментальные исследования по этой теме. Ключевое слово здесь - "экспериментальные". В экспериментах нет проблемы "что дали, то и есть", т.к. исследователи сами формируют группы по возрасту, полу, стажу работы и т.п. и срого выдерживают интервалы повторных тестирований. Если пойти по пути анализа литературы, то спустя небольшой промежуток времени (зависит от вашей загруженности другой работой) у вас будут нужные интервалы. Плюс - вы будете безупречно теоретически "подкованы".
Далее можно использовать предоставленную базу данных, чтобы удостовериться в том, что найденные в литературе теоретические положения и практические рекомендации справедливы и в вашем случае. Например, если в литературе есть что-то о несущественности изменения когнитивных свойств у персонала, не достигшего пенсионного возраста, - можете взять какой-то кусочек базы данных и проверить это на нём. Или если есть данные о влиянии стажа на мотивацию, возьмёте результаты только первого и последнего тестирования и сравните. Таким образом вы выборочно "привяжете" теорию к конкретным данным и задачу можно считать решённой. Возможно, что-то впишется не совсем идеально, но на то и жизнь...

Если (2), то начинать нужно с обзора литературы. Смотреть какими методами работали исследователи. Как они группировали по возрасту, стажу и т.п. и не было ли это избыточно точным, исходя из результов проведённых ими исследований. Далее можно группировать свои данные сходным образом - это позволит создать материал без дыр, имеющихся в исходных данных. С укрупнёнными блоками работать будет проще: в том же дисперсионном анализе можно задать в качестве фактора "возраст" всего несколько осмысленных категорий вместо непрерывного ряда значений, которые нужно ещё суметь грамотно задать в качестве ковариат. Как дальше выходить на интервалы тестирования - задача творческая, может решаться как большим количеством примитивных анализов (типа парных корреляций или попарных сравнений групп), так и многомерными методами. Точнее даже - какой-то комбинацией этих методов, т.к. специального анализа на такой случай нет. Но пока сильно углубляться в (2) нет смысла, т.к. задача сложная, а возможно вам достаточно (1).
  Форум: Медицинская статистика · Просмотр сообщения: #22042 · Ответов: 3 · Просмотров: 469

nokh
Отправлено: 8.10.2017 - 20:49


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(p2004r @ 7.10.2017 - 11:36) *
Вот так вот "плохому учат" smile.gif
1. Это не воспроизводимо.
2. Возникает возможность "решить квадратуру круга" -- сделать визуально корректное и принципиально невозможное построение.

Раньше вообще рисунки чернилами от руки строили и в космос полетели. Так что это - однозначно не лучшее. Но и не "плохое". Это - "иное" smile.gif
  Форум: Медицинская статистика · Просмотр сообщения: #21976 · Ответов: 4 · Просмотров: 726

nokh
Отправлено: 6.10.2017 - 23:25


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Blaid @ 4.09.2017 - 12:57) *
...
Так вот, интересует пункт 2. Как "бороться" с неравенством дисперсий известно (опять же из обсуждений в этой ветке) - делать нормализующее (дисперсии или же дисперсии + нормальность распределения) преобразование (Rundom pro soft в помощь или AtteStat). Собственно вопрос:
если выявлено неравенство дисперсий в сравниваемых группах (например, с помощью критерия Бартлетта или аналогичных), то как нужно делать преобразование?
Каждую из групп нужно преобразовывать отдельно, независимо от других? Или же следует преобразовывать единую выборку, полученную объединением отдельных независимых групп?
Спасибо!

Сначала по поводу преобразования. Преобразовывать можно и каждую группу отдельно, но только одинаковым преобразованием:) Например, квадратным корнем, логарифмом, арксинусом... Если же используются "крутые" преобразования, адаптивные к конкретным данным, типа Бокса - Кокса или Йео - Джонсона, то конечно, нужно преобразовывать весь массив с одинаковой лямбдой.

По поводу неоднородности дисперсий. Асимметрия распределения ошибки указывает на "эффект шкалы", когда мы измеряем данные одной "линейкой", а природа - другой. Для приведения их в соответствие, перед дисперсионным анализом логично использовать преобразования. Для себя я понимаю это как устранение некоего искусственного препятствия. В отличие от этого неоднородность дисперсий (НД), не устранённая преобразованием, является не искусственной, а естественной. Т.е. вполне логично, что, скажем, на начальных сроках после операции дисперсия показателя в группе высокая, а спустя полгода - низкая. С этой НД невозможно бороться, да и неправильно это будет: она свойственная данным и это наша беда, что нас интересует, как правило, только сдвиг центральной тенденции, а не плюсом - изменение рассеяния и формы распределения. Т.о. НД в дисперсионном анализе неудобна, но уж тут ничего не поделаешь.
Какие видятся варианты решения проблемы.

1. Использовать для проверки НД не критерий Бартлетта, а что получше. Известно, что критерий Бартлетта слишком часто радостно её находит. Sokal & Rohlf (Biometry) рекомедуют log-anova test. Его не найти в пакетах (может в R только..., не искал), но легко считается в любой программе, где есть обычный ANOVA.

2. Постараться в ходе преобразования не только нормализовать ошибку модели, но и выровнять дисперсии. Когда-то делал это в Rundom BC (Rundom Pro совсем неудобен для меня оказался, не осваивал...). Недавно мы её вспоминали добрым словом на форуме: http://forum.disser.ru/index.php?showtopic=4111

3. Использовать штраф по степеням свободы за несоблюдение однородности дисперсий. Т.е. использовать в однофакторном ANOVA, подход, аналогичный подходу Уэлча для t-критерия Стьюдента. Такой подход автоматом считается в пакете PAST.

4. Не заморачиваться по поводу неравенства дисперсий в самом ANOVA, а сконцентрироваться на пост-хоках. Критерию Геймса - Ховелла (Games-Howell test) НД - не помеха.

5. Использовать рандомизационный вариант ANOVA. Лучше exact permutation. Тогда вообще независимо от выполнения требований, p будет вычислено точно, а само значение F будет использоваться лишь в качестве одной из возможных статистик. Доступно почитать можно у Шитикова (Рандомизация и бутстреп). Сделать можно в R и Rundom pro.
  Форум: Медицинская статистика · Просмотр сообщения: #21963 · Ответов: 5 · Просмотров: 1266

nokh
Отправлено: 6.10.2017 - 22:27


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(pyramidhed @ 26.09.2017 - 01:34) *
Здравствуйте! Нужно построить график выживаемости в зависимости от изменения пульсового давления у группы пациентов.
Есть временной интервал и данные о выживаемости. График хотелось бы построить как на примере.
В наличии пакет STATISTICA и SPSS.
Спасибо

Проще всего как уже сказали - "на глазок". Для этого вам нужно сперва освоить анализы, позволяющие построить отдельные графики. Совмещать очень удобно в бесплатном векторном редакторе TpX ( https://sourceforge.net/projects/tpx/ ). Отлично вставляет графику из буфера виндоус, корректно создаёт и открывает большинство файлов svg. В последние годы провожу в нём финальную обработку почти всей полученной в разных пакетах графики, включая R, PAST, KyPlot, MedCalc, Statistica.
  Форум: Медицинская статистика · Просмотр сообщения: #21962 · Ответов: 4 · Просмотров: 726

nokh
Отправлено: 6.10.2017 - 22:13


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(FOLFIRINOX @ 5.10.2017 - 17:40) *
Подскажите пожалуйста, каким методом в SPSS вычислить пороговое значение переменной, при котором разница в выживаемости будет достоверной?

Не понятно о каком разделе анализа идёт речь. Если собственно об анализе выживаемости, то вопрос звучит как глупость. Если о чём-то другом, имеющем отношение к выживаемости, то непонятно о чём.
Напишите:
1) что у вас за данные
2) что вы хотите из них выжать
3) что вы уже попробовали сделать самостоятельно и что не получилось.
  Форум: Медицинская статистика · Просмотр сообщения: #21961 · Ответов: 1 · Просмотров: 369

nokh
Отправлено: 3.10.2017 - 23:04


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(bubnilkin @ 30.09.2017 - 01:35) *
Добрый день,

подхватываю эту тему, т.к. задача аналогичная.
...
Начал тестировать собственно влияние (А Б А*Б) (приложил итоговую таблицу), но вижу, что тестируемая модель практически не обьясняет вариабельность в данных (дисперсия ошибки в 10 раз превышает дисперсию, которая обьясняется моделью, и R^2 ~ 0.1)

Подскажите, пожалуйста, как с этим бороться?

Быстрый совет - найти факторы, которые объясняют вариабельность лучше smile.gif ну или ставить точку. Ведь никто не отменял отрицательные результаты в науке; могло получиться, что вообще ничего не значимо. У вас же значимы оба главных эффекта, т.е. ваши факторы ВЛИЯЮТ на признак. Если вы даже увеличите объём выборки в эксперименте, то, возможно, докажете ещё и взаимодействие факторов. Однако это никак не повлияет на соотношение дисперсий: слабые эффекты останутся слабыми, детерминация не изменится. Поскольку с технико-статистической точки зрения вы постарались максимально приблизить данные к требованиям модели - к самому анализу претензий быть не может, все претензии - только к самим данным. Если данные говорят, что пол и диета влияют значимо, но слабо, значит так оно и есть. Полагаю, что применительно к данному фрагменту работы можно фиксировать и публиковать результат.
Единственное, что я бы ещё добавил к ДА с Боксом-Коксом, так это вычислил бы в %, сколько всё-таки изменчивости (дисперсии) показателя определяется полом, сколько - диетой и сколько - спецификой сочетания (взаимодействием) этих факторов. Т.е. рассчитал бы типа компоненты дисперсии. "Типа", т.к. оба фактора фиксированные, а не случайные (программы могут отказаться считать компоненты для фиксированных экспериментов). Тем не менее и по фиксированным можно расчитать дисперсии всех эффектов, сложить их вместе (100%) и затем расчитать вклады. Я когда-то делал такое по книге Монтгомери Д. Анализ данных и планирование эксперимента - см. раздел по математическим ожидаемым средних квадратов. Т.е. дисперсии (MS) в таблице результатов ANOVA, это ещё не дисперсии связанных с эффектом воздействий, последние нужно рассчитать и выразить в %.
  Форум: Медицинская статистика · Просмотр сообщения: #21947 · Ответов: 17 · Просмотров: 8046

nokh
Отправлено: 21.08.2017 - 19:42


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Ident @ 21.08.2017 - 03:08) *
... Различные наблюдатели в разных населённых пунктах (условно городах) регистрировали определённые объекты. Объекты классифицированы и обозначены буквами алфавита, регистрировалась их частота в процентах. Сколько всего городов наблюдали указано во втором столбце. Города не повторялись и у каждого наблюдателя был как-бы свой регион. Те объекты, которые не подходили под классификацию регистрировались как "другие" и в таблице не указаны. Поэтому, например, в третьей строке сумма всех процентов 31, то есть 69 не удалось отнести к какому-либо виду. А в третьей строке, наоборот, все объекты подходили под классификацию и в сумме дают 100%. Но цель не в этом. Надо выяснить сколько приблизительно объектов какого-либо типа приходится в целом на страну. В последней строке есть графа %-ты в среднем, вычисленные для объектов вида Д. Так вот, если вычислить такую цифру для всех типов объектов, то в сумме они оказываются более 100%. То есть средние значения процентов не подходят. В целом населённых пунктов (условно городов) по стране очень много, но суммарная цифра уже рассмотренных является как-бы достаточной выборкой для каких-либо выводов. Как исходя из этих данных можно хотя бы как-то высказаться о приблизительном проценте конкретного объекта в N-ом городе (или группе городов). Можно ли как-то аппроксимировать эти значения, чтобы сумма средних процентов была 100%? Я понимаю, был бы график, то можно было бы сгладить его регрессионной функцией или при помощи полинома. Но в данном случае надо выявить тенденцию в виде распределения по долям. Возможно задача банальная, просто я не встречался. Рад был бы узнать Ваше мнение на этот счёт. Заранее благодарю.

1. У Маши было 4 яблока, у Пети - 2 яблока, а у Коли - ни одного (0 яблок). Сколько в среднем яблок было у детей? Согласно вашей логике - (4+2)/2=3. А Коля - неудачник и нам не нужен. Правильный ответ: (4+2+0)/3=2. Поэтому во всех колонках (ну или во всех, где есть хотя бы одно значение) вместо пустых ячеек проставьте нули.

2. Сходная ошибка: раз "Другие" объекты фиксировались и учитывались при расчёте процентов (!), колонка "Другие" должна с необходимостью присутствовать в таблице. Поэтому добавьте такую колонку и рассчитайте % в ней.

3. Ну а теперь можно находить средние. Прикрепил файл с расчётом. Т.о. "задача банальная, просто я не встречался"

4. Сразу бросается в глаза, что данные сильно неоднородны (это можно пытаться доказать статистически, имея полные данные в штуках, а не в % ). Поэтому, строго говоря, сомнительна сама правомочность нахождения средних по всей стране. Возможно, правильнее будет разбить регионы на более однородные группы и посчитать средние уже в них. Если в качестве расстояния между регионами использовать соотношение процентов разных объектов, то можно применить кластерный анализ с использованием в качестве индекса сходства корреляции, например - Спирмена. Поскольку для n=11 и альфа=0,05 критическое значение коэффициента корреляции Спирмена = 0,527, все ветвления на дендрограмме, большие этого числа, можно считать неслучайными (это - упрощение, но близко к правде). Можно его же использовать для выделения кластеров. Режем ветви на уровне 0,527. Получается 4 непохожих друг на друга группы регионов: (9), (8), (3+6), (остальные).
Прикрепленные файлы
Прикрепленный файл  percent.rar ( 4,74 килобайт ) Кол-во скачиваний: 18
 
  Форум: Медицинская статистика · Просмотр сообщения: #21836 · Ответов: 5 · Просмотров: 847

nokh
Отправлено: 16.08.2017 - 13:39


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(kont @ 20.07.2017 - 13:11) *
nokh, а дальше что делать? smile.gif

Прошу прощения, не успел до отпуска pardon.gif Задача ещё актуальна?
  Форум: Медицинская статистика · Просмотр сообщения: #21818 · Ответов: 23 · Просмотров: 3055

nokh
Отправлено: 18.07.2017 - 21:53


Дух форума
*

Группа: Пользователи
Сообщений: 1018
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Хочу предложить опробовать параллельно другой вариант анализа (хотя с интересом буду следить за начатым курсом). Но сначала пара ремарок.
Во-первых, как уже отметил p2004r датасет действительно пустоват. Во-вторых он плохо сбалансирован по эмоциям. Чтобы в этом убедиться, а заодно и начать подготовку данных к анализу нелинейными главными компонентами в SPSS, создайте в экселе такой файл:
Удалите вашу первую строчку. Первая строка - названия столбцов.
Первая колонка - испытуемый. Метки - значения от 1 до 200 повторяются четырежды. (800 строк + 1 строка шапки)
Вторая колонка - картинка. По 200 значений 1, 2, 3 и 4.
Далее 8 колонок шкал, далее 34 колонки с эмоциями - от Боли по Ужас.
Переформатируйте таблицу так, чтобы вписать её в эту структуру. Шкалы для испытуемых придётся повторить четырежды - по одному повтору на каждую картинку, а соответствующие картинке колонки эмоций будут уже заполнены оригинальной для каждой картинки информацией.
Под такой таблицей создайте строку с суммами значений эмоций по колонкам. Транспонируйте и ранжируйте по убыванию. У меня получилось:

Боль 206
Радость 191
Удивление 82
Злость 67
Обида 59
Страх 46
Жалость 29
Испуг 21
Счастье 13
Забота 10
Печаль 10
Раздражение 10
Грусть 7
Разочарование 7
Спокойствие 7
Любовь 6
Стыд 6
Возмущение 5
Тревога 5
Досада 4
Отвращение 4
Растерянность 4
Сострадание 4
Удовольствие 4
Интерес 3
Огорчение 3
Вина 2
Презрение 2
Сочувствие 2
Ужас 2
Отвержение 1
Смущение 1
Равнодушие 0
Страдание 0

Создаётся впечатление, что отследив аж 34 эмоции вы достаточно точно "ухватите" шкалы, найдёте связи с ними и т.п. В действительности же получается, что в этих шкалах вы отследите только боль и радость! Ну может ещё немного захватите эмоций по испуг, судя по графику осыпи. 2 эмоции совсем не представлены (0). И вообще, кроме радости в топе - один негатив! Что это за странная методика и нет ли необходимости добрать материал картинками так, чтобы спектр эмоций был представлен более-менее полно, равномерно?

CATPCA не возьмёт столбцы с 3 значениями и менее, поэтому колонки с испуга по страдание нужно стереть.
Выделить всю матрицу и заменить 1 на 2, а затем 0 на 1.
Удалите последнюю строку сумм и откройте файл в SPSS. Завтра напишу что делать дальше.
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #21746 · Ответов: 23 · Просмотров: 3055

41 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена