Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

41 страниц V   1 2 3 > » 

nokh
Отправлено: 27.12.2017 - 01:07


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Предлагаю поделиться опытом и обсудить в этой ветке особенности статистического анализа результатов микрочиповых исследований. Экспрессия генов и иммуносигнатуры. Одноканальные и двухканальные данные. Препроцессинг, статистика для дифференциальной диагностики и постпроцессинг. Кластеризация, температурные карты, чувствительность и специфичность алгоритмов дифференциальной диагностики. Сетевой анализ и.т.п. После 1,5 мес. вхождения в тему остались вопросы и неотреагированные эмоции aggressive.gif : Пока есть неудовлетворённость по следующим вопросам.

1) Изменчивость между чипами и внутри чипов до препроцессинга. Расчёт компонентов дисперсии по имеющимся данным дал 60% межчиповой изменчивости не связанной с индивидуальными и групповыми различиями, т.е. 60% технической изменчивости! Сколько шума считается допустимым?

2) Результаты анализа сильно, а возможно и целиком, зависят от препроцессинга. Используется несколько распространённых способов нормализации данных для устранения технической изменчивости: от медианной нормализации до квантильной и далее. То что "далее" подвергает сомнению всё что было "до" и этот процесс не заканчивается. Чем пользуетесь вы?

3) Объединение информации с двух каналов (Red, Green). Вызывает вопросы использование отношения интенсивностей R/G (так называемая М-часть данных для MA plot). Деление - самое неточное действие, усиливающее погрешности данных. Почему как-то не принято использовать A-часть, т.е. среднее: (R+G)/2?

4) Разные методы отфильтровывания наиболее перспективных показателей из тысяч имеющихся дают совершенно разные топ-листы. Степень перекрытия сильно зависит в том числе и от длины списка. У меня получилось 50%-ное перекрытие топ-12 и примерно 5%-ное для топ-150 для усреднённых RG-данных с использованием пакетов genefilter() и limma() из проекта Bioconductor. Но мои результаты практически не совпали с результатами обработки тех же данных двумя группами людей и в других пакетах. Нужно сказать, что и у тех двух групп результаты тоже не совпали... Я не согласен с имеющимся мнением, что способы препроцессинга и выявления топа показателей являются определённой системой договорённостей - ищу способы объективизации результатов. Во что верите вы и каким статистическим инструментарием пользуетесь для укрепления своей веры?

В целом сложность в том, что отдельные ветви микрочиповых исследований являются молодыми и пока не накоплено достаточно информации, чтобы с её помощью можно было поверять результаты статистики. Т.о. статистический анализ остаётся "вещью в себе" и нужно как-то эту вещь вывернуть, чтобы использовать для медико-биологических интерпретаций.
  Форум: Медицинская статистика · Просмотр сообщения: #22358 · Ответов: 1 · Просмотров: 199

nokh
Отправлено: 18.12.2017 - 21:59


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(grergi @ 16.12.2017 - 18:36) *
Уважаемые коллеги! Подскажите бесплатную программу для расчета IC50 (нелинейная регрессия). Заранее благодарен за любую помощь!

Есть онлайновые калькуляторы - и считают, и графики (простенькие) строят:
https://www.aatbio.com/tools/ic50-calculator/
http://www.ic50.tk/index.html
Я раньше KyPlot для большинства регрессий и задач интерполяции использовал - прикипел я к нему smile.gif. Есть бесплатная старая версия - 2 beta 15. Скриншот прикрепил. Могу выложить, но только это всё в прошлое уходит. Из R пробовал пакет nplr - настройки по умолчанию не понравились, но зато сразу с 95% доверительными границами. В принципе вам подойдёт любой пакет, который считает четырёхпараметрическую логистическую регерссию (4PL regression). В последнее время она так всем полюбилась, что теперь отдыхают и Михаэлис - Ментен, и Берталанфи и другие...
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #22338 · Ответов: 7 · Просмотров: 374

nokh
Отправлено: 18.12.2017 - 21:45


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 8.12.2017 - 01:55) *
А вот это - не оно? Сам, правда, не пробовал. Так, на периферии сознания завалялось...
Ссылка

Благодарю, по описанию должно подойти, хотя тоже пока не пробовал). Ещё ракет VCA (https://cran.r-project.org/web/packages/VCA/VCA.pdf) должен считать. Потихоньку в R двигаюсь, в следующий раз как данные будут - поробую. Только автор топика меня не услышал - ищет там где светлее... Не иначе по книгам Плохинского дисперсионный анализ осваивает. Зоологи и ветеринары - они такие! smile.gif

Байка. Лет 10 назад у меня директор в наш головной ветеринарный НИИ приехал с годовым отчётом. А там средние с 95% ДИ в таблицах были бутстрепом (ВСа) посчитаны: специально boot под R ставил и робко её пользовал. Короче, в целом, похвалили уральцев, только говорят нужно было данные статистически обработать и +/- стандартную ошибку привести.
  Форум: Медицинская статистика · Просмотр сообщения: #22337 · Ответов: 9 · Просмотров: 741

nokh
Отправлено: 7.12.2017 - 23:02


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


А какова всё-таки цель работы? От этого зависят ответы.
1) Если цель - прогноз, то регрессия типа вашей уместна. Другое дело, что данных для неё маловато (есть редкие сочетания предикторов). И не совсем ясна практическая польза: её можно использовать только для тех лет, которые есть в наборе, т.к. фактор "Год" - случайный, т.е. его нельзя воспроизвести в других исследованиях (в отличие от месяца или породы).
2) Если цель - разобраться с влиянием на признак всяких факторов и их взаимодействий, то просится ANOVA. Но процитированный вами отрывок - грубый подход. По хорошему здесь нужно раскладывать изменчивость (дисперсию) на компоненты. Это делается исходя из формул математических ожидаемых средних квадратов: оттуда берутся дисперсии (для случайных эффектов) или квадратичные формы (для фиксированных эффектов), всё суммируется и пересчитывается в %. По-русски можно прочитать в Дуглас Монтгомери "Планирование эксперимента и анализ данных" (есть в сети). Пакеты могут с этим справляться плохо, т.к. работают с моделями случайных эффектов, а не смешанных. Но может какие-то и справятся. Найдёте - поделитесь, надоело вручную считать...
  Форум: Медицинская статистика · Просмотр сообщения: #22308 · Ответов: 9 · Просмотров: 741

nokh
Отправлено: 1.12.2017 - 23:23


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(vitako @ 1.12.2017 - 13:28) *
Добрый день, уважаемые колеги!
Прошу совета по использованию критерия Уилкоксона (связанные выборки, критерии нормальности не выполняются)
для сравнения данных, полученных до и после лечения.

Столкнулся с тем, что различные программыные продукты выдают различные значения (р) для этого критерия.
Перепроверял на различных выборках, но результаты постоянно разнятся.

...
Более того, Программа Биостат (Гланц) выдает еще одно, третье значение того же критерия.

Раннее с ситуацией столь сильных различий в рассчитанны показателях не сталкивался.

Подскажите, пожалуйста, почему результаты вычислений разнятся и какой программой лучше пользоваться в моем случае.


1. Различия в значениях статистики Уилкоксона. Для вашего примера разные пакеты могут выдавать в качестве результата:
372 - сумма рангов отрицательных разостей
93 - сумма рангов положительных разностей
Статистику можно считать по любому из этих значений, но обычно для критериев Уилкоксона и Уилклксона - Манна - Уитни берётся меньшая сумма рангов. Т.е. более "книжный" ответ 93. Хотя разницы никакой: 93-239,5=-139,5, а 372-239,5=+139,5, а в формуле берётся абсолютное значение этой разности.

2. Различия в р-значениях. Для вашего примера разные пакеты могут выдавать в качестве результата:
Асимптотическое значение без поправок: z=2,8693; Р=0,004114
Асимптотическое с поправками на непрерывность и ещё чем-то: z=3,2863; Р=0,001015 или z=3,2746; Р=0,001058
(не разобрался быстро что за поправки, т.к. если использовать обычную поправку 0,5, то значение z должно быть меньше, а не больше. В учебнике Zar приводится 4 формулы с разными поправками, учётом нулевых разностей и связанных значений. Похоже увеличивает z поправка на связки)
Рандомизационный критерий методом Монте-Карло (n=500000): Р=0,001450
Точный рандомизационный критерий: Р=0,001431.

Аналогичная ситуация, например, с критерием Макнемара, который тоже везде считается по-разному.

3. Результаты всех известных пакетов по-своему правильны, т.к. берут формулы в лучших учебниках - можно использовать любой пакет. Только в "Материалах и методах" нужно не забыть указать какой именно пакет и его версию. Лучше если это будет пакет на который у вас есть лицензия или бесплатный.

4. Анализ связанных выборок желательно дополнять анализом разностей:
- привести среднюю разность с 95% ДИ бутстрепом (раз нормальность не выполняется),
- поработать с данными по объектам, отличающимся от основной массы. В вашем примере это 6 случаев с положительной разностью против 24 с отрицательной. Можно поискать особенности для этих 6 случаев в других показателях: почему именно они среагировали иначе. В этом будет больше "доказательной медицины".
  Форум: Медицинская статистика · Просмотр сообщения: #22284 · Ответов: 5 · Просмотров: 410

nokh
Отправлено: 29.11.2017 - 00:25


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Я тут подумал и решил усомниться в исходно композиционном характере данных. Очень часто люди загоняют в композиции полноценные (ну или почти полноценные данные), т.к. смешивают статистический анализ с удобством интерпретации. Интерпретировать иногда, действительно, удобнее в %, но если человек пару-тройку раз прошёл через ад всяких лог-преобразований Эйчисона со структурными нулями и с потолка взятыми значениями для неструктурных нулей, то остатвит всё это на тогда, когда без этого вообще никак не обойтись.
Например, аммоний, нитриты и нитраты в воде являются последовательными стадиями окисления азота органического происхождения. Они выражаются в мг/л, т.е. строго говоря это тоже композиция, но речь идёт о миллионных долях (ppm), когда композиция никак не влияет на связь между показателями. Если для интерпретации возникает желание оперировать %-ным соотношением азота в разных формах, то пересчёт на % даст полноценную композицию со всеми вытекающими проблемами. В то же время хлориды, сульфаты и гидрокарбонаты в воде представляют собой классическую композицию: они выражаются в % от общего состава и если чего-то станет меньше, то остального станет больше автоматически - здесь придётся повозиться. Кстати, если геологи почти сразу пришли к грамотному анализу таких данных, то гидрохимики уже 25 лет в пути, медики (в массе) - в начале пути (формула крови - композиция), а биологи (в массе) даже не слышали про такое. Оно и понятно, проблемы появляются только при многомерном анализе, а до него многие просто не дорастают.

>Света К
Если ваши фракции исходно выражаются, скажем, в миллимолях на литр, то нужно пересчитать % в эти исходные величины и забыть про % как страшный сон. Вне жёсткой композиции можно прекрасно проверить 1 наблюдение на многомерный выброс по расстоянию Махаланобиса (с расчётом р-значения), а для 2х наблюдений - провести дискриминантный анализ (т.к. это - "совсем другое дело":)). Но опять-таки, это - чисто технические вещи, ими научную методологию не заменить.
  Форум: Медицинская статистика · Просмотр сообщения: #22268 · Ответов: 22 · Просмотров: 1778

nokh
Отправлено: 27.11.2017 - 06:51


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(p2004r @ 24.11.2017 - 03:35) *
PCA прекрасно расправляет "смеси" в тернарные трафики, отжимая лишнюю размерность. Здесь просто крайне мал размах варьирования состава, вот и не видно результирующего "треугольника(пирамиды)".

Прикольно! У меня никогда не было столько данных, чтобы увидеть треугольник, а с симуляциями не играл.
Цитата(comisora @ 26.11.2017 - 00:48) *
... Можете показать пример, как "сравнить/обработать" p1 и p2 и заполучить "заветное p<0.05"?

Сравнить два набора PC можно прокрустовым анализом с расчётом р рандомизационным критерием.
library(vegan)
protest(p1, p2, scores = "sites", permutations = how(nperm = 999))
#можно посмотреть статистику и разности матриц после прокрустова преобразования для определения наиболее сильных невязок:
difpc12<-procrustes(p1,p2)
summary(difpc12)
plot(difpc12)
plot(difpc12, kind=2)
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #22260 · Ответов: 22 · Просмотров: 1778

nokh
Отправлено: 23.11.2017 - 22:46


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


>p2004r
С обычным PCA здесь засада в виде композиционного характера данных. Где проходит граница допустимой степени "композиционности" не известно. Но традиционно для долей процентов (типа миллиграммы на литр или килограмм) ей пренебрегают и скорее всего обосновано. Но когда речь идёт о % и десятках процентов, композиции будут натягивать ложные корреляции. С 1990-х для многомерного анализа композиционных данных используют статистику Эйчисона, в т.ч. специальные предварительные преобразования "разворачивающие" constrained данные в как бы независимые. Разбирался давно и использовал ещё аддон к экселю "CoDaPack". Сейчас это есть в r, но пока не было подходящей задачи:
http://www.stat.boogaart.de/compositions/
https://cran.r-project.org/web/packages/rob...ions/index.html
  Форум: Медицинская статистика · Просмотр сообщения: #22233 · Ответов: 22 · Просмотров: 1778

nokh
Отправлено: 23.11.2017 - 22:07


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Диагностик @ 22.11.2017 - 19:00) *
Смотри [Закс Л., с.270-281].
Ранговый критерий Манна и Уитни [Mann, Whitney, 1947] основан на критерии Уилкоксона для независимых выборок. Он является непараметрическим аналогом t-критерия для сравнения двух средних значений непрерывных распределений.

Вопрос был о том, какую гипотезу проверяет критерий. Заметьте, не о том: (1) на чём основан критерий, (2) для каких выборок применяется, (3) аналогом чего он является, (4) для чего используется. У вас 4 ответа, но не на тот вопрос. Это сродни неверной диагностике: похоже, но не то.
passant сбил мой воинственный настрой задать вам последовательно все 3 технических вопроса и 1 риторический, который я хотел задать. Поэтому выложу всё кучей.

1). Во-первых, критерий УМУ, как уже было сказано, не проверяет гипотезу о различии средних. Соответственно вывод о том, что "Эффекта обработки не выявлено, статистически значимой разницы между средними значениями не обнаружено" является некорректным.

2). Ветка форума в формулировке топикстартера называется "Разница между средними значениями, Описать разницу". Критерий УМУ не позволяет вычислить разницу между средними значениями даже чисто технически, т.к. является ранговым критерием. А уж как описать разницу в терминах УМУ ума не приложу.

3). Почти всегда непараметрические критерии являются менее мощными по сравнению с параметрическими. Это логично, т.к. раз используется меньше информации, то её нехватку нужно чем-то компенсировать. Обычно - увеличением объёма выброк. Поэтому очевидно, что в условиях мизерных выборок нужно брать самое мощное, что только есть - параметрику. Ну или использовать самые современные подходы типа ресэмплинга, которыми сейчас поверяют и параметрику, и непараметрику. Вы же предлагаете использовать для малых выборок менее мощный УМУ, вероятно прочитав эту глупость в русскоязычной википедии. Т.о. даже корректный вывод о принадлежности выборок к разным совокупностям может не быть правильным, т.к. для обнаружения истиных различий просто не хватает мощности (хотя, как уже писал выше, её и так не хватает, причём всем, начиная с научного руководителя).

Т.о. технически критерий УМУ не уместен по трём причинам. И всё было бы ничего, если бы вы ответили в ветку первым: уровень и опыт у всех разный, а чтобы ресурс жил нужно чтобы кто-то отвечал на зачастую примитивные и потворяющиеся вопросы новичков. И ничего страшного, если совет не самый лучший - кто-нибудь поправит если что... Но вы пришли уже после того, как были предложены и доверительные интервалы, и ресэмплинг, и его вариант в конкретной программе: типа считайте УМУ. Т.е. вы не согласны с предложенными до вас подходами и уверены что предлагаете лучший варант? Тогда напишите чем он лучше, и мы подискутируем. Иначе вы просто вводите топикстартера в заблуждение, а консультантов в ветке провоцируете на агрессию по отношению к вам.
  Форум: Медицинская статистика · Просмотр сообщения: #22231 · Ответов: 36 · Просмотров: 3613

nokh
Отправлено: 22.11.2017 - 16:31


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Диагностик @ 22.11.2017 - 16:00) *
Я посмотрел по таблице Uкр=1. У Вас 2. Вывод - гипотеза о том, что эти две выборки принадлежат к разным распределениям не подтверждается. Эффекта обработки не выявлено, статистически значимой разницы между средними значениями не обнаружено.

Вы бы ещё критерий знаков использовали и всех обучили этому. Кстати, Диагностик, а разве U-критерий проверяет гипотезу о равестве средних? Для дальнейшего роста и улучшения качества диагностики нужно ответить на этот вопрос.
PS Ответ о "равенстве медиан" тоже неверный...
  Форум: Медицинская статистика · Просмотр сообщения: #22221 · Ответов: 36 · Просмотров: 3613

nokh
Отправлено: 18.11.2017 - 19:27


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(nastushka @ 18.11.2017 - 14:42) *
nokh, спасибо Вам, в каждой группе 25 чел. А как усреднить стандартные отклонения?

Нужно гуглить, формулы видел. Также у Урбаха (Биометрические методы) есть на стр. 118 для дисперсий. Но теперь стало понятно, что вам это не подойдёт, т.к. ваши дисперисии сильно отличаются, например, для крайних вариантов 4 и 10, (т.е. дисперсий 16 и 100) F(24; 24)=100/16=6,25; P=0,000014. Т.о. усреднять ст. отклонения нельзя. Но столь сильные различия дисперсий наводят на мысль о ненормальном, возможно, сильно асимметричном распределении ошибки модели anova. Вы проверяли остатки на нормальность, использовали нормализующие преобразования в дисперсионном анализе?
  Форум: Медицинская статистика · Просмотр сообщения: #22206 · Ответов: 8 · Просмотров: 657

nokh
Отправлено: 17.11.2017 - 22:19


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Во-первых, классический дисперсионный анализ (как и классический t-критерий) требует равенства (однородности) дисперсий в группах. Это прописано во всех учебниках. Неправильно требовать от пакетов решений для неклассических задач. То, что на практике это требование может нарушаться и придуманы какие-то манёвры для его обхода - из другой области. Хотя можно попытаться использовать что-то из этих наработок для вашего случая. Например, модифицировать (уменьшить) степени свободы для F-критерия, т.е. попробовать посчитать мощность для Welch ANOVA. Но пока не очень себе представляю получится ли сделать это в рамках готовых пакетов типа рекомендованного pwr2.

Во-вторых, вы не указали количества наблюдений в группах. Без этого не понятно, отличаются ли дисперсии в группах (квадраты стандартных отклонений) статистически значимо или это может быть случайными выборочными вариациями одной и той же дисперсии. Если не отличаются - всё проще: нужно специальным образом усреднить ст. отклонения и считать мощность как для обычного случая. Всё-таки, приведите ещё и n - вдруг руки дойдут...
  Форум: Медицинская статистика · Просмотр сообщения: #22202 · Ответов: 8 · Просмотров: 657

nokh
Отправлено: 12.11.2017 - 15:01


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Когда я сижу дома, мои деньги в кошельке в сохранности. После похода в магазин их становится меньше. Как доказать статистически, что деньги я трачу в магазине?

Если сравнения сделаны, то вопрос не из области статистики. Вы попали на рецензента-дурочка. Бодайтесь с редакцией или отправьте статью в другой журнал.
  Форум: Медицинская статистика · Просмотр сообщения: #22178 · Ответов: 4 · Просмотров: 1117

nokh
Отправлено: 7.11.2017 - 20:32


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Света K @ 7.11.2017 - 17:23) *
Понятно, спасибо, хотя Путь PAST 2.17 и не совсем такой. Правильно так: Statistics - Univariate - галочка Bootstrap (N=9999). Действительно быстро и удобно.
...
Ну да, ну да. В идеале. А в реальности - ни согласия по поводу самих методов, ни четких алгоритмов и примеров, ни доступных объяснений. Так, мельком, по ходу, как будто все изначально все знают. Особенно ценны "существенные закономерности" когда одни и те же данные можно интерпретировать и так, и в обратную сторону. Недаром еще Гексли сказал, что математика, статистика как жернова - любую засыпку смелет...

У меня указан верный путь, т.е. все написано ПРАВИЛЬНО. А если вы умудрились скачать по моей ссылке древнюю версию вместо 3.16 - это ваши проблемы. У вас снижен порог самокритики: я бы трижды проверил почему люди пишут одно, а уменя получается иначе. Вас же это ни капельки не смутило - типа советуете тут мне неправильно. Плохое качество для науки в сочетании с нежеланием разбираться в деталях.

Если не стремиться к идеалам, то ни человеку наука не нужна, ни человек науке. Впрочем как и в любом деле...
  Форум: Медицинская статистика · Просмотр сообщения: #22150 · Ответов: 36 · Просмотров: 3613

nokh
Отправлено: 4.11.2017 - 18:03


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Света K @ 3.11.2017 - 17:40) *
После воздействия неким фактором (А) измерили длину 4 побегов в опыте и контроле.
Без действия:
75,2
78,3
88,9
87,0

После:
80,1
90,5
95,9
99,2

Как правильно написать (и вначале посчитать), что их длина увеличилась?
Судя по Вашему пункту 2, наверное, так: действие "А" эффективно, в результате длина увеличилась на 9 +- 5,3 см. (корень(44/4+69/4)=5,3)

А как по пункту 3? (В наличии только Excel 2003-2007 и калькулятор). Разные PAST недоступны, да и где их брать?


1. Скачать PAST и G*Power
https://folk.uio.no/ohammer/past/
http://www.gpower.hhu.de/en.html

2. В PAST набить данные, выделить. Путь: Univariate - Summary statistics. Выписать: средние, станд. отклонения. Для средних (см. строку Mean) получить 95% ДИ бутстрепом (лучше BCa).

3. Univariate - Two-sample tests (F, t, ?). См. 95% ДИ разности.
Параметрический по t-распределению содержит ноль и близок к тому, что 100$ рассчитал вам вручную по z-распределению.
ДИ бутстрепом не содержит ноля, т.е. в таком варианте различия статистически значимы на 5%-ном уровне (P<0,05). Что тут за бутстреп, какие они бывают и чем отличаются в худшую сторону от процентильного, рассчитанного вам p2004r - см. в мануале и литературе.

4. В G*Power вносим средние и стандартные отклонения. Считаем мощность (power) исследования = 0,3. Ставим себе и научному руководителю двойку за планирование исследования. Относимся к результатам как результатам пилотного исследования и рассчитываем в G*Power необходимые объёмы выборок (Type...: Sample size calculation...) для альфа=0,05 и бета=0,20, т.е. мощности = 0,8 (самостоятельно).

PS По поводу "обычных людей". Обычные люди работают на заводах, в офисах, магазинах и т.п. Они не измеряют длину побегов и не тусуются на статистических форумах. Процитирую сам себя (пособие скоро должно выйти):
"Я - биолог (я – врач), а не статистик". Такая не всегда верная установка тиражируется в некоторых медицинских, педагогических и даже научных коллективах, а потому встречается не так уж редко. Она справедлива до тех пор, пока человек не приступает к выполнению научной квалификационной работы. Статистический анализ данных является неотъемлемой частью современной научной методологии. Поэтому, если человек работает над школьным научным проектом, дипломной работой бакалавра, магистерской, кандидатской или докторской диссертацией, он должен предъявить соответствующие данному квалификационному уровню умения грамотно получать данные и выделять из них наиболее существенные закономерности с использованием статистических методов. Поэтому, пока Вы занимаетесь научной работой, Вы – статистик.
Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #22121 · Ответов: 36 · Просмотров: 3613

nokh
Отправлено: 31.10.2017 - 02:14


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Никто не хочет вникать в вашу узкую специфику, обильно сдобренную всякими буковками. Вот такая вот ЖЖЖЖ!
Общая рекомендация: раз есть специфика, привносимая вмешательством, то от общего количества считать смысла нет. Считайте % в А и Б для сопоставимых групп.
  Форум: Медицинская статистика · Просмотр сообщения: #22076 · Ответов: 2 · Просмотров: 892

nokh
Отправлено: 31.10.2017 - 01:50


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(bubnilkin @ 29.10.2017 - 03:39) *
Уважаемый nokh, спасибо за наводку с компонентами дисперсии. Bот что всё-таки вышло. Для простоты я использовал пример (dataset.txt) в Монтгомери с батарейками (8th ed., p.192-194, прикрепил).
...
С другой стороны, формулы для EMS на стр.191 (Montgomery), если я правильно понимаю, приведены для случая сбалансированных планов. В моём же эксперименте количество значений в ячейках дисперсионного компекса очень сильно разнится. Как быть ?

Пока нет возможности вникать sad.gif , может ближе к концу недели... Но вообще с неравномерными комплексами - засада, там нужно типа взвешенное среднее n вычислять. Для однофакторного ДА это- не проблема, описано у Sokal, Rohlf (Biometry, 1995) на стр. 214 (Box 9.2). Но в сложном ДА неравномерность может вылиться в то, что в математических ожидаемых для разных эффектов окажутся по-разному взвешенные n, и как это всё раскручивать вручную я не знаю. Если не получится подобрать софт для этого, то может типа смоделировать? Сделать из своих данных несколько случайных равномерных комплексов, их обсчитать, вычислить без проблем компоненты дисперсии и усреднить по вариантам? В R это можно пробовать автоматизировать...
  Форум: Медицинская статистика · Просмотр сообщения: #22075 · Ответов: 17 · Просмотров: 8474

nokh
Отправлено: 27.10.2017 - 19:08


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Света K @ 27.10.2017 - 18:16) *
Во-первых спасибо за разъяснения. Во-вторых, данные (исходные) конечно есть, но мне не совсем понятно - есть только две конечные цифры - начальная длина (среднее из 4 измерений) и после действия фактора. Имеется в виду, что никаких промежуточных данных нет. Стоит ли тут при таких данных вообще говорить о каком-то изменении размеров? Кстати, Вы правы, используются методы именно 80-х годов. Но многие считают, что вряд ли подобные методы могут измениться.

Раз у вас есть исходные данные, значит цифр у вас не 2 (начальная и конечная средние), а больше. Вот с этими самыми исходными цифрами (индивидуальными промерами) и нужно работать чтобы рассчитать 95% ДИ прироста и статистическую значимость влияния фактора (ваши динозавры назовут её "достоверностью"), раз был ещё какой-то фактор. Кстати этот фактор всё запутал, опишите свой материал и эксперимент и тогда решим как его грамотно обсчитать и представить (ну это если такое нужно, если не нужно - см. формулу стандартной ошибки разности в предыдущем сообщении).

PS. А методы и подходы устаревают. Хи-квадрат Пирсона устарел, точный метод Фишера устарел, классический t-критерий Стьюдента тоже не рекомендуют использовать на практике, точные ДИ Клоппера-Пирсона не точны, двумерного нормального распределения (для корреляции Пирсона) в природе не сыскать и т.д. Многие известные методы получаются в качестве частных решений современных статистических моделей... Посмотрите насколько сильно компьютеры изменили мир с 1980-х: наивно думать что в научной методологии и статистике они ничего не изменили (это я про бутстреп и т.п.). Подходы устаревают морально, т.е. не потому, что были неправильные, а потому что взамен было предложено что-то лучше.
  Форум: Медицинская статистика · Просмотр сообщения: #22065 · Ответов: 36 · Просмотров: 3613

nokh
Отправлено: 26.10.2017 - 16:54


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Света K @ 26.10.2017 - 13:46) *
Подскажите, пожалуйста, как правильно написать о разнице в приросте побегов если вначале они были 82,4 +- 3,34 см, а после воздействия определенным фактором стали 91,4 +- 4,14 см. Других данных нет. Просто сказать, что длина побегов увеличилась на 9 см (91,4-82,4)? Или нужно еще сложить ошибки и разделить на два и привести эту ошибку? Или как?

1. Прирост побегов, как и другие показатели, зависящие от времени, имеет асимметричное распределение. Следовательно, все эти плюс-минус не имеют ничего общего с реальностью: чисто виртуальные показатели. В приличные журналы данные вида "среднее +/- станд. ошибка" не принимают. Уровень проведённой статобработки - низкий, образца максимум 1980-х годов.

2. Если научный руководитель - динозавр, и требует именно древних методов, то рассчитать такую же виртуальную ошибку разности средних можно. Но только, конечно, не усреднением, а по специальной формуле. Для этого понадобятся значения дисперсий s2 в обеих выборках. Их можете рассчитать из значений стандартной ошибки и объёма выборок (формулу найдёте в любом учебнике).
Стандартная ошибка разности будет равна se (разности средних)=Корень (s21/n1 + s22/n2)
Погуглите на предмет стандартной ошибки разности, чтобы найти что-то для ссылки.

3. Но правильнее рассчитать доверительные интервалы (ДИ) и привести 1) средние с 95% ДИ и 2) разность средних с 95% ДИ. ДИ лучше считать бутстрепом ввиду отличия распределения от нормального. Если есть 2 колонки исходных данных, то в пакете PAST делается за 2-3 клика. Кстати, что значит "Других данных нет", куда делись оригинальные данные? Если у вас нет исходных данных, значит у вас нет данных, т.к. приведённые числа - это не данные, а результат не вполне корректной обработки данных.
  Форум: Медицинская статистика · Просмотр сообщения: #22060 · Ответов: 36 · Просмотров: 3613

nokh
Отправлено: 21.10.2017 - 13:05


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(tvsova80 @ 19.10.2017 - 16:25) *
Здравствуйте. Мне порекомендовали ваш форум, где можно получить очень грамотные консультации по стат. методам. Исследование не относится к медицине, но, возможно, что кто-либо сталкивался с подобным/похожим исследованием в медицине или какой-либо другой области.

Я обращаюсь к Вам не совсем, возможно, с обычным вопросом: сталкивались ли Вы с исследованиями (а возможно, что сами проводили), направленными на изучение срока действия заключений по результатам психодиагностического обследования? В течение какого периода времени можно опираться на полученные данные без перепроведения психодиагностического обследования у одного и того же человека (полгода, 1 год, 2 года и др.срок). Как возможно осуществить данное исследование? Понятно, что это лонгитюдное исследование с учетом, по возможности, всех внешних факторов, влияющих на когнитивные/личностные/мотивационные составляющие (в том числе и травмы головы, аварии, заболевания и т.д., и т.п.), но в настоящее время нет возможности исследовать устойчивость (стабильность) психологических характеристик в течение нескольких лет у одних и тех же обследуемых. Есть база, в которой отражены результаты по психодиагностическим обследованиям одних и тех же людей в разный период времени и больше ничего. Это по большей части исследование изменений когнитивных/личностных/мотивационных составляющих у специалистов идущих на повышение по должности. При этом те данные, что я имею, находятся исключительно в базе Excel, исследования одних и тех же людей были проведены в разный промежуток времени, который не всегда совпадал у всех вместе. Никакие внешние факторы, которые могли бы повлиять на какие-либо изменения/не изменения мне не известны и известны не будут. Поэтому я исхожу лишь из того, что у меня, как говорится, "на руках". Этого, конечно, не совсем достаточно... но, как говорится, то, что есть..... Пришла в голову мысль про проведение корреляционного анализа изучаемых показателей между годами, а также про коэффициент вариации по всей имеющейся выборке за каждый год. Поэтому я составила примерный проект исследования, включающий в себя и использование критерия Вилкоксона, и корреляционный анализ между годами и показателями, также возможно попробую и коэффициент вариативности, и определение средних значений и ст. отклонений. Думала и о дисперсионном и кластерном анализах. В правильном ли направлении мыслю? Как можно рассчитать коэффициент вариации по разным годам у одних и тех же обследуемых? Каким образом можно определить "точные коэффициенты и погрешности при попытке измерить диапазон колебания личностных свойств"?

Буду благодарна за любую информацию, подсказку, направление, в котором двигаться.

Вы не обозначили чётко какова задача исследования. Судя по тексту может быть и (1) и (2), но схемы действий будут различаться принципиально, за исключением начального этапа smile.gif . Итак:
(1) Необходимо задать научно обоснованные интервалы для проведения периодического тестирования специалистов. Можно опираться на литературные данные, также в помощь предоставлена реальная база данных.
(2) Неоходимо проанализировать предоставленную базу данных и именно на её основе выработать интервалы для проведения периодического тестирования специалистов.

Если (1), то начинать нужно с обзора литературы. Поднимать всё, что касается устойчивости когнитивных, личностных и мотивационных характеристик во времени. Дело кропотливое, но куда более простое по сравнению выработкой нового на основе анализа не предназначавшихся для этого данных. Тестология - разработанная область, особенно - за рубежом, и я полагаю, что в своё время проводились достаточно масштабные экспериментальные исследования по этой теме. Ключевое слово здесь - "экспериментальные". В экспериментах нет проблемы "что дали, то и есть", т.к. исследователи сами формируют группы по возрасту, полу, стажу работы и т.п. и срого выдерживают интервалы повторных тестирований. Если пойти по пути анализа литературы, то спустя небольшой промежуток времени (зависит от вашей загруженности другой работой) у вас будут нужные интервалы. Плюс - вы будете безупречно теоретически "подкованы".
Далее можно использовать предоставленную базу данных, чтобы удостовериться в том, что найденные в литературе теоретические положения и практические рекомендации справедливы и в вашем случае. Например, если в литературе есть что-то о несущественности изменения когнитивных свойств у персонала, не достигшего пенсионного возраста, - можете взять какой-то кусочек базы данных и проверить это на нём. Или если есть данные о влиянии стажа на мотивацию, возьмёте результаты только первого и последнего тестирования и сравните. Таким образом вы выборочно "привяжете" теорию к конкретным данным и задачу можно считать решённой. Возможно, что-то впишется не совсем идеально, но на то и жизнь...

Если (2), то начинать нужно с обзора литературы. Смотреть какими методами работали исследователи. Как они группировали по возрасту, стажу и т.п. и не было ли это избыточно точным, исходя из результов проведённых ими исследований. Далее можно группировать свои данные сходным образом - это позволит создать материал без дыр, имеющихся в исходных данных. С укрупнёнными блоками работать будет проще: в том же дисперсионном анализе можно задать в качестве фактора "возраст" всего несколько осмысленных категорий вместо непрерывного ряда значений, которые нужно ещё суметь грамотно задать в качестве ковариат. Как дальше выходить на интервалы тестирования - задача творческая, может решаться как большим количеством примитивных анализов (типа парных корреляций или попарных сравнений групп), так и многомерными методами. Точнее даже - какой-то комбинацией этих методов, т.к. специального анализа на такой случай нет. Но пока сильно углубляться в (2) нет смысла, т.к. задача сложная, а возможно вам достаточно (1).
  Форум: Медицинская статистика · Просмотр сообщения: #22042 · Ответов: 3 · Просмотров: 565

nokh
Отправлено: 8.10.2017 - 20:49


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(p2004r @ 7.10.2017 - 11:36) *
Вот так вот "плохому учат" smile.gif
1. Это не воспроизводимо.
2. Возникает возможность "решить квадратуру круга" -- сделать визуально корректное и принципиально невозможное построение.

Раньше вообще рисунки чернилами от руки строили и в космос полетели. Так что это - однозначно не лучшее. Но и не "плохое". Это - "иное" smile.gif
  Форум: Медицинская статистика · Просмотр сообщения: #21976 · Ответов: 4 · Просмотров: 843

nokh
Отправлено: 6.10.2017 - 23:25


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Blaid @ 4.09.2017 - 12:57) *
...
Так вот, интересует пункт 2. Как "бороться" с неравенством дисперсий известно (опять же из обсуждений в этой ветке) - делать нормализующее (дисперсии или же дисперсии + нормальность распределения) преобразование (Rundom pro soft в помощь или AtteStat). Собственно вопрос:
если выявлено неравенство дисперсий в сравниваемых группах (например, с помощью критерия Бартлетта или аналогичных), то как нужно делать преобразование?
Каждую из групп нужно преобразовывать отдельно, независимо от других? Или же следует преобразовывать единую выборку, полученную объединением отдельных независимых групп?
Спасибо!

Сначала по поводу преобразования. Преобразовывать можно и каждую группу отдельно, но только одинаковым преобразованием:) Например, квадратным корнем, логарифмом, арксинусом... Если же используются "крутые" преобразования, адаптивные к конкретным данным, типа Бокса - Кокса или Йео - Джонсона, то конечно, нужно преобразовывать весь массив с одинаковой лямбдой.

По поводу неоднородности дисперсий. Асимметрия распределения ошибки указывает на "эффект шкалы", когда мы измеряем данные одной "линейкой", а природа - другой. Для приведения их в соответствие, перед дисперсионным анализом логично использовать преобразования. Для себя я понимаю это как устранение некоего искусственного препятствия. В отличие от этого неоднородность дисперсий (НД), не устранённая преобразованием, является не искусственной, а естественной. Т.е. вполне логично, что, скажем, на начальных сроках после операции дисперсия показателя в группе высокая, а спустя полгода - низкая. С этой НД невозможно бороться, да и неправильно это будет: она свойственная данным и это наша беда, что нас интересует, как правило, только сдвиг центральной тенденции, а не плюсом - изменение рассеяния и формы распределения. Т.о. НД в дисперсионном анализе неудобна, но уж тут ничего не поделаешь.
Какие видятся варианты решения проблемы.

1. Использовать для проверки НД не критерий Бартлетта, а что получше. Известно, что критерий Бартлетта слишком часто радостно её находит. Sokal & Rohlf (Biometry) рекомедуют log-anova test. Его не найти в пакетах (может в R только..., не искал), но легко считается в любой программе, где есть обычный ANOVA.

2. Постараться в ходе преобразования не только нормализовать ошибку модели, но и выровнять дисперсии. Когда-то делал это в Rundom BC (Rundom Pro совсем неудобен для меня оказался, не осваивал...). Недавно мы её вспоминали добрым словом на форуме: http://forum.disser.ru/index.php?showtopic=4111

3. Использовать штраф по степеням свободы за несоблюдение однородности дисперсий. Т.е. использовать в однофакторном ANOVA, подход, аналогичный подходу Уэлча для t-критерия Стьюдента. Такой подход автоматом считается в пакете PAST.

4. Не заморачиваться по поводу неравенства дисперсий в самом ANOVA, а сконцентрироваться на пост-хоках. Критерию Геймса - Ховелла (Games-Howell test) НД - не помеха.

5. Использовать рандомизационный вариант ANOVA. Лучше exact permutation. Тогда вообще независимо от выполнения требований, p будет вычислено точно, а само значение F будет использоваться лишь в качестве одной из возможных статистик. Доступно почитать можно у Шитикова (Рандомизация и бутстреп). Сделать можно в R и Rundom pro.
  Форум: Медицинская статистика · Просмотр сообщения: #21963 · Ответов: 5 · Просмотров: 1450

nokh
Отправлено: 6.10.2017 - 22:27


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(pyramidhed @ 26.09.2017 - 01:34) *
Здравствуйте! Нужно построить график выживаемости в зависимости от изменения пульсового давления у группы пациентов.
Есть временной интервал и данные о выживаемости. График хотелось бы построить как на примере.
В наличии пакет STATISTICA и SPSS.
Спасибо

Проще всего как уже сказали - "на глазок". Для этого вам нужно сперва освоить анализы, позволяющие построить отдельные графики. Совмещать очень удобно в бесплатном векторном редакторе TpX ( https://sourceforge.net/projects/tpx/ ). Отлично вставляет графику из буфера виндоус, корректно создаёт и открывает большинство файлов svg. В последние годы провожу в нём финальную обработку почти всей полученной в разных пакетах графики, включая R, PAST, KyPlot, MedCalc, Statistica.
  Форум: Медицинская статистика · Просмотр сообщения: #21962 · Ответов: 4 · Просмотров: 843

nokh
Отправлено: 6.10.2017 - 22:13


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(FOLFIRINOX @ 5.10.2017 - 17:40) *
Подскажите пожалуйста, каким методом в SPSS вычислить пороговое значение переменной, при котором разница в выживаемости будет достоверной?

Не понятно о каком разделе анализа идёт речь. Если собственно об анализе выживаемости, то вопрос звучит как глупость. Если о чём-то другом, имеющем отношение к выживаемости, то непонятно о чём.
Напишите:
1) что у вас за данные
2) что вы хотите из них выжать
3) что вы уже попробовали сделать самостоятельно и что не получилось.
  Форум: Медицинская статистика · Просмотр сообщения: #21961 · Ответов: 1 · Просмотров: 434

nokh
Отправлено: 3.10.2017 - 23:04


Дух форума
*

Группа: Пользователи
Сообщений: 1021
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(bubnilkin @ 30.09.2017 - 01:35) *
Добрый день,

подхватываю эту тему, т.к. задача аналогичная.
...
Начал тестировать собственно влияние (А Б А*Б) (приложил итоговую таблицу), но вижу, что тестируемая модель практически не обьясняет вариабельность в данных (дисперсия ошибки в 10 раз превышает дисперсию, которая обьясняется моделью, и R^2 ~ 0.1)

Подскажите, пожалуйста, как с этим бороться?

Быстрый совет - найти факторы, которые объясняют вариабельность лучше smile.gif ну или ставить точку. Ведь никто не отменял отрицательные результаты в науке; могло получиться, что вообще ничего не значимо. У вас же значимы оба главных эффекта, т.е. ваши факторы ВЛИЯЮТ на признак. Если вы даже увеличите объём выборки в эксперименте, то, возможно, докажете ещё и взаимодействие факторов. Однако это никак не повлияет на соотношение дисперсий: слабые эффекты останутся слабыми, детерминация не изменится. Поскольку с технико-статистической точки зрения вы постарались максимально приблизить данные к требованиям модели - к самому анализу претензий быть не может, все претензии - только к самим данным. Если данные говорят, что пол и диета влияют значимо, но слабо, значит так оно и есть. Полагаю, что применительно к данному фрагменту работы можно фиксировать и публиковать результат.
Единственное, что я бы ещё добавил к ДА с Боксом-Коксом, так это вычислил бы в %, сколько всё-таки изменчивости (дисперсии) показателя определяется полом, сколько - диетой и сколько - спецификой сочетания (взаимодействием) этих факторов. Т.е. рассчитал бы типа компоненты дисперсии. "Типа", т.к. оба фактора фиксированные, а не случайные (программы могут отказаться считать компоненты для фиксированных экспериментов). Тем не менее и по фиксированным можно расчитать дисперсии всех эффектов, сложить их вместе (100%) и затем расчитать вклады. Я когда-то делал такое по книге Монтгомери Д. Анализ данных и планирование эксперимента - см. раздел по математическим ожидаемым средних квадратов. Т.е. дисперсии (MS) в таблице результатов ANOVA, это ещё не дисперсии связанных с эффектом воздействий, последние нужно рассчитать и выразить в %.
  Форум: Медицинская статистика · Просмотр сообщения: #21947 · Ответов: 17 · Просмотров: 8474

41 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена