Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

47 страниц V   1 2 3 > » 

nokh
Отправлено: 15.09.2021 - 20:30





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Engeneer @ 14.09.2021 - 21:24) *
...
не поянтно как поступать когда фактором является вещество. а имеенно меняется от 0 до 100 по массе в веществе. при использовании скажем звездного плеча 1,498 мы должны массу везества взять 149,8 процентов. это бред. как поступать?
заранее спасибо!

Не доводилось так сложно планировать, но проблема видится в следующем. Факторные эксперименты предполагают, что уровни фактора - номинальные. Конечно, мы можем задать в качестве уровней и упорядоченные категории, и какие-то количественные показатели, но анализироваться они всё-равно будут как категориальные. Т.е. если бы у вас было 100 веществ, то, возможно, так и было бы как вы посчитали. Но у вас один количественный показатель, изменяющийся от 0 до 100, а не 100. Один и сто - большая разница. Получается не факторная схема, а регрессионная. В рамках классических схем анализируется такое не дисперсионными анализами, а ковариационными или конфлюэнтным. А как планируется - не знаю. Нужно поискать как моделируются регрессионные эксперименты или факторные, но с количественной ковариатой.
  Форум: Медицинская статистика · Просмотр сообщения: #26986 · Ответов: 1 · Просмотров: 573

nokh
Отправлено: 6.07.2021 - 18:30





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(nzbr @ 27.06.2021 - 22:47) *
rstudio.cloud не подходит для ваших целей?

Не знал про этот ресурс, спасибо! Попробую.
  Форум: Медицинская статистика · Просмотр сообщения: #26838 · Ответов: 4 · Просмотров: 5744

nokh
Отправлено: 6.07.2021 - 18:29





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Choledochus @ 10.06.2021 - 15:35) *
После каких сочетаний клавиш в SPSS получается выделить главный компонент? Можно по-простому. В учебниках пока не разобрался, хотя есть несколько.
Спасибо

Я отвечал на вопрос в личке, ответа не получил.
  Форум: Медицинская статистика · Просмотр сообщения: #26837 · Ответов: 8 · Просмотров: 3715

nokh
Отправлено: 8.06.2021 - 21:58





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Choledochus @ 7.06.2021 - 10:46) *
Добрый день!
Кто-нибудь владеет этим инструментом для анализа опросников?
Есть несколько англоязычных статей, но пояснений почти нет. Считается наверное внутри пакетов.
Есть такая подсказка: "Discriminant validity of items and rates of scaling success were
analysed by comparing the differences between item-own and item other
scale correlations".

Есть очень небольшой опыт, статья "зависла" на этапе доведения до ума людьми, которые её так и не доделали. Работал со шкалой Бартел для оценки состояния пожилых людей. В отечественной литературе чаще называется опросником или шкалой "Бартела", хотя это был не он, а она - Доротея Бартел (Dorothea W. Barthel). Поскольку к теме больше не возвращался, могу только написать что делал тогда, хотя похоже направление развивается.

1) Валидность. Смотрел конструктную валидность, это наиболее комплексный и сложный вид валидности, который характеризуется способностью теста к измерению именно запланированной и теоретически обоснованной характеристики. Её можно оценивать по факторной валидности, которую проводят анализом главных компонент или факторным анализом. Суть - убедиться, что отчётливо выделяется только одна компонента или один фактор. Я использовал нелинейный анализ главных компонент по алгоритму CATPCA (в SPSS) и на первую компоненту пришлось 85,2% общей дисперсии. По критериям Кайзера, "сломанной трости" и "каменистой осыпи" Кэттелла выделялась именно эта одна компонента, что хорошо. Если бы выделялось больше факторов, то это значило бы, что этот опросник оценивает не один, а несколько процессов, т.е. не только то, для чего он разрабатывался, но и что-то ещё. Далее прокоррелировал шкалу Бартел со значениями первой компоненты и вычислил коэффициент детерминации R2. Он был равен 0,960, т.е. обе шкалы на 96% измеряли одно и то же. Таким образом подтвердил факторную валидность, и в целом конструктную валидность.

2) Надёжность. Т.к. измерения проводились однократно можно рассчитать только один показатель надёжность - внутреннюю согласованность. Соответственно с внешней и прочим не знаком, видимо там есть свои показатели. Внутренняя согласованность показателей теста показывает насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Она является ключевой в оценке качества теста: считается, что именно внутренняя согласованность должна быть основной целью разработчиков теста. Для оценки надёжности рассчитывают ?альфу? Кронбаха, которая изменяется от 0 (показатели не коррелируют между собой) до 1 (все показатели взаимно коррелированы). Формулы для расчёта есть в Интернете, пакет SPSS всегда считает её автоматически в PCA и факторном анализе. У меня эти альфы получились близкими: 0,981 в CATPCA и 0,969 по формуле для 10 пунктов опросника. Это хорошо, считается, что для качественных опросников это значение должно быть больше 0,90. В этой части можно углубиться и посмотреть корреляции отдельных шкал опросника с итоговой, вероятно это и есть item-own scale correlation. Т.к я уже сделал многомерный анализ, то такие корреляции не считал, а показал просто нагрузки переменных (10 отдельных шкал) на первую компоненту, т.к. факторные нагрузки это и есть корреляции Пирсона показателя с компонентой. Что такое item other
scale correlations не знаю, времени искать нет, но возможно, что в сложных опросниках, где вычисляется не одна итоговая шкала (как в Бартел), а несколько (как в SF-36) считают ещё корреляции между разными итоговыми шкалами. По логике корреляции субшкал внутри большой шкалы должны быть максимальны, а корреляции между большими шкалами - минимальны, т.к. они нацелены на измерение разных качеств.

3) Дискриминативность. Видимо то, что в вашем материале называется Discriminant validity. Это показатель качества методики, который оценивает её способность различать испытуемых. Обычно она измеряется коэффициентом дискриминативности Фергюсона ?дельта?, который изменяется от 0 до 1. Он принимает минимальное значение δ=0 если все испытуемые получают по шкале одинаковое значение, а максимальное δ=1 ? если каждый испытуемый получает уникальную оценку, что соответствует равномерному (прямоугольному) распределению. У меня дельта была 0,906, что указывало на высокую дискриминативность. Я построил распределение итоговой шкалы и оно получилось полимодальным, с 4 модами. Сильнее всего отстояла от других группа слабых пожилых, которые уже себя не обслуживали, а те которые обслуживали разбились ещё на 3 подгруппы, включая большую подгруппу пожилых с максимальными значениями, которую мы использовали далее в иммунологических работах под названием "активное долголетие". Короче, дискриминативности шкалы хватило даже на то, чтобы провести анализ смеси распределений (делал в R, но можно и в PAST) и выделить подгруппы.

Таким образом в моём примере получилось, что во-первых, шкала действительно измеряет нужное свойство и только его (конструктная валидность), во-вторых, все шкалы вкладываются в итоговую шкалу (факторные нагрузки от 0,847 до 0,947), что видно по интегральному показателю - альфе Кронбаха, и в-третьих, шкала наделяет респондентов практически уникальными итоговыми значениями, т.е. имеет хорошую дискриминативность.

Смотрел как и вы какие-то англоязычные материалы, из отечественных:
Жмуров, В. А. Большая энциклопедия по психиатрии / В. А. Жмуров. ? 2-е изд. ? М. : Джангар, 2012. ? 864 с.
Клайн П. Справочное руководство по конструированию тестов: Введение в психометрическое проектирование: Пер. с англ. / Под ред. Л.Ф. Бурлачука. Киев: ПАН Лтд., 1994. 288 с.
Какую-то книгу Наследова по SPSS (у него их несколько)

Также можете скачать у меня материалы Гарсона. В своё время у него был сайт, который он наполнял качественным хорошо структурированным материалом с привязкой к методам пакета SPSS, но иногда шире. Я всё это качал и складывал в папку. Оказалось, что правильно делал, т.к. он закрыл свой сайт и выложил эти и последующие материалы уже как платный контент. Там мало собственно по опросникам, но Validity и Reliability Analysis есть. Архив старых страничек здесь: https://yadi.sk/d/yrc6UAN3SC9cNg

Если разберётесь во всём и/или найдёте хорошие руководства - выкладывайте сюда в продолжение темы.
  Форум: Медицинская статистика · Просмотр сообщения: #26814 · Ответов: 8 · Просмотров: 3715

nokh
Отправлено: 20.05.2021 - 21:58





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Blaid @ 18.05.2021 - 01:51) *
...НО ЕСТЬ ОСОБЕННОСТЬ: в ячейке данного дисперсионного комплекса только по одному наблюдению...

Это действительно особенность, но не проблема. Просто дисперсионный комплекс с одним наблюдением на ячейку. Описан в Монтгомери (в переводном издании на стр. 150): https://yadi.sk/d/iWeppTdonLaAog
Также описано у Сокала и Рольфа, у Мардиа и Земроч, и в др. книжках. Поскольку наблюдение одно, ошибку нельзя отделить от взаимодействия, т.е. ошибкой выступает сумма (взаимодействие если оно есть + ошибка). Хотя судить о взаимодействии помогает тест Тьюки на неаддитивность. Получается как дисперсионный анализ главных эффектов (main effects anova).

Более проблематичной видится нормальность распределения ошибки, тест на которую пакеты скорее всего не выдадут. А асимметричное распределение ошибки увеличит дисперсию и снизит разрешающую способность анализа. Поэтому я бы провёл такую проверку вручную, удобно даже в Экселе:
0) Сначала рассчитать среднее для всей таблицы и вычесть его из каждого значения таблицы, т.е. убрать из модели мю (математическое ожидание). В принципе, этот шаг можно пропустить, т.к. вычитание константы не повлияет на распределение ошибки кроме как сдвигом.
1) Для оставшейся матрицы рассчитать средние значения по строкам и вычесть его из значений соответствующей строки, т.е. убрать из модели фактор строки (например, Вид)
2) Для оставшейся матрицы рассчитать средние значения по столбцам и вычесть его из значений соответствующего столбца, т.е. убрать из модели фактор столбца (например, Растворитель)
3) То, что останется и будет ошибкой модели. 5 х 7 = 35 значений. Этого уже хватит и для проверки на нормальность и для построения грубой гистограммы. Если распределение будет скошенным, исходные данные можно преобразовать, например попробовать логарифмирование. т.к. малые концентрации распределены близко к логнормальному.

Как вариант можно применить также непараметрику. Можно провести анализ Фридмана (для рандомизированных блоков) и оценить значимость эффекта строки. Затем транспонировать матрицу данных и повторить анализ, так получим оценку эффекта столбца. Поскольку метод ранговый, получится довольно грубо, но как вариант... Дисперсионный анализ мне нравится больше.
  Форум: Медицинская статистика · Просмотр сообщения: #26792 · Ответов: 2 · Просмотров: 3243

nokh
Отправлено: 26.04.2021 - 21:04





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Такое впечатление, что у вас нет хотя бы двух групп для фактора "наличие АГ". Проверьте данные. Также этот пакет не любит нецифровые метки для кодов, а из цифровых не любит 0 и 1. Если у вас данный фактор закодирован как 0 (нет) и 1 (есть), попробуйте просто перекодировать в 1 и 2. Напишите что получится.
  Форум: Медицинская статистика · Просмотр сообщения: #26765 · Ответов: 12 · Просмотров: 8265

nokh
Отправлено: 17.04.2021 - 21:28





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Бросил эксперименты, т.к. похоже это особенность отдельных конкретных комбинаций железа и софта. Я использовал старый комп с двухядерным процессором Intel и интегрированной графикой. Докупил с рук старой памяти DDR до 2 Гб. Получилась нормальная рабочая система для Windows 7, но под Linux'ами её возможности получились ограниченными, включая описанную проблему и проблемы с рабочими столами KDE и Cinnamon, в которых на более современном компе RStudio работала корректно.

Из других статпакетов пробовал ставить free пакеты KyPlot и PAST. KyPlot удалось поставить во всех случаях (вариантов 6 опробовано) - либо из Wine напрямую, либо из Wine через PlayOnLinux; работала корректно, как из под винды.
Наоборот, PAST не запустилась как надо ни разу. Во всех случаях получал просто сообщение об ошибке или ничего не происходило. Запустилась только из под Wine в составе Ред ОС Муром, но с сообщениями об ошибках и неполноценным интерфейсом (нет сетки spreadsheet, окна выбора опций подглючивают - нужно успеть кликнуть где нужно, иначе окно закрывается или в области клика появляется другая опция).

Для себя сделал вывод, что если прижмёт, смогу почти нормально работать в Linux, но:
1) у сертифицированных отечественных ОС проблемы с репозиториями, ни в одной из 3 опробованных даже R запустить не смог (+4 даже установить не смог, + 5 установилась но отказалась запускаться, + 6 запустилась, но едва ворочалась - не до тестов). Из несертифицированных отечественных понравилась runtu.

2) для нормальной работы и комп должен быть нормальным. Рассказы о нетребовательности ряда дистрибутивов линукс к системным ресурсам - правда, но если на старом компе запускать не только браузер, офис и медиаплеер - могут повылазить проблемы. Скоростью на старом железе понравилась Debian 10 Xfce (по ощущениям быстрее lubuntu (Xfce, LXQt), xubuntu ) и Q4OS, но не Linux Lite, который совсем не Lite, и уж точно не отечественная Calculate, которая вообще едва шевелилась.

3) Для запуска привычных программ для работы возможностей Wine может не хватить (как минимум - PAST, векторный редактор ТрХ, пара бесплатных гидрохимических пакетов...), придётся всё равно держать винду на виртуальной машине.
  Форум: Медицинская статистика · Просмотр сообщения: #26754 · Ответов: 4 · Просмотров: 5744

nokh
Отправлено: 11.04.2021 - 06:55





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Пока выяснил, что это не crash report, а предложение отправлять сообщения о таковых:))
В остальном пока всё плохо. Это как-то связано с работой разных версий Qt. На github.com есть ветки с аналогичной проблемой белого экрана и проблемой чёрных прямоугольников вместо меню. Пока тыкаюсь...
  Форум: Медицинская статистика · Просмотр сообщения: #26733 · Ответов: 4 · Просмотров: 5744

nokh
Отправлено: 8.04.2021 - 09:12





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Внимательнее посмотрел, документы, ответ есть в Приказе Минобрнауки: https://vak.minobrnauki.gov.ru/uploader/loa...3002&f=7892
Получается, что переходный период уже идёт. Видимо, тему можно закрыть...
  Форум: Обучение в аспирантуре · Просмотр сообщения: #26726 · Ответов: 1 · Просмотров: 4354

nokh
Отправлено: 7.04.2021 - 22:01





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Ходят разговоры, что в июне 2022 г. все диссертационные советы закроют, т.к. будут менять шифры специальностей. У кого диссертации почти готовы торопятся сейчас защититься быстрее, поскольку никто не знает что будет после смены шифров.

А может быть кто-то всё-таки знает? , может есть какая-то инсайдерская информация о том будет ли какой-нибудь переходный период?
  Форум: Обучение в аспирантуре · Просмотр сообщения: #26725 · Ответов: 1 · Просмотров: 4354

nokh
Отправлено: 7.04.2021 - 21:34





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


У жены на работе в больнице всем поставили компьютеры с РедOC Муром - импортозамещение:). Ездил переносил ей инфу с ноута, папки всякие понаделал, ярлыки программ на рабочий стол вывел... Ну и что-то увлёкся, поставил дома на старый комп сначала РедOC, а потом и другие Линуксы потестил.

Один из тестов пока провалили все - не удаётся нормально запустить Rstudio. Пробовал на лёгких версиях Ubuntu (Lubutu, Xubuntu, отечественная runtu), на Mint и на чистом Debian 10. Рабочий стол везде Xfce, т.к. ни на LXQt, ни на Mate (пробовал разные оболочки в разных линуксах) RStudio вообще экрана не выдала. В трёх случаях запустилась, но с предложением отправить crash report. Картина везде идентичная, поэтому надеюсь, что какими-то настройками исправить можно. После сообщения об ошибке остаётся чёрный экран со стрелкой курсора. На П и Л кнопки мыши откликается, а если покликать в верхней части - появляются пункты меню, но самого меню не видно (см. скриншот). Но если в менюшках что-то выбрать - что-то происходит судя по отклику жёсткого диска, но результат не виден, т.к. чёрный фон всё забивает.

Пробовал поменять настройки эмулятора терминала с (белый на чёрном) на (чёрный на белом). Получилось, и терминал самой R эти настройки унаследовал. Но в Rstudio так всё чёрное и осталось. От версии R не зависит (пробовал и 4.0 и 3.6, а Debian аж только 3.5 пока достойной считает), сама R нормально работает.

Может кто из под линукса работает знает в чём может быть дело?
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #26724 · Ответов: 4 · Просмотров: 5744

nokh
Отправлено: 7.04.2021 - 21:26





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


У жены на работе в больнице всем поставили компьютеры с РедOC Муром - импортозамещение:). Ездил переносил ей инфу с ноута, папки всякие понаделал, ярлыки программ на рабочий стол вывел... Ну и что-то увлёкся, поставил дома на старый комп сначала РедOC, а потом и другие Линуксы потестил.

Один из тестов пока провалили все - не удаётся нормально запустить Rstudio. Пробовал на лёгких версиях Ubuntu (Lubutu, Xubuntu, отечественная runtu), на Mint и на чистом Debian 10. Рабочий стол везде Xfce, т.к. ни на LXQt, ни на Mate (пробовал разные оболочки в разных линуксах) RStudio вообще экрана не выдала. В трёх случаях запустилась, но с предложением отправить crash report. Картина везде идентичная, поэтому надеюсь, что какими-то настройками исправить можно. После сообщения об ошибке остаётся чёрный экран со стрелкой курсора. На П и Л кнопки мыши откликается, а если покликать в верхней части - появляются меню (см. скриншот). Но если в нём что-то выбрать - результат не виден, т.к. чёрный фон всё забивает.

Пробовал поменять настройки эмулятора терминала с (белый на чёрном) на (чёрный на белом). Получилось, и терминал самой R эти настройки унаследовал. Но в Rstudio так всё чёрное и осталось. От версии R не зависит (пробовал и 4.0 и 3.6, а Debian аж только 3.5 пока достойной считает), сама R нормально работает.

Может кто из под линукса работает, знает в чём может быть дело?
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Разное · Просмотр сообщения: #26723 · Ответов: 33 · Просмотров: 51879

nokh
Отправлено: 5.04.2021 - 22:15





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Sadalmelika @ 5.04.2021 - 14:44) *
ДАААА, Вы абсолютно правильно понимаете, что это будет нелегко.... Я правильно понимаю, что для Вашего метода мне надо ввести дополнительный столбик переменной и в ручную закодировать возраст под эти группы? Таким образом из счетной величины возраст перейдет в категориальную и тогда можно будет использовать двухфакторный дисперсионный анализ? Мне кажется у меня полная путаница в голове, но буду стараться распутаться и все же разобраться что к чему... Спасибище огромнейшее за ответ!!)

Да, именно так: перекодировать из количественной в качественную категориальную. Двухфакторный дисперсионный анализ с взаимодействием описан везде, во всех учебниках и в хелпах ко всем пакетам. В работу желательно давать таблицу результатов и график взаимодействивия факторов (независимо от его значимости). Сделаете, можете прикрепить сюда результат, если будут сложности с интерпретацией /оформлением...
  Форум: Медицинская статистика · Просмотр сообщения: #26708 · Ответов: 12 · Просмотров: 8265

nokh
Отправлено: 16.03.2021 - 22:59





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Sadalmelika @ 3.03.2021 - 16:48) *
Добрый день, уважаемые эксперты.
Я прошу помощи в обработке моего материала и использовании дисперсионного анализа.
Дано: есть 2 группы пациентов с АГ (684 человека) и без АГ (556 человек) (то есть фактор 1 - наличие АГ, который определяет принадлежность к группе, и я так понимаю он ранговый), при проведении непараметрического сравнения койко-дней (то есть фактор 2, и он количественный) в двух независимых группах выявлена достоверная разница. Но оказалось, что эти две группы не сопоставимы по возрасту (то есть фактор 3, который количественный), возраст в этих группах также достоверно различается.
Вопрос: как понять разница в койко-днях у пациентов с АГ и без АГ обусловлена наличием этой патологии либо разным возрастом пациентов в этих группах? То есть влияет ли фактор 3 на разницу переменной 2 в двух группах, определяющихся фактором 1? Я так понимаю, что необходимо проведение ANOVA, только какого? Факториального? Где зависимая - наличие АГ, а категориальные это возраст и койко-дни? И как интерпретировать тогда полученные результаты в таблице? Или я неправильно понимаю, что надо в данном случае использовать дисперсионный анализ?
Заранее прошу прощения может быть за немного корявый язык, я пока только пытаюсь разобраться в статистических методах, я ни разу не математик.
Буду очень благодарна любой помощи, совету!

Как уже указал comisora, нужен дисперсионный анализ - ANOVA.

Полагаю, что вам сейчас будет сложно провести полноценный ковариационный анализ (можно считать обобщением дисперсионного и регрессионного анализов). В нём нужно было бы сначала оценить равенство зависимостей от возраста в группах, и если оно одинаковое (нет значимых различий), то рассчитать общую зависимость, скорректировать данные на неё и уже только потом сравнить скорректированные на возраст группы. В случае различий зависимости от возраста в группах такую штуку не провести, поэтому я крайне скептически отношусь к программным модулям, где количественный показатель можно запросто задать в качестве ковариаты.

Учитывая, что данных у вас много, проще использовать не сам возраст, а его коды. Их можно задать с интервалом в 5 или 10 лет. Т.е., например, всех пациентов младше 20 лет отнести к возрастной категории 1, 20-30 лет - к категории 2, 30-40 лет - к 3 и т.д. Затем провести классический двухфакторный дисперсионный анализ (Two-way ANOVA) с взаимодействием факторов "Группа х Возраст".

В результате такого анализа сможете ответить сразу на 3 вопроса:
1) Фактор Группы. Различаются ли группы по койко-дням (т.к. возраст включён в анализ, его эффект при ответе на этот вопрос будет снят)
2) Фактор Возраст. Различаются ли пациенты разных возрастных групп по койко-дням.
3) Взаимодействие факторов Группа х Возраст. Если значимо, значит эти факторы нужно рассматривать совместно, в разных группах возрастная динамика разная.

По поводу счётного характера показателя "койко-день" тоже согласен. Для счётных признаков можно использовать преобразования, но попробуйте сначала с исходными данными.

  Форум: Медицинская статистика · Просмотр сообщения: #26653 · Ответов: 12 · Просмотров: 8265

nokh
Отправлено: 11.03.2021 - 17:40





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Anna_V @ 11.03.2021 - 18:14) *
Вы не подскажете, где можно скачать PAST? При переустановки системы потерялся, а по той ссылке, где качала обычно, уже нет его.

PAST: https://www.nhm.uio.no/english/research/infrastructure/past/
KyPlot: https://www.kyenslab.com/en-us/about-kyplot-6/ (сетап японский, при установке нужно не пугаться спецсимволов, соглашаться по умолчанию, после установки - обычный англлоязычный пакет)

PS В оба пакета добавляют потихоньку модули работы с картами
  Форум: Медицинская статистика · Просмотр сообщения: #26642 · Ответов: 3 · Просмотров: 3831

nokh
Отправлено: 19.02.2021 - 20:35





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Centaurea @ 18.02.2021 - 18:17) *
Есть выборка - примерно 30 человек.
От каждого было получено 2 типа ткани: кровь и буккальный эпителий. Был определён уровень мутантного аллеля (гетероплазмии митохондриального генома) по 5 мутациям в каждом типе ткани. Данный уровень выражен в процентах.Необходимо сравнить является ли уровень гетероплазмии в крови таким же как и в буккальном эпителии.

А нужно при учитывать аллели (5 шт) или всё в кучу: просто в одной ткани столько-то всего мутантных, в другой - столько-то? Ведь возможна ситуация, когда общий уровень будет одинаковым, но с крови за счёт одних аллелей, а в б. эпителии - за счёт других.
Если всё в кучу, то это просто сравнение двух зависимых выборок непараметрикой, скажем парным критерием Уилкоксона (Wilcoxon signed-rank test), т.к. проценты распределены ненормально. Описано на стр. 112 практикума: https://yadi.sk/d/g50i73pt3J6pAa
Если нужно учитывать аллели - сложнее. Можно вариантом дисперсионного анализа с преобразованными частотами (фи-преобразование = преобразование арксинуса или аналогичные угловые преобразования, переводящие ненормально распределённые проценты от 0 до 100% в приблизительно нормально распределённые углы от 0 до пи). Учесть зависимый характер выборок можно введением случайного фактора Пациент. Получится обычная перекрёстная схема трёхфакторного ANOVA с факторами:
1) Пациент, случайный, число градаций = числу пациентов
2) Ткань, фиксированный, 2 градации
3) Аллель, фиксированный, 5 градаций.
В этой схеме возможны все взаимодействия, но нужно правильно задать в пакетах случайный характер фактора Пациент.
  Форум: Медицинская статистика · Просмотр сообщения: #26574 · Ответов: 7 · Просмотров: 4037

nokh
Отправлено: 11.02.2021 - 19:24





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(metalmary @ 10.02.2021 - 14:24) *
В программе STATISTICA при анализе данных с помощью критерия Краскела-Уоллиса есть опция Сравнения средних рангов для все групп, который при расчете выдает Z-значения для множественных сравнений и уровень значимости p для каждой группы. Подходит ли этот метод для сравнений нескольких групп между собой? Или лучше воспользоваться тестом Манна-Уитни для сравнения каждой группы с другими (например, все группы сравнить с контролем)? Размер выборок очень маленький (n=6)

1. Почитайте помощь к пакету, чтобы знать, какой критерий используется в нём для непараметрических апостериорных сравнений.
2. Для попарных сравнений и для сравнения с контрольной группой используют разные критерии, иначе при сравнении с контролем будет потеря в мощности. Есть ранговый аналог критерия Данетта - критерий Стила (Steel test).
3. Критерий Манна - Уитни использовать нельзя: он для сравнения двух групп и не удержит ошибку семейства гипотез (FWER) на заданном уровне значимости без поправок. А поправки при таких объёмах выборок смерти подобны.
4. Пакет Statistica мало того, что не умеет Стила, так ещё и считает значимость путём аппроксимации непараметрической статистики стандартным нормальным распределением. Подозреваю, что для n=6 это вообще некорректно. Лучше пакеты PAST, где есть рандомизационные процедуры Монте-Карло и точные рандомизационные подходы (Exact permutation) или KyPlot, где есть и Стил и Стил - Двасс - аналог Тьюки (это если без R, где есть всё).
  Форум: Медицинская статистика · Просмотр сообщения: #26514 · Ответов: 3 · Просмотров: 3831

nokh
Отправлено: 2.02.2021 - 17:51





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


В инструкции написано, что бутстреп входит в робастный метод.
  Форум: Медицинская статистика · Просмотр сообщения: #26508 · Ответов: 1 · Просмотров: 4272

nokh
Отправлено: 19.01.2021 - 21:57





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(passant @ 17.01.2021 - 01:22) *
Спасибо большое. Это уже - направление.
Единственная проблема, что мои задачи надо решать в режиме он-лайн, причем скорость поступления данных весьма высокая - в некоторых вариантах "тики" могут представлять собой секунды, а время накопления выборки - минуту. Поэтому получится-ли применить МК-подход или нет - пока не знаю. Но буду разбираться. Еще раз спасибо.

Ну может тогда на основе статанализа какого-то количества рядов и/или их частей попытаться наработать какие-то свои "быстрые" критерии или решающие правила. Типа того, что если станд. отклонение больше 33%, то распределение скорее всего ненормальное: станд. отклонение быстрее и проще отслеживать, чем проводить раз за разом статпроверку на нормальность. Аналогично, завязать что вам нужно, скажем на скользящее среднее и принимать решения на основе анализа этого показателя. Менее надёжно, но гораздо быстрее. Если у вас идут подобные и более-менее однородные данные, то велика вероятность того, что такие эмпирические правила будут с большой долей вероятности работать и на других данных.
  Форум: Медицинская статистика · Просмотр сообщения: #26345 · Ответов: 12 · Просмотров: 5500

nokh
Отправлено: 16.01.2021 - 22:26





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(passant @ 16.01.2021 - 18:32) *
Что то наш форум как-то подозрительно затаился. Неужели это все? Или просто реакция на COVID?
... Буду благодарен на любую информационную "наводку" или хотя-бы указания направления, куда "рыть" дальше.

И всех, кто еще заглядывает на этот форум - с прошедшими праздникам! Пусть всякие Ковиды не портят вам настроения!

Присоединяюсь к поздравлениям passant! Отболели, продышались, настроение норм.

По поводу вопроса есть ответ: Монте-Карло. С автокорреляциями работать не приходится, поэтому для меня проще на примере коэффициента регрессии. Этапы будут такими:
1) Для каждой из выборок 1 и 2 объёмов n1 и n2 рассчитываются коэффициенты а1 и а2 и их разность d=а1-a2.
2) Значения обеих выборок объединяются и из этого набора случайные n1 наблюдений назначаются в выборку 1, а оставшиеся n2 наблюдений - в выборку 2.
3) Для каждой из таких сгенерированных случайным перемешиванием выборок рассчитываются коэффициенты а_Монте-Карло1 и a_Монте-Карло2 и их разность d_Монте-Карло1
4) Этапы 2 и 3 повторяются N раз (обычно 10 тыс. или 100 тыс. раз) с получением соответствующего числа N разностей d_Монте-Карло. Распределение этого d_Монте-Карло будет соответствовать нулевой гипотезе отсутствия различий между выборками, т.к. они генерировались из наблюдений именно одной (объединённой) выборки, а их разбиение на 1 и 2 было случайным.
5) Подсчитывается число k - число наблюдений d_Монте-Карло, оказавшихся равными или более экстремальными по отношению к разности d, полученной на этапе 1. И наконец рассчитывается р-значение (одностороннее) как
р=k/N или по скорректированной формуле р=(k+1)/(N+1), которая исключает возможность р=0. Видел в литературе, что для получения двусторонней оценки это значение умножается на 2, но для меня это не есть очевидная процедура, я полагаю что при таком способе проверки нужно использовать односторонний тест.
Данный подход с техникой Монте-Карло именно "прямой". В отличие от бутстрепа он не генерирует выборок из тех данных, которых в природе нет, т.к. случайным образом назначает в выборки именно реально имеющиеся данные. Также не привлекаются никакие сторонние предположения о распределении данных. Процедура реализуется одинаково независимо от того "лёгкие" или "тяжёлые" функции от данных сравниваются.

Я опробовал этот подход для сравнения таких "тяжёлых" функций как сумма абсолютных значений всех парных корреляций в наборе признаков (так называемый вес корреляционного графа). Только на этапе 5 вычислял р не напрямую (что-то с кодом тогда не получилось сразу, а нужно было срочно сдавать монографию), а как площадь под кривой распределения d_Монте-Карло, отсекаемую значением d.
Описано со стр. 191 книжки, есть код на R в приложении 3.6. и в вордовском документе для удобства копипаста на Яндекс-диске: https://yadi.sk/d/uj1Mg4OUBMp4SA
Вместо функции wg нужно подставлять свою функцию от данных.
  Форум: Медицинская статистика · Просмотр сообщения: #26326 · Ответов: 12 · Просмотров: 5500

nokh
Отправлено: 10.12.2020 - 17:06





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(sergivani @ 8.12.2020 - 18:41) *
Спасибо! Да, простите, это был действительно дисперсионный анализ.
В результате мультиноминальной логистической регрессии получается уравнение, но для работы врачей ЛПУ по нему считать неудобно.
Актуальна ли еще байесовская модель прогноза с последовательным анализом Вальда с расчетом прогностических коэффициентов по выявленным НФ?

Про актуальность такой не знаю, нужно вбивать на английском в поиск и смотреть современные западные журналы. Про "удобно-неудобно" не согласен, есть слово "нужно", ну или "хочу". Как-то делали работу с зав. Отделения гнойной хирургии Областной больницы. Это то место в больнице, где пациенты умирают. Тогда смертность достигала около 20-30%, несмотря на хорошее реанимационное отделение и ежесуточный и чаще контроль состояния по куче показателей. Так там успевали обсчитать эти показатели в чём-то типа экселя и отслеживать в динамике 3 шкалы тяжести. Потом, когда перешли на Протокол, стало меньше дерготни и выживаемость увеличилась, но тем не менее... Любую логистическую регрессию очень просто закодировать в экселе, чтобы считать риски. Другое дело, что как показывает практика, эти шкалы работают не оптимальным образом. Диагностическая эффективность выше у методов, работающих не с функциями от данных (типа логитов, пробитов и др.), а с данными непосредственно. В одномерном случае это деление на основе ROC-анализа, в многомерном - деревья решений и алгоритмы последовательного покрытия из машинного обучения, режущие массивы реальных цифр с выработкой древовидных классификаторов и решающих правил типа "if-then". Про рекомендованную ogurtsov'ым технику не читал, но скорее всего это из этой же серии. Кстати все эти штуки очень удобны для практики.
  Форум: Медицинская статистика · Просмотр сообщения: #26219 · Ответов: 4 · Просмотров: 7887

nokh
Отправлено: 13.11.2020 - 10:38





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Из классических способов можно таблицы сопряжённости. Сводить в таблицы 2х2: НФ vs ГК, заболевание есть vs нет. По таблицам считать относительный риск (или отношения шансов если потом нужно сравнивать с результатами логистической регрессии). Конечно, по 18 нозологиям качественно не получится, но может парочка хорошо "выстрелит". Для нозологий с установленными значимыми различиями между НФ и ГК копаться дальше, а там уже как покатит. Для оценок эффекта интенсивности и времени НФ остаётся уже меньше материала (только 300). Здесь просится множественная логистическая регрессия, дисперсионный анализ (если ДА это он) в таком дизайне сейчас архаичен.
  Форум: Медицинская статистика · Просмотр сообщения: #26168 · Ответов: 4 · Просмотров: 7887

nokh
Отправлено: 13.10.2020 - 11:56





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Ищете оригиналы, так ищите на английском. Сразу вышел на расчётный сайт: https://www.brianmac.co.uk/poms.htm + ещё много инфы по краткой (35 пунктов) и сокращённой (40) вариантам...
  Форум: Медицинская статистика · Просмотр сообщения: #26097 · Ответов: 2 · Просмотров: 4320

nokh
Отправлено: 10.07.2020 - 08:10





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 9.07.2020 - 23:50) *
Nokh, а это пакет {homals}, да? А то я уже что-то забывать стал...

Да, это {homals} и пришедший ему на смену {Gifi}. Оба проигрывают по удобству гибких настроек методу CATPCA из пакета SPSS. Я уже забыл что у меня не срасталось в пакетах для R, но раздражение помню)) Меня метод в SPSS вообще отлично устраивает, но только пакет коммерческий.
  Форум: Медицинская статистика · Просмотр сообщения: #25927 · Ответов: 25 · Просмотров: 145398

nokh
Отправлено: 9.07.2020 - 21:11





Группа: Пользователи
Сообщений: 1163
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(smeilz @ 7.07.2020 - 18:18) *
Добрый день.
Есть очень большая выборка для бинарной классификации. Нужно предсказать 2 класса(0/1)
Есть огромная куча предикторов(независимых переменных), все они категориальные, и известно, что выборка содержит в себе несколько сегментов, в которых поведение предсказываемых классов будет существенно отличаться. Количество сегментов неизвестно.
Как грамотно найти эти сегменты и поделить выборку для дальнейшего предсказания?

Ваша задача из разряда таких, которые требуют творческого подхода, т.е. одной технологии нет. Я согласен с ogurtsov, что раз внутри выборки есть какие-то сегменты, то логично начать с их поиска, т.е. кластеризации. Поскольку на выделение кластеров влияет набор показателей, то лучше сначала сократить пространство переменных, предварительно исключив метку класса (0/1) и искать кластеры уже в нём. Для качественных признаков наиболее распространённый способ редукции данных с обобщением - анализ соответствий (Correspondence Analysis), хотя мне он не особо нравится: даёт для некоторых показателей и объектов сильные выбросы или типа того, когда на ординационной диаграмме пара-тройка показателей по краям, а все остальные кучей в центре; причём те, что по краям часто показатели с небольшой долей редких категорий. Больше нравятся результаты оптимального шкалирования - нелинейного анализа главных компонент, обрабатывающих одновременно количественные, порядковые и номинальные признаки. Результаты интерпретируются аналогично PCA; можно посмотреть что за компоненты выделяются, постараться интерпретировать их, а уже в пространстве этих компонент можно поискать кластеры. Нет никакой гарантии, что эти кластеры и обусловливают различный характер поведения главного признака, но это тем не менее будут некие естественные группировки, что уже хорошо: с них можно начать.
Далее нужно отмоделировать классы в каждом кластере. Раз предикторов много, то лучше использовать Случайный лес деревьев классификации (Random forest). Далее сопоставить оптимальные наборы предикторов в кластерах, возможно какие-то кластеры окажутся в этом отношении сходными - их объединять и осмысливать, опираясь на предыдущий этап.

В принципе деревья классификации можно попробовать и к исходному набору предикторов и классов: вдруг оно окажется хорошо структурированным с небольшим количеством ветвлений, тогда задача будет решена вообще сразу. Я бы действовал примерно так, хотя по ходу возможны варианты.

Если задача заключается не в том, чтобы разобраться, а в том, чтобы просто точно предсказывать, то может лучше обучить этому нейронную сеть? С сегментами внутри выборки она справится сама. Поскольку я всё время разбираюсь, опыта построения и оптимизации таких сетей не имею.
  Форум: Медицинская статистика · Просмотр сообщения: #25921 · Ответов: 25 · Просмотров: 145398

47 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена