Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

5 страниц V   1 2 3 > » 

leo_biostat
Отправлено: 11.07.2020 - 07:37





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(potap_O @ 27.06.2020 - 21:37) *
angel.gif Здравствуйте! Заканчиваю диссертацию по пациентам с COVID-19. Показала почти всю диссертацию своему дяде, эксперту ВАК. На что он оценил мои результаты статистики отрицательно. В частности, он сказал, что в самых надёжных диссертациях для таблиц сопряжённости проводят проверку надёжности результатов, вычисляют чувствительность и специфичность, и индекс Каппа. И для них вычисляют доверительные интервалы. А также используют и многомерные методы анализа. Подскажите, как можно сделать такие результаты.

hi.gif Здравствуйте, potap_O ! Одобряю Ваше исследование по пациентам с COVID-19. Эта тема очень важная. Поскольку и мы с коллегами этой весной тоже производили анализ двум зарубежным и двум российским медикам по COVID-19. Однако Ваше обращение к профессионалам по статистике весьма примитивно. Сами же медики детально обследуют своих пациентов, что и позволяет им уточнять состояние пациента, и направление лечения. Почему очень подробно медики м описывают своё медицинское заключение. А вот Ваше описание по проблемам своей диссертации неподробно и весьма примитивно. Почему профессионалы по статистике и не могут Вам ответить подробнее. Итак, отвечаю Вам следующее. Во-первых, анализ своих таблиц сопряжённости Вы можете сами воспроизвести детально, для чего перейдя на следующие адреса: http://www.biometrica.tomsk.ru/freq.htm http://www.biometrica.tomsk.ru/freq1.htm http://www.biometrica.tomsk.ru/freq2.htm http://www.biometrica.tomsk.ru/freq3.htm http://www.biometrica.tomsk.ru/programm_stat.htm http://www.biometrica.tomsk.ru/exact.htm
Вводите там частоты таблицы, и нажимая соответственную кнопку, получаете много результатов их анализа. Причём по многим значениям и есть 95-%-ные интервалы. Во-вторых, для рекомендации использования следующих методов анализа Вам необходимо более подробно описать свои базы данных. В частности, объём наблюдений, и число качественных и количественных признаков. Поскольку от числа этих признаков и зависит количество использования других методов анализа. Так у одного из упомянутых 4-х медиков по COVID-19 была небольшая по объёму база данных, и немного признаков. Вот почему мы с коллегами использовали очень мало методов анализа. А у другого медика был очень большой объём базы данных, и большие количества признаков. Поэтому мы и использовали также очень много продуктивных методов анализа.
Итак, опишите объём своих баз данных и количество этой пары признаков. Вот тогда специалисты и ответят Вам подробнее.
  Форум: Медицинская статистика · Просмотр сообщения: #25945 · Ответов: 16 · Просмотров: 155814

leo_biostat
Отправлено: 17.09.2019 - 16:51





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(Camel1000 @ 17.09.2019 - 16:41) *
Всем добрый день!
Прошу помощи в анализе следующей ситуации.
Имеется несколько клинических групп больных (чувствительны\устойчивы к препаратам, несколько групп по степени ожирения и т.п.). У каждой группы из Н больных для каждого больного имеются данные по большому числу параметров (экспрессия нескольких сотен элементов). Как лучше проанализировать, есть ли разница в значении этих параметров при сравнении групп и если есть, какие конкретно элементы связаны с этими различиями?
Спасибо заранее!


hi.gif! Если считаете цель своего исследования очень важной, то можете выслать в наш НЦ БИОСТАТИСТИКА свою базу данных и её описанием,
и мы оперативно и бесплатно сделаем Вам статистический анализ этой базы. И объясним Вам полученные результаты.
  Форум: Медицинская статистика · Просмотр сообщения: #24520 · Ответов: 3 · Просмотров: 4872

leo_biostat
Отправлено: 28.01.2019 - 08:33





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(DJAp @ 28.01.2019 - 00:48) *
Здравствуйте. Я новичок в статистике и не совсем понимаю какими методами можно реализовать сравнение двух групп по частоте встречающихся признаков. Пытался найти что нибудь похожее, но не смог.
Есть пример, пациенты принимали два разных лекарства и получали эффект, который оценивался от 0 до 5.
Таким образом, нужно сравнить, есть ли в этих двух группах (лекарствах) достоверные отличия по частоте явления. То есть, эффект 0 был у 39 пациентов, эффект 1 у 3 пациентов и так далее (таблица ниже).
Как я понял, что если сравнивать количество пациентов есть эффект/нет эффекта, можно использовать критерии Фишера/хи2 в четырехпольных таблицах, например в ПО Statistica.
А в случае когда нужно сравнить несколько вариантов? Есть ли какое то решение этой проблемы?


преп1 преп2
0 39 28
1 3 1
2 3 5
3 6 8
4 0 3
5 3 4

Спасибо.



hi.gif!
Увы, Ваш подход в такой ситуации не продуктивный. А уровень такого подхода адекватен уровню желаемой пользы возможного результата, ожидаемого
новичком в статистике. В реальной медицинской практике учитываются не только два разных лекарства, но и очень многие ценные и полезные признаки
пациентов. То есть нужно использовать не такую пару признаков, а гораздо больше признаков. И в этом случае нужно использовать набор нескольких
многомерных методов статистического анализа. Что, естественно, доступно не новичкам в статистике, а профессионалам по биостатистике. Если Вам
действительно нужны очень полезные для медицинской практики результаты продуктивного статистического анализа, высылайте мне свою базу данных
с большим набором наблюдений и признаков, и будем обсуждать возможности анализа такой базы данных.



  Форум: Медицинская статистика · Просмотр сообщения: #23695 · Ответов: 6 · Просмотров: 6004

leo_biostat
Отправлено: 28.12.2018 - 06:51





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


hi.gif!
Ваш вопрос мне понятен. Отвечаю по данной специфике ситуации.
Если у исследователя есть несколько подгрупп, например, 4 подгруппы, то ВСЕГДА нужно сравнивать эти подгруппы.
Такие сравнения, как правило, в этих подгруппах позволяют использовать как количественные, так и качественные признаки.
И для этого наиболее продуктивно использовать метод логистической регрессии. Об этом методе можете прочитать серию моих
10 статей по этому методу по адресу http://www.biometrica.tomsk.ru/logit_0.htm
И при использовании такого метода анализа можно установить, по каким конкретно признакам данные группы различаются, а по каким
признакам не различаются. И те признаки, по которым эти подгруппы различаются, можно упорядочить, установив, какие признаки
по различию подгрупп стоят на первом месте по этим различиям, а какие другие признаки - на последнем месте.
Также можно установить а какие подгруппы действительно различаются по этим подборкам признаков, а какие подгруппы не различаются,
и, возможно, их следует объединить. Более того, эти различия идентифицируются по каждому наблюдению каждой подгруппы.
И тогда можно определить, какие именно комбинации значений признаков и приводят конкретное наблюдение в свою подгруппу,
или же напротив, в иную подгруппу.

Желаю успешного продолжения своего исследования!
  Форум: Медицинская статистика · Просмотр сообщения: #23613 · Ответов: 4 · Просмотров: 5414

leo_biostat
Отправлено: 1.12.2018 - 14:14





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(kont @ 1.12.2018 - 14:08) *
Подскажите, вот провел я множественную регрессию. Смотрю остатки. У меня возник, а какие остатки приемлемые, а какие нет.
Например исходное значение 24, предсказано 23, остаток=1. Нормально ли это? Т.е. вопрос какое максимальное расхождение считается допустимо, чтобы сказать, это модель крута?(с учетом того, что остаток в ноль, не такое частое явление, увы)

hi.gif, kont

Все расхождения допустимы. Однако желательны минимальные. Оцените адекватность уравнения, проверив вид распределения остатков,
а также проверьте чему равен коэффициент детерминации R-квадрат. Также оптимально использовать не один вид уравнения, например,
линейный, а также и набор разных видов уравнений. Например, нелинейных, с разными степенями и произведениями предикторов, и т. д.

Успеха!
  Форум: Медицинская статистика · Просмотр сообщения: #23556 · Ответов: 3 · Просмотров: 4695

leo_biostat
Отправлено: 12.11.2018 - 11:20





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


Добрый день!

Выходите ко мне по Скайпу, и детально обсудим Ваш результат.
  Форум: Медицинская статистика · Просмотр сообщения: #23505 · Ответов: 3 · Просмотров: 4890

leo_biostat
Отправлено: 16.10.2018 - 18:46





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


hi.gif

Цитата(nikita_zab @ 16.10.2018 - 17:38) *
Добрый день!
Прошу напомнить термин, которым называют применение всевозможных статистических методов к одним и тем же данным в попытке найти значимую разницу или закономерности.
И второй вопрос из области философии. Имеет ли смысл применять несколько методов для оценки "здесь что-то есть". И если применяется сразу несколько методов как быть, если некоторые из них показывают "р меньше 5 сотых", а другие нет?

Основным термином касательно применения всевозможных методов к одним и тем же данным, и к одной и той же цели исследования, является "профессионализм".
То бишь профессионализм в биостатистике.Тогда как профессионал в иной науке, может не знать и не уметь применять массу продуктивных методов.

Имеет смысл применять "массу продуктивных методов", поскольку этот набор разных методов даёт такую же массу результаты. Анализируя которые и можно приходить
либо к принятию или отвержению неких стат. гипотез, либо к неким новым , ранее неизвестным гипотезам.

Успеха! yahoo.gif
  Форум: Медицинская статистика · Просмотр сообщения: #23434 · Ответов: 6 · Просмотров: 7464

leo_biostat
Отправлено: 19.06.2018 - 13:29





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(Zamira @ 19.06.2018 - 11:28) *
....
Буду благодарна за помощь в интерпретации данных!

Zamira, hi.gif!
Во-первых, то что Вы предлагаете интерпретировать, это не "данные". А результаты анализа данных. Т.е. анализа БД.
Во-вторых, эти результаты весьма примитивны для интепретации. Тем более что этот результат получен
в SPSS, который не продуктивен для логистической регрессии. Более того, для достижения цели исследования
при анализе БД методом логистической регрессии, следует получать не единственное уравнение, а целый набор таких
уравнений. Причем с разными наборами предикторов в этих уравнениях. Например, использую этот метод для разных заказчиков,
как медиков и биологов, так и технических исследователей, я получаю обычно 5-15 уравнений по каждой задаче.
А нередко и до 25 уравнений. И каждое из таких уравнений имеет хороший набор показателей, что позволяет из всех
уравнений самому заказчику выбирать 2-3 лучших уравнения. В приложении "Logit_ 1.png" показаны признаки, вошедшие
предикторами в уравнение. Важным показателем для этих предикторов являются стандартизованные коэффициенты.
Также в результатах приводится и процент конкордации. Так для приведённого примера уравнения он равен 80%.
А самое оптимальное сделать ещё и таблицу сопряжённости, отражающую фактическую и предсказанную по уравнению
принадлежность наблюдений к сравниваемым группам. Пример такой таблицы привожу в приложении "Logit_ 2.png".

Zamira!
Рекомендую Вам почитать серию 10 статей по логистической регрессии.

Успеха!
Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #23083 · Ответов: 5 · Просмотров: 7391

leo_biostat
Отправлено: 31.05.2018 - 17:44





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(Olesio @ 31.05.2018 - 17:04) *
Прошу подсказать сайт или человека по обучению обработки стат данных по диссертации. С уважением, Олесия Горохова.

Олесия, hi.gif!

Таких сайтов много. И их без труда можно найти с поиском в интернете.
Приглашаю на свой сайт БИОМЕТРИКА.
Там выложены образцовые статьи и диссертации с примерами использования современных
методов статистического анализа. А также немало статей по описанию ошибок в использовании
статистических методов анализа.

Желаю успеха!
  Форум: Медицинская статистика · Просмотр сообщения: #23034 · Ответов: 1 · Просмотров: 3396

leo_biostat
Отправлено: 9.05.2018 - 22:00





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


Елена, hi.gif

Цитата(Елена Гогуа @ 8.05.2018 - 21:39) *
Про контрольную группу - это совет профессора sad.gif
Возможно, он считает, что нужно использовать не таблицы сопряжения, а другой метод анализа (Бонферрони?).

Профессор прав в том, что нужно использовать не только таблицы сопряжённости. Но и иные продуктивные методы.
Действительно, Ваша таблица сопряжённости непростая. В частности, наверняка во многих клетках расчётные частоты
гораздо меньше минимально допустимых частот. В частности, частот равных 5. И в этих случаях результаты анализа
не очень надёжны. Поэтому следует использовать метод Монте-Карло, анализируя 1 млн или 100 тысяч аналогичных таблиц.
И тогда получаем 99%-ные доверительные интервалы для достигнутого уровня статистической значимости.
Но это не конечный метод. Гораздо важнее проведение структуры анализа обнаруженной взаимосвязи пары признаков.
Можете прочитать пример с описанием такой структуры по адресу http://www.biometrica.tomsk.ru/logit_9.htm
Используя анализ структуры взаимосвязи, можно провести анализ новых таблиц сопряжённости, в которых последовательно
объединяются некоторые пары групп первой или второй группирующих переменных. Лет 30 назад я объяснил эту возможность
своему студенту-дипломнику. И он сделал по моему предложению эту дипломную работу. И защита его дипломной работы
была отличной. Все члены дипломного совета проголосовали "ЗА" с оценкой "Отлично". Такой принцип весьма полезен при
исследовании структуры взаимосвязи между парой группирующий признаков. И можно уменьшать количество анализируемых
клеток от сотен и тысяч до десятков и менее.

Второй аспект Вашего исследования. Маловероятно, что анализируемая база данных содержит лишь 2 группирующих признаков.
И тогда можно (и нужно!) применять не только парный анализ (таблицу сопряжённости), но и многомерные методы анализа.
В частности, весьма продуктивный метод логистической регрессии (см. http://www.biometrica.tomsk.ru/logit_0.htm)

P.S.
Если Вы желаете получать более продуктивную помощь от профи по биостатистике, то рекомендую выкладывать свою базу данных,
а также приводить свой ник в Скайпе. И тогда вместо длинных переписок можно будет кратко и ясно обсудить Ваши проблемы по Скайпу.
Если желаете более детально обсудить своё исследование, высылайте на мой адрес свой ник.

Успеха!
  Форум: Медицинская статистика · Просмотр сообщения: #22979 · Ответов: 36 · Просмотров: 38832

leo_biostat
Отправлено: 9.05.2018 - 15:48





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(Cules2013 @ 22.04.2018 - 14:42) *
Однофакторный и двухфакторный ANOVA
.... поначалу я взял однофакторный анализ .... Затем, решил сделать двухфакторный анализ ...


hi.gif, Cules2013

Вы проверили оба обязательных ограничения на корректное использование дисперсионного анализа?
И если проверили, то каковы результаты?
  Форум: Медицинская статистика · Просмотр сообщения: #22977 · Ответов: 4 · Просмотров: 5910

leo_biostat
Отправлено: 29.04.2018 - 11:24





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


Уважаемые коллеги, друзья, исследователи!

Поздравляю Вас с наступающими праздниками 1 и 9 Мая! Будем встречать и проводить эти основные наши праздники не только в своих семьях, но также вместе с родственниками и друзьями.
Помянем наших родственников, воевавших в Великой Отечественной Войне и победивших европейский фашизм. Просмотрим их фотографии, прочитаем их письма. И повторим нашим детям рассказы об этих родственниках, погибших и выживших в этой ВОВ.

В связи с этими праздниками желаю чтобы Ваши научные исследования были сильными, достойными, а уровень их весьма существенно повышался хорошим использованием современных методов биостатистики. Бодрости знаний, эмоциональной насыщенности, и высоких результатов! Всегда твёрдо идти по выбранному пути в своих исследованиях, отбросив лень, не боясь использования новых, современных методов стат. анализа собранных баз данных. Успеха Вам в публикациях и защитах диссертаций!

Для повышения знаний в биостатистике, участникам данного форума доступны 15 архивов с хорошими описаниями разных методов статистики (объём всех вложенных файлов порядка 500 Мб). Первый архив BIOMETRICA_125.rar можете скачать, и в нём, как и в других архивах, прочитаете информацию о скачивании следующего архива. Доступность этих архивов будет по 15 мая с.г.

С праздниками, и успеха всем Вам!
  Форум: Медицинская статистика · Просмотр сообщения: #22935 · Ответов: 1 · Просмотров: 3364

leo_biostat
Отправлено: 3.04.2018 - 14:36





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(Cules2013 @ 3.04.2018 - 08:40) *
Уже давно мучает меня вопрос о том, где бы найти достоверную инфу ....

Cules2013, hi.gif!
passant абсолютно прав: "Нужны ответы - не ждите готовых, а разбирайтесь и анализируйте их сами".
Для этого рекомендую Вам популярные книги по математической статистике. И в них Вы найдёте много ответов на эти вопросы.
Зайдите на адрес https://www.twirpx.com/file/1457826/ и скачайте эту отличную книгу!
В конце книги есть раздел "Предметный указатель". Там найдёте страницы нужных Вам критериев и методов.
И на этом сайте посмотрите раздел "Теория вероятностей и математическая статистика", и там найдёте
очень много полезной литературы.
Кстати, на этом же сайте найдёте много литературы и по медицине, биологии, и многим иным наукам.

Успеха, Cules2013 !
  Форум: Медицинская статистика · Просмотр сообщения: #22857 · Ответов: 12 · Просмотров: 18351

leo_biostat
Отправлено: 27.03.2018 - 16:11





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(passant @ 27.03.2018 - 09:53) *
Если человек не может ясно и понятно сформулировать свой вопрос, то в 99% случаях это означает, что он и проблемы своей по сути не понимает.

"Вопрос" и "проблема" (по которому задаётся "вопрос") - это не идентичные понятия. Утверждаю это по своему многолетнему научному и педагогическому опыту. Обсуждаемая проблема данного, и многих иных форумов, заключается как раз в неясной формулировке вопросов. И оперативное решение этой проблемы по более ясному пониманию вопроса, именно в сеансах связи со мной по Скайпу, решают практически все респонденты, обращающиеся ко мне первоначально в электронной переписке. Кстати, они часто обращаются и потом, когда получают от нашего коллектива большие объёмы полезных результатов. Также отмечу, что часто требуется очень оперативно решать направления методов исследования не у медиков и биологов, а у специалистов по иным специальным направлениям. И в этом случае они не могут даже писать об этом, а сразу выходят на беседу.
Цитата(passant @ 27.03.2018 - 09:53) *
И превратить форму из платформы обмена знаниями в платформу поиска консультацийнтов. Впрочем - у каждого свои интересы.

Мой личный интерес не в том, чтобы рекламировать себя и свой коллектив. Этого не требуется, поскольку сайт, которому уже 20 лет, ежедневно посещают сотни и даже тысячи пользователей. А интерес в том, чтобы задающие вопросы, во-первых, уточнили свои вопросы (если они не вполне понятны), а затем с моей помощью получили подсказку, как попытаться найти ответ на этот вопрос. Уверен, что интересы большинства ответчиков аналогичны.
  Форум: Медицинская статистика · Просмотр сообщения: #22810 · Ответов: 13 · Просмотров: 13406

leo_biostat
Отправлено: 26.03.2018 - 19:26





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(medmonitor @ 25.03.2018 - 18:47) *
Хорошо , перефразирую вопрос, как мне проверить однородность одной выборки?

medmonitor, hi.gif!
И я "перефразирую" Ваш вопрос. Если Вам действительно нужна помощь специалистов по статистике, то Вы не всегда сможете получать оперативно и продуктивно такую помощь лишь в переписке на форуме. Поскольку очень часто все вопрошающие не очень ясно и понятно формулируют свои вопросы. Напоминаю (если, конечно, Вы уже ранее читали моё предложение), что для более оперативного и продуктивного общения именно с профессионалами, приведите в первичном вопросе свой НИК в Скайпе. И тогда желающий оказать Вам помощь вызовет Вас, и проведёт собеседование. Вот и получите эту помощь.

N.B.! Рекомендую Админам Форума дополнить это предложение по Скайпу в рекомендации общения по всем разделам Форума.
  Форум: Медицинская статистика · Просмотр сообщения: #22806 · Ответов: 13 · Просмотров: 13406

leo_biostat
Отправлено: 19.03.2018 - 14:22





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(Surgenik @ 18.03.2018 - 16:24) *
Доброго времени!
Честно, день провел выясняя вопрос, откуда берется значение Р, указываемое авторами в таблице

Surgenik, hi.gif.
В статье "Артроскопический шов больших и массивных разрывов вращательной манжеты плечевого сустава: клинические результаты и данные МРТ" есть раздел "Статистические методы". В нём и читаем, каким методом производилось сравнение данных (групповых). В приложении фрагмент этой статьи с данным разделом.
Отмечаю, что данная статья имеет много недостатков. В связи с чем выводы статьи весьма сомнительны. Например, авторы пишут:

- по CS - 34,1+/-4,3 и 20,2 +/- 3,5 баллов;
- по ASES 54,8+/-4,4 и 77,8+/-5,5 баллов;
- по UCLA 17,7+/-2,2 и 27,2+/-3,3 баллов.
.

Однако для БАЛЛОВ нельзя использовать такие выражения. Более того, в выражениях типа "средний возраст 57,1+/-10,4" не сообщается, какой параметр приводится после знака +/- . Поэтому невозможно установить каким интервалом возрастов обладали анализируемые пациенты.
Авторы пишут в статье: "Полученные в результате корреляционного анализа данные позволили произвести расчет уравнений регрессии...". Однако при этом не сообщают какого вида уравнения регрессии были получены.
Далее, для решения столь сложной задачи исследования, следует использовать и иные методы анализа. Аспекты таких ситуаций можете прочитать в статье "Сравниваем средние, а также и ...". В частности, следовало использовать дискриминантный анализ, метод логистической регрессии, метод канонической корреляции.

Поскольку для переписки приведён электронный адрес аспиранта Марченко И.В., то, видимо, эту статью и написал данный аспирант, который не владеет нужными знаниями для более правильного и более глубокого стат. анализа в данном исследовании.

P.S.
Для уточнения интересующих деталей этой статьи, обращайтесь по электронной почте к данному соавтору статьи...
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #22777 · Ответов: 6 · Просмотров: 7287

leo_biostat
Отправлено: 7.03.2018 - 14:51





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(Rebecca @ 7.03.2018 - 11:20) *
ого как много интересного. а зачем эти 5 групп нужны? я новичок-любитель и не всегда понимаю, что к чему)

Разумно использовать 5 групп. Поскольку при этом можно реализовать 2 основные задачи.
Во-первых, провести анализ по каждой из этих групп раздельно. В результате увидеть, в каких группах имеются взаимосвязи с другими признаками, а в каких - нет связей. А в случае статистически значимой взаимосвязи, установить структуру этих связей. Т.е. какие комбинации значений двух признаков определяют положительную, или отрицательную взаимосвязь. А в каких комбинациях значений пары признаков нет никакой взаимосвязи.
Во-вторых, принадлежность к этим 5 группам можно обозначить новым группирующим признаком. И с помощью метода логистической регрессии установить, какие признаки, и их значения, определяют принадлежность наблюдений базы данных к каждой из этих 5 групп. И эти признаки можно проранжировать, упорядочить по степени их связи с группирующим признаком. А какие признаки - не определяют различие групп сравнения. Т.е. установить практическую идентичность отдельных групп, и сугубую индивидуальность иных групп.
  Форум: Медицинская статистика · Просмотр сообщения: #22733 · Ответов: 18 · Просмотров: 20911

leo_biostat
Отправлено: 7.03.2018 - 08:13





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


sanabat, hi.gif!

Да, корректно использовать критерий Пирсона Хи-квадрат. При этом желательно использовать 3 основных версии этого критерия:
Chi-Square
Likelihood Ratio Chi-Square
Continuity Adj. Chi-Square

Далее, в таком анализе реальных баз данных, обычно во многих клетках, небольшие частоты создают ненадёжные результаты. Поэтому следует использовать метод Монте-Карло, оценивая 99%-ные доверительные интервалы для уровня статистической значимости критерия Пирсона Хи-квадрат. При использовании этого метода рекомендую применить, как минимум, 100000 выборочных таблиц. В результате можно оценить не только интенсивность взаимосвязи между парой качественных, группирующих признаков, таких как "Phi Coefficient", "Contingency Coefficient", "Cramer's V", но также и структуру этих взаимосвязей. В каких клетках максимальные связи, причём положительные или отрицательные, а в каких клетках реальной связи нет. Подобные аспекты можете прочитать в статье по адресу http://www.biometrica.tomsk.ru/logit_9.htm
Следующий аспект. Поскольку Ваши респонденты отвечали на несколько вопросов 'да','нет' или 'не знаю', то следует не только проводить анализ таблиц сопряжённости для всех пар признаков, но обязательно использовать метод логистической регрессии. Этим методом оцените, какие конкретно признаки (ответы на вопросы) наиболее интенсивно влияют на принадлежность к основным сравниваемым группам респондентов. Примеры подобных подходов можете прочитать в подборке диссертаций на первой странице сайта БИОМЕТРИКА.

Желаю успеха!
  Форум: Медицинская статистика · Просмотр сообщения: #22728 · Ответов: 18 · Просмотров: 20911

leo_biostat
Отправлено: 24.02.2018 - 09:07





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(nastushka @ 23.02.2018 - 14:27) *
Прикрепленный файл фикт.xlsx ( 14,09 килобайт )


nastushka, hi.gif!

Ваш " Прикрепленный файл фикт.xlsx ( 14,09 килобайт ) "- это реальная, действительная БД?
Или не реальная? Рекомендую в подобных ситуациях приводить действительно реальную БД.
Но при этом можете не уточнять названий признаков.

Успеха в исследовании!
  Форум: Медицинская статистика · Просмотр сообщения: #22670 · Ответов: 9 · Просмотров: 9869

leo_biostat
Отправлено: 22.02.2018 - 16:50





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


nastushka, hi.gif!

Весьма неясные Ваши вопросы.
Во-первых, неясно, что Вы пытаетесь кластеризовать: сами переменные, или же наблюдения? Или же и признаки, и наблюдения?
Во-вторых, неясно и то, какие у Вас признаки (количественные, дискретные (качественные), или и те, и другие?.
В третьих, если это количественные признаки, то какие у них масштабы и распределения?
В четвёртых, неясно, зачем и почему Вы желаете это сделать. Т.е. с какой целью пытаетесь получить этот результат?

Вновь напомню высказанное ранее своё предложение: если исследователь действительно желает получить продуктивную помощь от профессионалов,
то пишите свой ник по Скайпу. И тогда профи, желающий Вам помочь, проведёт собеседование с Вами по Скайпу, и поможет в решении этих вопросов.

Желаю успеха в исследовании!
  Форум: Медицинская статистика · Просмотр сообщения: #22663 · Ответов: 9 · Просмотров: 9869

leo_biostat
Отправлено: 16.02.2018 - 18:18





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


med-ick, hi.gif

Цитата(med-ick @ 16.02.2018 - 17:09) *
Несмотря на то, что в медицине методы data mining не используются...


Это мнение ошибочно. Цитирую с адреса https://ru.wikipedia.org/wiki/Data_mining фрагмент объяснения этого обобщения многих методов: "К методам data mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов, анализ выживаемости, анализ связей)". Значит в медицине эти методы как раз используются. Причём самыми продуктивными являются многомерные методы анализа. Поскольку в этих методах стараются учитывать большое количество разной полезной информации.

Цитата(med-ick @ 16.02.2018 - 17:09) *
...и не понимаю на базе каких данных машину учат беспрепятственно ездить, определять скорость, сигнал светофора.

Используя перечисленные выше методы стат. анализа, машину не учат, а обучается сам исследователь получению более продуктивных результатов. Для чего при реализации отдельных методов стат. анализа, чаще всего используются разные варианты алгоритмов. И это обучает самого исследователя выбору лучшего алгоритма. Например сегодня, при разработке Программы работ по анализу БД заказчика из ФРГ, я полдня использовал более 20 вариантов разных алгоритмов двух основных многомерных методов. И сравнивая основные результаты анализа, выбрал лишь 3 самых полезных варианта.

Цитата(med-ick @ 16.02.2018 - 17:09) *
...все равно есть интерес, как выглядят данные для машинного обучения...

В практике можно (и нужно!) использовать в собственных исследованиях лишь те данные (Базы Данных), которые доступны для сбора и накопления. Тогда как не всегда можно реализовать желаемые БД. Особенно в отечественной медицине. Поскольку в практической медицине большая часть БД формируется не в специальных электронных таблицах, например, в пакете EXCEL, а либо на бумажных описаниях, либо на электронных файлах, но в виде текстов, а не в специальных, единых таблицах. Вывод: данные для собственного обучения нужно формировать не в виде текстов, а в виде специальных, единых таблиц, которые и можно далее анализировать в разных видах стат. анализа.

Желаю успешного обучения!
  Форум: Медицинская статистика · Просмотр сообщения: #22643 · Ответов: 3 · Просмотров: 4965

leo_biostat
Отправлено: 9.02.2018 - 08:36





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(Cules2013 @ 8.02.2018 - 13:05) *
nokh, спасибо за ответы. Некоторые вещи для себя разъяснил, но остались и вопросы. Поэтому я их озвучу, вы или ещё кто по возможности на них ответите, и на этом будем завершать дискуссию.
1. Требования к ANOVA. Я тут почитал, в т.ч. темы данного форума и пришёл к выводу, что одни считают, что нужна нормальность данных по каждой выборке (ссылаются на Петри "Наглядная статистика в медицине"), другие (в т.ч. и вы) говорят о нормальности распределения остатков.

Коллега, hi.gif!
Проблемы требований к ANOVA очень старые, и по ним очень часто обращаются. Посмотрите, например, этот же вопрос по адресу http://forum.disser.ru/index.php?showtopic=3503
И такие вопросы возникают по одной простой причине: недостаточное владение теорией обсуждаемого классического метода анализа.
Как и противоречивые описания возможностей этого старого классического метода. Если Вы читали издания по ANOVA, то обратите внимание на то, каким статистическим критерием пользуются в этом методе.
И как этот самый статистический критерий, в формулах своего вычисления, взаимосвязан с критериями, вычисляемыми по нормальному распределению.
Когда освоите теорию вычисления значений этих критериев, поработайте с примерами выборок, которые можете сами генерировать, например, в EXCEL, где можете указывать нормальное распределения, параметры,
и объёмы выборок. И затем применяйте ANOVA для сравнения этих сконструированных выборок. Причём для этих выборок можно указывать не только средние значения, заимствованные из Ваших выборок.
Сужу о продуктивности таких упражнений по своему 25-летнему опыту преподавания в универе, когда я своим студентам, которых обучал этим методам, предлагал такие задания.
И они после работы с 10-15 такими искусственными выборками, понимали основы этого метода. Надеюсь, что после таких упражнений Вы найдёте ответы на свои вопросы.

Успеха!
  Форум: Медицинская статистика · Просмотр сообщения: #22581 · Ответов: 22 · Просмотров: 24292

leo_biostat
Отправлено: 8.02.2018 - 12:42





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(DrgLena @ 8.02.2018 - 06:29) *
Коллега, leo_biostat!

1. Вы вновь повторяете весь текст автора поста,

Вы правы. Не заметил, что весь текст повторил.

но сами, как будто его не читали.
Вы не правы. Весь текст читал. Потому и отвечал.


Задан конкретный вопрос о сравнении ДВУХ групп по какому то количественному признаку. Даже, если бы таких признаков было бы больше, чем этот один, конкретно описанный, зачем рекомендовать дискриминантный анализ, что вы предлагаете дискриминировать ?
Отвечаю на Ваш вопрос. Дискриминантный анализ предлагается затем, чтобы исследователь по результату этого анализа смог понять, а какой конкретно количественный признак следует более глубоко изучать. Причём не только по сравнению средних значений.

А также, в случае другого вашего совета, применения логистической регрессии, вероятность какого события вы советуете изучить?
Отвечаю на Ваш вопрос. Применение логистической регрессии позволяет объяснить, какие конкретные значений качественных, группирующих признаков, и значения каких количественных признаков, а также их взаимосвязи между собой, объясняют значения вероятностей появления тех или иных событий. Эти события есть принадлежность анализируемых наблюдений к конкретным группам сравнения. То есть использование многомерных методов статистического анализа позволяет учитывать при сравнении групп не только один количественный признак, о котором идёт речь в вопросе не профессионального статистика, но также учитывать и большое количество как взаимосвязей между всеми признаками, так и их параметры. И поэтому результаты таких методов статистического анализа более продуктивны для их использования в медицинских технологиях, нежели одни лишь сравнения средних значений.

2. Относительно списка критериев, которые вы рекомендуете

Ван дер Вардена, ограничения применимости этого критерия - различия в числе наблюдений в группах более 5.

Цитирую фрагмент вопроса автора sanabat. "Пожалуйста, help.gif !!!! Есть 2 группы пациентов: (1) n1 = 842 и (2) n2= 197, которые сравниваю по значению некого количественного признака".
То есть имеются 2 группы пациентов: (1) n1 = 842 и (2) n2= 197. О возможностях критерия Ван дер Вардена можете прочитать в книгах Р. Шторм. "Теория вероятностей. Математическая статистика. Статистический контроль качества", А.И. Кобзарь "Прикладная математическая статистика", П. Мюллер, П. Нойман, Р. Шторм. "Таблицы по математической статистике", С.Р. Рао. "Линейные статистические методы и их применения", и во многих иных книгах.

Краскела-Уоллиса, = критериюМанна-Уитни при анализе двух групп.

Вы правы. Не стоило рекомендовать.

Сиджела-Тьюки и Ансари-Брэдли, - используют для сравнения рассеяния, при проверке гипотезы о равенстве дисперсий.

Цитирую фрагмент вопроса автора sanabat. "Для первой группы среднее значение и SD равны 2,74 и 5,08; min - max = 0,09-51,74; для второй 3,46 и 5,05; min - max =0,02-35,32". Поэтому и надо было сравнить дисперсии. Поскольку результаты сравнения групповых средних зависят ещё и от значений дисперсий и интервалов разброса значений признаков. При этом нередко в этих интервалах находятся значения выбросов. И эти значения следует перепроверять.

Медианный критерий - вообще устаревший, чего ему тягаться с Манна Уитни.
Проверка равенства медиан полезна при совместной проверке как групповых средних, так и дисперсий. Поскольку результаты этих сравнений помогают понять характер распределений в каждой из групп сравнения.
В частности, можно увидеть, где находятся относительно друг друга значения среднего и медианы в каждой конкретной группе сравнения. В одной группе медиана находится относительно среднего слева, а в другой - справа.
И важно оценить разницы этих значений. То есть следует изучить характеры групповых распределений, чтобы найти причины неравенства групповых средних.

Вы перечислили все эти критерии, чтобы применить их всех при анализе описанных двух выборок, а потом по результату остановиться на самом желанном значении р? Какие соображения лежат в основе ваших рекомендаций?

Соображение единственное: исследователю нужно расширить область своего исследования, не зациклившись лишь на одном сравнении средних. И при таком расширении исследователь будет читать новые книги, статьи.
И значит получать более продуктивные результаты, что будет полезно как самому исследователю, так и пациентам, для которых будут использовать эти лучшие результаты.
  Форум: Медицинская статистика · Просмотр сообщения: #22574 · Ответов: 6 · Просмотров: 8242

leo_biostat
Отправлено: 7.02.2018 - 22:29





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(sanabat @ 7.02.2018 - 21:45) *
Пожалуйста, help.gif !!!! Есть 2 группы пациентов: (1) n1 = 842 и (2) n2= 197, которые сравниваю по значению некого количественного признака. Для первой группы среднее значение и SD равны 2,74 и 5,08; min - max = 0,09-51,74; для второй 3,46 и 5,05; min - max =0,02-35,32. Проверила вид распределения с использованием критерия Шапиро-Уилка. Получилось - отличное от нормального. Применила для сравнения этих выборок критерий Манна Уитни ( р= 0,0296, но этот результат настораживает, поскольку средние отличаются незначительно). Можно ли в данном случае использовать критерий Манна -Уитни? Читала, что его не применяют при размере выборки более 60, а используют t-тест (правда ли это?). Тогда какой критерий применить? Пробовала независимый t-тест. Результат =0,0723. Но корректно ли его применять, ведь распределение параметра отличное от нормального?


Коллега, hi.gif!

Используйте критерии Ван дер Вардена, Краскела-Валлиса, Сиджела-Тьюки и Ансари-Брэдли, а также и медианный критерий.
Если в группах кроме одного количественного признака есть и иные признаки, то рекомендую использовать как дискриминантный анализ,
так и метод логистической регрессии (см. http://www.biometrica.tomsk.ru/logit_0.htm).

Успеха!
  Форум: Медицинская статистика · Просмотр сообщения: #22569 · Ответов: 6 · Просмотров: 8242

leo_biostat
Отправлено: 5.02.2018 - 21:32





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953


[quote name='Олег Кравец' date='5.02.2018 - 20:02' post='22546']

Благодарю за эту информацию. Увы, не знал об этом ограничении.
Впредь буду учитывать это ограничение.
  Форум: Медицинская статистика · Просмотр сообщения: #22547 · Ответов: 22 · Просмотров: 24292

5 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена