Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

5 страниц V   1 2 3 > » 

leo_biostat
Отправлено: 28.01.2019 - 08:33


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(DJAp @ 28.01.2019 - 00:48) *
Здравствуйте. Я новичок в статистике и не совсем понимаю какими методами можно реализовать сравнение двух групп по частоте встречающихся признаков. Пытался найти что нибудь похожее, но не смог.
Есть пример, пациенты принимали два разных лекарства и получали эффект, который оценивался от 0 до 5.
Таким образом, нужно сравнить, есть ли в этих двух группах (лекарствах) достоверные отличия по частоте явления. То есть, эффект 0 был у 39 пациентов, эффект 1 у 3 пациентов и так далее (таблица ниже).
Как я понял, что если сравнивать количество пациентов есть эффект/нет эффекта, можно использовать критерии Фишера/хи2 в четырехпольных таблицах, например в ПО Statistica.
А в случае когда нужно сравнить несколько вариантов? Есть ли какое то решение этой проблемы?


преп1 преп2
0 39 28
1 3 1
2 3 5
3 6 8
4 0 3
5 3 4

Спасибо.



hi.gif!
Увы, Ваш подход в такой ситуации не продуктивный. А уровень такого подхода адекватен уровню желаемой пользы возможного результата, ожидаемого
новичком в статистике. В реальной медицинской практике учитываются не только два разных лекарства, но и очень многие ценные и полезные признаки
пациентов. То есть нужно использовать не такую пару признаков, а гораздо больше признаков. И в этом случае нужно использовать набор нескольких
многомерных методов статистического анализа. Что, естественно, доступно не новичкам в статистике, а профессионалам по биостатистике. Если Вам
действительно нужны очень полезные для медицинской практики результаты продуктивного статистического анализа, высылайте мне свою базу данных
с большим набором наблюдений и признаков, и будем обсуждать возможности анализа такой базы данных.



  Форум: Медицинская статистика · Просмотр сообщения: #23695 · Ответов: 6 · Просмотров: 1264

leo_biostat
Отправлено: 28.12.2018 - 06:51


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


hi.gif!
Ваш вопрос мне понятен. Отвечаю по данной специфике ситуации.
Если у исследователя есть несколько подгрупп, например, 4 подгруппы, то ВСЕГДА нужно сравнивать эти подгруппы.
Такие сравнения, как правило, в этих подгруппах позволяют использовать как количественные, так и качественные признаки.
И для этого наиболее продуктивно использовать метод логистической регрессии. Об этом методе можете прочитать серию моих
10 статей по этому методу по адресу http://www.biometrica.tomsk.ru/logit_0.htm
И при использовании такого метода анализа можно установить, по каким конкретно признакам данные группы различаются, а по каким
признакам не различаются. И те признаки, по которым эти подгруппы различаются, можно упорядочить, установив, какие признаки
по различию подгрупп стоят на первом месте по этим различиям, а какие другие признаки - на последнем месте.
Также можно установить а какие подгруппы действительно различаются по этим подборкам признаков, а какие подгруппы не различаются,
и, возможно, их следует объединить. Более того, эти различия идентифицируются по каждому наблюдению каждой подгруппы.
И тогда можно определить, какие именно комбинации значений признаков и приводят конкретное наблюдение в свою подгруппу,
или же напротив, в иную подгруппу.

Желаю успешного продолжения своего исследования!
  Форум: Медицинская статистика · Просмотр сообщения: #23613 · Ответов: 4 · Просмотров: 1682

leo_biostat
Отправлено: 1.12.2018 - 14:14


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(kont @ 1.12.2018 - 14:08) *
Подскажите, вот провел я множественную регрессию. Смотрю остатки. У меня возник, а какие остатки приемлемые, а какие нет.
Например исходное значение 24, предсказано 23, остаток=1. Нормально ли это? Т.е. вопрос какое максимальное расхождение считается допустимо, чтобы сказать, это модель крута?(с учетом того, что остаток в ноль, не такое частое явление, увы)

hi.gif, kont

Все расхождения допустимы. Однако желательны минимальные. Оцените адекватность уравнения, проверив вид распределения остатков,
а также проверьте чему равен коэффициент детерминации R-квадрат. Также оптимально использовать не один вид уравнения, например,
линейный, а также и набор разных видов уравнений. Например, нелинейных, с разными степенями и произведениями предикторов, и т. д.

Успеха!
  Форум: Медицинская статистика · Просмотр сообщения: #23556 · Ответов: 3 · Просмотров: 1245

leo_biostat
Отправлено: 12.11.2018 - 11:20


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


Добрый день!

Выходите ко мне по Скайпу, и детально обсудим Ваш результат.
  Форум: Медицинская статистика · Просмотр сообщения: #23505 · Ответов: 3 · Просмотров: 1469

leo_biostat
Отправлено: 16.10.2018 - 18:46


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


hi.gif

Цитата(nikita_zab @ 16.10.2018 - 17:38) *
Добрый день!
Прошу напомнить термин, которым называют применение всевозможных статистических методов к одним и тем же данным в попытке найти значимую разницу или закономерности.
И второй вопрос из области философии. Имеет ли смысл применять несколько методов для оценки "здесь что-то есть". И если применяется сразу несколько методов как быть, если некоторые из них показывают "р меньше 5 сотых", а другие нет?

Основным термином касательно применения всевозможных методов к одним и тем же данным, и к одной и той же цели исследования, является "профессионализм".
То бишь профессионализм в биостатистике.Тогда как профессионал в иной науке, может не знать и не уметь применять массу продуктивных методов.

Имеет смысл применять "массу продуктивных методов", поскольку этот набор разных методов даёт такую же массу результаты. Анализируя которые и можно приходить
либо к принятию или отвержению неких стат. гипотез, либо к неким новым , ранее неизвестным гипотезам.

Успеха! yahoo.gif
  Форум: Медицинская статистика · Просмотр сообщения: #23434 · Ответов: 6 · Просмотров: 2322

leo_biostat
Отправлено: 19.06.2018 - 13:29


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(Zamira @ 19.06.2018 - 11:28) *
....
Буду благодарна за помощь в интерпретации данных!

Zamira, hi.gif!
Во-первых, то что Вы предлагаете интерпретировать, это не "данные". А результаты анализа данных. Т.е. анализа БД.
Во-вторых, эти результаты весьма примитивны для интепретации. Тем более что этот результат получен
в SPSS, который не продуктивен для логистической регрессии. Более того, для достижения цели исследования
при анализе БД методом логистической регрессии, следует получать не единственное уравнение, а целый набор таких
уравнений. Причем с разными наборами предикторов в этих уравнениях. Например, использую этот метод для разных заказчиков,
как медиков и биологов, так и технических исследователей, я получаю обычно 5-15 уравнений по каждой задаче.
А нередко и до 25 уравнений. И каждое из таких уравнений имеет хороший набор показателей, что позволяет из всех
уравнений самому заказчику выбирать 2-3 лучших уравнения. В приложении "Logit_ 1.png" показаны признаки, вошедшие
предикторами в уравнение. Важным показателем для этих предикторов являются стандартизованные коэффициенты.
Также в результатах приводится и процент конкордации. Так для приведённого примера уравнения он равен 80%.
А самое оптимальное сделать ещё и таблицу сопряжённости, отражающую фактическую и предсказанную по уравнению
принадлежность наблюдений к сравниваемым группам. Пример такой таблицы привожу в приложении "Logit_ 2.png".

Zamira!
Рекомендую Вам почитать серию 10 статей по логистической регрессии.

Успеха!
Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #23083 · Ответов: 5 · Просмотров: 2672

leo_biostat
Отправлено: 31.05.2018 - 17:44


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(Olesio @ 31.05.2018 - 17:04) *
Прошу подсказать сайт или человека по обучению обработки стат данных по диссертации. С уважением, Олесия Горохова.

Олесия, hi.gif!

Таких сайтов много. И их без труда можно найти с поиском в интернете.
Приглашаю на свой сайт БИОМЕТРИКА.
Там выложены образцовые статьи и диссертации с примерами использования современных
методов статистического анализа. А также немало статей по описанию ошибок в использовании
статистических методов анализа.

Желаю успеха!
  Форум: Медицинская статистика · Просмотр сообщения: #23034 · Ответов: 1 · Просмотров: 1387

leo_biostat
Отправлено: 9.05.2018 - 22:00


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


Елена, hi.gif

Цитата(Елена Гогуа @ 8.05.2018 - 21:39) *
Про контрольную группу - это совет профессора sad.gif
Возможно, он считает, что нужно использовать не таблицы сопряжения, а другой метод анализа (Бонферрони?).

Профессор прав в том, что нужно использовать не только таблицы сопряжённости. Но и иные продуктивные методы.
Действительно, Ваша таблица сопряжённости непростая. В частности, наверняка во многих клетках расчётные частоты
гораздо меньше минимально допустимых частот. В частности, частот равных 5. И в этих случаях результаты анализа
не очень надёжны. Поэтому следует использовать метод Монте-Карло, анализируя 1 млн или 100 тысяч аналогичных таблиц.
И тогда получаем 99%-ные доверительные интервалы для достигнутого уровня статистической значимости.
Но это не конечный метод. Гораздо важнее проведение структуры анализа обнаруженной взаимосвязи пары признаков.
Можете прочитать пример с описанием такой структуры по адресу http://www.biometrica.tomsk.ru/logit_9.htm
Используя анализ структуры взаимосвязи, можно провести анализ новых таблиц сопряжённости, в которых последовательно
объединяются некоторые пары групп первой или второй группирующих переменных. Лет 30 назад я объяснил эту возможность
своему студенту-дипломнику. И он сделал по моему предложению эту дипломную работу. И защита его дипломной работы
была отличной. Все члены дипломного совета проголосовали "ЗА" с оценкой "Отлично". Такой принцип весьма полезен при
исследовании структуры взаимосвязи между парой группирующий признаков. И можно уменьшать количество анализируемых
клеток от сотен и тысяч до десятков и менее.

Второй аспект Вашего исследования. Маловероятно, что анализируемая база данных содержит лишь 2 группирующих признаков.
И тогда можно (и нужно!) применять не только парный анализ (таблицу сопряжённости), но и многомерные методы анализа.
В частности, весьма продуктивный метод логистической регрессии (см. http://www.biometrica.tomsk.ru/logit_0.htm)

P.S.
Если Вы желаете получать более продуктивную помощь от профи по биостатистике, то рекомендую выкладывать свою базу данных,
а также приводить свой ник в Скайпе. И тогда вместо длинных переписок можно будет кратко и ясно обсудить Ваши проблемы по Скайпу.
Если желаете более детально обсудить своё исследование, высылайте на мой адрес свой ник.

Успеха!
  Форум: Медицинская статистика · Просмотр сообщения: #22979 · Ответов: 36 · Просмотров: 12398

leo_biostat
Отправлено: 9.05.2018 - 15:48


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(Cules2013 @ 22.04.2018 - 14:42) *
Однофакторный и двухфакторный ANOVA
.... поначалу я взял однофакторный анализ .... Затем, решил сделать двухфакторный анализ ...


hi.gif, Cules2013

Вы проверили оба обязательных ограничения на корректное использование дисперсионного анализа?
И если проверили, то каковы результаты?
  Форум: Медицинская статистика · Просмотр сообщения: #22977 · Ответов: 4 · Просмотров: 2014

leo_biostat
Отправлено: 29.04.2018 - 11:24


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


Уважаемые коллеги, друзья, исследователи!

Поздравляю Вас с наступающими праздниками 1 и 9 Мая! Будем встречать и проводить эти основные наши праздники не только в своих семьях, но также вместе с родственниками и друзьями.
Помянем наших родственников, воевавших в Великой Отечественной Войне и победивших европейский фашизм. Просмотрим их фотографии, прочитаем их письма. И повторим нашим детям рассказы об этих родственниках, погибших и выживших в этой ВОВ.

В связи с этими праздниками желаю чтобы Ваши научные исследования были сильными, достойными, а уровень их весьма существенно повышался хорошим использованием современных методов биостатистики. Бодрости знаний, эмоциональной насыщенности, и высоких результатов! Всегда твёрдо идти по выбранному пути в своих исследованиях, отбросив лень, не боясь использования новых, современных методов стат. анализа собранных баз данных. Успеха Вам в публикациях и защитах диссертаций!

Для повышения знаний в биостатистике, участникам данного форума доступны 15 архивов с хорошими описаниями разных методов статистики (объём всех вложенных файлов порядка 500 Мб). Первый архив BIOMETRICA_125.rar можете скачать, и в нём, как и в других архивах, прочитаете информацию о скачивании следующего архива. Доступность этих архивов будет по 15 мая с.г.

С праздниками, и успеха всем Вам!
  Форум: Медицинская статистика · Просмотр сообщения: #22935 · Ответов: 1 · Просмотров: 1252

leo_biostat
Отправлено: 3.04.2018 - 14:36


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(Cules2013 @ 3.04.2018 - 08:40) *
Уже давно мучает меня вопрос о том, где бы найти достоверную инфу ....

Cules2013, hi.gif!
passant абсолютно прав: "Нужны ответы - не ждите готовых, а разбирайтесь и анализируйте их сами".
Для этого рекомендую Вам популярные книги по математической статистике. И в них Вы найдёте много ответов на эти вопросы.
Зайдите на адрес https://www.twirpx.com/file/1457826/ и скачайте эту отличную книгу!
В конце книги есть раздел "Предметный указатель". Там найдёте страницы нужных Вам критериев и методов.
И на этом сайте посмотрите раздел "Теория вероятностей и математическая статистика", и там найдёте
очень много полезной литературы.
Кстати, на этом же сайте найдёте много литературы и по медицине, биологии, и многим иным наукам.

Успеха, Cules2013 !
  Форум: Медицинская статистика · Просмотр сообщения: #22857 · Ответов: 10 · Просмотров: 3351

leo_biostat
Отправлено: 27.03.2018 - 16:11


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(passant @ 27.03.2018 - 09:53) *
Если человек не может ясно и понятно сформулировать свой вопрос, то в 99% случаях это означает, что он и проблемы своей по сути не понимает.

"Вопрос" и "проблема" (по которому задаётся "вопрос") - это не идентичные понятия. Утверждаю это по своему многолетнему научному и педагогическому опыту. Обсуждаемая проблема данного, и многих иных форумов, заключается как раз в неясной формулировке вопросов. И оперативное решение этой проблемы по более ясному пониманию вопроса, именно в сеансах связи со мной по Скайпу, решают практически все респонденты, обращающиеся ко мне первоначально в электронной переписке. Кстати, они часто обращаются и потом, когда получают от нашего коллектива большие объёмы полезных результатов. Также отмечу, что часто требуется очень оперативно решать направления методов исследования не у медиков и биологов, а у специалистов по иным специальным направлениям. И в этом случае они не могут даже писать об этом, а сразу выходят на беседу.
Цитата(passant @ 27.03.2018 - 09:53) *
И превратить форму из платформы обмена знаниями в платформу поиска консультацийнтов. Впрочем - у каждого свои интересы.

Мой личный интерес не в том, чтобы рекламировать себя и свой коллектив. Этого не требуется, поскольку сайт, которому уже 20 лет, ежедневно посещают сотни и даже тысячи пользователей. А интерес в том, чтобы задающие вопросы, во-первых, уточнили свои вопросы (если они не вполне понятны), а затем с моей помощью получили подсказку, как попытаться найти ответ на этот вопрос. Уверен, что интересы большинства ответчиков аналогичны.
  Форум: Медицинская статистика · Просмотр сообщения: #22810 · Ответов: 13 · Просмотров: 4379

leo_biostat
Отправлено: 26.03.2018 - 19:26


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(medmonitor @ 25.03.2018 - 18:47) *
Хорошо , перефразирую вопрос, как мне проверить однородность одной выборки?

medmonitor, hi.gif!
И я "перефразирую" Ваш вопрос. Если Вам действительно нужна помощь специалистов по статистике, то Вы не всегда сможете получать оперативно и продуктивно такую помощь лишь в переписке на форуме. Поскольку очень часто все вопрошающие не очень ясно и понятно формулируют свои вопросы. Напоминаю (если, конечно, Вы уже ранее читали моё предложение), что для более оперативного и продуктивного общения именно с профессионалами, приведите в первичном вопросе свой НИК в Скайпе. И тогда желающий оказать Вам помощь вызовет Вас, и проведёт собеседование. Вот и получите эту помощь.

N.B.! Рекомендую Админам Форума дополнить это предложение по Скайпу в рекомендации общения по всем разделам Форума.
  Форум: Медицинская статистика · Просмотр сообщения: #22806 · Ответов: 13 · Просмотров: 4379

leo_biostat
Отправлено: 19.03.2018 - 14:22


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(Surgenik @ 18.03.2018 - 16:24) *
Доброго времени!
Честно, день провел выясняя вопрос, откуда берется значение Р, указываемое авторами в таблице

Surgenik, hi.gif.
В статье "Артроскопический шов больших и массивных разрывов вращательной манжеты плечевого сустава: клинические результаты и данные МРТ" есть раздел "Статистические методы". В нём и читаем, каким методом производилось сравнение данных (групповых). В приложении фрагмент этой статьи с данным разделом.
Отмечаю, что данная статья имеет много недостатков. В связи с чем выводы статьи весьма сомнительны. Например, авторы пишут:

- по CS - 34,1+/-4,3 и 20,2 +/- 3,5 баллов;
- по ASES 54,8+/-4,4 и 77,8+/-5,5 баллов;
- по UCLA 17,7+/-2,2 и 27,2+/-3,3 баллов.
.

Однако для БАЛЛОВ нельзя использовать такие выражения. Более того, в выражениях типа "средний возраст 57,1+/-10,4" не сообщается, какой параметр приводится после знака +/- . Поэтому невозможно установить каким интервалом возрастов обладали анализируемые пациенты.
Авторы пишут в статье: "Полученные в результате корреляционного анализа данные позволили произвести расчет уравнений регрессии...". Однако при этом не сообщают какого вида уравнения регрессии были получены.
Далее, для решения столь сложной задачи исследования, следует использовать и иные методы анализа. Аспекты таких ситуаций можете прочитать в статье "Сравниваем средние, а также и ...". В частности, следовало использовать дискриминантный анализ, метод логистической регрессии, метод канонической корреляции.

Поскольку для переписки приведён электронный адрес аспиранта Марченко И.В., то, видимо, эту статью и написал данный аспирант, который не владеет нужными знаниями для более правильного и более глубокого стат. анализа в данном исследовании.

P.S.
Для уточнения интересующих деталей этой статьи, обращайтесь по электронной почте к данному соавтору статьи...
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #22777 · Ответов: 6 · Просмотров: 2631

leo_biostat
Отправлено: 7.03.2018 - 14:51


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(Rebecca @ 7.03.2018 - 11:20) *
ого как много интересного. а зачем эти 5 групп нужны? я новичок-любитель и не всегда понимаю, что к чему)

Разумно использовать 5 групп. Поскольку при этом можно реализовать 2 основные задачи.
Во-первых, провести анализ по каждой из этих групп раздельно. В результате увидеть, в каких группах имеются взаимосвязи с другими признаками, а в каких - нет связей. А в случае статистически значимой взаимосвязи, установить структуру этих связей. Т.е. какие комбинации значений двух признаков определяют положительную, или отрицательную взаимосвязь. А в каких комбинациях значений пары признаков нет никакой взаимосвязи.
Во-вторых, принадлежность к этим 5 группам можно обозначить новым группирующим признаком. И с помощью метода логистической регрессии установить, какие признаки, и их значения, определяют принадлежность наблюдений базы данных к каждой из этих 5 групп. И эти признаки можно проранжировать, упорядочить по степени их связи с группирующим признаком. А какие признаки - не определяют различие групп сравнения. Т.е. установить практическую идентичность отдельных групп, и сугубую индивидуальность иных групп.
  Форум: Медицинская статистика · Просмотр сообщения: #22733 · Ответов: 18 · Просмотров: 6987

leo_biostat
Отправлено: 7.03.2018 - 08:13


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


sanabat, hi.gif!

Да, корректно использовать критерий Пирсона Хи-квадрат. При этом желательно использовать 3 основных версии этого критерия:
Chi-Square
Likelihood Ratio Chi-Square
Continuity Adj. Chi-Square

Далее, в таком анализе реальных баз данных, обычно во многих клетках, небольшие частоты создают ненадёжные результаты. Поэтому следует использовать метод Монте-Карло, оценивая 99%-ные доверительные интервалы для уровня статистической значимости критерия Пирсона Хи-квадрат. При использовании этого метода рекомендую применить, как минимум, 100000 выборочных таблиц. В результате можно оценить не только интенсивность взаимосвязи между парой качественных, группирующих признаков, таких как "Phi Coefficient", "Contingency Coefficient", "Cramer's V", но также и структуру этих взаимосвязей. В каких клетках максимальные связи, причём положительные или отрицательные, а в каких клетках реальной связи нет. Подобные аспекты можете прочитать в статье по адресу http://www.biometrica.tomsk.ru/logit_9.htm
Следующий аспект. Поскольку Ваши респонденты отвечали на несколько вопросов 'да','нет' или 'не знаю', то следует не только проводить анализ таблиц сопряжённости для всех пар признаков, но обязательно использовать метод логистической регрессии. Этим методом оцените, какие конкретно признаки (ответы на вопросы) наиболее интенсивно влияют на принадлежность к основным сравниваемым группам респондентов. Примеры подобных подходов можете прочитать в подборке диссертаций на первой странице сайта БИОМЕТРИКА.

Желаю успеха!
  Форум: Медицинская статистика · Просмотр сообщения: #22728 · Ответов: 18 · Просмотров: 6987

leo_biostat
Отправлено: 24.02.2018 - 09:07


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(nastushka @ 23.02.2018 - 14:27) *
Прикрепленный файл фикт.xlsx ( 14,09 килобайт )


nastushka, hi.gif!

Ваш " Прикрепленный файл фикт.xlsx ( 14,09 килобайт ) "- это реальная, действительная БД?
Или не реальная? Рекомендую в подобных ситуациях приводить действительно реальную БД.
Но при этом можете не уточнять названий признаков.

Успеха в исследовании!
  Форум: Медицинская статистика · Просмотр сообщения: #22670 · Ответов: 9 · Просмотров: 3010

leo_biostat
Отправлено: 22.02.2018 - 16:50


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


nastushka, hi.gif!

Весьма неясные Ваши вопросы.
Во-первых, неясно, что Вы пытаетесь кластеризовать: сами переменные, или же наблюдения? Или же и признаки, и наблюдения?
Во-вторых, неясно и то, какие у Вас признаки (количественные, дискретные (качественные), или и те, и другие?.
В третьих, если это количественные признаки, то какие у них масштабы и распределения?
В четвёртых, неясно, зачем и почему Вы желаете это сделать. Т.е. с какой целью пытаетесь получить этот результат?

Вновь напомню высказанное ранее своё предложение: если исследователь действительно желает получить продуктивную помощь от профессионалов,
то пишите свой ник по Скайпу. И тогда профи, желающий Вам помочь, проведёт собеседование с Вами по Скайпу, и поможет в решении этих вопросов.

Желаю успеха в исследовании!
  Форум: Медицинская статистика · Просмотр сообщения: #22663 · Ответов: 9 · Просмотров: 3010

leo_biostat
Отправлено: 16.02.2018 - 18:18


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


med-ick, hi.gif

Цитата(med-ick @ 16.02.2018 - 17:09) *
Несмотря на то, что в медицине методы data mining не используются...


Это мнение ошибочно. Цитирую с адреса https://ru.wikipedia.org/wiki/Data_mining фрагмент объяснения этого обобщения многих методов: "К методам data mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов, анализ выживаемости, анализ связей)". Значит в медицине эти методы как раз используются. Причём самыми продуктивными являются многомерные методы анализа. Поскольку в этих методах стараются учитывать большое количество разной полезной информации.

Цитата(med-ick @ 16.02.2018 - 17:09) *
...и не понимаю на базе каких данных машину учат беспрепятственно ездить, определять скорость, сигнал светофора.

Используя перечисленные выше методы стат. анализа, машину не учат, а обучается сам исследователь получению более продуктивных результатов. Для чего при реализации отдельных методов стат. анализа, чаще всего используются разные варианты алгоритмов. И это обучает самого исследователя выбору лучшего алгоритма. Например сегодня, при разработке Программы работ по анализу БД заказчика из ФРГ, я полдня использовал более 20 вариантов разных алгоритмов двух основных многомерных методов. И сравнивая основные результаты анализа, выбрал лишь 3 самых полезных варианта.

Цитата(med-ick @ 16.02.2018 - 17:09) *
...все равно есть интерес, как выглядят данные для машинного обучения...

В практике можно (и нужно!) использовать в собственных исследованиях лишь те данные (Базы Данных), которые доступны для сбора и накопления. Тогда как не всегда можно реализовать желаемые БД. Особенно в отечественной медицине. Поскольку в практической медицине большая часть БД формируется не в специальных электронных таблицах, например, в пакете EXCEL, а либо на бумажных описаниях, либо на электронных файлах, но в виде текстов, а не в специальных, единых таблицах. Вывод: данные для собственного обучения нужно формировать не в виде текстов, а в виде специальных, единых таблиц, которые и можно далее анализировать в разных видах стат. анализа.

Желаю успешного обучения!
  Форум: Медицинская статистика · Просмотр сообщения: #22643 · Ответов: 3 · Просмотров: 1585

leo_biostat
Отправлено: 9.02.2018 - 08:36


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(Cules2013 @ 8.02.2018 - 13:05) *
nokh, спасибо за ответы. Некоторые вещи для себя разъяснил, но остались и вопросы. Поэтому я их озвучу, вы или ещё кто по возможности на них ответите, и на этом будем завершать дискуссию.
1. Требования к ANOVA. Я тут почитал, в т.ч. темы данного форума и пришёл к выводу, что одни считают, что нужна нормальность данных по каждой выборке (ссылаются на Петри "Наглядная статистика в медицине"), другие (в т.ч. и вы) говорят о нормальности распределения остатков.

Коллега, hi.gif!
Проблемы требований к ANOVA очень старые, и по ним очень часто обращаются. Посмотрите, например, этот же вопрос по адресу http://forum.disser.ru/index.php?showtopic=3503
И такие вопросы возникают по одной простой причине: недостаточное владение теорией обсуждаемого классического метода анализа.
Как и противоречивые описания возможностей этого старого классического метода. Если Вы читали издания по ANOVA, то обратите внимание на то, каким статистическим критерием пользуются в этом методе.
И как этот самый статистический критерий, в формулах своего вычисления, взаимосвязан с критериями, вычисляемыми по нормальному распределению.
Когда освоите теорию вычисления значений этих критериев, поработайте с примерами выборок, которые можете сами генерировать, например, в EXCEL, где можете указывать нормальное распределения, параметры,
и объёмы выборок. И затем применяйте ANOVA для сравнения этих сконструированных выборок. Причём для этих выборок можно указывать не только средние значения, заимствованные из Ваших выборок.
Сужу о продуктивности таких упражнений по своему 25-летнему опыту преподавания в универе, когда я своим студентам, которых обучал этим методам, предлагал такие задания.
И они после работы с 10-15 такими искусственными выборками, понимали основы этого метода. Надеюсь, что после таких упражнений Вы найдёте ответы на свои вопросы.

Успеха!
  Форум: Медицинская статистика · Просмотр сообщения: #22581 · Ответов: 22 · Просмотров: 7845

leo_biostat
Отправлено: 8.02.2018 - 12:42


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(DrgLena @ 8.02.2018 - 06:29) *
Коллега, leo_biostat!

1. Вы вновь повторяете весь текст автора поста,

Вы правы. Не заметил, что весь текст повторил.

но сами, как будто его не читали.
Вы не правы. Весь текст читал. Потому и отвечал.


Задан конкретный вопрос о сравнении ДВУХ групп по какому то количественному признаку. Даже, если бы таких признаков было бы больше, чем этот один, конкретно описанный, зачем рекомендовать дискриминантный анализ, что вы предлагаете дискриминировать ?
Отвечаю на Ваш вопрос. Дискриминантный анализ предлагается затем, чтобы исследователь по результату этого анализа смог понять, а какой конкретно количественный признак следует более глубоко изучать. Причём не только по сравнению средних значений.

А также, в случае другого вашего совета, применения логистической регрессии, вероятность какого события вы советуете изучить?
Отвечаю на Ваш вопрос. Применение логистической регрессии позволяет объяснить, какие конкретные значений качественных, группирующих признаков, и значения каких количественных признаков, а также их взаимосвязи между собой, объясняют значения вероятностей появления тех или иных событий. Эти события есть принадлежность анализируемых наблюдений к конкретным группам сравнения. То есть использование многомерных методов статистического анализа позволяет учитывать при сравнении групп не только один количественный признак, о котором идёт речь в вопросе не профессионального статистика, но также учитывать и большое количество как взаимосвязей между всеми признаками, так и их параметры. И поэтому результаты таких методов статистического анализа более продуктивны для их использования в медицинских технологиях, нежели одни лишь сравнения средних значений.

2. Относительно списка критериев, которые вы рекомендуете

Ван дер Вардена, ограничения применимости этого критерия - различия в числе наблюдений в группах более 5.

Цитирую фрагмент вопроса автора sanabat. "Пожалуйста, help.gif !!!! Есть 2 группы пациентов: (1) n1 = 842 и (2) n2= 197, которые сравниваю по значению некого количественного признака".
То есть имеются 2 группы пациентов: (1) n1 = 842 и (2) n2= 197. О возможностях критерия Ван дер Вардена можете прочитать в книгах Р. Шторм. "Теория вероятностей. Математическая статистика. Статистический контроль качества", А.И. Кобзарь "Прикладная математическая статистика", П. Мюллер, П. Нойман, Р. Шторм. "Таблицы по математической статистике", С.Р. Рао. "Линейные статистические методы и их применения", и во многих иных книгах.

Краскела-Уоллиса, = критериюМанна-Уитни при анализе двух групп.

Вы правы. Не стоило рекомендовать.

Сиджела-Тьюки и Ансари-Брэдли, - используют для сравнения рассеяния, при проверке гипотезы о равенстве дисперсий.

Цитирую фрагмент вопроса автора sanabat. "Для первой группы среднее значение и SD равны 2,74 и 5,08; min - max = 0,09-51,74; для второй 3,46 и 5,05; min - max =0,02-35,32". Поэтому и надо было сравнить дисперсии. Поскольку результаты сравнения групповых средних зависят ещё и от значений дисперсий и интервалов разброса значений признаков. При этом нередко в этих интервалах находятся значения выбросов. И эти значения следует перепроверять.

Медианный критерий - вообще устаревший, чего ему тягаться с Манна Уитни.
Проверка равенства медиан полезна при совместной проверке как групповых средних, так и дисперсий. Поскольку результаты этих сравнений помогают понять характер распределений в каждой из групп сравнения.
В частности, можно увидеть, где находятся относительно друг друга значения среднего и медианы в каждой конкретной группе сравнения. В одной группе медиана находится относительно среднего слева, а в другой - справа.
И важно оценить разницы этих значений. То есть следует изучить характеры групповых распределений, чтобы найти причины неравенства групповых средних.

Вы перечислили все эти критерии, чтобы применить их всех при анализе описанных двух выборок, а потом по результату остановиться на самом желанном значении р? Какие соображения лежат в основе ваших рекомендаций?

Соображение единственное: исследователю нужно расширить область своего исследования, не зациклившись лишь на одном сравнении средних. И при таком расширении исследователь будет читать новые книги, статьи.
И значит получать более продуктивные результаты, что будет полезно как самому исследователю, так и пациентам, для которых будут использовать эти лучшие результаты.
  Форум: Медицинская статистика · Просмотр сообщения: #22574 · Ответов: 6 · Просмотров: 2736

leo_biostat
Отправлено: 7.02.2018 - 22:29


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(sanabat @ 7.02.2018 - 21:45) *
Пожалуйста, help.gif !!!! Есть 2 группы пациентов: (1) n1 = 842 и (2) n2= 197, которые сравниваю по значению некого количественного признака. Для первой группы среднее значение и SD равны 2,74 и 5,08; min - max = 0,09-51,74; для второй 3,46 и 5,05; min - max =0,02-35,32. Проверила вид распределения с использованием критерия Шапиро-Уилка. Получилось - отличное от нормального. Применила для сравнения этих выборок критерий Манна Уитни ( р= 0,0296, но этот результат настораживает, поскольку средние отличаются незначительно). Можно ли в данном случае использовать критерий Манна -Уитни? Читала, что его не применяют при размере выборки более 60, а используют t-тест (правда ли это?). Тогда какой критерий применить? Пробовала независимый t-тест. Результат =0,0723. Но корректно ли его применять, ведь распределение параметра отличное от нормального?


Коллега, hi.gif!

Используйте критерии Ван дер Вардена, Краскела-Валлиса, Сиджела-Тьюки и Ансари-Брэдли, а также и медианный критерий.
Если в группах кроме одного количественного признака есть и иные признаки, то рекомендую использовать как дискриминантный анализ,
так и метод логистической регрессии (см. http://www.biometrica.tomsk.ru/logit_0.htm).

Успеха!
  Форум: Медицинская статистика · Просмотр сообщения: #22569 · Ответов: 6 · Просмотров: 2736

leo_biostat
Отправлено: 5.02.2018 - 21:32


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


[quote name='Олег Кравец' date='5.02.2018 - 20:02' post='22546']

Благодарю за эту информацию. Увы, не знал об этом ограничении.
Впредь буду учитывать это ограничение.
  Форум: Медицинская статистика · Просмотр сообщения: #22547 · Ответов: 22 · Просмотров: 7845

leo_biostat
Отправлено: 5.02.2018 - 17:30


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(Cules2013 @ 5.02.2018 - 16:33) *
Добрый день всем!
У меня есть большой массив данных для множественного сравнения (независимые выборки). Ситуация такая, что где-то 70-80% групп - это параметрика (определял по Д'Агостино-Пирсону), остальное - разумеется, что нет. Уже брал для определения различий тест Краскала-Уоллиса +тест Данна для множественных сравнений. Это самый простой способ, но тест Данна уж больно жёсткий, там достоверность определяется только железобетонная, которая даже визуально на графике просматривается. Т.е, к гадалке не ходи, достаточна велика вероятность ошибки второго рода. Не слишком-то подходит.
Поэтому решил просто довести распределение до нормального Боксом-Коксом и взять ANOVA. По ходу дела возникло несколько вопросов:
1. Если я правильно всё понимаю, то нельзя преобразовывать только отдельные выборки, коль взял преобразование, то нужно Боксом-Коксом прогнать все выборки, в т.ч. и те, что уже и так имеют нормальное распределение. И я заметил преинтереснейшую вещь: в большинстве случаев Бокс-Кокс работает шикарно, но иногда возникает обратная ситуация, там где была параметрика вдруг стала непараметрика. В итоге, я, конечно, увеличил % групп с нормальным распределением, так что как бы и результат положительный, но осадок остался, да и 100% параметрики я так и не получил и, по-прежнему, по всей строгости закона, ANOVA мне не светит, как и раньше. Как решить данную проблему? Я знаю про другие виды подгонки распределения под нормальное, но Бокс-кокс позиционируется как очень эффективное и универсальное средство, этот метод доступен в программе Statistica, ничего вручную считать не надо и т.д и т.п. Мне просто даже интересно, как такое возможно, что Бокс-Кокс сделал непараметрику из параметрики, с учётом того, что программа проводит целую уйму подстановок для выбора оптимального значения лямбда? Я брал настройки по умолчанию для этого преобразования в Statistica, а именно: количество повторов (итераций) 40, диапазон лямбд от -5 до 5, эпсилон 0,00001, смещение альфа не брал (равно нулю). Может увеличить кол-во повторов?
2. Допустим проблему 1 мы решили, либо у нас её и не было изначально, то следующая задача представить адекватно полученные данные, т.е. нам нужно рассчитать новое среднее, ошибку, и построить график. Отсюда возникают вот такие подвопросы:
а) Мы просто берём новое среднее и ошибку, что выдаётся в результатах Бокса-Кокса и делаем обратное преобразование по формуле: x=(y*λ+1)^(1/λ). Так ведь? Я даже проверил (хотя это очевидно), что обратное преобразование каждого конкретного числа бессмысленно, мы получаем исходную выборку. Я это к тому, что строить график по результатам преобразования не комильфо, как бы, т.к. числа получаются не сопоставимые по величине с исходными, и нужно их привести к виду подобному исходному.
б) из пункта "а" напрямую возникает пункт "б". А разве есть такой график, либо такая программа, что позволяет строить, к примеру, Бокса-Вискера (либо что-то подобное), без исходных данных, только по среднему и ошибке? Знаю, что такое плюс-минус можно провернуть в Excel, но это у меня всегда вариант последнего выбора. Стараюсь избегать этой программы, по разным причинам, в т.ч., потому что это не спец программа для статистики, графики рисует не очень красивые и т.д. Я лично работаю в Statistica и GraphPad Prism. Знаете, можно ли провернуть в них такое? Может в какой-то бесплатной стат проге? Я уже читал материалы данного форума по смежным вопросам, поэтому слёзно прошу не отписываться просто ссылкой на другую тему, разве что там есть прямой ответ на любой из вопросов, а я по каким-то причинам этого не заметил.


Коллега, hi.gif!

"где-то 70-80% групп - это параметрика".
Это ошибочное фраза. ВСЕ группы ВСЕГДА - параметрические. Т.е. имеют свои собственные значения ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ.
Если же Вы подразумеваете что речь идёт о нормальности распределения (количественных признаков), то это сомнительно.
Поскольку у количественных признаков нормальное распределение обнаруживается нечасто. И причин этому много.
Об этом нюансе можете прочитать в статье по адресу http://www.biometrica.tomsk.ru/comp_aver.htm

Далее, если используете дисперсионный анализ ( ANOVA), то одного лишь нормального распределения недостаточно. Должно выполняться и второе условие.
Причём оба условия одновременно в группах сравнения выполняются нечасто. Об этом можете прочитать также и в упомянутой статье.

Следующий нюанс групповых сравнений. Если анализируемых признаков не 2-3, а больше, то продуктивно использовать не только ANOVA, но и дискриминантный анализ.
А если есть не только количественные, но и качественные признаки, то используйте метод логистической регрессии (см. http://www.biometrica.tomsk.ru/logit_0.htm)

"там достоверность определяется". Достоверность не определяется. См. статью об этом "http://www.biometrica.tomsk.ru/let1.htm"
По п. 2. Зачем строить графики по исходным данным, если результат получен по преобразованным признакам? Ведь результат относится именно к преобразованным значениям, а не к исходным.

Желаю продуктивного успеха в исследованиях!
  Форум: Медицинская статистика · Просмотр сообщения: #22544 · Ответов: 22 · Просмотров: 7845

leo_biostat
Отправлено: 3.02.2018 - 21:34


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953


Цитата(nastushka @ 23.01.2018 - 11:20) *
Согласно закону о персональных данных, напрямую нельзя передовать сторонним лицам такие данные, как ФИО. Однако из ФИО можно тоже получать такую информацию, как национальность, пол. Есть ли способы закодировать, а лучше сказать исказить персональные данные, так что с одной стороны они содержат начальную информацию, а с другой стороны мы не нарушаем закона, т.к. там не реальное ФИО, а кодировка.
Можно ли составить какой-либо семантический словарь , а потом по нему расшифровывать?
Подскажите, пожалуйста.



Настя, hi.gif!
Ваша проблема искуственна. Поскольку действительно по ФИО не всегда и обязательно можно (и нужно!) устанавливать пол и национальность.
С другой стороны, если Вам для стат. анализа необходимы значения пола и национальности, например, для анализа таблиц сопряжённости,
для логистической регрессии, и т.п., то нужно просто ввести дополнительно вместо ФИО два новых признака: ПОЛ и НАЦИОНАЛЬНОСТЬ.
И сделать это следует обязательно. Поскольку по своему многолетнему опыту стат. анализа как биомедицинских данных, так и данных по психологии, социологии, и т.п.,
вижу, что эта пара признаков очень часто входит в уравнения логистической регрессии как важные предикторы.

Желаю успеха!
  Форум: Медицинская статистика · Просмотр сообщения: #22536 · Ответов: 5 · Просмотров: 2167

5 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена