Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

26 страниц V   1 2 3 > » 

100$
Отправлено: Вчера, 19:57


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(passant @ 15.08.2018 - 18:49) *
Ну, от функций принадлежностей до классификации на основе нечетких правил еще как до Луны.... ну, вы поняли rolleyes.gif


Не знаю, passant, не знаю, но, по-видимому, Луна, ближе, чем вы думаете: вот взять, например, вторую ссылку в вашем перечне (pdf-файл известий ЮФУ). В ней аж целых два соавтора наперебой рассказывают сначала о многокритериальном выборе, а затем - задушевно описывают кластеризацию методом нечетких k-средних, придуманную Данном в далеком 1973 году.
(Это - ф-ция fanny{cluster} в R). Ладно, что сходимость этого метода в общем случае не доказана: Бездек установил только, что она достаточно медленная. Но ведь исходную матрицу принадлежностей к кластерам надо же откуда-то взять: алгоритм стартует из матрицы принадлежностей, состоящей из либо случайных чисел, либо их стоит определить именно на основе функций принадлежности, либо разглядеть на потолке.
  Форум: Медицинская статистика · Просмотр сообщения: #23253 · Ответов: 18 · Просмотров: 1705

100$
Отправлено: Вчера, 18:13


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(Ident @ 15.08.2018 - 14:46) *
... Не подскажите книжку, сайт и т.д., где есть примеры решения таких задач. Заранее благодарен.


Пример решения: если нечто выглядит, как утка, ходит вперевалочку, как утка, и крякает, как утка, то с большой вероятностью это и есть утка. Шутка).

А по поводу функций принадлежности вам сюда
  Форум: Медицинская статистика · Просмотр сообщения: #23251 · Ответов: 18 · Просмотров: 1705

100$
Отправлено: 14.08.2018 - 22:44


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


>Ident,

нет ничего проще: вся нечеткая теория основана на том, что имеется лингвистическая переменная с градациями от "Так точно" до "А хрен его знает, товарищ майор!". Строите для нее функцию принадлежности, в функцию заряжаете эмпирические данные и получаете искомую степень принадлежности в виде попадания в одну из градаций.
Вот только теория вероятностей и теория нечетких множеств - две разные теории.
  Форум: Медицинская статистика · Просмотр сообщения: #23243 · Ответов: 18 · Просмотров: 1705

100$
Отправлено: 13.08.2018 - 22:52


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


Определенно.
  Форум: Медицинская статистика · Просмотр сообщения: #23238 · Ответов: 18 · Просмотров: 1705

100$
Отправлено: 13.08.2018 - 00:33


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(anna78 @ 11.08.2018 - 10:34) *
Добрый день.

Требуется консультация. Задача в среде R. Подробности в личку.

Цена по договорённости.


Пишите
  Форум: Разное · Просмотр сообщения: #23235 · Ответов: 1 · Просмотров: 87

100$
Отправлено: 13.08.2018 - 00:15


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(Ident @ 12.08.2018 - 15:51) *
Доброго дня всем, уважаемые коллеги. Чтобы не создавать новую тему, задам свой нескромный вопрос здесь, ибо не шибко интересный он на мой взгляд). Собственно фабула: при всех прочих равных условиях в каком-то регионе облачность сегодня оборачивалась в 70% случаев дождём завтра; точно также высокое атм.давление сегодня приводило (или совпадало, не суть) к дождю завтра в 80% случаев; вместе с тем понижение температуры сегодня, приводило к дождю завтра только в 40% случаев (но тоже связанный с явлением фактор). То есть имеем допустим 10 таких факторов, которые с разной вероятностью (или в процентном отношении) связаны с дождём. Проверить корреляцию этих событий (предикторов) между собой нет возможности. Я так понимаю, что суммарная оценка этих факторов должна дать более точный прогноз по дождю). Но как это реализовать unknw.gif ? Кроме того есть факторы с большим весом (например, облачность и атм.давление) и возможно реальна такая модель, когда будет достаточно наблюдения всего 5-6 таких весомых признаков, чтобы высказаться о грядущем дожде. То есть менее значимые факторы, как-бы, дополнительные, на тот случай когда регистрация одного-двух более весомых предикторов окажется невозможной.
С уважением, Идент.


Если это вся информация, которой вы располагаете, то задача не имеет решения. Патамушта условная вероятность P(дождь|облачность, давление) не выражается через условные вероятности P(дождь|облачность) и P(дождь|давление). Тут нужно знать еще много чего.
  Форум: Медицинская статистика · Просмотр сообщения: #23234 · Ответов: 18 · Просмотров: 1705

100$
Отправлено: 1.08.2018 - 11:54


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(CatenaR @ 1.08.2018 - 10:55) *
Ой, беда. Подскажите, как сравнить абсолютные значения в группах с разным n? Или каким другим методом сравнить достоверность разницы процентов?


Подскажу, конечно. Отчего ж не подсказать хорошему человеку.
Пусть в выборке объемом n1=10 3 объекта имеют интересующее исследователя свойство.
Пусть в выборке n2=20 таковых уже 12.

Стряпаем таблицу сопряженности из наблюдаемых частот:

3__7
12_8

Тогда таблица ожидаемых частот
5__5
10_10

Считаем: хи-квадрат=(3-5)^2/5+(7-5)^/5+(12-10)^2/10+(8-10)^2/10=.8+.8+.4+.4=2.4. Степеней свобоы: df=1. Достигаемый уровень значимости:p-value=хи2расп(2,4;1)=,121335.
Нулевая гипотеза о равенстве долей не отвергается.

В среде статистических расчетов R все то же самое проделывает функция prop.test{stats}.

> prop.test(c(3,12),c(10,20),correct=F)

2-sample test for equality of proportions without continuity
correction

data: c(3, 12) out of c(10, 20)
X-squared = 2.4, df = 1, p-value = 0.1213
alternative hypothesis: two.sided
95 percent confidence interval:
-0.65604514 0.05604514
sample estimates:
prop 1 prop 2
0.3 0.6

  Форум: Медицинская статистика · Просмотр сообщения: #23204 · Ответов: 15 · Просмотров: 493

100$
Отправлено: 1.08.2018 - 10:47


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(CatenaR @ 1.08.2018 - 09:46) *
Я тупо сравнила проценты по формуле для хи-квадрата (1): [квадрат разницы (значение группы 2 - значение группы 1), делённый на значение группы 1], но у меня получились совсем другие результаты =(

Т.е. предполагается, что такой подход некорректный?..


Жуть. Кошмар.
Хи2=(O-E)^2/E, где O-наблюдаемая частота, E-ожидаемая частота.
В формулу хи-квадрата нельзя подставлять %%. Только абсолютные частоты.
  Форум: Медицинская статистика · Просмотр сообщения: #23202 · Ответов: 15 · Просмотров: 493

100$
Отправлено: 31.07.2018 - 15:00


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата
Формулирую внятно: я и не просила обсуждать кривые расчёты математика, я прошу только пояснить, как могли быть получены представленные значения хи-квадрата.


Терпеливо поясняю: хи-квадратов в природе существует бесчисленное множество. Даже самый популярный - хи-квадрат Пирсона - ваш математик мог считать с поправкой Йейтса, а мог и без нее. Как это понять по конечному значению? Никак. Только сидеть и методом исключения перебирать варианты. Но для этого нужна безупречная цифирь. А не так, что написано "n=141", а на деле - 137.

Далее. Если задача - протестировать возможные отличия 3-й группы от предыдущих двух, то таких попарных сравнений получается всего 2, а у вас - аж 9. Что бы это значило тоже непонятно.

Цитата
141 и впрямь не равны 137, но не могли бы Вы пояснить, нужно ли вообще это значение? Если да, то зачем? Как оно участвует в расчёте хи?

Через маргинальные суммы рассчитываются ожидаемые (expected) значения ячеек таблицы сопряженности.

Цитата
Мне необходимо понять, КАКИМ ОБРАЗОМ (методом, формулой, магией) производился расчёт.

Если приведенные цифры верны (т.е. в последней строке сумма действительно должна быть 137, и 4 нигде не "загуляло"), то надо сидеть и разбираться. Но лучше решить эту задачу заново.

  Форум: Медицинская статистика · Просмотр сообщения: #23198 · Ответов: 15 · Просмотров: 493

100$
Отправлено: 31.07.2018 - 13:33


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


Поскольку маргинальная (краевая) сумма для последней строки таблицы 2+40+95=137 не равна заявленным 141, не вижу смысла обсуждать чьи-то кривые расчеты. Сформулируйте внятно, совместное распределение каких случайных величин породило таблицу сопряженности, и мы попробуем проанализировать уже своими силами. Таблица сопряженности - НЕ дисперсионный комплекс, и там нет пост-хоковых попарных сравнений типа "Группа1 vs. Группа2" etc.
  Форум: Медицинская статистика · Просмотр сообщения: #23196 · Ответов: 15 · Просмотров: 493

100$
Отправлено: 26.06.2018 - 21:52


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


А что, господа, чай, устали глаза?
А вон, налево, святые образа-
Извольте перекреститься,
Да по домам расходиться. (с) П.А. Федотов

И учтите, что наиболее раскаленные места в аду предназначены для тех, кто не различает -ться/-тся.
  Форум: Медицинская статистика · Просмотр сообщения: #23119 · Ответов: 30 · Просмотров: 1645

100$
Отправлено: 26.06.2018 - 21:10


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(Алексей Лк @ 26.06.2018 - 19:53) *
Спасибо, это по всей видимости 5-я глава - анализ качественных признаков, ее я еще не читал, так что будет повод ознакомится).

PS. Беглый осмотр этой главы говорит мне что по всей видимости это именно то что нужно....


Ну, наконец-то лед тронулся, господа присяжные заседатели. А то я уж подумал, что вам на этом форуме доплачивают за упрямство.
  Форум: Медицинская статистика · Просмотр сообщения: #23117 · Ответов: 30 · Просмотров: 1645

100$
Отправлено: 26.06.2018 - 14:56


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата
Я бы не сказал что дисперсию сложно рассчитать, это ведь программа делает, мне только цифры вбить по сути, а высчитать F критерий имея значения средних, стандартные отклонения и число членов в выборке вообще не проблема.

Это из серии "Капитан Очевидность разъясняет".

Цитата
Скажем так просто дисперсионный анализ при соблюдении всех условий помогает достоверно выявить различия между выборками

То же самое можно сказать про любой состоятельный критерий в статистике. И ДА в этом случае - всего лишь один из.

Цитата
...и я немного в нем разбираюсь.

Пока незаметно.

Цитата
Мне бы не хотелось пользоваться статистическими методами в которых я не разбираюсь

В статистике принято пользоваться методами, которые обусловлены вероятностно-статистической моделью порождения данных. Мало ли, в чем вы не разбираетесь. Иначе получается как у того анекдотического студента, выучившего тему про блох, и все вопросы экзаменатора сводившего к блохам.

Цитата
К тому же дисперсионный анализ для меня в этом случае еще и необходим по той причине что бы выявить различия по месяцам в пределах одной выборки, вдруг там то же есть отклонения которых я еще не вижу.

Для этого вам потребуются масса пост-хок сравнений, которые затем надо будет "доводить до ума" процедурами FDR, что само по себе - задача не для новичка.


Цитата
А что это за формула которая приведена выше?

Проверка однородности двух биномиальных выборок.

Я исхожу из следующей вероятностно- статистической модели: ваши данные представляют собой результат прямого подсчета (столько-то образцов отправлено, из них столько-то загублено), т.е. данные измерены в абсолютной шкале. Здесь не надо изобретать новое слово в бухгалтерии и расписывать всю эту красоту по месяцам, по декадам, по дням недели и по времени суток в пределах одного дня: достаточно рассмотреть данные нарастающим итогом, благо они допускают суммирование по времени. Далее предполагаем, что один перевозчик/курьер возит образцы с вероятностью сохранности р1 (и, соответственно, с вероятностью брака q1=1-p1), второй - с вероятностью р2 (q2). Дальнейшее вы видели.
  Форум: Медицинская статистика · Просмотр сообщения: #23103 · Ответов: 30 · Просмотров: 1645

100$
Отправлено: 26.06.2018 - 10:57


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(Алексей Лк @ 26.06.2018 - 10:46) *
Верно, задача для первоклассника - только я эмбриолог а не профессиональный математик-статистик, поэтому я могу и не видеть некоторых подводных камней, поэтому я здесь и написал. Сейчас начну собирать данные, это не быстрая задача, мне нужно убедиться что распределение нормальное, и высчитать дисперсии для двух выборок, и понять насколько сильно эти дисперсии отличаются между собой. Если данные которые указывали бы - при каком различии в дисперсиях дисперсионный анализ не применим? Потому что сейчас все строится только на предположении что дисперсии различаются не сильно и распределение нормальное.


Нет-нет-нет, ни в коем случае. Здесь вообще не нужны никакие нормальности, дисперсии и прочие атрибуты тяжкой работы мысли. Просто рассчитайте величину
z=|p1-p2|/корень{p1*(1-p1)/n1 +p2*(1-p2)/n2} и сравните этот модуль с 97,5%-ной квантилью стандартного нормального распределения (1,96).
  Форум: Медицинская статистика · Просмотр сообщения: #23096 · Ответов: 30 · Просмотров: 1645

100$
Отправлено: 26.06.2018 - 10:40


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


Но это же задача для первоклассника: первый курьер доставил за все время 1000 проб, из низ 100 оказались бракованными. Имеем долю брака р1=100/1000 = .1
Второй - 500, брак 200, р2= .4. Ну, а сравнить две доли - задача для статистика тривиальная.
  Форум: Медицинская статистика · Просмотр сообщения: #23094 · Ответов: 30 · Просмотров: 1645

100$
Отправлено: 19.06.2018 - 13:03


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата
Суть исследования в оценке влияния биомаркеров в ранней диагностике диаб. болезни почек.


Да, это - бродячий сюжет в нефрологии. Складывается ощущение, что все нефрологи поголовно беременны идеей что-то там "ранне диагностировать", таращась до рези в глазах на все эти цитокины, интерлейкины и пр. Вот только убедительных результатов как не было, так и нет. Глядя на их публикации устанешь хохотать.

У вас - все то же самое, только еще смешнее: простая регрессия на константу прекрасно распознает всех ваших больных (скриншот 1).
Безо всяких там маркеров.
А добавление маркеров (скриншот 2) сделало незначимой даже константу.
Позвольте дальше не продолжать.
  Форум: Медицинская статистика · Просмотр сообщения: #23082 · Ответов: 5 · Просмотров: 917

100$
Отправлено: 14.06.2018 - 15:08


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(Novokuznetsk @ 14.06.2018 - 12:58) *
Спасибо большое за ответ и за подсказку на счет функции =ЕЧИСЛО(). Взял на вооружение. Но к сожалению не помогло ни то, ни другое. Пробовал в других версиях Statistica, пишет тоже самое: "Обнаружена ячейка с частотой 0". Полностью убирал нулевые значения, не помогает. Пробовал проведение на двух, трех, пяти столбцах, результат тот же. В поддержку не знаю стоит ли писать, так как у меня не официальная версия продукта.


Так скачайте триал-версию с оф. сайта и попробуйте в ней. Обсуждать косяки пиратских копий мне недосуг.
  Форум: Медицинская статистика · Просмотр сообщения: #23067 · Ответов: 5 · Просмотров: 738

100$
Отправлено: 13.06.2018 - 16:02


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


Понятно.
А у randomForest'a SRC (я даже и не знал о таком, вот уж "век живи ..., а дураком помрешь") есть какие-то очевидные/неочевидные преимущества перед "просто" randomForest?

А ROC-кривая и впрямь хороша. Прямо картина маслом. Хоть сейчас в рамку, да на стену.
  Форум: Медицинская статистика · Просмотр сообщения: #23063 · Ответов: 6 · Просмотров: 799

100$
Отправлено: 13.06.2018 - 14:13


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


1. Наверное, стоит еще раз с помощью функции =ЕЧИСЛО() убедиться в том, что в датасете все в порядке.
2. Попробовать для локализации ошибки загружать сначала два столбца и делать ДА, затем 3 и т.д., а потом попытаться понять, при добавдении какого столбца возникает ошибка, поскольку она не шибко информативна, и можно предполагать все, что угодно.

А лучше всего обратиться к разработчику на www.statsoft.ru. Потому что у меня Statistica однажды тоже под каким-то смешным предлогом наотрез отказалась делать проекцию на латентные структуры на внешне безупречном датасете. До сих пор не знаю, что это было.
  Форум: Медицинская статистика · Просмотр сообщения: #23061 · Ответов: 5 · Просмотров: 738

100$
Отправлено: 13.06.2018 - 14:03


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


А вот интересно, почему при выращивании леса узлы расщепляются по Gini, а при селекции переменных используется Minimal Depth? И почему при таком раскладе метод не смог выдать относительную важность предикторов (vimp=NA)? До такой степени плохой датасет?

А чем обусловлен выбор PCA3 vs. PCA5? В первых двух ГК все совсем плохо?
  Форум: Медицинская статистика · Просмотр сообщения: #23060 · Ответов: 6 · Просмотров: 799

100$
Отправлено: 5.06.2018 - 12:10


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(nikita_zab @ 5.06.2018 - 11:35) *
Спасибо за ответ.

Мой код выдал

A =c(619, 600, 490, 1076, 654, 955, 563, 955, 827, 873, 1253)
B =c(346, 507, 598, 228, 576, 338, 1153, 354, 560, 517, 381)

A <- apply(matrix(sample(A, rep=TRUE, 5000*length(A)), nrow=5000), 1, median)
B <- apply(matrix(sample(B, rep=TRUE, 5000*length(B)), nrow=5000), 1, median)
quantile(A-B, c(.025, 0.975))

2.5% 97.5%
59 601


Вроде не сильно отличается.


Весь приличный софт (и R в том числе) в качестве разности медиан выдает разность по Ходжесу - Леману с доверительными интервалами по Тьюки. Вы выдали буквально понятую разность и прикрутили к ней самое простенькое и незатейливое, что есть в природе, - Эфронов доверительный интервал. Прежде чем что-то кодярить, полезно задать себе вопрос : "А как так вышло, что вся рота идет не в ногу, и только прапорщик - в ногу?"

P.S. А как так вышло, что в разбираемом примере выборки объемом 11 и 13, а у вас - 2х11?
  Форум: Медицинская статистика · Просмотр сообщения: #23044 · Ответов: 11 · Просмотров: 2845

100$
Отправлено: 1.06.2018 - 00:30


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(DoctorStat @ 31.05.2018 - 21:56) *
Извините за отклонение от темы, но на этом форуме часто упоминается термин бутстреп. Я догадываюсь, что он означает, но у меня нет уверенности, что он работает как надо: дает сходимость, устойчивость и другие полезные качества. Можете привести ссылку, где объясняется правомочность применения бутстрепа в статистике ?


http://quantile.ru/03/03-SA.pdf
  Форум: Медицинская статистика · Просмотр сообщения: #23036 · Ответов: 11 · Просмотров: 2845

100$
Отправлено: 13.05.2018 - 13:38


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(Елена Гогуа @ 13.05.2018 - 12:04) *
Уважаемые специалисты, спасибо огромное за активный отклик по моей теме! Интереса к ней я, конечно, не утратила smile.gif Много очень дел навалилось..

Я уточню с врачами, что именно их интересует (а то вдруг я неправильно поняла), отредактирую базу данных и здесь прикреплю.


Так вам в этой истории отведена роль испорченного телефона?

И, чтоб два раза не бежать, уточните у них заодно: как нам надо будет обрабатывать такой дважды парный орган как лапы?
Н-р, поражена одна лапа - ставим в локализацию "Лапы" единичку, поражены все 4 - тоже "1"? Иначе говоря, надо ли будет принимать во внимание степень поражения? Или только факт поражения?
  Форум: Медицинская статистика · Просмотр сообщения: #23000 · Ответов: 32 · Просмотров: 3692

100$
Отправлено: 11.05.2018 - 16:51


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


Елена, а если вы еще не утратили интерес к этой теме, просветите меня, пожалуйста, на предмет того, а могут ли на одной собаке одновременно наблюдаться два или все три типа поражений? А то я ни разу не дерматолог, и патологии страшнее бородавок отродясь не видал.
  Форум: Медицинская статистика · Просмотр сообщения: #22993 · Ответов: 32 · Просмотров: 3692

100$
Отправлено: 10.05.2018 - 17:35


Дух форума
*

Группа: Пользователи
Сообщений: 659
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(Статистик @ 10.05.2018 - 12:00) *
Хм, читаю, читаю ответи и не понимаю, почему никто не обращает внимания, что у одной собаки может быть 2-3 локализации?
А раз так, то предлагаемые таблицы сопряженности попросту строить нельзя.


Вестимо. В таком случае единицей наблюдения будет не собака, а поражение, и если 88 собак принесли с собой 400 лишаев, то таблицу будем строить для этих 400 случаев.
  Форум: Медицинская статистика · Просмотр сообщения: #22987 · Ответов: 32 · Просмотров: 3692

26 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена