Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

28 страниц V   1 2 3 > » 

100$
Отправлено: 21.05.2019 - 13:32


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(nokh @ 21.05.2019 - 12:57) *
Уже настроился с бутстрепом для Жаккара разбираться (т.к. с первого раза по аналогии с прописями не вышло), поэтому просто не догадался про ДИ для частот. Про Жанга - Ли ещё не слышал, использую в последнее время байесовский априорный интервал Джеффриса. Есть в онлайновом калькуляторе EpiTools (http://epitools.ausvet.com.au/content.php?page=CIProportion , здесь же ссылка на статью с формулами), также добавил его в экселевский калькулятор плава (Доверительный интервал для долей.xls в папке Программы к Практикуму: https://yadi.sk/d/g50i73pt3J6pAa).


Э-х-х, про Джеффриса-то я и забыл.

Кстати, глянул на данные из Ассоциации_2012.xls и при виде кучи столбцов из нулей и единиц тотчас вспомнил про дискриминантный анализ в пространстве дихотомических переменных из статьи Гибба и Штриммера 2015 г. См. пакет {binDA} для R и сопроводиловку к нему. Там приятным для глаз бонусом идет способность метода ранжировать предикторы по важности с выдачей соответствующей гистограммки.
  Форум: Медицинская статистика · Просмотр сообщения: #23977 · Ответов: 13 · Просмотров: 386

100$
Отправлено: 21.05.2019 - 11:33


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(nokh @ 20.05.2019 - 22:06) *
С 95% ДИ для Жаккара и бутстреп-оценками р по ДИ повожусь когда будет больше времени.


А зачем? Индекс Жаккара идейно представляет собой просто долю объектов с одновременной совстречаемостью признаков в выборке, из которой предварительно исключены объекты с их (признаков) одновременным отсутствием. Почему бы просто не рассчитать ДИ для доли: Клоппера - Пирсона, Уилсона, Агрести - Коула, арксинуса, ... вот недавно открыл для себя ДИ по Жангу - Ли?

Просто интересно.
  Форум: Медицинская статистика · Просмотр сообщения: #23974 · Ответов: 13 · Просмотров: 386

100$
Отправлено: 20.05.2019 - 22:16


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(nokh @ 20.05.2019 - 22:06) *
Огромное спасибо! Теперь мои студентки смогут сами посчитать значимость в Excel yahoo.gif
Вставил вашу формулу в R:

Jaccard <- function (x, y)
{
C11 <- sum(x == 1 & y == 1)
A10 <- sum(x == 1 & y == 0)
B01 <- sum(x == 0 & y == 1)
N<-(C11+A10+B01)
mysum<-0
for(x in 0:(C11-1))
{
mysum<-mysum+choose(N,x)*(2^(N-x))
}
return(list(Jaccard.index=(C11/N),
"p.value"=(1-mysum/(3^N))))
}

#Пример
> a<-c(1,1,1,1,1,0,1)
> b<-c(1,1,1,1,1,1,0)
> Jaccard(a,b)
$`Jaccard.index`
[1] 0.7142857

$p.value
[1] 0.04526749

Задача решена, тему можно считать закрытой.
С 95% ДИ для Жаккара и бутстреп-оценками р по ДИ повожусь когда будет больше времени.


Здорово, nokh. Не знал про choose(). Думал, что комбинаторику придется делать по старинке через факториалы. Ну, все к лучшему.
  Форум: Медицинская статистика · Просмотр сообщения: #23972 · Ответов: 13 · Просмотров: 386

100$
Отправлено: 20.05.2019 - 16:51


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(nokh @ 19.05.2019 - 22:09) *
Будем рады такому подарку!


Тогда ловите. С нашего стола вашему столу ).

Файл с поддержкой макросов в формате .xlsm. Открывать Экселем не старше 2007-го. Если настройки безопасности заблокируют макросы, то надо через центр управления безопасностью разрешить их выполнение.
Пользоваться очень просто: либо в затененном месте с пометкой "Исходная таблица сопряженности" заносите свои данные, либо для произвольной предварительно сделанной таблицы сопряженности выделяете на любом листе в рабочей книге строку о двух столбцах, вносите туда функцию "Jaccard" следующим образом: "=Jaccard()" (без кавычек) и указываете в качестве ее аргумента таблицу сопряженности 2х2. (Синтаксис можно увидеть, встав на ячейку Е10). Затем нажимаете комбинацию клавиш "Ctrl+Shift+Enter". Функция вернет массив, первым значением в котором будет индекс Жаккара, а вторым - p-value. И вся любовь.
Прикрепленные файлы
Прикрепленный файл  Жаккар.rar ( 13,59 килобайт ) Кол-во скачиваний: 2
Прикрепленный файл  Жаккар.rar ( 13,59 килобайт ) Кол-во скачиваний: 3
 
  Форум: Медицинская статистика · Просмотр сообщения: #23969 · Ответов: 13 · Просмотров: 386

100$
Отправлено: 19.05.2019 - 14:12


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата
Буду разбираться и пытаться программировать, хотя скорее всего здесь у меня из R получится BASIC.


Вряд ли R в этой истории будет предпочтительней VBA, поскольку в Экселе ф-ция =ЧИСЛКОМБ() работает, как минимум, не хуже. Если что, могу написать вам на VBA формулу для расчета и Жаккара и p-value к нему. Так сказать, мой подарок челябинским братьям по разуму. Если что, факториалы в R - это просто factorial(число). Факториалы вам понадобятся для комбинаторных расчетов.


Цитата
А что вы думаете по поводу такого подхода: удалить из набора данных строки двойных нулей (ячейка D) и считать Монте-Карло или exact только оставшиеся ячейки?


Дума здесь на удивление проста: если есть возможность за обозримое время вычислить точное значение методом перебора всех перестановок - то предпочту ее (возможность). Тем более, что формулы (16) и (17) - ровно о том же.
И все это только потому, что в идеале для монтекарловских p-value необходимо строить еще и доверительный интервал. Это в принципе несложно, но программисту возни немного больше.

P.S. А пакет jaccard у меня не загрузился. Начал требовать наличия на компе компиляторов C/C++.
P.P.S. А как работает этот пакет - вообще не понял, ибо не нашел в описании не только рабочих формул или вменяемых описаний алгоритмов, но даже ссылок на соответствующие источники.
  Форум: Медицинская статистика · Просмотр сообщения: #23966 · Ответов: 13 · Просмотров: 386

100$
Отправлено: 17.05.2019 - 20:53


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(nokh @ 17.05.2019 - 00:17) *
Провели анализ микробных ассоциаций в ожоговых ранах, выборка хорошая - более 400 проб. При оценке значимости ассоциаций с помощью индекса Жаккара в R-пакете jaccard выявилась такая штука: относительно большие индексы могли оказаться незначимыми (J=0.32; Р=0,504), а почти нулевые - значимыми (J=0.06; P=0.049). Если интересно - могу выложить данные, хотя я понял почему так происходит и сделал простой маленький пример. Стал искать другие пути, но не получается справиться самостоятельно. Буду очень признателен за помощь. Описание проблемы и вопросы в прикреплённом файле Help. Второй файл - статья, на которую есть надежда. Может ещё какие варианты подскажите...



По поводу формул (16) и (17) из статьи - да все правильно: VR3,N=3^N по ф-ле (14). Соответственно, VR2,N-x=2^(N-x). Оба этих коэффициента получены в предположении, что D=0, откуда делаем единственно возможный вывод, что применительно к нашему случаю N=A+B+C+0=A+B+C. Можете смело программировать. К слову, для рассматриваемой в качестве примера таблицы с(5,1,1,0) для J=,71428571 вычисления по формуле (17) дают p-value=.045267. При всем при том, что тест отношения правдоподобия для этой таблицы статистически не значим.
  Форум: Медицинская статистика · Просмотр сообщения: #23962 · Ответов: 13 · Просмотров: 386

100$
Отправлено: 12.05.2019 - 14:54


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(nokh @ 11.05.2019 - 22:05) *
Насколько корректно применять анализ главных компонент к временным рядам? Полазил по зарубежным форумам и увидел разные мнения. То, что так считают и есть много публикаций - факт, однако PCA основан на корреляциях, для которых требование независимости наблюдений в выборке нарушена. Хочу применить к медицинским данным: динамика изменения 5-7 показателей (температура, ЧСС, АД и др.) у отельного пациента в течение 30 дней после операции.


Предварительный диагноз - корректно. Не знаю, что такое Time-Wise PCA в Statistica, но навскидку нагуглил вот такую симпатичную статью:здесь
  Форум: Медицинская статистика · Просмотр сообщения: #23947 · Ответов: 6 · Просмотров: 332

100$
Отправлено: 27.04.2019 - 22:27


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694


Конечно, можно. А (уважаемому) председателю тактично сообщить, что за корректность расчетов несет ответственность не статпакет, а - horribile dictu! - исследователь. Как он нес ее в докомпьютерные времена. Вооружившись калькулятором.
  Форум: Медицинская статистика · Просмотр сообщения: #23911 · Ответов: 1 · Просмотров: 433

100$
Отправлено: 18.04.2019 - 20:47


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(alina.K @ 18.04.2019 - 12:23) *
Всё, вы очень помогли. А почему МАНОВА требует чтобы M-BOX не был стат значим, что говорит о том, что многомерные методы уместно использовать. а линейный ДА не требует.


Линейная модель требует гомогенности ковариашек, квадратичная (то бишь нелинейная) - нет.
  Форум: Медицинская статистика · Просмотр сообщения: #23905 · Ответов: 7 · Просмотров: 591

100$
Отправлено: 17.04.2019 - 20:50


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(alina.K @ 17.04.2019 - 14:33) *
100$, а можете подсказать как интерпретировать эту строчку априорных вероятностей.
Prior probabilities of groups:
setosa versicolor virginica
0.3619048 0.3333333 0.3047619
что значит setosa 0,36


Да, это доля каждого конкретного сорта в обучающей выборке. Иначе говоря, в вашей обучающей выборке из 105 цветков было 38 сетоз. Откуда a priori p(Setosa)=38/105=.3619048...


Цитата
А также как мне интерпретировать постериорные вероятности?
p=predict(z,test)
posterior
setosa versicolor virginica
22 1.000000e+00 5.966703e-20 5.555393e-41
23 1.000000e+00 1.638449e-24 5.197733e-48
25 1.000000e+00 4.449308e-16 1.260953e-36


Да так и интерпретировать, что построенное по обучающей выборке классифицирующее правило объекты тестовой выборки с номерами 22, 23 и 25 считает принадлежащими классу Setosa с единичной вероятностью.
  Форум: Медицинская статистика · Просмотр сообщения: #23903 · Ответов: 7 · Просмотров: 591

100$
Отправлено: 13.04.2019 - 14:44


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(alina.K @ 13.04.2019 - 13:08) *
100$, благодарствую)
но что - то в
>z не вижу, где тест М-Бокса?
Как мне его высчитать? Если он стат.значим, все не очень хорошо. Если я правильно поняла.


М-тест Бокса:

>library(biotools)
>boxM(data, grouping)

По поводу равенства/неравенства ковариашек могу сообщить, что, н-р, квадратичный ДА его и не предполагает.
  Форум: Медицинская статистика · Просмотр сообщения: #23895 · Ответов: 7 · Просмотров: 591

100$
Отправлено: 12.04.2019 - 23:27


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694


1. Лямбда Уилкса:
> library(rrcov)
> Wilks.test(Species~.,train)

Для всего остального достаточно просто подать команду:
> z

А познавательная команда str(z) покажет структуру этого объекта: сразу становится видно, до каких полей необходимо "достучаться" с помощью "$".
  Форум: Медицинская статистика · Просмотр сообщения: #23893 · Ответов: 7 · Просмотров: 591

100$
Отправлено: 31.03.2019 - 15:03


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(nastushka @ 31.03.2019 - 12:39) *
Да, я хелп читала, но там просто описание метода, а не принцип работы


Тогда вот это

Комбинация этих ссылок - ответ не только на прозвучавшие вопросы, но и на могущие возникнуть.
  Форум: Медицинская статистика · Просмотр сообщения: #23868 · Ответов: 3 · Просмотров: 580

100$
Отправлено: 30.03.2019 - 20:44


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(nastushka @ 30.03.2019 - 19:58) *
Подскажите в Statistica 10 реализован метод feature Selection. Я прикрепила скрин. в R есть библиотека Boruta
Я хочу понять по какому принципу работает этот метод. Как он выявляет какие из независимых переменных влияют на зависимую?
И почему бывают такие ситуации, когда
1. он считает что все переменные сильно связаны с зависимой
2. А также если взять в модель те переменные, которые метод выбрал, модель(не важно, нейронные сети, логистическая....................) может быть низкого качества в плане классификации. Ведь FS же показал переменные, что влияют.



Ознакомьтесь
  Форум: Медицинская статистика · Просмотр сообщения: #23865 · Ответов: 3 · Просмотров: 580

100$
Отправлено: 27.03.2019 - 21:03


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(aknothing @ 27.03.2019 - 08:36) *
Вы не совсем правильно поняли вопрос мне задававшийся. Выборка у исследователя одна и просит он сравнить доли в этой одной выборке. Ни о проверке равномерности распространения этих патологий в популяции, ни о сравнении двух групп, ни о влиянии каких-либо факторов речи не шло. Как не было и вопроса по оценке полученных результатов (гипотеза о равенстве доли единиц, обладающих определенным признаком, норме). Вот человек выше правильно подсказал, что "допустим, с медицинской точки зрения действительно важно доказать, что патологии представлены неравномерно." Я предполагаю, что именно это и требуется. Но если Вы видите иное решение, то был бы благодарен, если его как-то подскажете.


Полагаю, что понял правильно, бо меня о том же самом просили не раз. Если бы выборка состояла из объектов типа М и Ж (мягкие и жесткие), то исследователь наверняка захотел бы узнать, а сбалансирована ли его выборка по полу? Вы же стоите перед урной, в которой находятся 100 шаров трех разных цветов и 100 раз проделываете эксперимент, заключающийся в добывании из урны шара определенного цвета, причем вероятность pi извлечения шара конкретного цвета вам неизвестна. Вас просят протестировать гипотезу о том, что вероятность наблюдать вектор из имеющегося набора эмпирических частот не отличается от 1/3 против альтернативы о том, что таки отличается.
Разумеется, тестировать ее попарными сравнениями типа 1 vs. 2, 1 vs. 3 и 2 vs. 3 не резон.
  Форум: Медицинская статистика · Просмотр сообщения: #23855 · Ответов: 9 · Просмотров: 973

100$
Отправлено: 26.03.2019 - 20:36


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(aknothing @ 26.03.2019 - 15:44) *
Тут похоже замес в плане неадекватности и недостаточного понимания аспирантом требований. Человек конкретно хочет сравнить процентное соотношение одной патологии с процентным соотношением другой в этой общей выборке и получить достоверность (грубо говоря одну цифру с другой), затем 1 с 3-й патологией, 2 с 3 и по ним так же получить значение достоверности. А потом еще 1-ю с 2+3 и тд.. на этом как-то терпение лопнуло..smile.gif


Как математик математику: проверка гипотезы о средней и проверка гипотезы о доле - квинтэссенция выборочных исследований. Ваше терпение лопнуло слишком рано.
  Форум: Медицинская статистика · Просмотр сообщения: #23846 · Ответов: 9 · Просмотров: 973

100$
Отправлено: 5.03.2019 - 20:37


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(Valeri @ 5.03.2019 - 11:19) *
Какой лучше выбрать статистический метод для разделения выборки на несколько групп.
Группы необходимо сформировать по направленности изменения параметра. Например, у обследуемых людей регистрируем артериальное давление, ЧСС в состоянии покоя, затем предъявляем им нагрузку, и после нагрузки снова регистрируем данные показатели. Необходимо выделить группы людей по схожим изменениям АД и ЧСС при нагрузке, какой корректнее использовать статистический метод.


Если размерность задачи равна двум (т.е. интересуют только два регистрируемых параметра), то задача может оказаться до смешного простой: по схеме "до-после" рассчитываем разность для каждого изучаемого параметра, для полученного двумерного распределения разностей на диаграмме рассеяния (scatterplot) пытаемся обнаружить линейные и нелинейные скопления/сгущения, и, если таковых не обнаруживаем, то, значит, задача кластеризации не имеет решения, возможна только группировка. Ну, а уж в группировке может помочь то, как данные рассыпались по соответствующим квадрантам: I (где оба знака изменения положительны), II,III и IV. В дальнейшем для этого двумерного распределения можно посчитать описательные статистики: коэффициент корреляции, взаимную информацию, вероятность попадания в первый квадрант, двумерную плотность, двумерную функцию распределения.
  Форум: Медицинская статистика · Просмотр сообщения: #23781 · Ответов: 7 · Просмотров: 1457

100$
Отправлено: 21.02.2019 - 22:50


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(metalmary @ 21.02.2019 - 19:29) *
Народ, help.gif плиз! Есть данные в абсолютных числах, нужно среднее арифметическое перевести в процент от начального значения (контроля, принятого за 100 процентов). Как пересчитать стандартную ошибку среднего относительно процентов? Например. среднее значение составило 4.57+-1.25, это составило 125,1 %+-... процентов от контроля. Видела такое в некоторых зарубежных статьях. Как это пересчитать.?


Ох, гуманитарии, вы гуманитарии... Учить вас - только портить. А ведь в школьном курсе математики пропорции идут сразу после таблицы умножения.

Есть в статистике относительная величина под названием "показатель точности опыта", численно равная отношению стандартной ошибки среднего к этому самому среднему. Смекаете, к чему это я?
А к тому, что при любом пересчете среднего показатель точности опыта останется постоянным. В данном случае =1,25/4,57=,273523. Потом умножаем его на 125,1 и получаем окончательный результат: 125,1 +- 34,22. А уж если умножить 34,22 да на 1,96 - тут до полуширины непараметрического 95%-ного доверительного интервала для среднего - рукой подать.
  Форум: Медицинская статистика · Просмотр сообщения: #23754 · Ответов: 4 · Просмотров: 884

100$
Отправлено: 31.12.2018 - 17:09


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(зоо @ 31.12.2018 - 16:11) *
Хороший вопрос по поводу того что считать кратко-долгосрочностью
Ну смотрите к примеру есть ряд за 3 года (36 месяцев) по продажам. предсказание на три месяца это краткосрочный прогноз? а на 20 месяцев?
или например есть данные по валютам, поминутно агрегированные. В дне 1440 минут. будет ли прогноз от начала дня на на 10 часов т.е. 600 минут вперед долгосрочным?
Как определить что краткосрочным является, а что долгосрочным?


Все ваши страдания по пустякам проистекают от незнания давным-давно отлитой в граните эконометрической мудрости: к прогнозированию допускаются модели, у которых на заданном горизонте прогноза MAPE <10%.
  Форум: Медицинская статистика · Просмотр сообщения: #23622 · Ответов: 21 · Просмотров: 3545

100$
Отправлено: 29.12.2018 - 02:35


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(зоо @ 29.12.2018 - 01:37) *
100$, подскажите, пожалуйста, для моделей экспоненциального сглаживания и АРИМЫ, есть ли предпочтения по кратко и долгосрочному прогнозу? Например, какие модели лучше для долгосрочного прогнозирования, а какие для краткосрочного или разницы нет


Модель экспоненциального сглаживания (ЭС) - это способ механического (не статистического) выравнивания временного ряда, в то время как АРИМА - полноценная статистическая модель. Это означает, что у экспоненциального сглаживания нет такого понятия как дисперсия прогноза, а у АРИМ'ы - есть. Для ответа на собственные вопросы вам надо смоделировать временной ряд, для части этого ряда (н-р, 80% его длины) подогнать АРИМУ и ЭС, на оставшихся 20% сделать прогноз и рассчитать его дисперсию. Ничего более интересного предложить не могу. Сам ЭС всерьез никогда не воспринимал.
  Форум: Медицинская статистика · Просмотр сообщения: #23618 · Ответов: 21 · Просмотров: 3545

100$
Отправлено: 28.12.2018 - 23:10


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(зоо @ 28.12.2018 - 17:35) *
Подскажите, а всегда ли надо избавлять ряд от тренда?


Ну, "всегда" - вряд ли, но поскольку дальше всего удалось продвинуться в изучении именно стационарных рядов, то предварительно остационарить ряд обычно невозбранно.
  Форум: Медицинская статистика · Просмотр сообщения: #23616 · Ответов: 21 · Просмотров: 3545

100$
Отправлено: 26.12.2018 - 15:10


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(зоо @ 26.12.2018 - 11:16) *
А реализация критерия Фостера-Стюарда есть в R?


/справочно/

Традиционно при анализе временных рядов под словом "тренд" разумеют тренд среднего, тренд дисперсии или тренд а/корреляции. Гипотеза о неизменности во времени этих вероятностных характеристик известна как гипотеза стационарности временного ряда. Поэтому мейнстримом в этом вопросе является уже упомянутая бездонная тема под общим названием "Unit Root Testing". Вот ее-то и надо изучать. Патамушта ряд работ, опубликованных Дики и Фуллером в 1976-1979 гг. обнулил все антикварные тесты вроде теста Манна - Кендалла, Аббе - Линника, Фостера - Стюарта, автокорреляции (н-р, в форме Дюфора - Роя), которые с тех пор представляют разве что исторический интерес.

В этом смысле на два порядка разумнее воспользоваться тестом Филиппса - Перрона (PP.test{stats}), но уж никак не Фостером - Стюартом.
При этом отдавая себе отчет в том, что все эти тесты даже на смоделированных данных обладают околонулевой мощностью.
  Форум: Медицинская статистика · Просмотр сообщения: #23609 · Ответов: 21 · Просмотров: 3545

100$
Отправлено: 4.12.2018 - 18:03


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата
Но не понимаю ряд показателей. Например, что значит lhs 89==>rhs 78. Как это понять?


lhs - это левая часть правила (Left-Hand-Side), rhs - соответственно, правая. Выделенные правила записываются в формате lhs=>rhs, знак "=>" переводится как "влечет за собой", т.е. в записи {89} => {78} множество {78} ассоциируется с множеством {89}. Для выделенных правил вычисляются статистики: support (поддержка), confidence (достоверность) и lift (подъемная сила)

P.S. Вы даже знак => воспроизвели с ошибкой. Нехорошо.

Цитата
Второе, когда я визуализирую график. Что значит эти красные кружки. Зеленые, это мои категории(номинативные не метрические)


Вообще-то, при визуализации выделенных правил в виде графа, кружки обозначают именно что правила. Их размер чаще всего пропорционален уровню поддержки правила. Почему они двух цветов (красные и зеленые) - не знаю. Вам виднее.
  Форум: Медицинская статистика · Просмотр сообщения: #23561 · Ответов: 2 · Просмотров: 1165

100$
Отправлено: 30.11.2018 - 21:24


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694


Сделал логлинейный анализ 3-входовой таблицы сопряженности (из предыдущего поста) в R.

Краткий отчет:

1. Сделал в Экселе массив, пригодный для работы с R. Назвал его незатейливо: Dogs. В этом массиве 4 столбца: три из них соответствуют факторам "Тип поражения" (Б-бактериальный, Г - грибковый, К-комбинированный), "Порода"(1-9) и "Область" (I-VIII) соответственно, четвертый ("Отклик") - содержит наблюдаемые частоты.
Нулевые ячейки этого массива заменил на ,5.

> head(Dogs,8)

Тип Порода Область Отклик
Б 1 I 13
Б 1 II 4
Б 1 III 4
Б 1 IV 5
Б 1 V 13
Б 1 VI 4
Б 1 VII 6
Б 1 VIII 7

2. Определил "Тип" "Породу" и "Область" как факторы:

> str(Dogs)

'data.frame': 216 obs. of 4 variables:
$ Тип : Factor w/ 3 levels "Б","Г","К": 1 1 1 1 1 1 1 1 1 1 ...
$ Порода : Factor w/ 9 levels "1","2","3","4",..: 1 1 1 1 1 1 1 1 2 2 ...
$ Область: Factor w/ 8 levels "I","II","III",..: 1 2 3 4 5 6 7 8 1 2 ...
$ Отклик : num 13 4 4 5 13 4 6 7 6 1 ...

3. Для логлинейной параметризации модели воспользовался функцией loglm() из пакета {MASS}

>library(MASS)

4. Нулевая гипотеза при логлинейном анализе заключается в том, что модель не противоречит наблюдаемым частотам, альтернативная - в том, что противоречит.
Соответственно, если после исключения к-л фактора из модели, она по-прежнему не противоречит исходным данным, то фактор считаем статистически незначимым.
Тестирование гипотезы осуществляется критерием отношения правдоподобия (Likelihood ratio test)

5. Логлинейное моделирование таблицы сопряженности заключается в построении т.н. иерархической модели, при которой включение трехфакторного взаимодействия в качестве предиктора автоматически влечет за собой включение двухфакторных взаимодействий и исходных факторов. Такая модель называется насыщенной (saturated) и не имеет познавательной ценности, поскольку точно подгоняет наблюдаемые частоты. Построим ее для примера:

> model.saturated<-loglm(Отклик~Тип*Порода*Область, Dogs)

> model.saturated

Call:
loglm(formula = Отклик ~ Тип * Порода * Область, data = Dogs)

Statistics:
X^2 df P(> X^2)
Likelihood Ratio 0 0 1
Pearson 0 0 1

Как видно, чудес не произошло, и модель идеально соответствует наблюдаемым частотам. Поэтому идея логлинейного моделирования заключается в том, чтобы более экономно (меньшим количеством параметров) параметризовать модель, поглядывая при этом на результаты тестирования нулевой гипотезы.

6. Переоценим модель, исключив из нее трехфакторное взаимодействие:

> m1<-loglm(Отклик~Тип:Порода+Тип:Область+Порода:Область,Dogs)
> m1


Call:
loglm(formula = Отклик ~ Тип:Порода + Тип:Область + Порода:Область,
data = Dogs)

Statistics:
X^2 df P(> X^2)
Likelihood Ratio 48.81494 112 1
Pearson 48.24563 112 1

Модель по-прежнему не противоречит наблюдаемым частотам.

7. Проверим, допускает ли модель дальнейшее упрощение: удалим из нее все двухфакторные взаимодействия.

> m2<-loglm(Отклик~Тип+Порода+Область,Dogs)
> m2


Call:
loglm(formula = Отклик ~ Тип + Порода + Область, data = Dogs)

Statistics:
X^2 df P(> X^2)
Likelihood Ratio 131.4224 198 0.9999225
Pearson 144.9575 198 0.9982221

Модель по-прежнему адекватна данным. Так что двухфакторные взаимодействия статистически незначимы. А среди них было и драгоценное "Порода:Область".
В общем, по этой базе данных делаем вывод, что природой не "предусмотрена" зависимость локализации кожных поражений от породы, равно как и предрасположенность к-л. пород / областей к определенному типу поражения.

P.S. К аналогичному выводу можно придти, если насыщенную модель упрощать не вручную, а автоматически с помощью функции step(), которая с опцией "backward" по информационному критерию Акаике (AIC) ищет наиболее удачную параметризацию модели. В нашем случае такая модель тоже не противоречила наблюдаемым частотам.
  Форум: Медицинская статистика · Просмотр сообщения: #23554 · Ответов: 10 · Просмотров: 2534

100$
Отправлено: 29.11.2018 - 21:59


Дух форума
*

Группа: Пользователи
Сообщений: 712
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата
Если бы я был первый день на формуле, ваша манера вести дискуссию, наверно, произвела бы на меня впечатление. Но увы, тем кто тут давненько - она хорошо известна. Поэтому ваши личностные выпады, от которых вы ну никак не можете воздержаться, уже ни у кого не вызывают ни удивления, ни уважения ни нервного трепета. А уж благоговения перед великим и всезнающим - тем более. Но это так, к слову.


Очередное кисо обиделось. Ни вашего впечатления, ни вашего удивления, ни вашего нервенного трепета, и, паче того, вашего благоговения - ничего из вышеперечисленного мне не требуется - я не старьевщик.


Просто не хочу, чтобы в анналах форума бережно хранились фразы типа "правда вопрос - а где их взять - математики оставляют за скобками". Никто никого в статистике не просит где-то взять и предъявить (вынь да положь!) истинные функции распределения. Достаточно того факта, что по теореме Гливенко - Кантелли эмпирическая функция распределения является состоятельной и несмещенной оценкой истинной функции распределения. И критерий Смирнова поданные на его вход выборки "перемалывает" именно в две ЭФР.

Цитата
В-третьих, вопрос, который я действительно упоминал, заключался в том, на сколько эмпирическая функция распределения (которая используется в критерии) соответствует функции распределения данной генеральной совокупности (объективно существующей) - в данном тесте никак не изучается и не учитывается (ну, кроме зависимости от N, естественно).


Именно, что учитывается. Уже хотя бы потому что теорема Гливенко - Кантелли 1933 г.р., и как только она была доказана, тотчас же Колмогоров предложил свой критерий, а Смирнов - свой.

А что такое "зависимость от N"?
  Форум: Медицинская статистика · Просмотр сообщения: #23549 · Ответов: 24 · Просмотров: 4094

28 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена