Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

5 страниц V   1 2 3 > » 

passant
Отправлено: 15.08.2018 - 18:49


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(100$ @ 15.08.2018 - 18:13) *
А по поводу функций принадлежности вам сюда

Ну, от функций принадлежностей до классификации на основе нечетких правил еще как до Луны.... ну, вы поняли rolleyes.gif
Если уж куда направлять свой взор по теме (нечеткая классификация и кластеризация), то скорее вот сюда, сюда, или сюда.. Только вот прежде, чем углубляться в дебри, ТС стоило бы для начала ознакомиться с азами раздела науки, которую он хотел бы задействовать в своих исследованиях. Мне так кажется (С) angel.gif
  Форум: Медицинская статистика · Просмотр сообщения: #23252 · Ответов: 32 · Просмотров: 3108

passant
Отправлено: 15.08.2018 - 17:32


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(Ident @ 15.08.2018 - 14:46) *
Спасибо большое, намного теплее). Не подскажите книжку, сайт и т.д., где есть примеры решения таких задач. Заранее благодарен.

Даже не знаю, что вам насоветовать... Книг, интернет ссылок, видеокурсов по тематике так много, а копировать сюда что-то из Гугла - тоскливо. И непонятно, что вас конкретно интересует - ML, теория нечетких множеств, реализация на R, на Python? Для медиков? Для экономистов?
Начал писать список, дошел до 25 источников из тех, что у меня на диске - но стер. Оставлю лишь самые базовые.
Для общего развития
- Флах Машинное обучение - наука и искусство построения алгоритмов
Фундаментальные основы.
- Ким Факторный, дискриминантный и факторный анализ
- Мандель Кластерный анализ
- Айвазян Прикладная статистика. Классификация и снижение размерности.
Современные подходы
- Барсегян Анализ данных и процессов
- Орлов Математические методы теории классификации
Для поклонников R
- Шитиков Мастицкий Классификация, регрессия и другие алгоритмы Data Mining с использованием R
Кое-что по нечетким множествам
- Павлов Принятие решений в условиях нечеткой информации
- Гончаров,Кластеризация на основе нечетких отношений. Алгоритм Fuzzy Relation Clastering
- Конышева Основы теории нечетких множеств. Для Бакалавров и специалистов
Есть даже для медиков - в соответственно адаптированном варианте
- Реброва Статистический анализ медицинских данных
- Лапач Статистические методы в медико-биологических исследованиях с использованием EXCEL
- Кочетов Методы статистической обработки медицинских данных
и т.д. до бесконечности. Все легко находится в сети :-)
Будут вопросы - задавайте
  Форум: Медицинская статистика · Просмотр сообщения: #23250 · Ответов: 32 · Просмотров: 3108

passant
Отправлено: 14.08.2018 - 21:56


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(Ident @ 14.08.2018 - 21:23) *
. Есть ли способ оценить меру близости между этими данными? То есть можно ли построить мат.модель, которая на основании подобных данных сможет выдавать процент (вероятность) соответствия наблюдаемых показателей уже известным. Результат модели необязательно должен быть в конкретных цифрах. Приемлемы могут быть ответы и такого рода, например ? 1)точно мел, 2)скорее всего, мел, 3)не исключено, что мел, 4) скорее всего не мел, 5)точно не мел. То есть в виде степени соответствия или исключения. Вот как-бы такая задача. Заранее благодарен за мнения.

Очень интересно узнать мнение уважаемого Nokha).

Я хоть и не уважаемый Nokha, но робко попытаюсь высказать свое мнение, пока его нет :-)

Это называется "задача классификации" и сопряженная к ней "задача кластеризации". Вполне изученные разделы Machine Learning. Там определяется и степень близости (меры сходства), и способы работы в многомерном признаковом пространстве. Исследуются различные алгоритмы (замечу - алгоритмы классификации и кластеризации бывают не только метрическими, но и логическими, основанными на деревьях решений, основанными на плотностях, на байесовской моделе и пр. зоопарк). Ну и напоследок - имеется целое направление, которое строит нечеткие классификаторы или нечеткие кластеры (т.е. с использованием упомянутой Вами теории нечетких множеств). А также - классификаторы с ранговыми шкалами, что и соответствует задаче, которую собственно вы и описали в своем сообщении.
  Форум: Медицинская статистика · Просмотр сообщения: #23242 · Ответов: 32 · Просмотров: 3108

passant
Отправлено: 31.07.2018 - 11:21


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(CatenaR @ 31.07.2018 - 10:09) *
Насколько я смогла с нуля изучить хи-квадрат, им проверяют значимость расхождения наблюдаемых и ожидаемых частот (по крайней мере, это нужно было сделать с этими данными).
У меня есть таблица данных и есть значения хи и р, но используя изученную в сети формулу, я получаю вообще другие значения unknw.gif
Задачей было доказать достоверность разницы между группами. n=приближенные+значимые; точные являются частью приближенных.

Кто-нибудь может объяснить, в чём хитрость? Очевидно, я что-то не учитываю, ибо не понимаю =(

Вы не только сами запутались, вы и нас хотите запутать. smile.gif
Во-первых,разъясните сию загадочную фразу
"точные являются частью приближенных" mega_shok.gif
Как такое может быть?? Данные ЛИБО точные, ЛИБО приближенные.
Но предположим, что первая строка нам не нужна (эти же данные вошли во вторую). Тогда у вас в оставшейся части таблице сумма значений по строкам должна быть равной сумме значений по столбцам. По столбцам - получается (приближенные + значимые = n из заголовка). А вот по строкам - "приближенные" сходятся, а "значимые" -нет. Что-то тут не так. Уточните.
Ну и что значит фраза "p<0.0001 по сравнению с группой 1" - для меня, по крайней мере, загадка. Уточняйте.
  Форум: Медицинская статистика · Просмотр сообщения: #23193 · Ответов: 15 · Просмотров: 981

passant
Отправлено: 28.06.2018 - 16:11


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(Dr Valenkov @ 28.06.2018 - 13:04) *
Пожалуйста подскажите! Необходимо провести анализ выживаемости пациентов в зависимости от длительности послеоперационной реабилитации. К примеру: общая выживаемость в группе пациентов, у которых период реабилитации не превышал 6мес., была достоверно лучше...

Ну, необходимо провести - так проводите. Вопрос-то в чем?
  Форум: Медицинская статистика · Просмотр сообщения: #23126 · Ответов: 7 · Просмотров: 914

passant
Отправлено: 26.06.2018 - 19:48


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(p2004r @ 26.06.2018 - 19:08) *
При всем уважении, ну как поможет знание "change point" на монотонно возрастающем (или убывающем) тренде?


Если "change point" неизвестна, даже на монотонном тренде - то вот вам две абслоютно реальные задачи
- найти точку, в которой тренд меняет скорость возрастания/убывания
- найти точку в котором меняется дисперсия и/или другие характеристики ряда (например - автокорреляция).
Обе задачи абсолютно реальны, например, в технической диагностике, в задачах компьютерной безопасности, в экономике. Я уверен, что и в медицине можно кучу ситуаций свести к этим.
Если - как у ТС - "change point" известна, то задаче действительно сильно упрощается. Не надо обнаруживать точку (которая то-ли есть, то-ли ее нет), а надо просто выяснить, остались-ли характеристики ряда на интервале "до" и на интервале "после" неизменными или же изменились. Следующее - и последнее- упрощение: вообще убрать время из рассмотрения, что судя по всему удовлетворяет ТС.


Я вот тут о другом подумал - а не может количество "бракованных" образцов зависеть от других факторов, например - как от индивидуальных особенностей конкретных пациентов, так и от опыта лаборанта, берущего образец и пр. (Сорри, если вопросы с точки зрения медицины ламмерские, но теоретические такие факторы могут иметь место).
  Форум: Медицинская статистика · Просмотр сообщения: #23114 · Ответов: 30 · Просмотров: 2131

passant
Отправлено: 26.06.2018 - 15:51


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(Алексей Лк @ 26.06.2018 - 15:35) *
В общем полагаю что FA надо все таки считать на когорту со статичным числом эмбрионов, например на 10. И брать группы в которых например будет не меньше 200 эмбрионов (n=20)

Теперь для меня, как не лекаря, все стало сложно и непонятно :-)
Давайте так. Если у вас одни и те-же пациенты, до и после смены курьера, причем вы точно знаете, сколько образцов каждого пациента испортилось у одного курьера и у другого - это один случай.
Если же пациенты разные, или просто такой статистики вы не ведете - то я бы не стал усложнять. Считал бы среднее (или медиану, если данные не нормальные) по всей совокупности и сравнивал бы их "до и после". Количество случаев - роли не играет. Метод - в зависимости от "нормальности" данных и однородности дисперсий. Я их упомянул, но вполне можно (ученые врачи к ним привыкли ) ограничится теми, что приведены у Гланца или Ребровой.
Вы задавали вопрос о том, как понять однородна-ли дисперсия? Проверяем критерием Фишера, который и отвечает нам на вопрос, можно-ли считать дисперсию равной. "Да"-"Нет". Все.
  Форум: Медицинская статистика · Просмотр сообщения: #23108 · Ответов: 30 · Просмотров: 2131

passant
Отправлено: 26.06.2018 - 15:35


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(Алексей Лк @ 26.06.2018 - 15:19) *
Спасибо. Но это явно не к моей теме. В конце концов время для меня важно только в двух точках - дата смены курьера и равные временные отрезки в которых находится интересующая меня совокупность.

Я тоже так считаю, поэтому в персом ответе исходил из этого. Но коллеги упомянули, что возможно присутствует тенденция. Ну, например, ввиду усложнения уличного трафика время доставки объективно возрасло и как следствие - количество потерянных образцов увеличилось. Или, сезонность - летом потери объективно больше, чем зимой (например). Вот, на всякий случай и дал "наводку", что делать при таких вариантах анализа. Если-же можно обойтись без такого усложнения, то см. мой первый пост.
  Форум: Медицинская статистика · Просмотр сообщения: #23106 · Ответов: 30 · Просмотров: 2131

passant
Отправлено: 26.06.2018 - 14:44


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(Алексей Лк @ 26.06.2018 - 13:52) *
А можно подробнее, что вы имеете ввиду? Вам нужны данные по средему, медиане, 25 и 75 процентилям, стандартному отклонению? Или что то еще?
Стационарность временного ряда - отдельная тема. Стандарт : Тест Дики-Фуллера. Кроме того, могут использоваться и другие методы, включая упомянутые метод WMW и Смирнова, но с использованием т.е. "скользящих окон", на основе регриссионой модели, теста Филипса-Перона, анализ автокоррелограммы (он за одно и сезонность может показать), тест тест Сиджела - Тьюки, сериальный критерий стационарности и пр.
  Форум: Медицинская статистика · Просмотр сообщения: #23102 · Ответов: 30 · Просмотров: 2131

passant
Отправлено: 26.06.2018 - 12:31


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(p2004r @ 26.06.2018 - 12:05) *
Это временной ряд, про стационарность которого мы ничего не знаем. Поэтому весь этот энтузиазм в треде мне не понятен. Надо видеть данные.

При всем уважении, а какую трудность в анализе Вы заметили?
Временной ряд? Возможно рассматривать и с этой позиции. Но! Нам точно известна change point. Да, можно проанализировать ряд "до", посмотреть, есть-ли тренд и/или сезонность, потом - если есть - сделать предсказание и сравнить с рядом "после". В общем-то то-же классическая задача. Если же тренда вообще нет - то задача вообще становиться тривиальной.
Впрочем, допускаю, что я что-то сугубо "медицинское" упустил. Буду рад за уточнения.
  Форум: Медицинская статистика · Просмотр сообщения: #23098 · Ответов: 30 · Просмотров: 2131

passant
Отправлено: 26.06.2018 - 10:20


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(Алексей Лк @ 26.06.2018 - 09:33) *
в общем жду мнений, спасибо!

По моему мнению - это классическая задача, в классической постановке. Если бы данные были бы доступными - взял бы в качестве примера для студентов применения метода к реальным задачам.
Особых "подводных камней" - особенно если у вас достаточное количество накопленных данных - не вижу. Обычная схема дисп. анализа, изложенная в учебниках.
Если дисперсии окажутся сильно различны - то существуют методы и на этот случай (начиная от критерия Крамера - Уэлча, до критерия Уилкоксона-Манна-Уитни, критерия Смирнова, и пр).

Вот если возникнут непонятности или вопросы - задавайте, будем думать.

Удачи!
  Форум: Медицинская статистика · Просмотр сообщения: #23092 · Ответов: 30 · Просмотров: 2131

passant
Отправлено: 12.06.2018 - 09:23


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(Felix77 @ 12.06.2018 - 08:32) *
help.gif пожалуйста, можно ли из имеющихся данных создать модель для прогнозирования. В прилагаемой таблице представлены переменные пациентов, у которых в последствии развилась контраст индуцированная нефропатия (КИН), соответственно зависимая переменная - КИН (0-не развилась КИН, 1 - развилась). Пытался использовать логистическую регрессию, которая не показала значимого влияния предикторов. Пытался применить Random Forest, в R ничего не получилось. Может проблема в большом количестве пропущенных данных

Я ничего не понимаю в медицинской стороне вопроса, но первое, что бросилось в глаза - сильная несбалансированность обучающей выборки - примерно 1:9. Возможно, стоить посмотреть в сторону методов, специально предназначенные для таких случаев?
  Форум: Медицинская статистика · Просмотр сообщения: #23055 · Ответов: 6 · Просмотров: 994

passant
Отправлено: 8.06.2018 - 22:14


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Ой какая каша....
Ну давайте разбираться, что же вы написали и как это перевести (понять).
1. Количество покупок. ОК. Что такое количество покупок, например, 18 и еще восемь знаков в дроби после запятой? Ну не могу я себе даже три с половиной покупки представить, а тут 18,01426972 покупок.
2. Вы хотите найти зависимость количественных данных от номинальных? Т.е. построить РЕГРЕССИЮ, в которой два возможные значения независимой переменной и бесконечное множество значений зависимой? Ну картинку-то хоть нарисуйте, посмотрите, что получиться.
3. ОК. Предположим, построили. Регрессионная модель строиться для того, что-бы потом, задав не встречавшееся в обучающей выборке значение независимой переменной найти значение зависимой. А какое у вас может быть "не встречавшееся" значение вашей независимой переменной? Может стоит разобраться, надо-ли вам регрессия, или все-таки задача стоит иначе?
4. Предположу, что на самом деле вы решаете задачу определения корреляции между значением "стимуляции" и "количество покупок". Ну так для этого своя группа методов существует. Между прочим, в вашем маркетинге, откуда скорее всего взята задача, есть т.н. A/B тестирование. Посмотрите внимательно, может узнаете свою задачу?
5. Про одну-две стимуляции вообще ничего не понял. Написано одно, пример - совсем другое. В каком магазине была одна стимуляция? в каком - две? И где это видно?
6. Да, по несбалансированным данным (например - 1 значение "1" и полтора десятков нулей) ни один из полученных результатов статистически значимым (осмысленным) не будет.
7. А вообще-то по вашему первому примеру никакого исследования проводить не надо, и так видно, что стимуляция ведет к росту продаж. Ну можете еще, если очень хочется "ящик с усами" нарисовать :-)
  Форум: Медицинская статистика · Просмотр сообщения: #23049 · Ответов: 1 · Просмотров: 658

passant
Отправлено: 17.05.2018 - 13:57


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(Zamira @ 17.05.2018 - 12:00) *
Добрый день. Подскажите,пожалуйста, как правильно рассчитать тертили?

Вот тут разжевано относительно доступно:
https://sites.google.com/site/konstbel/knig...drugie-kvantili
  Форум: Медицинская статистика · Просмотр сообщения: #23014 · Ответов: 1 · Просмотров: 598

passant
Отправлено: 13.05.2018 - 12:23


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(scholar @ 12.05.2018 - 19:22) *
Есть ли статистические техники оценки динамики только по средним?

Динамики чего?
Цитата(scholar @ 12.05.2018 - 19:22) *
например признак А имел среднее значение полгода тому назад 30, а сейчас 20, т.е. на 10 снизился.

Имея только эти два числа все, что вы можете о них сказать - вы сказали.
Кстати - достаточно много: и то, что одно (какое именно) меньше другого (порядковое сравнение) , и то, на сколько меньше (количественное сравнение), а если вы еще и знаете, что произошло это за пол года (т.е. присутствует фактор времени) - то вот вам и динамика smile.gif Что еще вы хотели-бы узнать?
  Форум: Медицинская статистика · Просмотр сообщения: #22999 · Ответов: 2 · Просмотров: 600

passant
Отправлено: 9.05.2018 - 13:19


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(100$ @ 9.05.2018 - 00:48) *
passant, а как вы дихотомическую переменную, имеющую биномиальное распределение "Отсутствует/Присутствует" сумели так ловко объединить с переменной, имеющей мультиномиальное распределение? Это ж прямо прорыв какой-то. Ловкость рук, и никакого мошенства.
Корректная оценка - 77/40=1,925.


1. Не пойму, о чем речь, честно.
Исходно данные о локализации- а их пять, по месту - действительно имеют дихотомическую природу. "Есть порожение в данной точке"/"Нет поражения в данной точке".
Т.е. привели собачку, появилась запись следующего вида:
"Порода: "Сербернар",
Поражено ухо: "Да",
Поражены лапы: "Да",
Поражен живот: "Нет",
Поражена спина: "Да",
Поражен хвост: "Нет".
У ТС набралось 88 таких записей. Для дальнейшего анализа объединяем их в единую таблицу по породам. В таблице оказалось восемь строк. Одна строка - данные об одной из пород. Каждая из строк выглядит так: "X1 собачек данной породы имеют локализацию поражения "Ухо",..... "X5 собачек данной породы имеют локализацию поражения "Хвост". В итоге получаем Классическое исходное представление таблицы сопряженности. Где тут вы нашли необычное "объединение биноминальной с мультиномиальнй переменной", и "ловкость рук и никакого мошенства"???

Кто-то тут ссылался на Аптона. Ну так открываем его книгу, глава 3. Примеры там приведенные - с точностью до переименования переменных - совпадают с рассматриваемой в данной теме задачей. На основе описанной таблицы легко можно получить ответ на вопрос, "отличается ли частота встречаемости локализации A" у бультерьера и пинчера. Или "отличается ли частота встречаемости локализации B" у спаниеля и "среднестатистической " собаки.

Причем в книге Аптона разжевано, и как доверительные интервалы для оценок получать, и что делать, если хи-квадрат мера почему-то не устраивает. И даже, если бы вдруг кто-то заинтересовался не просто вопросом локализации поражения, а такой экзотикой, как высота места поражения относительно земли (я понимаю, что экстравагантно, но все-же) , т.е. захотел бы анализировать не номинальный, а порядковый признак, и то ответ можно найти в указанной книге. О чем вообще спор??? О каком "прорыве" вы говорите?? Разве что элементарная подсказка ТС, где взять давно известное решение ее задач и на какой авторитет ссылаться, если что.

2. Поясните пожалуйста, откуда у Вас взялась цифра 77, когда автор пишет:
Цитата(Елена Гогуа @ 6.05.2018 - 17:34) *
У меня всего 88 собак
  Форум: Медицинская статистика · Просмотр сообщения: #22975 · Ответов: 36 · Просмотров: 4765

passant
Отправлено: 9.05.2018 - 00:18


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(nokh @ 8.05.2018 - 23:32) *
>passant. Таблица сложнее, упрощать не нужно: 8 пород х 5 локализаций х 4 типа поражения (отсутствует, грибковое, бактериальное, комбинированное). Т.е. входов три. Статистика хи-квадрат неаддитивна, точно на эффекты не разложить, поэтому только логлинейный анализ. Поскольку таблица получается наполовину пустой (77/160=0,48) анализировать исходную - плохая затея.

Немного не так.
8 пород. 5 локализаций.
От типа поражения ТС отказалась.
Цитата(Елена Гогуа @ 8.05.2018 - 18:51) *
Поскольку исследовательский вопрос - локализация, а не тип воспаления, логично объединить их в группы: воспаление ушей, лап и т.д. Но поскольку уши с лапами никак не связаны...... они все равно должны оцениваться отдельно друг от друга, но во взаимосвязи с породой:

Итого в таблице 40 клеток.
У ТС 88 случаев (собачек) , т.е. не такая уж и пустая таблица получается. (88/40=2). Хотя очевидно, что несбалансирована, т.к. такс, например, всего 5 случаев (а хотелось бы ближе к 11).
На эффекты разлагать (см. вышеприведенную цитату) ТС целью как бы не ставит. Равно, как и поиск взаимосвязей между различными локализациями. (Впрочем, тут я допускаю, что мог чего-то не уловить). Так что пока - вполне классическая задача, а если количество "пациентов" увеличить - то и вообще, готов взять в качестве примера для студентов, хотя и не по профилю smile.gif .
  Форум: Медицинская статистика · Просмотр сообщения: #22971 · Ответов: 36 · Просмотров: 4765

passant
Отправлено: 8.05.2018 - 22:01


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Уважаемая Елена.

Не будучи ни врачом, ни тем более ветеринаром smile.gif , каждый раз удивляюсь, как вы, медики, умеете все уcусложнять и нагорамождать кучу всего там, где технарь исходно будет пытаться все разложить по полочкам. smile.gif
Давайте пройдемся по вашей задаче еще раз. Итак, цель вашего исследования - доказать, что локализация (уши, лапы, хвост) поражения связана с породой. И ничего больше - вы не хотите обучать машину распознавать породу по месту раны, вы не хотите предсказывать место локализации по породе, не хотите выявлять зависимость поражения лап от поражения головы. Ничего такого заумно-сложного. Всего лишь ответить на вопрос, зависит ли дислокация раны от породы.
Что для этого надо. Да всего-лишь составить таблицу. По строкам - породы, по столбцам дислокация. (Какие 40 таблиц???? Одна единственная таблица!!!). На пересечении - количество обнаруженных случаев данной локализации у собак данной породы. Потом берем конкретную породу (строчку в таблице), строим еще одну "виртуальную" строчку, куда заносим сумму случаев каждой локализации для всех оставшихся пород. Теперь вам надо ответить на вопрос, который математически звучит так: выборки представителей "вашей породы" и "всех других пород" взяты из одной и той-же генеральной совокупности случаев (гипотеза H0) или из разных (альтернативная гипотеза H1). Причем на сколько я понял, у вас задача еще проще, и заключается в том, что вы ищете ответы на вопросы типа "повреждения хвоста у терьера встречается так же часто, как у всех собак (гипотеза H0)". Понятие "контрольная группа" тут бессмысленна, вернее "контрольная группа" - это все собаки других пород (та самая виртуальная строчка).
Если надо доказать статистическое значимое различие локализаций между представителями разных но конкретных пород, то "виртуальную" строчку делать не надо, надо просто из таблицы вырезать две строчки, соответствующие тем породам, которые вас интересуют и решать описанную задачу относительно них.
Если подумать, то ваша задача ничем не отличается от такой задачи, как например, выяснить, женщины чаще болеют болезнью "Х", чем мужчины или нет. Или "голубой цвет глаз встречается одинаково часто у представителей белой, желтой и черной рас или нет".
Задача статистически тривиальна, другое дело что 3 (три!!!!) представителя породы, это конечно очень мало для сколько-нибудь значимых и обобщаемых результатов. И это, пожалуй, самый "пробойный" и труднозащищаемый пункт всего вашего исследования. (На что вам, кстати, уже неявно указали).
Теперь следующий вопрос. Откуда вдруг возникает "пара признаков". Опять-же если я правильно понял, то вы хотите установить, "а правда ли, что пинчеры чаще ОДНОВРЕМЕННО вредят себе усы и хвост чем собаки других пород"? Я не берусь комментировать, на сколько это осмысленный вопрос, но если это так, то самый простой путь - для каждой породы (строчки в вышеописанной таблице) вам надо добавить столбцы, в которые заносить количество тех самых одновременных локализаций. Все остальные рассуждения остаются теми-же.

Еще раз перечитав тему понял, что вы сами в сообщении http://forum.disser.ru/index.php?showtopic...amp;#entry22948 вобщем-то корректно ответили на свои вопросы. А потом - чего-то испугались? И напрасно! rolleyes.gif
Удачи!

P.S. Поправка Бонферрони - это не "другой метод". Это всего-лишь дополнение к методу основному. Всего-лишь способ ужесточения порога значимости.
  Форум: Медицинская статистика · Просмотр сообщения: #22966 · Ответов: 36 · Просмотров: 4765

passant
Отправлено: 6.04.2018 - 11:44


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


А можно пердварительно попросить Вас прояснить, что в? имеете ввиду, говоря:
Цитата(Cules2013 @ 5.04.2018 - 23:18) *
доверительные интервалы, рассчитанные для исходных данных по каждой из выборок,

Вообще-то во всех книгах по статистике написано, что "термин, используемый для интервальной оценки статистических параметров, . Доверительным называют интервал, который покрывает неизвестный параметр с заданной надёжностью". Другими словами доверительный интервал может быть только для некоторого параметра выборки, но никак не для "исходных данных выборки".
Вот сижу и думаю, что-же вы ввиду-то имели? wink.gif
  Форум: Медицинская статистика · Просмотр сообщения: #22870 · Ответов: 12 · Просмотров: 1959

passant
Отправлено: 4.04.2018 - 10:05


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(Cules2013 @ 3.04.2018 - 16:19) *
Статистика - это не философия и не литературоведение, здесь должно быть всё чётко и понятно, а не "трактуй, как хочешь".

Вот тут вы ошибаетесь. В своей жизни я изучал одну единственную науку, в которой было все строго определено, выверено, безошибочно, четко и понятно - марксистско-ленинскую философию. Все остальные математики, физики, статистики, сопроматы, ТОЭ и прочие DataScience всегда строятся на огромном числе ограничений, допущений, предположений, трактовках, сомнений и пр.пр.пр smile.gif
  Форум: Медицинская статистика · Просмотр сообщения: #22862 · Ответов: 10 · Просмотров: 1927

passant
Отправлено: 3.04.2018 - 10:17


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(Cules2013 @ 3.04.2018 - 07:40) *
Уже давно мучает меня вопрос о том, где бы найти достоверную инфу (а не кто-то где-то примерно что-то сказал на просторах сети) о том, какие требования и допущения к каждому конкретному стат. методу/критерию..............
.........если их количество не менее 3, но не более 6.............
Хотелось бы знать конкретно, "что, куда и как". А то в сети слышал мнения, что .................
Проблема же ещё и в том, что несоблюдение подобных требований, отнюдь не значит, что стат программа откажется вам делать анализ. Она, скорее всего, преспокойно вам выдаст какую-то ахинею, а вы и не будете знать и поверите ей "на слово" ..........


Вы на самом деле зацепили два разных вопроса.
Ну, во-первых, конкретных цифр, подобно приведенным примерам, вы не найдете нигде (по крайней мере - в серьезных работах, а наличие таких цифр - лишний повод усомниться). Там будут более опекаемые формулировки, что в общем - понятно и правильно. Статистика по сути своей пытается дискретное пространство описать непрерывными категориями. А в непрерывном мире точных границ не существует по определению. Просто все понимают, что когда говорят, что "функция стремиться к нулю при X стремящемуся к бесконечности", то это может в реальном мире означать, что при некоторых, достаточно больших X функция станет неотличима с заданной точностью от нуля. А вот что такое "достаточно большие" и что такое "неотличима с заданной точностью" - при этом выносится за скобки. Так что, как правило, "что применимо при x=3, применимо и при x=4".
Во-вторых, вопрос касается того, а какие ограничения действительно существуют, работают или являются плодом воображения "кого-то там в сети". И вот тут засада. Для того, что-бы это понять, надо самому углубляться и разбираться в каждом методе. Почему? Да потому, что "то что сказано в сети" и "то что написано в умных книжках" отличается только тиражом распространения и доступностью, но не степенью "умности" или "глупости"вещей, там изложенных. Другими словами, кто-то (пусть даже очень авторитетный с вашей точки зрения) на форуме сказал "А", а в книге (тоже не менее авторитетной) написано "Б". Кому верить? Только прочитав и самому разобравшись можно "примкнуть к одному из лагерей". А часто и лагерей больше двух. Но заметьте, никто не даст гарантии, что ваша позиция действительно истинна. Ну, разве что Вы вступите в прямой контакт с Богом, да и то - не факт, что он хорошо разбирается в статистике :-).
Единственное, что можно и нужно сделать - помимо того, что самому разобраться в любом применяемом вами методе - это составить себе на каждый случай перечень всех понятых и принятых ЛИЧНО ВАМИ условий и ограничений, понимать как и не забывать их применять ВСЕГДА, когда вы используете этот метод . И еще - не менее важно - всегда уметь объяснить и обосновать то самое ваше личное мнение (а не просто сослаться на чей-то авторитет). Прислушаться к его критике и во время его изменять, если найдете критику основательной. И не отстаивать свое мнение только потому, что вы его высказали - это свойство исследователя я вообще выношу за скобки (и ставлю на первое, а вернее - нулевое место).
Так что вперед. Нужны ответы - не ждите готовых, а разбирайтесь и анализируйте их сами.
"Все сказанное выше является моим личным мнением, существующим на данный момент, может быть подвержено критике всех желающих и может быть мной изменено без предварительного оповещения" (С) - smile.gif
  Форум: Медицинская статистика · Просмотр сообщения: #22856 · Ответов: 10 · Просмотров: 1927

passant
Отправлено: 27.03.2018 - 09:53


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(leo_biostat @ 26.03.2018 - 18:26) *
Поскольку очень часто все вопрошающие не очень ясно и понятно формулируют свои вопросы.

Если человек не может ясно и понятно сформулировать свой вопрос, то в 99% случаях это означает, что он и проблемы своей по сути не понимает. Может стоит в таких случаях начинать с того, что "вытягивать" его на корректную формулировку? Думаю, это будет и ему и многим будущим "новичкам" форума весьма полезно.

Цитата(leo_biostat @ 26.03.2018 - 18:26) *
И тогда желающий оказать Вам помощь вызовет Вас, и проведёт собеседование. Вот и получите эту помощь.

И тогда на форуме окончательно перестанут накапливаться ответы на вопросы и каждый новый "вопрошающий" вынужден будет решать свою проблему с нуля.
Как бы там ни было, сегодня если в Гугле забить определенные вопросы, кстати - даже по проблемам далеким от медицины, довольно часто мы попадаем на этот форум. Мне самому доводилось именно так несколько раз "переоткрывать" этот форум и выяснять для себя что-тот новое. И доводилось направлять людей, которые ко мне обращаются за консультациями по НЕмедицинским вопросам, к темам форума. Переход на приватные консультации в Скайп эту "фичу" убьет окончательно и бесповоротно.


Цитата(leo_biostat @ 26.03.2018 - 18:26) *
N.B.! Рекомендую Админам Форума дополнить это предложение по Скайпу в рекомендации общения по всем разделам Форума.

И превратить форму из платформы обмена знаниями в платформу поиска консультацийнтов. Впрочем - у каждого свои интересы.
  Форум: Медицинская статистика · Просмотр сообщения: #22808 · Ответов: 13 · Просмотров: 2656

passant
Отправлено: 25.03.2018 - 19:21


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Вообще-то, согласно классическому определению:
"Критерии однородности - это критерии проверки гипотез о том, что две (или более) выборки взяты из одного распределения вероятностей"
Поэтому, действительно, загадка, что имелось ввиду, когда говорилось " Как .... проверить что выборка (в единственном числе !!!!) в группе 1 однородная" (За одно, можно и поинтересоваться, почему стоит вопрос про группу #1, а про группу #2 не говориться ничего)
Но нам тут не привыкать к "точным" форулировкам sad.gif . Можно, как обычно, попробовать угадать wink.gif , что в данном случае автор имел ввиду "равномерность распределения значений выборки". И если это так - то напомнить автору, что для этой задачи есть критерий Шермана, критерий Морана, и далее по списку (см. например, справочник Кобзаря).
Впрочем, исходя из того, что надо "проверить как различаются группы по ряду параметров" может я и не угадал wink.gif. Ну, тогда надо все-таки "дожать" автора на корректное изложение задачи.
  Форум: Медицинская статистика · Просмотр сообщения: #22803 · Ответов: 13 · Просмотров: 2656

passant
Отправлено: 9.03.2018 - 18:46


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Осмелюсь дать ссылочку на блог нашего уважаемого коллеги по форуму.
http://biostat-r.blogspot.com/2015/03/trialsize.html
Хоть ссылка явно с медицинским уклоном, но информацию по математике метода, который независим от прикладной области, там найти можно. Ну и ссылочка для дальнейшего углубления в тему при необходимости - тоже есть.
  Форум: Медицинская статистика · Просмотр сообщения: #22752 · Ответов: 2 · Просмотров: 1134

passant
Отправлено: 9.03.2018 - 18:17


Дух форума
*

Группа: Пользователи
Сообщений: 122
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(nastushka @ 9.03.2018 - 14:08) *
Я вроде нашла
это sparse matrix, я это имела ввиду
https://stackoverflow.com/questions/1200907...e-sparse-matrix

А какое это имеет отношение к "тесту на то, является-ли матрица действительно разряженной" ?
В ссылке явно сказано "it seems it doesn't work on sparse matrix." Т.е. оказывается, что некоторый конкретный метод не работает (а по сути, это означает, как привило, что метод что-то там считает, но то-ли результат неточен или вообще расходится, то-ли алгоритм работает слишком медленно или вообще зацикливается - никто не знает, что означает "не работает") если в матрице "очень много" пустых (или нулевых) клеток. При этом другие алгоритмы, разработанные специально для случаев, когда в матрице "преимущественно" пустые клетки - с задачей справляется. И только.
Ну, если очень нужен тест, возьмите свои данные, прогоните через этот алгоритм, если он "не сработает" - можете смело считать, что тест "на разряженность матрицы" успешно пройден.
  Форум: Медицинская статистика · Просмотр сообщения: #22751 · Ответов: 3 · Просмотров: 811

5 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена