Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

40 страниц V   1 2 3 > » 

nokh
Отправлено: 21.08.2017 - 19:42


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Ident @ 21.08.2017 - 03:08) *
... Различные наблюдатели в разных населённых пунктах (условно городах) регистрировали определённые объекты. Объекты классифицированы и обозначены буквами алфавита, регистрировалась их частота в процентах. Сколько всего городов наблюдали указано во втором столбце. Города не повторялись и у каждого наблюдателя был как-бы свой регион. Те объекты, которые не подходили под классификацию регистрировались как "другие" и в таблице не указаны. Поэтому, например, в третьей строке сумма всех процентов 31, то есть 69 не удалось отнести к какому-либо виду. А в третьей строке, наоборот, все объекты подходили под классификацию и в сумме дают 100%. Но цель не в этом. Надо выяснить сколько приблизительно объектов какого-либо типа приходится в целом на страну. В последней строке есть графа %-ты в среднем, вычисленные для объектов вида Д. Так вот, если вычислить такую цифру для всех типов объектов, то в сумме они оказываются более 100%. То есть средние значения процентов не подходят. В целом населённых пунктов (условно городов) по стране очень много, но суммарная цифра уже рассмотренных является как-бы достаточной выборкой для каких-либо выводов. Как исходя из этих данных можно хотя бы как-то высказаться о приблизительном проценте конкретного объекта в N-ом городе (или группе городов). Можно ли как-то аппроксимировать эти значения, чтобы сумма средних процентов была 100%? Я понимаю, был бы график, то можно было бы сгладить его регрессионной функцией или при помощи полинома. Но в данном случае надо выявить тенденцию в виде распределения по долям. Возможно задача банальная, просто я не встречался. Рад был бы узнать Ваше мнение на этот счёт. Заранее благодарю.

1. У Маши было 4 яблока, у Пети - 2 яблока, а у Коли - ни одного (0 яблок). Сколько в среднем яблок было у детей? Согласно вашей логике - (4+2)/2=3. А Коля - неудачник и нам не нужен. Правильный ответ: (4+2+0)/3=2. Поэтому во всех колонках (ну или во всех, где есть хотя бы одно значение) вместо пустых ячеек проставьте нули.

2. Сходная ошибка: раз "Другие" объекты фиксировались и учитывались при расчёте процентов (!), колонка "Другие" должна с необходимостью присутствовать в таблице. Поэтому добавьте такую колонку и рассчитайте % в ней.

3. Ну а теперь можно находить средние. Прикрепил файл с расчётом. Т.о. "задача банальная, просто я не встречался"

4. Сразу бросается в глаза, что данные сильно неоднородны (это можно пытаться доказать статистически, имея полные данные в штуках, а не в % ). Поэтому, строго говоря, сомнительна сама правомочность нахождения средних по всей стране. Возможно, правильнее будет разбить регионы на более однородные группы и посчитать средние уже в них. Если в качестве расстояния между регионами использовать соотношение процентов разных объектов, то можно применить кластерный анализ с использованием в качестве индекса сходства корреляции, например - Спирмена. Поскольку для n=11 и альфа=0,05 критическое значение коэффициента корреляции Спирмена = 0,527, все ветвления на дендрограмме, большие этого числа, можно считать неслучайными (это - упрощение, но близко к правде). Можно его же использовать для выделения кластеров. Режем ветви на уровне 0,527. Получается 4 непохожих друг на друга группы регионов: (9), (8), (3+6), (остальные).
Прикрепленные файлы
Прикрепленный файл  percent.rar ( 4,74 килобайт ) Кол-во скачиваний: 14
 
  Форум: Медицинская статистика · Просмотр сообщения: #21836 · Ответов: 5 · Просмотров: 558

nokh
Отправлено: 16.08.2017 - 13:39


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(kont @ 20.07.2017 - 13:11) *
nokh, а дальше что делать? smile.gif

Прошу прощения, не успел до отпуска pardon.gif Задача ещё актуальна?
  Форум: Медицинская статистика · Просмотр сообщения: #21818 · Ответов: 23 · Просмотров: 2291

nokh
Отправлено: 18.07.2017 - 21:53


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Хочу предложить опробовать параллельно другой вариант анализа (хотя с интересом буду следить за начатым курсом). Но сначала пара ремарок.
Во-первых, как уже отметил p2004r датасет действительно пустоват. Во-вторых он плохо сбалансирован по эмоциям. Чтобы в этом убедиться, а заодно и начать подготовку данных к анализу нелинейными главными компонентами в SPSS, создайте в экселе такой файл:
Удалите вашу первую строчку. Первая строка - названия столбцов.
Первая колонка - испытуемый. Метки - значения от 1 до 200 повторяются четырежды. (800 строк + 1 строка шапки)
Вторая колонка - картинка. По 200 значений 1, 2, 3 и 4.
Далее 8 колонок шкал, далее 34 колонки с эмоциями - от Боли по Ужас.
Переформатируйте таблицу так, чтобы вписать её в эту структуру. Шкалы для испытуемых придётся повторить четырежды - по одному повтору на каждую картинку, а соответствующие картинке колонки эмоций будут уже заполнены оригинальной для каждой картинки информацией.
Под такой таблицей создайте строку с суммами значений эмоций по колонкам. Транспонируйте и ранжируйте по убыванию. У меня получилось:

Боль 206
Радость 191
Удивление 82
Злость 67
Обида 59
Страх 46
Жалость 29
Испуг 21
Счастье 13
Забота 10
Печаль 10
Раздражение 10
Грусть 7
Разочарование 7
Спокойствие 7
Любовь 6
Стыд 6
Возмущение 5
Тревога 5
Досада 4
Отвращение 4
Растерянность 4
Сострадание 4
Удовольствие 4
Интерес 3
Огорчение 3
Вина 2
Презрение 2
Сочувствие 2
Ужас 2
Отвержение 1
Смущение 1
Равнодушие 0
Страдание 0

Создаётся впечатление, что отследив аж 34 эмоции вы достаточно точно "ухватите" шкалы, найдёте связи с ними и т.п. В действительности же получается, что в этих шкалах вы отследите только боль и радость! Ну может ещё немного захватите эмоций по испуг, судя по графику осыпи. 2 эмоции совсем не представлены (0). И вообще, кроме радости в топе - один негатив! Что это за странная методика и нет ли необходимости добрать материал картинками так, чтобы спектр эмоций был представлен более-менее полно, равномерно?

CATPCA не возьмёт столбцы с 3 значениями и менее, поэтому колонки с испуга по страдание нужно стереть.
Выделить всю матрицу и заменить 1 на 2, а затем 0 на 1.
Удалите последнюю строку сумм и откройте файл в SPSS. Завтра напишу что делать дальше.
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #21746 · Ответов: 23 · Просмотров: 2291

nokh
Отправлено: 14.07.2017 - 16:57


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(kont @ 14.07.2017 - 16:30) *
Подскажите пожалуйста, мне нужно изучить взаимосвязь между метрическими показателями и номинативными...

Если попарно, то - точечно-бисериальная корреляция. Но интереснее многомерные ординационные (проекционные) техники.
  Форум: Медицинская статистика · Просмотр сообщения: #21702 · Ответов: 23 · Просмотров: 2291

nokh
Отправлено: 12.07.2017 - 18:35


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Похоже мой ответ на письмо в личку не дошёл, дублирую его здесь.

Здравствуйте, nastushka.
Вы не ответили на мой уточняющий вопрос, а когда мне не понятно - то и не интересно. Я перестал отслеживать вашу тему.

Если в общем, то ROC-анализ более полезен для одного количественного показателя, а не для набора, т.к. позволяет выбрать пороговое значение диагностического показателя с наивысшими чувствительностью и специфичностью.
В случае множественной логистической регрессии, когда показателей много, анализ и описание его результатов логично проводить в два этапа.
1) Сокращение набора предикторов. Можно сделать полную модель, и отобрать значимые. Можно сделать полную полную с пошаговым отбором (stepwise). Можно отобрать наиболее сильные предикторы случайным лесом - как вы. Можно как-то ещё.
2) В окончательную модель дать только отобранные предикторы. Привести в результатах:
2.1. константу и коэффициенты регрессии - чтобы по формуле с этими показателями можно было считать риск (прогноз) для каждого конкретного случая в области применения результатов
2.2. соответствующие этим коэффициентам отношения шансов (т.е. пересчитать логиты в OR, пакеты это делают, хотя можно и вручную)
2.3. статистическую значимость для каждого члена модели.
2.1-2.3. удобно дать таблицей.
2.4. показатели диагностической эффективности: чувствительность (с 95% доверительным интервалом), специфичность (с 95% ДИ)
2.4. можно диагностическую эффективность дополнить интегральными мерами: и долей верно классифицированных случаев, и площадью под ROC-кривой. Т.е. последняя не несёт в случае множ. логистической регресии какой-то конкретики: это просто интегральная мера качества диагностики.
  Форум: Медицинская статистика · Просмотр сообщения: #21687 · Ответов: 57 · Просмотров: 5476

nokh
Отправлено: 11.07.2017 - 11:01


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(leo_biostat @ 10.07.2017 - 00:02) *
Уважаемые коллеги, hi.gif!

Обращаюсь к Вам с просьбой помочь Аветису Аветисяну, неврологу г. Еревана (Армения). В 2015-16 годах мы с коллегами провели
статистический анализа собранных им данных. В этом массиве данных более 40 признаков о специфике нейропатологии.
В настоящее время Аветис пишет диссертацию об исследовании нейропатической боли. Целью исследования является оценка влияния
нейропатической боли различной этиологии на уровень качества жизни и психоэмоциональные расстройства. Желательно помочь ему в
объяснении установленных с помощью статистических методов анализа, медицинских аспектов исследования, в частности, установленных нами
связей нейропатической боли с этими показателями. По адресу https://yadi.sk/d/gxWqptoMvxeJp можете скачать очень большой
объём результатов статистического анализа, включающего кластерный анализ, групповые сравнения, таблицы сопряжённости, корреляционный анализ,
логистическую регрессию. После изучения этих результатов, можете написать Аветису письмо с пояснениями установленных взаимосвязей
анализируемых признаков нейропатологии по адресу doctoravetisyan@gmail.com . Также можете позвонить ему на телефон +374 77 97 90 04 ,
либо выйти на связь с ним по Скайпу ( ник: doctoravetisyan ).

Спасибо всем, кто согласится помочь ему!
Это позволит создать в Ереване образец отличной диссертации, поскольку в настоящее время уровень диссертаций низкий.

Видимо встречаются случаи, когда диссертант не в состоянии не то что обсчитать свои данные, но даже интерпретировать готовые результаты. Не то в силу природных особенностей, не то в силу житейской мудрости: зачем считать, если за меня посчитают, зачем думать, если за меня подумают... Уверен, что именно такие специалисты нужны Еревану, Армении, Миру. Даёшь каждому Аветису - по диссертации!
  Форум: Медицинская статистика · Просмотр сообщения: #21679 · Ответов: 9 · Просмотров: 1301

nokh
Отправлено: 29.06.2017 - 23:53


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Tibalt @ 29.06.2017 - 23:45) *
... Вопрос:Можно ли проверить нулевую гипотезу (вычислить р) зная М?m, N (среднее арифметическое, стандартная ошибка среднего, количество наблюдений) для 2 выборок есть эти данные, самих выборок нет, но хочется проверить! Спасибо.

Так а в чём проблема? Формула t-критерия есть в любом учебнике по прикладной статистике. Из литературных данных по ст. ошибке нужно вычислить дисперсию, а далее подставлять всё в формулу. С известными входящими - 2 минуты расчётов на калькуляторе, ну или чуть больше если проверять равенство дисперсий, и ещё чуть больше, если считать степени свободы для модификации Уэлча. Хотя, согласен с p2004r, что через ДИ будет лучше: для лит. данных рассчитать параметрический 95% ДИ, а для своих - 95% ДИ бутстрепом (метод процентилей или BCa) и сопоставить. Если ДИ не трансгрессируют - различия статистически значимы на 5%-ном уровне.
Цитата(passant @ 30.06.2017 - 00:25) *
Наверное, я чего-то не понимаю.
1. Посмотрел в Викепедии Шкала тревоги Спилбергера - ответы даются по четырехбальной шкале. Причем тут "данные дихотомические" wink.gif
2. Для данных, измеренных в ранговых шкалах (тем более в дихотомической smile.gif ) критерий пиринятия/отклонения H0-гипотезы строится НЕ на среднем арифметическом (не t-тест Стьюдента).
Впрочем, конечно, если "есть мнение, что можно"........

Какбэ нельзя, но психологам - можно smile.gif Любая библия по психометрии содержит приличный кусок параметрической статистики. А вот непараметрики может почти и не быть: взять хотя бы классику - Гласса и Стэнли... Хотя типичный признак психолога - шкала Лайкерта, т.е. строго говоря - порядковая шкала.
Но поскольку порядковые метки психологических шкал расставляются поверх некоего непрерывного латентного распределения + шкала конструируется эквидистантной и симметричной, она приобретает свойства интервальной. Вот здесь немного пояснено: https://en.wikipedia.org/wiki/Likert_scale
  Форум: Медицинская статистика · Просмотр сообщения: #21645 · Ответов: 5 · Просмотров: 805

nokh
Отправлено: 29.06.2017 - 23:03


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Lordeg @ 29.06.2017 - 15:09) *
Вопросы:
1. Корректно ли вообще использовать линейную множественную регрессию для таких данных (категориальных). Интерпретация результатов пугает.
2. Науч. рук-ом было сказано: "Почему в модели регрессионного анализа в качестве предиктора, категориальная переменная без трансформации?" Скажите, как мне её трансформировать?
3. Науч. рук-ом было сказано: "И нужно осуществить регр. анализ методом backword elimination, а также построить модели регрессионного анализа поочередно, удаляя из них отдельно каждый предиктор." Зачем? all-subsets должен включаться в себя все варианты backword'а.
4. Что использовать, если не МЛР. Полно конечно всяких методов.

1. Корректно. Но прочитайте мой длинный пост в сообщении #6 этой темы: http://forum.disser.ru/index.php?showtopic...amp;#entry21442 . Поэтому "пугает" - не удивительно, по крайней мере для полной модели.

2. Скорее всего НР что-то слышал про трансформации, но что слышал - забыл. Неудивительно, не пугает, проходили... Качественные дихотомические показатели используются в регрессионных моделях безо всяких преобразований. Такие переменные называют фиктивными, индикаторными и т.п. (погуглите "dummy variables"). Поскольку ваша задача здесь не медицинская, а экономическая, логично почитать что-нибудь эконометрическое по регрессии - эконометрики самые крутые по регрессиям, ведь им нужно прогнозировать не тлю на капусте и не летальные исходы у каких-то неудачников, а Деньги. Доугерти посмотрите (есть в сети). Что касается трансформаций, то преобразовывать скорее потребуется не предикторы, а саму зависимую переменную. Но это вы должны будете проверять специально, например, - по распределению остатков модели.
Впрочем есть вариант преобразования, который можно применить и к предикторам, но он - многомерный. Представить можно примерно так: в многомерном пространстве предикторов через гипероблако наблюдений прокладывается линия регрессии. При этом само пространство преобразуется так, чтобы обеспечить максимальную взаимную линейность связей в нём. В результате все предикторы (количественные, порядковые и качественные) получают новые цифровые значения - оцифровываются. Система упрощается, ошибка снижается. Такое преобразование Джифи (Gifi transformation) есть в SPSS и пакете homals под R, но уверен, что НР про это не знает и лучше до защиты его этим не раздражать.

3. Для упрощения модели можно использовать, как прямую (forward), так и обратную (backward) пошаговую технику. Говорят обратную - делайте. Смысл в упрощении модели в том, что чем меньше в ней показателей, тем меньше шансов, что результаты будут "пугать". Поскольку вы пишете квалификационную работу, есть смысл дать и полную, и оптимизированную модель, всё описать, обсудить...

4. Методов - полно, но не нужно изобретать колесо. Акутуальна МЛР у экономистов? Устраивает НР? - пользуйтесь! Иначе вам придётся погружаться в эконометрические дебри, а там математика традиционно сложнее. Потеряете время + повздорите с руководителем. Ваша цель сейчас - не сэкономить чьи-то деньги максимально эффективно, а сделать свою квалификационную работу.
  Форум: Медицинская статистика · Просмотр сообщения: #21643 · Ответов: 4 · Просмотров: 1115

nokh
Отправлено: 28.06.2017 - 22:38


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(nastushka @ 29.06.2017 - 00:23) *
Что касается данных, то такие переменные как:
x3 x4 x5 x6 x8 x10 x11 x13 x14 x15 x16 x17
изначально метрические, я просто в отчаянии, когда ничего не получалось, их перевела в дихотомическую шкалу, принцип перевода был простой, если есть значение, то 1, нет , то 0.
оригинальный датасет вот
на мой взгляд ключевая переменная x13 (количество шарашек оформленный на одно ФИО)
x11 сколько было судебных дел
х15 количество дочерних фирм
х8 сколько нарушений выявила налоговая полиция

остальные не важно:)
Если выше указанные переменные оставить метрическими, это может повлиять на ре-тат лог.регрессии?, у меня когда они были метрические, процент ошибок отнесения единиц (это событие обмана) к нулям был адский.,

Хотел высказаться по первому набору, но прочитав этот пост засомневался. Смотрите, что получается. Чисто из жизненного опыта, расшифрованные вами 4 показателя должны быть показателями риска, т.е. их наличие должно увеличивать риск Y=1 (обман). В вашем же первом наборе они являются протекторными показателями, т.е. их наличие, напротив, снижает риск 1. Вы не напутали с кодировками?

"на мой взгляд ключевая переменная x13", "остальные не важно:)"
Не верю! (с) (Станиславский К.С.) Нужно считать относительные риски: найти % события в группе Y=0 и % события в Y=1, а затем правильно разделить одно на другое.
  Форум: Медицинская статистика · Просмотр сообщения: #21629 · Ответов: 57 · Просмотров: 5476

nokh
Отправлено: 21.06.2017 - 21:00


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(maxandron @ 21.06.2017 - 19:58) *
Был бы благодарен, если бы Вы выложили статьи или дали бы ссылки на них. Заранее спасибо.

Подобрал кое-что по ретрансформации логарифмов, Бокса- Кокса и арксинуса: https://yadi.sk/d/yd9ihstL3KLVuD
  Форум: Медицинская статистика · Просмотр сообщения: #21611 · Ответов: 10 · Просмотров: 2136

nokh
Отправлено: 16.06.2017 - 23:05


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(p2004r @ 11.06.2017 - 18:53) *
Если это была "обучающая выборка" из 5ти животных, то ответ "никакой". Единственный способ при такой маленькой выборке "метод складного ножа", на каждом шаге которого исключается из _обучающей_ выборки одно животное и сеть обученная на оставшихся четырех проверятся на исключенном.

Для складного ножа получатся другие данные, а эти, выходит, что получены некорректно. Можно провести такую аналогию: на примере конкретного текста учим правила языка, а потом по этому же тексту пишем диктант. Даже если диктант написан без ошибок, методологически невозможно определить почему: не то правила усвоены, не то текст запомнен. Поэтому свой пост выше удалил; к тому же, судя по отсутствию реакции, топикстартер всё равно ничего из него не понял.
  Форум: Медицинская статистика · Просмотр сообщения: #21607 · Ответов: 11 · Просмотров: 1928

nokh
Отправлено: 14.06.2017 - 23:31


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Zamira @ 14.06.2017 - 18:23) *
то бишь, метод выбарла правильный и алгоритм реализации правильный ?
К вопросу о трансформации, в статистике выдает значение лямбда, моя задача подставить это значение в формулу и получить на выходе трансформированное значение? А представлять эти трансформированные данные, например, так: логХС? извините, что такие въедливые и, возможно, глупые вопросы, но приходится разбираться самой. Нашла еще программу RundomBC 1.0, там по идее должен сразу вылезти результат, но постоянно выдает ошибку - недопустимы значения с плавающей запятой.
Или я несу чушь?

1. Подставлять лямбду никуда не нужно, нужно только выписать. Хорошая программа сама все преобразует. RundomBC 1.0 - хорошая программа.

2. Раз уж вы раздобыли RundomBC 1.0 - добейтесь, чтобы она работала. Для этого нужно читать помощь, в данном случае - файл howto.txt, который идёт вместе с программой. Сейчас специально проверил под Windows 7 - прекрасно работает, преобразовал 2 выборки (см. скриншот). Если вы в первые 4 колонки внесёте свои выборки и выберите "normality and homogeneity of variances", то в колонках 5-8 получите значения, которые будут не только распределены близко к нормальному, но и иметь однородные дисперсии - это дополнительная страховка от проблем с нарушением сферичности в анализе повторных измерений, ну и приятная фишка программы.

3. По поводу трансформации - ретрансформации. Должно использоваться обратное преобразование. Например, при работе с площадями (распределены ненормально) прямое преобразование - квадратный корень из площади (распределены примерно нормально). Преобразовав и отработав с цифрами (средние, ДИ, сравнения) ретрансформируем полученные значения в исходную шкалу площадей - возводим в квадрат. Если логарифмировали - потенцируем. Если Бокс - Кокс - делаем обратное преобразование, изменив формулу на обратную, вот здесь-то и понадобится выписанное значение лямбды.

4. Описанная в (3) ретрансформация называется у профессионалов "наивной" (naive retransformation). Для сравнений это не принципиально, но для получения несмещённой оценки среднего - принципиально, т.к. наивная ретрансформация даёт несколько смещённые оценки (смещение тем сильнее, чем больше дисперсия данных). Тем не менее, это обычно игнорируется практиками. Вплоть до того, что даже в руководствах по вычислению референтных интервалов медицинских показателей используется наивная ретрансформация (правда в последнее время рекомендуется не однопараметрическое преобразование Бокса - Кокса, а двухпараметрическое). Но это - дебри и тонкости, вам достаточно наивной.

5. Могу выложить статьи по грамотной (ненаивной) ретрансформации, в т.ч. Бокса - Кокса, если участникам форума это интересно (про дисперсионный анализ и его всевозможные варианты - уже совсем неинтересно).
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #21598 · Ответов: 10 · Просмотров: 2136

nokh
Отправлено: 10.06.2017 - 22:33


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(ЕленаSam @ 9.06.2017 - 23:29) *
Подскажите пожалуйста, как расчитать р в опрделнной точке графика, кривые Каплана Майера, работаю с SPSS.
В стандарте там р общая выходит, а я хочу посмотреть в точке где максимальное расхождение графиков, то есть
большая разница между кривыми. За помощь за ранее спасибо)

1. Пикантность и отчасти драматизм ситуации заключается в том, что вы думаете, что вам нужно это значение р, тогда как в действительности оно вам не нужно:) Ну или, возможно, так: вам нужно не оно. Сейчас вы вряд ли с этим согласитесь, т.к. именно за этим на форум и пришли, но тем не менее...

2. Вот здесь предлагается вариант, хотя мне этот подход и не импонирует: https://stackoverflow.com/questions/3771490...fic-time-points

3. С практической точки зрения допускаю полезность другой величины: разности между двумя кривыми выживаемости в конкретной точке с 95% ДИ. Хотя, судя по результатам беглого гуглинга, её тоже не получить в готовом виде в пакетах, но наверное можно вымучить вручную с калькулятором или ресэмплингом. Последнее не получится сделать в SPSS через систему меню, нужно суметь запрограммировать это синтаксисом: рандомизационным тестом (permutation test) можно получить р, а бутстрепом - 95% ДИ разности. Cейчас всё это проще реализовать в R.
  Форум: Медицинская статистика · Просмотр сообщения: #21566 · Ответов: 1 · Просмотров: 920

nokh
Отправлено: 10.06.2017 - 00:20


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


см. ниже
  Форум: Медицинская статистика · Просмотр сообщения: #21559 · Ответов: 11 · Просмотров: 1928

nokh
Отправлено: 6.06.2017 - 00:25


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(nokh @ 22.05.2017 - 01:58) *
...Раз мы можем построить доверительные интервалы для 2D сплайна и сравнить их для двух наборов, возможно что-то подобное можно сделать и для 3D.

Нашёл, простой способ получить приблизительный 95% ДИ для сглаженной поверхности. Пакет mgcv по умолчанию подгоняет 2d данные обобщённой аддитивной моделью (GAM) с приблизительными 95% ДИ, вычисленными как предсказанное значение +/- 2se, а 3d-поверхности как предсказанное значение +/- 1se. Если в качестве se указать 2, то получится 3 поверхности: предсказанная поверхность и +/- 2se.
vis.gam(model, se=2)
  Форум: Медицинская статистика · Просмотр сообщения: #21531 · Ответов: 4 · Просмотров: 845

nokh
Отправлено: 6.06.2017 - 00:06


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


<Zamira
В качестве личных сообщений принимаю благодарности, предложения к сотрудничеству, коммерческие предложения. Поэтому отвечу в форум, тем более что заготовка для ответа была:)

1. Создайте в Excel файл Название.xls (или Название.xlsх). Измените все русские названия на английские, например: Marker1, Marker2, Status и сохраните его в текстовом формате (тип файла: Текст MS-DOS) как Name.txt. Переменные типа Marker могут быть количественными или качественными, переменная Status - бинарная: 0 или 1.
2. Откройте файл Name.txt в Блокноте Windows и убедитесь, что он нормально открывается и читается.
(Часто для англоязычных программ на этом шаге требуется заменить десятичный разделитель в виде запятой на точку: Правка - Заменить - Вбить в поля "Что? и Чем?" запятую и точку - Заменить всё. Но в нашем случае этого можно не делать, т.к. программа принимает и запятую.)
3. В браузере: http://www.biosoft.hacettepe.edu.tr/easyROC/
4. Ввод данных. Раздел [Data upload]
4.1. Радиометка в Upload a file
4.2. Browse - Указать путь к файлу Name.txt. В центральной части окна появятся первые 10 строк файла - значит данные успешно считаны. Если этого не произойдёт, возможно, нужно поменять Delimiter (Разделитель значений) или в самом файле остался текст на кириллице (точнее - на куракулице).
4.3. Поставить галочку в Use comma as decimal, т.к. в качестве десятичного разделителя мы оставили запятую.
4.4. Ниже выбираем в качестве переменной статуса Status, а в качестве метки - 1.
5. Раздел [ROC curve]
5.1. Select markers (выбор маркёров) - Marker1 (если проводим ROC-анализ для одного показателя) или Marker1, Marker2 (если нужно их сравнение)
5.2. По умолчанию программа ставит галочку в Higher values indicate risks, что обозначает, что большему риску соответствует большее значение показателя. Если это не так, то ROC-кривая отобразтся зеркально: вогнутой вниз, а не выпуклой, тогда нужно снять здесь галочку.

Дальше нужно выбрать метод, смотреть результаты и править графику.
  Форум: Медицинская статистика · Просмотр сообщения: #21530 · Ответов: 8 · Просмотров: 1479

nokh
Отправлено: 31.05.2017 - 22:01


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Zamira @ 31.05.2017 - 13:53) *
Добрый день, коллеги. Вопрос по построению и сравнению рок-кривых. задача стоит следующая: оценить прогностическую значимость и референс значений уровня тиреоглобулина (ТГ) в смыве из пунктатов у пациентов с раками щитовидной железы (рщж), а также сравнить диагностическую значимость этого исследования с рез-ми цитологического исследования. Имеется следюущий набор данных: результаты гистологического заключения, на основании которого были сделаны выводы есть/нет рщж, есть рез-ты цитологии, есть результаты смыва ТГ. Пыталась строить кривые в спсс и медкалке, хочется определиться правильно ли выбран алгоритм действий. классифицировала пациентов с рщж '-' как 0, рщж '+' как 1, в соседнем столбце указаны значения ТГ, далее все показатели вносились в программу и выдавались рез-ты кривых. Запуталась немного, прочитав информацию вот здесь http://www.rad.jhmi.edu/jeng/javarad/roc/h...rs/formats.html . Есть ли возможность сранвить кривые ТГ и цитологии? если да,ак это сделать? буду очень благодарна за ответ)

Сравнивать можно. Нашёл недавно бесплатный ресурс, который проводит ROC-анализ лучше, чем указанные вами коммерческие пакеты. Только оптимальное пороговое значение ищет 34 способами; сравнивать кривые тоже позволяет - нужно только указать сразу несколько маркёров. Всё прекрасно закачивается, обсчитывается и строятся графики (единственный минус - десятичную точку на запятую не поменять на рисунках через настройки. На радостях со следующего учебного года введу ROC-анализ в читаемый студентам курс.

http://www.biosoft.hacettepe.edu.tr/easyROC/
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #21510 · Ответов: 8 · Просмотров: 1479

nokh
Отправлено: 31.05.2017 - 21:50


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Де-факто стандарт статистических вычислений - среда R: https://ru.wikipedia.org/wiki/R_(язык_программирования)
  Форум: Медицинская статистика · Просмотр сообщения: #21509 · Ответов: 7 · Просмотров: 2024

nokh
Отправлено: 31.05.2017 - 21:36


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Благодарю откликнувшихся!

1) По поводу того, что "геометрия поверхностей определяется сдвигом, изменением масштаба и вращением..." Вспомнил после вашего поста про прокрустов анализ. Возможно его также можно приспособить для сравнения двумерных матриц, т.е. когда есть оси X и Y, а на пересечении значения, которые собирался откладывать по оси Z. У Кирилла Орлова (http://spsstools.net/ru/macros/KO-spssmacros/) есть макрос под SPSS, который делает прокрустов анализ с возможностями более тонкой настройки, чем PROTEST в виде самостоятельного пакета или под R. Там можно отключать отдельные процедуры прокрустового преобразования (изометрическое растяжение-сжатие, вращение, отображение) и рандомизационной процедурой получать не только общее р, но и поячеечное. Вот я и подумал, что если отключить все 3 преобразования, то получаем возможность сравнить 2 матрицы чистой рандомизацией + получить р для каждой ячейки. Т.о. можно построить уже 3D поверхность статистической значимости различий поверхностей, можно срез через неё провести на уровне 0,05 - получим 2d-контур значимости различий. Мне кажется, что такая идея вполне жизнеспособна, хотя сам путь через прокрустов анализ в котором отключены все прокрустовы преобразования, конечно, диковат wink.gif Наверное в R можно куда эффективнее реализовать рандомизационную процедуру сравнения поверхностей напрямую. Ограничение здесь - должны быть жёстко одинаковые координаты для X и Y, но это как раз мой случай.

2) По поводу случайных полей порылся, посмотрел отечественные источники по марковским случайным полям и зарубежные по random fields. Материалы есть, но взять за образец нечего. Зато через random fields вышел на смежную область - functional imaging. Там всё очень круто: и сглаживание, и значимость, и регрессия с прогнозом, и специальные варианты анализа главных компонент, и др. Пока немного зарылся в эту область. Мне так круто не нужно, но "на вырост" - полезно познакомиться. Большой плюс - здесь есть достаточно материала по которому можно учиться. Есть пакеты под R, есть даже со своим GUI: https://cran.r-project.org/web/views/MedicalImaging.html
Попробую в эту сторону двинуться...
  Форум: Медицинская статистика · Просмотр сообщения: #21508 · Ответов: 4 · Просмотров: 845

nokh
Отправлено: 21.05.2017 - 22:58


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Такая проблема. В ячейках регулярной сетки XY 30 х 30 находятся наблюдения с разными значениями Z. Т.о. имеем трёхмерную (3D) поверхность, которую для визуализации можно сгладить сплайнами. В других условиях значения Z изменяются и поверхность меняет форму. Необходимо сравнить изменения не только визуально, но и статистически. Понятно, что категориями средних значений проблему не решить, т.к. средние могут и не измениться, а вот рисунок на поверхности - изменится: зоны локальных максимумов и минимумов сместятся.

Пока придумал приспособить подход, идею (но не реализацию) которого подсмотрел у геостатистиков: нарезать куб (XYZ) на ячейки и подсчитать количество наблюдений в них. Например, X и Y разделить на 6 ячеек по 5 точек сетки. Получим поле из 6 х 6 = 36 ячеек. Теперь ось Z нарезаем на несколько слоёв от Zmin до Zmax для объединённых наборов данных, пусть на 3 слоя: мало, средне, много. Подсчитываем количество наблюдений в кадой ячейке каждого слоя для 1-ой поверхности и для 2-ой. Получаем 2 трёхмерных таблицы сопряжённости. Насколько я понимаю, хи-квадрат здесь не подойдёт, т.к. все три входа фиксированы. Т.е. имеем не биномиальное, а гипергеометрическое распределение, и сравнивать такие таблицы нужно каким-то многомерным аналогом точного метода Фишера или рандомизационным тестом.

Сделать это, наверное, смогу, но есть сомнения. Во-первых, непонятно на сколько кубиков лучше резать большой куб: дедовские рекомендации про 5 значений на ячейку для Монте-Карло не имеют смысла. Во-вторых, описанный подход сгодится и для нерегулярной сетки, т.е. возможно для регулярной он слишком груб и я просто не знаю каких-то уже существующих более точных способов, ведь с 3D-моделями работают достаточно плотно, должна быть и статистика под это. Раз мы можем построить доверительные интервалы для 2D сплайна и сравнить их для двух наборов, возможно что-то подобное можно сделать и для 3D. Буду признателен за критику, идеи, ссылки!
  Форум: Медицинская статистика · Просмотр сообщения: #21476 · Ответов: 4 · Просмотров: 845

nokh
Отправлено: 21.05.2017 - 22:16


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 18.05.2017 - 01:10) *
Неблагодарные...

Скорее - невнимательные... Сразу же написал про согласованные стандартизованные остатки Хабермана (Adjusted standardized residuals). Ну это чтобы не делать из одной большой таблицы сопряжённости миллион таблиц 2х2 - как тут рекламирующий свои услуги предприниматель рекомендует. И про отклонения Фримана - Тьюки (Freeman-Tukey deviaties) на форуме писалось неоднократно.
  Форум: Медицинская статистика · Просмотр сообщения: #21475 · Ответов: 12 · Просмотров: 1525

nokh
Отправлено: 17.05.2017 - 21:43


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 17.05.2017 - 16:35) *
Пожалуйста, не пишите больше так эту фамилию. Он - Карло-Эмилио Бонферрони.

Пора вводить поправку Карлоса Сесара Сальвадора Араньи Кастанеды: на точку сборки в другой реальности. Говоришь людям что делать, а они - про поправку Бонферрони...
  Форум: Медицинская статистика · Просмотр сообщения: #21444 · Ответов: 12 · Просмотров: 1525

nokh
Отправлено: 17.05.2017 - 00:36


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Robotnik @ 17.05.2017 - 00:50) *
... В итоге у меня имеется два ряда из 12 чисел, каждый из которых характеризует первую и вторую группы. У меня стоит цель проверить, имеется ли статистически значимая разница между этими показателями.
Так вот, эти два ряда цифр я могу оценивать, как количественные и, соответственно, применять для их сравнения статистические критерии для количественных признаков (Стьюдент, Манн-Уитни и т.п.) или же воспринимать их как качественные и применять иные критерии (Хи-квадрат, точный тест Фишера и т.п.)

По поводу диагностики пока непонятно..., а с данными - полный порядок. У вас таблица из 2х строк и 12 колонок (ну или 2х колонок и 12 строк:) , в ячейках находятся частоты. Типичная таблица сопряжённости, которую можно обсчитать хи-квадратом и подобными критериями. Если различия будут значимыми - далее нужно разбираться за счёт каких ячеек она преимущественно проявилась. Это делается с помощью расчёта скорректированных стандартизованных остатков (остатков Хабермана). Всё это легко посчитать в PAST.
  Форум: Медицинская статистика · Просмотр сообщения: #21438 · Ответов: 12 · Просмотров: 1525

nokh
Отправлено: 16.05.2017 - 23:45


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Nerbi @ 11.05.2017 - 23:09) *
Спасибо за совет! Обязательно прочитаю и проверю. Но правильно ли я поняла, что не стоит цепляться за столь категоричные замечания, вроде "данная модель не может адекватно работать, так как для такого большого количества переменных слишком маленькая выборка (на каждую переменную должно быть минимум 100 наблюдений)". Главное, что формула проверялась на выборке (не на одной). Коэффициент конкордации составил 71,5. Чувствительность модели 64,4%, специфичность 76,7%.

1) Тоже считаю что неправильно.

2) Давайте представим ситуацию, что у вас в модели всего 2 предиктора: количественный и качественный дихотомический (альтернативный). Если мы не учитываем возможное взаимодействие между этими предикторами, то картина представляется такой: 2 линии регрессии для логитов, расположенные параллельно одна над другой. Величина их относительного смещения задаётся дихотомическим показателем, например: одна для мужчин, другая - для женщин. Т.е. вместо 410 наблюдений имеем по 205 на каждую регрессию. Честно говоря, исходя из большой практики дисперсионного анализа, я уже изначально не верю в отсутствие взаимодействий биологических факторов. Такие ситуации бывают, но это - исключение из правил. В многофакторной схеме куда чаще есть неаддитивные эффекты, вызванные либо реальной нелинейностью отклика, либо эффектом шкалы (когда средние "таскаются" за хвосты асимметричных распределений). В случае взаимодействия линии регрессии для логитов будут непараллельными, а в модели обычной множественной логистической регрессии это никак не учитывается. В результате имеем несколько сомнительную модель, которая, тем не менее, может быть полезна на практике: может с приемлемой точностью предсказывать бинарный отклик.
Теперь добавляем в модель ещё один показатель. Если он качественный дихотомический - получаем уже 4 бинарные регрессии и ещё больший уход от реальности в сторону абстрактной математики. Кстати, здесь уже начинает отрицательно сказываться несбалансированность групп. Т.е. скорее всего вы получите не 4 равные подгруппы по 102-103 человека, а ассорти. Если же 3-ий предиктор количественный, то много ли линейных зависимостей вы знаете в биологии? Короче, в реальность модели множественной логистической регрессии с 3 предикторами я просто не верю. Но возможно и она что-то прогнозирует. За неимением (или незнанием) лучшего - сгодится...
Теперь добавляем в модель 4-ый показатель... 5-й... Группы тают, остаётся пустота в которой аберрации реальности начинают жить своей жизнью. Про какие 20 предикторов можно говорить? Это даже не просто несерьёзно, это - полный уход в параллельную реальность, или даже другую Вселенную - Вселенную Детерминированности и Аддитивности, где через огромные пространства Пустоты что-то неуловимое движется вдаль по строгим прямым, а жизни просто нет места shok.gif

3) Чувствительность - ужасная, специфичность - страшная, конкордация - ближе к средней (0,5), чем к сильной (1,0). Даже без соображений пункта (2) модель - плохая. А я не верю в столь плохую детерминированность биологических систем. Предположу, что в вашей модели на самом деле несколько моделей - для разных подгрупп пациентов, которые вы, скорее всего, не идентифицируете. Если это так, то стоит попробовать построить не одну универсальную модель (утопия), а для каждой из подгрупп (если таковые действительно есть) - свою. Может оказаться, что для каждой подгруппы будет свой набор предикторов и своя диагностическая эффективность. Выделение таких подгрупп - творческая задача, которую можно решать по-разному.
3.1. Я бы для начала провёл нелинейный анализ главных компонент, который корректно обработает и количественные и порядковые и качественные переменные. Если это сложно - можно и не совсем корректный факторный анализ провести, главное - получить для всех пациентов значения латентных переменных - факторных меток (factor scores) - вместо исходных показателей. Такой анализ, во-первых, обобщит данные, во-вторых - снимет проблему мультиколинеарности, а в-третьих - устранит проблему весов факторов для последующего анализа.
3.2. После этого провести кластерный анализ факторных меток и выделить однородные группы пациентов. Эквилибристика с метками нужна для устранения проблемы весов: если из 20 показателей 15 отражают один процесс, а 5 - второй, то в обычном кластерном анализе ветвление будет проведено только по первому процессу, а второй потеряется для осмысленной интерпретации. Работая с факторными метками мы ничего не упустим.
3.3. Кластеры интерпретировать по-существу медико-биологической природы. Обычно врачи, занимающиеся проблемой, достаточно легко с этим справляются, т.к. знают теорию.
3.4. Для каждого кластера провести поиск наиболее надёжных предикторов
3.5. Для каждого кластера использовать полученные предикторы в несложной логистической регрессии для получения уравнения для прогноза.
  Форум: Медицинская статистика · Просмотр сообщения: #21437 · Ответов: 6 · Просмотров: 1591

nokh
Отправлено: 10.05.2017 - 23:36


Дух форума
*

Группа: Пользователи
Сообщений: 996
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Nerbi @ 10.05.2017 - 13:50) *
Подскажите, можно ли в spss посчитать мощность выборки (если я правильно выражаюсь) - необходимый объем выборки для обеспечения высокой мощности исследования?

Если через меню не нашли, значит нет. Писать ли формулы самостоятельно - зависит от цели. Если цель - освоить методы расчёта объёмов выборки - лучше ничего не придумать. Но если цель - спланировать конкретное исследование и наделать поменьше ошибок - лучше использовать специализированный софт. Есть замечательный бесплатный пакет с интуитивно понятным интерфейсом - G*Power: http://www.gpower.hhu.de/en.html Но он вместо "высокая мощность" потребует конкретного числа, например 0,8, т.е. нужно почитать рекомендации по выбору мощности, желательно для вашей области, задачи или степени важности решения.
  Форум: Медицинская статистика · Просмотр сообщения: #21399 · Ответов: 3 · Просмотров: 1512

40 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена