Что использовать?, стат обработка в клинике |
Здравствуйте, гость ( Вход | Регистрация )
Что использовать?, стат обработка в клинике |
22.12.2016 - 13:21
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 14 Регистрация: 18.12.2016 Пользователь №: 29074 |
Уважаемые форумчане, посоветуйте, пожалста, какие виды стат обработки можно провести:
а) в случае сравнения групп больных (с одинаковой нозологией), которым выполнены различные виды вмешательств? И соответственно мы сравниваем исходы, продолжительность п/о койко-дня, п/о осложнения, наличие осложнений и пр. б) в случае, когда имеется одна большая выборка - к примеру, больные с острой задержкой мочи (ОЗМ), и соответственно - разная этиология, разные тактические подходы, разные прогноз у больных (при опухолевой и неопухолевой этиологии - что ИЗНАЧАЛЬНО влияет на выбор оперативного вмешательства), разный вид проводимого вмешательства (иногда одномоментное(радикальное или паллиативное), иногда этапное (радикальное, паллиативное), иногда различные паллиативные в несколько этапов? ДА, еще есть осложнения той самой ОЗМ (к примеру), влияние которых надо оценить и на выбор первичного вмешательства, и на ранний послеоперационный период, и на на исход. С уважением, Александр |
|
22.12.2016 - 13:35
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 105 Регистрация: 23.11.2016 Пользователь №: 28953 |
Уважаемые форумчане, посоветуйте, пожалста, какие виды стат обработки можно провести: а) в случае сравнения групп больных (с одинаковой нозологией), которым выполнены различные виды вмешательств? И соответственно мы сравниваем исходы, продолжительность п/о койко-дня, п/о осложнения, наличие осложнений и пр. б) в случае, когда имеется одна большая выборка - к примеру, больные с острой задержкой мочи (ОЗМ), и соответственно - разная этиология, разные тактические подходы, разные прогноз у больных (при опухолевой и неопухолевой этиологии - что ИЗНАЧАЛЬНО влияет на выбор оперативного вмешательства), разный вид проводимого вмешательства (иногда одномоментное(радикальное или паллиативное), иногда этапное (радикальное, паллиативное), иногда различные паллиативные в несколько этапов? ДА, еще есть осложнения той самой ОЗМ (к примеру), влияние которых надо оценить и на выбор первичного вмешательства, и на ранний послеоперационный период, и на на исход С уважением, Александр Привет, коллега Александр! Если Вы желаете получить более конкретные пожелания по методам стат. анализа при сравнении этих групп, то следует уточнить вот какие детали: 1) объёмы наблюдений (пациентов) в каждой из групп сравнения; 2) число количественных признаков, и число качественных (группирующих) признаков, типа пол, анамнез, и т.п. Это необходимо потому, что при определённых соотношениях этих параметров, одни методы целесообразно использовать, а другие - нет. Кстати, было бы неплохо и уточнить ЦЕЛЬ исследования. Т.е объяснить, зачем нужны результаты этих сравнений, и для чего планируется их использовать. Это тоже помогает конкретизировать предлагаемые методы. В качестве примера почитайте статью по адресу http://www.biometrica.tomsk.ru/comp_aver.htm Там описывается, какие методы кроме сравнения групповых средних, также рационально использовать. Итак, уточняем информацию по анализируемой базе данных. Сообщение отредактировал leo_biostat - 22.12.2016 - 13:44 |
|
22.12.2016 - 16:38
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 14 Регистрация: 18.12.2016 Пользователь №: 29074 |
Привет, коллега Александр! Если Вы желаете получить более конкретные пожелания по методам стат. анализа при сравнении этих групп, то следует уточнить вот какие детали: 1) объёмы наблюдений (пациентов) в каждой из групп сравнения; 2) число количественных признаков, и число качественных (группирующих) признаков, типа пол, анамнез, и т.п. Это необходимо потому, что при определённых соотношениях этих параметров, одни методы целесообразно использовать, а другие - нет. Кстати, было бы неплохо и уточнить ЦЕЛЬ исследования. Т.е объяснить, зачем нужны результаты этих сравнений, и для чего планируется их использовать. Это тоже помогает конкретизировать предлагаемые методы. В качестве примера почитайте статью по адресу http://www.biometrica.tomsk.ru/comp_aver.htm Там описывается, какие методы кроме сравнения групповых средних, также рационально использовать. Итак, уточняем информацию по анализируемой базе данных. Спасибо, leo_biostat А. 1) 64 и 153; 350 и 1700; 1800 и 800 2) качественные признаки: возраст, пол, сопутствующая патология, вид осложнения, характер осложнения и др. А вот с количественными признаками вопрос: если брать x- мужчин и y - женщин или g- пациенты до 50-ти лет, h - пациенты 50-70 лет, j - пациенты старше 70-ти лет, то в сумме будет и 64, и 153, и 350 и тд. А если брать под количественными признаками вид осложнения (например 2 кровотечения, 2 нагноения и т.д.) - это будет в сумме 64, которые из 1700 - но каким стат методом их соотнести? Или (если количественный метод вид операции) - 20 дренирований, 20 стентирований и т.д., сумма которых будет превышать общее количество больных (например 56 операций у 40 больных) - какие методы к этой выборке лучше приложить? Б. цель: а) оценить риск развития осложнений в зависимости от вида вмешательства; в зависимости от исходной тяжести состояния больных; в зависимости от ... (любые качественные факторы, пол, анамнез, длительность заболевания и пр.) б) описать вероятность развития того или иного вида исхода (кровотечение, нагноение, смерть) в зависимости от ..... (см выше) в) структурировать проведенные вмешательства, полученные исходы - методами статистики, а не голыми процентами С уважением |
|
22.12.2016 - 19:59
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760 |
Б. цель: а) оценить риск развития осложнений в зависимости от вида вмешательства; в зависимости от исходной тяжести состояния больных; в зависимости от ... (любые качественные факторы, пол, анамнез, длительность заболевания и пр.) б) описать вероятность развития того или иного вида исхода (кровотечение, нагноение, смерть) в зависимости от ..... (см выше) Так это ж классические задачи машинного обучения: выделяете из всей выборки некоторую часть (например, 20%) для финальной проверки - это будет тестовая выборка. На оставшихся 80% гоняете разные алгоритмы, оценивая их качество с помощью перекрестной проверки, и выбираете модель с наилучшей (с точки зрения определенной метрики) предсказательной способностью. |
|
22.12.2016 - 23:42
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
цель: а) оценить риск развития осложнений в зависимости от вида вмешательства; в зависимости от исходной тяжести состояния больных; в зависимости от ... (любые качественные факторы, пол, анамнез, длительность заболевания и пр.) б) описать вероятность развития того или иного вида исхода (кровотечение, нагноение, смерть) в зависимости от ..... (см выше) в) структурировать проведенные вмешательства, полученные исходы - методами статистики, а не голыми процентами Ни один нормальный метод не выдаст вам сразу результата на таких неудобных данных: много показателей, мало людей. Всё должно быть наоборот. Поэтому так или иначе придётся сначала прореживать показатели для выбора наиболее информативных, а уже далее работать с ними. Этот отбор можно организовать по-разному: неклассические методы дискриминантного анализа, ординационные (проекционные) техники с ограничением (constrained ordination), деревья классификации и др. Современной, рациональной и с учётом информации на этом форуме представляется такая схема. Этап 1. Отбор наиболее информативных переменных на основе случайного леса (random forest) деревьев классификации. Собственно, это и есть вариант машинного обучения, уже рекомендованного в предыдущем посте. Поищите на форуме поиском пакет boruta - в одном из постов р2004r достаточно подробно и с кодом на R описывал использование этого пакета. В boruta случайный лес - метод по умолчанию + есть другие. В принципе, random forest есть и в последних версиях Statistica, но пока только видел, не пробовал. В результате получите набор не только самых сильных, но и устойчивых предикторов, устойчивых к изменениям в наборе данных. Этап 2. Отобранные показатели использовать в модели множественной логистической регрессии. Здесь получите более знакомые врачам отношения шансов для предикторов и чувствительность и специфичность всей модели целиком. По такой модели можно будет напрямую считать вероятности исхода для конкретного пациента. |
|
23.12.2016 - 08:47
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 14 Регистрация: 18.12.2016 Пользователь №: 29074 |
Так это ж классические задачи машинного обучения: выделяете из всей выборки некоторую часть (например, 20%) для финальной проверки - это будет тестовая выборка. На оставшихся 80% гоняете разные алгоритмы, оценивая их качество с помощью перекрестной проверки, и выбираете модель с наилучшей (с точки зрения определенной метрики) предсказательной способностью. Спасибо, ogurtsov Ни один нормальный метод не выдаст вам сразу результата на таких неудобных данных: много показателей, мало людей. Всё должно быть наоборот. Поэтому так или иначе придётся сначала прореживать показатели для выбора наиболее информативных, а уже далее работать с ними. Этот отбор можно организовать по-разному: неклассические методы дискриминантного анализа, ординационные (проекционные) техники с ограничением (constrained ordination), деревья классификации и др. Современной, рациональной и с учётом информации на этом форуме представляется такая схема. Этап 1. Отбор наиболее информативных переменных на основе случайного леса (random forest) деревьев классификации. Собственно, это и есть вариант машинного обучения, уже рекомендованного в предыдущем посте. Поищите на форуме поиском пакет boruta - в одном из постов р2004r достаточно подробно и с кодом на R описывал использование этого пакета. В boruta случайный лес - метод по умолчанию + есть другие. В принципе, random forest есть и в последних версиях Statistica, но пока только видел, не пробовал. В результате получите набор не только самых сильных, но и устойчивых предикторов, устойчивых к изменениям в наборе данных. Этап 2. Отобранные показатели использовать в модели множественной логистической регрессии. Здесь получите более знакомые врачам отношения шансов для предикторов и чувствительность и специфичность всей модели целиком. По такой модели можно будет напрямую считать вероятности исхода для конкретного пациента. Спасибо, nokh |
|
23.12.2016 - 10:17
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 14 Регистрация: 18.12.2016 Пользователь №: 29074 |
Ни один нормальный метод не выдаст вам сразу результата на таких неудобных данных: много показателей, мало людей. Всё должно быть наоборот. Поэтому так или иначе придётся сначала прореживать показатели для выбора наиболее информативных, а уже далее работать с ними. Этот отбор можно организовать по-разному: неклассические методы дискриминантного анализа, ординационные (проекционные) техники с ограничением (constrained ordination), деревья классификации и др. Современной, рациональной и с учётом информации на этом форуме представляется такая схема. Этап 1. Отбор наиболее информативных переменных на основе случайного леса (random forest) деревьев классификации. Собственно, это и есть вариант машинного обучения, уже рекомендованного в предыдущем посте. Поищите на форуме поиском пакет boruta - в одном из постов р2004r достаточно подробно и с кодом на R описывал использование этого пакета. В boruta случайный лес - метод по умолчанию + есть другие. В принципе, random forest есть и в последних версиях Statistica, но пока только видел, не пробовал. В результате получите набор не только самых сильных, но и устойчивых предикторов, устойчивых к изменениям в наборе данных. Этап 2. Отобранные показатели использовать в модели множественной логистической регрессии. Здесь получите более знакомые врачам отношения шансов для предикторов и чувствительность и специфичность всей модели целиком. По такой модели можно будет напрямую считать вероятности исхода для конкретного пациента. Спасибо, nokh |
|
24.12.2016 - 00:30
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
а) в случае сравнения групп больных (с одинаковой нозологией), которым выполнены различные виды вмешательств? И соответственно мы сравниваем исходы, продолжительность п/о койко-дня, п/о осложнения, наличие осложнений и пр. Выбор статистических методов определяется прежде всего типом клинического исследования. Описание первого дизайна скорее напоминает контролируемое клиническое исследование, в котором в качестве контроля может выступать применительно к хирургии какой то (или какие то) методы традиционной хирургической тактики. Вы предлагаете новый и хотите сравнить со старым. При таком типе исследования необходима рандомизация, но, в реальных условия хирургической практики нужно думать не о методах рандомизации, а о том какая операционная свободна. В этих условиях необходимо доказать гомогенность групп и не только по нозологии, но и по другим факторам, которые могут влиять на исход, т.е. обеспечить контроль конфаундингов при анализе влияния типа хирургического вмешательства на исход. Но, если группы у вас, действительно различаются только видом вмешательства и сравниваются только два их вида (основная группа и контрольная) и исходов у вас только два (желаемый результат достигнут и не достигнут), то строятся элементарные таблицы сопряженности 2х2 и рассчитывается отношение рисков (RR) и необходимый ДИ. Исход может бать не бинарным, но представлен в виде упорядоченных категорий , тогда может быть использован хи квадрат критерий для упорядоченных категорий. Савнение койко дней будет происходить иначе. Анализ различий в числе и разнообразии осложений также может потребовать использования специальных методов, например индексов диверсификации, в случае редких, но важних для клиники осложнений. б) в случае, когда имеется одна большая выборка - к примеру, больные с острой задержкой мочи (ОЗМ), Большая выборка - это, конечно хорошо, но вы не можете оценить риски возникновения именно этого состояния (ОЗМ) в зависимости от факторов риска (OR или RR) или оценить факторы, снижающие относительный риск (RRR) возникновения ОЗМ. Можно было бы использовать методы уже рекомендованные вам и машинное обучение и логистическую регрессию, дискриминантный анализ (что то все же измеряете, какие то маркеры воспаления или биохимию с иммунологией ), методы деревовидных классификаций, методов классификации очень много. Но у вас нет альтернативной группы ? не у всех же ОЗМ развивается. Поэтому вы не можете провести клиническое исследование типа case ? control при котором как раз и рекомендуется использовать OR для оценки факторов, влияющих на появление этого самого case. Но вы можете рассматривать в собранной вами группе больных с ОЗМ какое то состояние, наступление котрого вас интересует и прогнозировать вероятность его наступления в зависимости от сочетания различных факторов, логистическая регрессия в помощь! |
|
24.12.2016 - 10:06
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 105 Регистрация: 23.11.2016 Пользователь №: 28953 |
Спасибо, leo_biostat А. 1) 64 и 153; 350 и 1700; 1800 и 800 2) качественные признаки: возраст, пол, сопутствующая патология, вид осложнения, характер осложнения и др. А вот с количественными признаками вопрос: если брать x- мужчин и y - женщин или g- пациенты до 50-ти лет, h - пациенты 50-70 лет, j - пациенты старше 70-ти лет, то в сумме будет и 64, и 153, и 350 и тд. А если брать под количественными признаками вид осложнения (например 2 кровотечения, 2 нагноения и т.д.) - это будет в сумме 64, которые из 1700 - но каким стат методом их соотнести? Или (если количественный метод вид операции) - 20 дренирований, 20 стентирований и т.д., сумма которых будет превышать общее количество больных (например 56 операций у 40 больных) - какие методы к этой выборке лучше приложить? Б. цель: а) оценить риск развития осложнений в зависимости от вида вмешательства; в зависимости от исходной тяжести состояния больных; в зависимости от ... (любые качественные факторы, пол, анамнез, длительность заболевания и пр.) б) описать вероятность развития того или иного вида исхода (кровотечение, нагноение, смерть) в зависимости от ..... (см выше) в) структурировать проведенные вмешательства, полученные исходы - методами статистики, а не голыми процентами С уважением Привет, коллега Александр! Констатирую, что Ваша БД отличная! И посему из неё следует извлечь максимум ценной информации, полезной для управления видами исхода. Отмечу, что Цель сформулирована весьма ясно и адекватно. Что редко бывает в аналогичных общениях с другими исследователями. Итак, какие методы стат. анализа можно рекомендовать использовать для получения целевой информации? Сразу скажу, что для такого отличного массива следует обязательно применить МНОГО методов анализа. Почему МНОГО? Потому что, во-первых, цель важная, но сложная. И сразу невозможно сказать, какой из будущих методов будет столь полезным, что никакие остальные методы использовать не следует. Проведу аналогию. Для уточнения состояния больного пациента в любом периоде его лечения, приходится выполнять не 1-2 вида анализа его организма, а достаточно много. Например, анализ крови, анализ мочи, анализ кала, рентген, томография магнитная и компьютерная, УЗИ, и т.д. Поскольку все эти виды анализа дополняют другу друга. И благодаря этому более точно фиксируется состояние пациента. Так и с набором стат. методов. Эти методы дополняют друг друга. И более простые методы помогают лучше понимать более сложные. И в результате формулируются те самые выводы, которые и можно будет применять для управления вероятностями исходов. Вот тот перечень стат. методов анализа, которые рекомендую использовать в Вашем исследовании такого отличного массива данных. 1) кластерный анализ (несколько вариантов); 2) анализ таблиц сопряжённости всех пар качественных признаков; 3) проверка нормальности ВСЕХ количественных признаков во ВСЕХ подгруппах с помощью, как минимум, 4-х критериев (методов), и при этом вычислять ВСЕ дескриптивные параметры групповых распределений; 4) сравнение распределений количественных признаков сравниваемых групп разными методами (как минимум 4-6 методов); 5) корреляционный анализ количественных признаков по всей БД и по отдельным сравниваемым подгруппам разными методами; 6)построение графиков распределения групповых средних и ДИ, а также построение двумерных распределений всех пар количественных признаков в сравниваемых группах (дополнение к пп. 4 и 5); 7) логистическая регрессия для самых основных качественных признаков, причём как минимум по 5-7 видов разных уравнений полученных как разными вариантами оценки уравнений, так и с таблицами результатов логит-регрессии по всем пациентам, и проверка каждого полученного уравнения путём переклассификации пациентов по этим уравнения, и проверка совпадения и не совпадения с фактическим состоянием; 8) линейный и нелинейный дискриминантный анализ; 9) каноническая корреляция (здесь вижу порядка 5-10 вариантов) с последующим графическим представлением сравниваемых групп; 10) множественная регрессия; 11) факторный анализ. Вот таков минимальный перечень методов стат. анализа позволит извлечь весьма максимальное количество информации, по которой можно будет ясно и надёжно сформулировать выводы и правила управления исходом. Желаю успеха! |
|
24.12.2016 - 19:57
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
3) проверка нормальности ВСЕХ количественных признаков во ВСЕХ подгруппах с помощью, как минимум, 4-х критериев (методов), и при этом вычислять ВСЕ дескриптивные параметры групповых распределений... Рекомендация использовать "ковровое бомбометание тестами" (как однажды иронично выразился p2004r) доставляет сама по себе, а применительно к проверке нормальности доставляет вдвойне, порождая при этом лавину 1.А как вообще получена оценка снизу оптимального количества тестов на нормальность (в данном случае 4)? Их же напридумывали гораздо больше. Ведь не может быть, чтобы автор рекомендации затруднился сходу вспомнить более 4-х тестов на нормальность? 2. Ну и какие именно тесты на нормальноть распределения должен использовать вопрошающий, дочитамши до конца подобную рекомендацию? 3. И самое главное ("Least not last"): какой статистический вывод надо сделать вопрошающему, если тесты Шапиро - Уилка и Шапиро - Франчии гипотезу нормальности не отвергают, а тесты Чена - Шапиро и Лина - Мудхолкара отвергают? Заранее благодарен за снисходительные разъяснения. Искренне ваш, 100$ Сообщение отредактировал 100$ - 24.12.2016 - 20:10 |
|
24.12.2016 - 20:07
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Del
Сообщение отредактировал 100$ - 24.12.2016 - 20:08 |
|
25.12.2016 - 02:01
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
3. И самое главное ("Least not last"): какой статистический вывод надо сделать вопрошающему, если тесты Шапиро - Уилка и Шапиро - Франчии гипотезу нормальности не отвергают, а тесты Чена - Шапиро и Лина - Мудхолкара отвергают? Тогда нужно найти какого-нибудь Чена, который обучит поднимать КундаЛини из Муладхары - говорят, тогда вообще сразу Истина открывается и даже статистика не потребуется ;) ! У меня другие мировоззренческие вопросы: вот если на 1800 значениях мы получили нормальное распределение (в чём я очень сильно сомневаюсь), то получим мы его на 18 000 или 180 000? И если заведомо известно, что не получим, то не пора ли вводить критерии для оценки величины эффекта (effect size) отклонения от нормальности. Или же лучше не тратить время на спорные проверки, а сразу действовать рационально? Мои вопросы - риторические... |
|
25.12.2016 - 12:47
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Ваша правда, Nokh, кто же не знает
Старичина Чен, кстати, как-то обмолвился, что если таинственного змея Кундалини хорошенько |
|
25.12.2016 - 19:03
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 105 Регистрация: 23.11.2016 Пользователь №: 28953 |
Рекомендация использовать "ковровое бомбометание тестами" (как однажды иронично выразился p2004r) доставляет сама по себе, а применительно к проверке нормальности доставляет вдвойне, порождая при этом лавину 1.А как вообще получена оценка снизу оптимального количества тестов на нормальность (в данном случае 4)? Их же напридумывали гораздо больше. Ведь не может быть, чтобы автор рекомендации затруднился сходу вспомнить более 4-х тестов на нормальность? Вы правы, не всякий автор способен затрудниться сходу вспомнить более 4-х тестов на нормальность. Полагаю, что такое утверждение Вы делаете на своём практическом опыте. Что вполне нормально. Вот и я рекомендую эти 4 критерия исходя из своего более 35-летнего опыта выполнения статистического анализа. Именно эти критерии наиболее доступны в популярных статистических пакетах, а некоторые из них наиболее мощные. А тот, кто вообще использует лишь один критерий проверки нормальности, не способен сходу вспоминать более 4-х критериев. При этом, что критериев проверки на нормальность много. Вот лишь небольшой список этих критериев: 1. Али-Чёрго-Ревеса 2. Асимметрии и эксцесса 3. Васичека 4. Гири 5. Д'Агостино 6. Дэвида-Хартли-Пирсона 7. Колмогорова-Смирнова 8. Ла Брека 9. Лина-Мудхолкара 10. Локка-Спурье 11. Мартинеса-Иглевича 12. Муроты-Такеучи 13. Оя 14. Саркади 15. Филлибена 16. Фроцини 17. Хегази-Грина 18. Шапиро-Уилка 19 Шпигельхальтера 20. Критерий, основанный на совокупности малых выборок 21. Модифицированный хи-квадрат критерий. Ну а при отмене нормального распределения, используются и ещё несколько десятков на проверку других видов распределений. 2. Ну и какие именно тесты на нормальноть распределения должен использовать вопрошающий, дочитамши до конца подобную рекомендацию? Набор используемых критериев для проверки нормальности, определяет сам исследователь. Исходя из своих знаний, опыта, и используемых языков программирования или статистических пакетов. Естественно, что желательно при этом использовать более статистически мощные критерии для используемых объёмов выборок. Те критерии, которые упомянуты мною в моих рекомендациях, определены моим личным опытом таких проверок. 3. И самое главное ("Least not last"): какой статистический вывод надо сделать вопрошающему, если тесты Шапиро - Уилка и Шапиро - Франчии гипотезу нормальности не отвергают, а тесты Чена - Шапиро и Лина - Мудхолкара отвергают? Заранее благодарен за снисходительные разъяснения. Искренне ваш, 100$ Уважаемый коллега! Мой ответ вовсе не является "снисходительным". Это обмен мнением с коллегами. Уверен, что и у Вас тоже огромный опыт по статистическому анализу. И при желании Вы также высказываете свои детальные мнения по подобным вопросам. Однако у всех нас, занятыми такой деятельностью, своя специфика и особенность этой работы. В последние 10 лет у меня стремительно возрастает доля анализа очень больших объёмов выборок. И вот для таких больших массивов данных, упомянутые конфликты критериев как раз продуктивны. Поскольку активируют дальнейшие исследования. Некоторые аспекты этого я описал в своей последней статье по адресу http://www.biometrica.tomsk.ru/comp_aver.htm А вот конкретный пример по такой ситуации. Исходная группа анализа N = 55477 Mean = 24.2700117 Std Deviation = 3.1237266 Kolmogorov-Smirnov Pr > D <0.0100 Cramer-von Mises Pr > W-Sq 0.0504 Anderson-Darling Pr > A-Sq 0.0545 То есть при анализе выборки из 55477 наблюдений, один критерий отвергает нормальное распределение, а 2 других критерия - поддерживают. Дальнейший анализ разных деталей этого распределения, позволил обнаружить наличие двух следующих подгрупп: Группа 1) N = 30238 Mean = 24.5027307 Std Deviation = 3.19997413 Kolmogorov-Smirnov Pr > D 0.0843 Cramer-von Mises Pr > W-Sq 0.1366 Anderson-Darling Pr > A-Sq 0.1941 Группа 2) N 25239 Mean 23.9911989 Std Deviation 3.00628606 Kolmogorov-Smirnov Pr > D 0.1000 Cramer-von Mises Pr > W-Sq 0.1849 Anderson-Darling Pr > A-Sq 0.1837 ____________________________________________ Когда я убеждаю медиков в необходимости использовать более 2-3-х статистических методов анализа, я напоминаю им, как практикующие медики уточняют состояние пациента. Они используют для этого очень много методов анализа: анализ крови, анализ мочи, ЭКГ, томография, УЗИ, и т.д. Что и позволяет им установить наиболее вероятное состояние пациента, и в результате выбрать оптимальную подборку методов лечения. Такая же методология и в во многих науках, включая и статистику. Спасибо за внимание к моим рекомендациям. Уверен, что и Вы также часто выкладываете для читателей подобные полезные рекомендации. |
|
25.12.2016 - 19:04
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 14 Регистрация: 18.12.2016 Пользователь №: 29074 |
Выбор статистических методов определяется прежде всего типом клинического исследования. Описание первого дизайна скорее напоминает контролируемое клиническое исследование, в котором в качестве контроля может выступать применительно к хирургии какой то (или какие то) методы традиционной хирургической тактики. Вы предлагаете новый и хотите сравнить со старым. При таком типе исследования необходима рандомизация, но, в реальных условия хирургической практики нужно думать не о методах рандомизации, а о том какая операционная свободна. В этих условиях необходимо доказать гомогенность групп и не только по нозологии, но и по другим факторам, которые могут влиять на исход, т.е. обеспечить контроль конфаундингов при анализе влияния типа хирургического вмешательства на исход. Но, если группы у вас, действительно различаются только видом вмешательства и сравниваются только два их вида (основная группа и контрольная) и исходов у вас только два (желаемый результат достигнут и не достигнут), то строятся элементарные таблицы сопряженности 2х2 и рассчитывается отношение рисков (RR) и необходимый ДИ. Исход может бать не бинарным, но представлен в виде упорядоченных категорий , тогда может быть использован хи квадрат критерий для упорядоченных категорий. Савнение койко дней будет происходить иначе. Анализ различий в числе и разнообразии осложений также может потребовать использования специальных методов, например индексов диверсификации, в случае редких, но важних для клиники осложнений. Большая выборка - это, конечно хорошо, но вы не можете оценить риски возникновения именно этого состояния (ОЗМ) в зависимости от факторов риска (OR или RR) или оценить факторы, снижающие относительный риск (RRR) возникновения ОЗМ. Можно было бы использовать методы уже рекомендованные вам и машинное обучение и логистическую регрессию, дискриминантный анализ (что то все же измеряете, какие то маркеры воспаления или биохимию с иммунологией ), методы деревовидных классификаций, методов классификации очень много. Но у вас нет альтернативной группы ? не у всех же ОЗМ развивается. Поэтому вы не можете провести клиническое исследование типа case ? control при котором как раз и рекомендуется использовать OR для оценки факторов, влияющих на появление этого самого case. Но вы можете рассматривать в собранной вами группе больных с ОЗМ какое то состояние, наступление котрого вас интересует и прогнозировать вероятность его наступления в зависимости от сочетания различных факторов, логистическая регрессия в помощь! Спасибо, DrgLena |
|