Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

3 страниц V   1 2 3 >  
Добавить ответ в эту темуОткрыть тему
> Что использовать?, стат обработка в клинике
fattymouse
сообщение 22.12.2016 - 13:21
Сообщение #1





Группа: Пользователи
Сообщений: 14
Регистрация: 18.12.2016
Пользователь №: 29074



Уважаемые форумчане, посоветуйте, пожалста, какие виды стат обработки можно провести:
а) в случае сравнения групп больных (с одинаковой нозологией), которым выполнены различные виды вмешательств? И соответственно мы сравниваем исходы, продолжительность п/о койко-дня, п/о осложнения, наличие осложнений и пр.
б) в случае, когда имеется одна большая выборка - к примеру, больные с острой задержкой мочи (ОЗМ), и соответственно - разная этиология, разные тактические подходы, разные прогноз у больных (при опухолевой и неопухолевой этиологии - что ИЗНАЧАЛЬНО влияет на выбор оперативного вмешательства), разный вид проводимого вмешательства (иногда одномоментное(радикальное или паллиативное), иногда этапное (радикальное, паллиативное), иногда различные паллиативные в несколько этапов? ДА, еще есть осложнения той самой ОЗМ (к примеру), влияние которых надо оценить и на выбор первичного вмешательства, и на ранний послеоперационный период, и на на исход.
С уважением, Александр
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
leo_biostat
сообщение 22.12.2016 - 13:35
Сообщение #2





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953



Цитата(fattymouse @ 22.12.2016 - 13:21) *
Уважаемые форумчане, посоветуйте, пожалста, какие виды стат обработки можно провести:
а) в случае сравнения групп больных (с одинаковой нозологией), которым выполнены различные виды вмешательств? И соответственно мы сравниваем исходы, продолжительность п/о койко-дня, п/о осложнения, наличие осложнений и пр.
б) в случае, когда имеется одна большая выборка - к примеру, больные с острой задержкой мочи (ОЗМ), и соответственно - разная этиология, разные тактические подходы, разные прогноз у больных (при опухолевой и неопухолевой этиологии - что ИЗНАЧАЛЬНО влияет на выбор оперативного вмешательства), разный вид проводимого вмешательства (иногда одномоментное(радикальное или паллиативное), иногда этапное (радикальное, паллиативное), иногда различные паллиативные в несколько этапов? ДА, еще есть осложнения той самой ОЗМ (к примеру), влияние которых надо оценить и на выбор первичного вмешательства, и на ранний послеоперационный период, и на на исход
С уважением, Александр



Привет, коллега Александр!

Если Вы желаете получить более конкретные пожелания по методам стат. анализа при сравнении этих групп, то следует уточнить вот какие детали:
1) объёмы наблюдений (пациентов) в каждой из групп сравнения;
2) число количественных признаков, и число качественных (группирующих) признаков, типа пол, анамнез, и т.п.
Это необходимо потому, что при определённых соотношениях этих параметров, одни методы целесообразно использовать, а другие - нет.

Кстати, было бы неплохо и уточнить ЦЕЛЬ исследования. Т.е объяснить, зачем нужны результаты этих сравнений, и для чего планируется их использовать.
Это тоже помогает конкретизировать предлагаемые методы. В качестве примера почитайте статью по адресу http://www.biometrica.tomsk.ru/comp_aver.htm
Там описывается, какие методы кроме сравнения групповых средних, также рационально использовать.

Итак, уточняем информацию по анализируемой базе данных.

Сообщение отредактировал leo_biostat - 22.12.2016 - 13:44
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
fattymouse
сообщение 22.12.2016 - 16:38
Сообщение #3





Группа: Пользователи
Сообщений: 14
Регистрация: 18.12.2016
Пользователь №: 29074



Цитата(leo_biostat @ 22.12.2016 - 13:35) *
Привет, коллега Александр!

Если Вы желаете получить более конкретные пожелания по методам стат. анализа при сравнении этих групп, то следует уточнить вот какие детали:
1) объёмы наблюдений (пациентов) в каждой из групп сравнения;
2) число количественных признаков, и число качественных (группирующих) признаков, типа пол, анамнез, и т.п.
Это необходимо потому, что при определённых соотношениях этих параметров, одни методы целесообразно использовать, а другие - нет.

Кстати, было бы неплохо и уточнить ЦЕЛЬ исследования. Т.е объяснить, зачем нужны результаты этих сравнений, и для чего планируется их использовать.
Это тоже помогает конкретизировать предлагаемые методы. В качестве примера почитайте статью по адресу http://www.biometrica.tomsk.ru/comp_aver.htm
Там описывается, какие методы кроме сравнения групповых средних, также рационально использовать.

Итак, уточняем информацию по анализируемой базе данных.


Спасибо, leo_biostat
А.
1) 64 и 153; 350 и 1700; 1800 и 800
2) качественные признаки: возраст, пол, сопутствующая патология, вид осложнения, характер осложнения и др. А вот с количественными признаками вопрос: если брать x- мужчин и y - женщин или g- пациенты до 50-ти лет, h - пациенты 50-70 лет, j - пациенты старше 70-ти лет, то в сумме будет и 64, и 153, и 350 и тд. А если брать под количественными признаками вид осложнения (например 2 кровотечения, 2 нагноения и т.д.) - это будет в сумме 64, которые из 1700 - но каким стат методом их соотнести? Или (если количественный метод вид операции) - 20 дренирований, 20 стентирований и т.д., сумма которых будет превышать общее количество больных (например 56 операций у 40 больных) - какие методы к этой выборке лучше приложить?

Б.
цель:
а) оценить риск развития осложнений в зависимости от вида вмешательства; в зависимости от исходной тяжести состояния больных; в зависимости от ... (любые качественные факторы, пол, анамнез, длительность заболевания и пр.)
б) описать вероятность развития того или иного вида исхода (кровотечение, нагноение, смерть) в зависимости от ..... (см выше)
в) структурировать проведенные вмешательства, полученные исходы - методами статистики, а не голыми процентами smile.gif

С уважением
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ogurtsov
сообщение 22.12.2016 - 19:59
Сообщение #4





Группа: Пользователи
Сообщений: 127
Регистрация: 15.12.2015
Пользователь №: 27760



Цитата(fattymouse @ 22.12.2016 - 16:38) *
Б.
цель:
а) оценить риск развития осложнений в зависимости от вида вмешательства; в зависимости от исходной тяжести состояния больных; в зависимости от ... (любые качественные факторы, пол, анамнез, длительность заболевания и пр.)
б) описать вероятность развития того или иного вида исхода (кровотечение, нагноение, смерть) в зависимости от ..... (см выше)


Так это ж классические задачи машинного обучения: выделяете из всей выборки некоторую часть (например, 20%) для финальной проверки - это будет тестовая выборка. На оставшихся 80% гоняете разные алгоритмы, оценивая их качество с помощью перекрестной проверки, и выбираете модель с наилучшей (с точки зрения определенной метрики) предсказательной способностью.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 22.12.2016 - 23:42
Сообщение #5





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(fattymouse @ 22.12.2016 - 18:38) *
цель:
а) оценить риск развития осложнений в зависимости от вида вмешательства; в зависимости от исходной тяжести состояния больных; в зависимости от ... (любые качественные факторы, пол, анамнез, длительность заболевания и пр.)
б) описать вероятность развития того или иного вида исхода (кровотечение, нагноение, смерть) в зависимости от ..... (см выше)
в) структурировать проведенные вмешательства, полученные исходы - методами статистики, а не голыми процентами smile.gif

Ни один нормальный метод не выдаст вам сразу результата на таких неудобных данных: много показателей, мало людей. Всё должно быть наоборот. Поэтому так или иначе придётся сначала прореживать показатели для выбора наиболее информативных, а уже далее работать с ними. Этот отбор можно организовать по-разному: неклассические методы дискриминантного анализа, ординационные (проекционные) техники с ограничением (constrained ordination), деревья классификации и др. Современной, рациональной и с учётом информации на этом форуме представляется такая схема.

Этап 1. Отбор наиболее информативных переменных на основе случайного леса (random forest) деревьев классификации. Собственно, это и есть вариант машинного обучения, уже рекомендованного в предыдущем посте. Поищите на форуме поиском пакет boruta - в одном из постов р2004r достаточно подробно и с кодом на R описывал использование этого пакета. В boruta случайный лес - метод по умолчанию + есть другие. В принципе, random forest есть и в последних версиях Statistica, но пока только видел, не пробовал. В результате получите набор не только самых сильных, но и устойчивых предикторов, устойчивых к изменениям в наборе данных.

Этап 2. Отобранные показатели использовать в модели множественной логистической регрессии. Здесь получите более знакомые врачам отношения шансов для предикторов и чувствительность и специфичность всей модели целиком. По такой модели можно будет напрямую считать вероятности исхода для конкретного пациента.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
fattymouse
сообщение 23.12.2016 - 08:47
Сообщение #6





Группа: Пользователи
Сообщений: 14
Регистрация: 18.12.2016
Пользователь №: 29074



Цитата(ogurtsov @ 22.12.2016 - 19:59) *
Так это ж классические задачи машинного обучения: выделяете из всей выборки некоторую часть (например, 20%) для финальной проверки - это будет тестовая выборка. На оставшихся 80% гоняете разные алгоритмы, оценивая их качество с помощью перекрестной проверки, и выбираете модель с наилучшей (с точки зрения определенной метрики) предсказательной способностью.

Спасибо, ogurtsov

Цитата(nokh @ 22.12.2016 - 23:42) *
Ни один нормальный метод не выдаст вам сразу результата на таких неудобных данных: много показателей, мало людей. Всё должно быть наоборот. Поэтому так или иначе придётся сначала прореживать показатели для выбора наиболее информативных, а уже далее работать с ними. Этот отбор можно организовать по-разному: неклассические методы дискриминантного анализа, ординационные (проекционные) техники с ограничением (constrained ordination), деревья классификации и др. Современной, рациональной и с учётом информации на этом форуме представляется такая схема.

Этап 1. Отбор наиболее информативных переменных на основе случайного леса (random forest) деревьев классификации. Собственно, это и есть вариант машинного обучения, уже рекомендованного в предыдущем посте. Поищите на форуме поиском пакет boruta - в одном из постов р2004r достаточно подробно и с кодом на R описывал использование этого пакета. В boruta случайный лес - метод по умолчанию + есть другие. В принципе, random forest есть и в последних версиях Statistica, но пока только видел, не пробовал. В результате получите набор не только самых сильных, но и устойчивых предикторов, устойчивых к изменениям в наборе данных.

Этап 2. Отобранные показатели использовать в модели множественной логистической регрессии. Здесь получите более знакомые врачам отношения шансов для предикторов и чувствительность и специфичность всей модели целиком. По такой модели можно будет напрямую считать вероятности исхода для конкретного пациента.

Спасибо, nokh
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
fattymouse
сообщение 23.12.2016 - 10:17
Сообщение #7





Группа: Пользователи
Сообщений: 14
Регистрация: 18.12.2016
Пользователь №: 29074



Цитата(nokh @ 22.12.2016 - 23:42) *
Ни один нормальный метод не выдаст вам сразу результата на таких неудобных данных: много показателей, мало людей. Всё должно быть наоборот. Поэтому так или иначе придётся сначала прореживать показатели для выбора наиболее информативных, а уже далее работать с ними. Этот отбор можно организовать по-разному: неклассические методы дискриминантного анализа, ординационные (проекционные) техники с ограничением (constrained ordination), деревья классификации и др. Современной, рациональной и с учётом информации на этом форуме представляется такая схема.

Этап 1. Отбор наиболее информативных переменных на основе случайного леса (random forest) деревьев классификации. Собственно, это и есть вариант машинного обучения, уже рекомендованного в предыдущем посте. Поищите на форуме поиском пакет boruta - в одном из постов р2004r достаточно подробно и с кодом на R описывал использование этого пакета. В boruta случайный лес - метод по умолчанию + есть другие. В принципе, random forest есть и в последних версиях Statistica, но пока только видел, не пробовал. В результате получите набор не только самых сильных, но и устойчивых предикторов, устойчивых к изменениям в наборе данных.

Этап 2. Отобранные показатели использовать в модели множественной логистической регрессии. Здесь получите более знакомые врачам отношения шансов для предикторов и чувствительность и специфичность всей модели целиком. По такой модели можно будет напрямую считать вероятности исхода для конкретного пациента.

Спасибо, nokh
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 24.12.2016 - 00:30
Сообщение #8





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Цитата(fattymouse @ 22.12.2016 - 13:21) *
а) в случае сравнения групп больных (с одинаковой нозологией), которым выполнены различные виды вмешательств? И соответственно мы сравниваем исходы, продолжительность п/о койко-дня, п/о осложнения, наличие осложнений и пр.

Выбор статистических методов определяется прежде всего типом клинического исследования. Описание первого дизайна скорее напоминает контролируемое клиническое исследование, в котором в качестве контроля может выступать применительно к хирургии какой то (или какие то) методы традиционной хирургической тактики. Вы предлагаете новый и хотите сравнить со старым. При таком типе исследования необходима рандомизация, но, в реальных условия хирургической практики нужно думать не о методах рандомизации, а о том какая операционная свободна. В этих условиях необходимо доказать гомогенность групп и не только по нозологии, но и по другим факторам, которые могут влиять на исход, т.е. обеспечить контроль конфаундингов при анализе влияния типа хирургического вмешательства на исход.
Но, если группы у вас, действительно различаются только видом вмешательства и сравниваются только два их вида (основная группа и контрольная) и исходов у вас только два (желаемый результат достигнут и не достигнут), то строятся элементарные таблицы сопряженности 2х2 и рассчитывается отношение рисков (RR) и необходимый ДИ. Исход может бать не бинарным, но представлен в виде упорядоченных категорий , тогда может быть использован хи квадрат критерий для упорядоченных категорий. Савнение койко дней будет происходить иначе. Анализ различий в числе и разнообразии осложений также может потребовать использования специальных методов, например индексов диверсификации, в случае редких, но важних для клиники осложнений.
Цитата(fattymouse @ 22.12.2016 - 13:21) *
б) в случае, когда имеется одна большая выборка - к примеру, больные с острой задержкой мочи (ОЗМ),

Большая выборка - это, конечно хорошо, но вы не можете оценить риски возникновения именно этого состояния (ОЗМ) в зависимости от факторов риска (OR или RR) или оценить факторы, снижающие относительный риск (RRR) возникновения ОЗМ. Можно было бы использовать методы уже рекомендованные вам и машинное обучение и логистическую регрессию, дискриминантный анализ (что то все же измеряете, какие то маркеры воспаления или биохимию с иммунологией smile.gif ), методы деревовидных классификаций, методов классификации очень много. Но у вас нет альтернативной группы ? не у всех же ОЗМ развивается. Поэтому вы не можете провести клиническое исследование типа case ? control при котором как раз и рекомендуется использовать OR для оценки факторов, влияющих на появление этого самого case.
Но вы можете рассматривать в собранной вами группе больных с ОЗМ какое то состояние, наступление котрого вас интересует и прогнозировать вероятность его наступления в зависимости от сочетания различных факторов, логистическая регрессия в помощь!

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
leo_biostat
сообщение 24.12.2016 - 10:06
Сообщение #9





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953



Цитата(fattymouse @ 22.12.2016 - 16:38) *
Спасибо, leo_biostat
А.
1) 64 и 153; 350 и 1700; 1800 и 800
2) качественные признаки: возраст, пол, сопутствующая патология, вид осложнения, характер осложнения и др. А вот с количественными признаками вопрос: если брать x- мужчин и y - женщин или g- пациенты до 50-ти лет, h - пациенты 50-70 лет, j - пациенты старше 70-ти лет, то в сумме будет и 64, и 153, и 350 и тд. А если брать под количественными признаками вид осложнения (например 2 кровотечения, 2 нагноения и т.д.) - это будет в сумме 64, которые из 1700 - но каким стат методом их соотнести? Или (если количественный метод вид операции) - 20 дренирований, 20 стентирований и т.д., сумма которых будет превышать общее количество больных (например 56 операций у 40 больных) - какие методы к этой выборке лучше приложить?

Б.
цель:
а) оценить риск развития осложнений в зависимости от вида вмешательства; в зависимости от исходной тяжести состояния больных; в зависимости от ... (любые качественные факторы, пол, анамнез, длительность заболевания и пр.)
б) описать вероятность развития того или иного вида исхода (кровотечение, нагноение, смерть) в зависимости от ..... (см выше)
в) структурировать проведенные вмешательства, полученные исходы - методами статистики, а не голыми процентами smile.gif

С уважением


Привет, коллега Александр!

Констатирую, что Ваша БД отличная! И посему из неё следует извлечь максимум ценной информации, полезной для управления видами исхода. Отмечу, что Цель сформулирована весьма ясно и адекватно. Что редко бывает в аналогичных общениях с другими исследователями.

Итак, какие методы стат. анализа можно рекомендовать использовать для получения целевой информации? Сразу скажу, что для такого отличного массива следует обязательно применить МНОГО методов анализа. Почему МНОГО? Потому что, во-первых, цель важная, но сложная. И сразу невозможно сказать, какой из будущих методов будет столь полезным, что никакие остальные методы использовать не следует. Проведу аналогию. Для уточнения состояния больного пациента в любом периоде его лечения, приходится выполнять не 1-2 вида анализа его организма, а достаточно много. Например, анализ крови, анализ мочи, анализ кала, рентген, томография магнитная и компьютерная, УЗИ, и т.д. Поскольку все эти виды анализа дополняют другу друга. И благодаря этому более точно фиксируется состояние пациента. Так и с набором стат. методов. Эти методы дополняют друг друга. И более простые методы помогают лучше понимать более сложные. И в результате формулируются те самые выводы, которые и можно будет применять для управления вероятностями исходов. Вот тот перечень стат. методов анализа, которые рекомендую использовать в Вашем исследовании такого отличного массива данных. 1) кластерный анализ (несколько вариантов); 2) анализ таблиц сопряжённости всех пар качественных признаков; 3) проверка нормальности ВСЕХ количественных признаков во ВСЕХ подгруппах с помощью, как минимум, 4-х критериев (методов), и при этом вычислять ВСЕ дескриптивные параметры групповых распределений; 4) сравнение распределений количественных признаков сравниваемых групп разными методами (как минимум 4-6 методов); 5) корреляционный анализ количественных признаков по всей БД и по отдельным сравниваемым подгруппам разными методами; 6)построение графиков распределения групповых средних и ДИ, а также построение двумерных распределений всех пар количественных признаков в сравниваемых группах (дополнение к пп. 4 и 5); 7) логистическая регрессия для самых основных качественных признаков, причём как минимум по 5-7 видов разных уравнений полученных как разными вариантами оценки уравнений, так и с таблицами результатов логит-регрессии по всем пациентам, и проверка каждого полученного уравнения путём переклассификации пациентов по этим уравнения, и проверка совпадения и не совпадения с фактическим состоянием; 8) линейный и нелинейный дискриминантный анализ; 9) каноническая корреляция (здесь вижу порядка 5-10 вариантов) с последующим графическим представлением сравниваемых групп; 10) множественная регрессия; 11) факторный анализ.

Вот таков минимальный перечень методов стат. анализа позволит извлечь весьма максимальное количество информации, по которой можно будет ясно и надёжно сформулировать выводы и правила управления исходом.

Желаю успеха!

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 24.12.2016 - 19:57
Сообщение #10





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(leo_biostat @ 24.12.2016 - 10:06) *
3) проверка нормальности ВСЕХ количественных признаков во ВСЕХ подгруппах с помощью, как минимум, 4-х критериев (методов), и при этом вычислять ВСЕ дескриптивные параметры групповых распределений...


Рекомендация использовать "ковровое бомбометание тестами" (как однажды иронично выразился p2004r) доставляет сама по себе, а применительно к проверке нормальности доставляет вдвойне, порождая при этом лавину неприличных мировоззренческих вопросов:

1.А как вообще получена оценка снизу оптимального количества тестов на нормальность (в данном случае 4)? Их же напридумывали гораздо больше. Ведь не может быть, чтобы автор рекомендации затруднился сходу вспомнить более 4-х тестов на нормальность?
2. Ну и какие именно тесты на нормальноть распределения должен использовать вопрошающий, дочитамши до конца подобную рекомендацию?
3. И самое главное ("Least not last"): какой статистический вывод надо сделать вопрошающему, если тесты Шапиро - Уилка и Шапиро - Франчии гипотезу нормальности не отвергают, а тесты Чена - Шапиро и Лина - Мудхолкара отвергают?

Заранее благодарен за снисходительные разъяснения.
Искренне ваш,
100$

Сообщение отредактировал 100$ - 24.12.2016 - 20:10
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 24.12.2016 - 20:07
Сообщение #11





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Del

Сообщение отредактировал 100$ - 24.12.2016 - 20:08
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 25.12.2016 - 02:01
Сообщение #12





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(100$ @ 24.12.2016 - 21:57) *
3. И самое главное ("Least not last"): какой статистический вывод надо сделать вопрошающему, если тесты Шапиро - Уилка и Шапиро - Франчии гипотезу нормальности не отвергают, а тесты Чена - Шапиро и Лина - Мудхолкара отвергают?

Тогда нужно найти какого-нибудь Чена, который обучит поднимать КундаЛини из Муладхары - говорят, тогда вообще сразу Истина открывается и даже статистика не потребуется ;) ! У меня другие мировоззренческие вопросы: вот если на 1800 значениях мы получили нормальное распределение (в чём я очень сильно сомневаюсь), то получим мы его на 18 000 или 180 000? И если заведомо известно, что не получим, то не пора ли вводить критерии для оценки величины эффекта (effect size) отклонения от нормальности. Или же лучше не тратить время на спорные проверки, а сразу действовать рационально? Мои вопросы - риторические...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 25.12.2016 - 12:47
Сообщение #13





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Ваша правда, Nokh, кто же не знает старика Крупского гуру Чена.
Старичина Чен, кстати, как-то обмолвился, что если таинственного змея Кундалини хорошенько попинать угостить, то он тотчас превращается в душку-Зеленого Змия и охотно отвечает на самые каверзные риторические вопросы...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
leo_biostat
сообщение 25.12.2016 - 19:03
Сообщение #14





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953



Цитата(100$ @ 24.12.2016 - 19:57) *
Рекомендация использовать "ковровое бомбометание тестами" (как однажды иронично выразился p2004r) доставляет сама по себе, а применительно к проверке нормальности доставляет вдвойне, порождая при этом лавину неприличных мировоззренческих вопросов:

1.А как вообще получена оценка снизу оптимального количества тестов на нормальность (в данном случае 4)? Их же напридумывали гораздо больше. Ведь не может быть, чтобы автор рекомендации затруднился сходу вспомнить более 4-х тестов на нормальность?

Вы правы, не всякий автор способен затрудниться сходу вспомнить более 4-х тестов на нормальность.
Полагаю, что такое утверждение Вы делаете на своём практическом опыте. Что вполне нормально.
Вот и я рекомендую эти 4 критерия исходя из своего более 35-летнего опыта выполнения статистического анализа.
Именно эти критерии наиболее доступны в популярных статистических пакетах, а некоторые из них наиболее мощные.
А тот, кто вообще использует лишь один критерий проверки нормальности, не способен сходу вспоминать более 4-х критериев.
При этом, что критериев проверки на нормальность много. Вот лишь небольшой список этих критериев:
1. Али-Чёрго-Ревеса
2. Асимметрии и эксцесса
3. Васичека
4. Гири
5. Д'Агостино
6. Дэвида-Хартли-Пирсона
7. Колмогорова-Смирнова
8. Ла Брека
9. Лина-Мудхолкара
10. Локка-Спурье
11. Мартинеса-Иглевича
12. Муроты-Такеучи
13. Оя
14. Саркади
15. Филлибена
16. Фроцини
17. Хегази-Грина
18. Шапиро-Уилка
19 Шпигельхальтера
20. Критерий, основанный на совокупности малых выборок
21. Модифицированный хи-квадрат критерий.

Ну а при отмене нормального распределения, используются и ещё несколько десятков на проверку других видов распределений.

Цитата(100$ @ 24.12.2016 - 19:57) *
2. Ну и какие именно тесты на нормальноть распределения должен использовать вопрошающий, дочитамши до конца подобную рекомендацию?

Набор используемых критериев для проверки нормальности, определяет сам исследователь.
Исходя из своих знаний, опыта, и используемых языков программирования или статистических пакетов.
Естественно, что желательно при этом использовать более статистически мощные критерии для используемых объёмов выборок.
Те критерии, которые упомянуты мною в моих рекомендациях, определены моим личным опытом таких проверок.


Цитата(100$ @ 24.12.2016 - 19:57) *
3. И самое главное ("Least not last"): какой статистический вывод надо сделать вопрошающему, если тесты Шапиро - Уилка и Шапиро - Франчии гипотезу нормальности не отвергают, а тесты Чена - Шапиро и Лина - Мудхолкара отвергают?

Заранее благодарен за снисходительные разъяснения.
Искренне ваш,
100$

Уважаемый коллега! Мой ответ вовсе не является "снисходительным". Это обмен мнением с коллегами.
Уверен, что и у Вас тоже огромный опыт по статистическому анализу. И при желании Вы также высказываете свои детальные мнения по подобным вопросам.
Однако у всех нас, занятыми такой деятельностью, своя специфика и особенность этой работы.
В последние 10 лет у меня стремительно возрастает доля анализа очень больших объёмов выборок.
И вот для таких больших массивов данных, упомянутые конфликты критериев как раз продуктивны.
Поскольку активируют дальнейшие исследования. Некоторые аспекты этого я описал в своей последней статье по адресу http://www.biometrica.tomsk.ru/comp_aver.htm

А вот конкретный пример по такой ситуации.

Исходная группа анализа

N = 55477
Mean = 24.2700117
Std Deviation = 3.1237266

Kolmogorov-Smirnov Pr > D <0.0100
Cramer-von Mises Pr > W-Sq 0.0504
Anderson-Darling Pr > A-Sq 0.0545

То есть при анализе выборки из 55477 наблюдений, один критерий отвергает нормальное распределение, а 2 других критерия - поддерживают.

Дальнейший анализ разных деталей этого распределения, позволил обнаружить наличие двух следующих подгрупп:

Группа 1)

N = 30238
Mean = 24.5027307
Std Deviation = 3.19997413

Kolmogorov-Smirnov Pr > D 0.0843
Cramer-von Mises Pr > W-Sq 0.1366
Anderson-Darling Pr > A-Sq 0.1941


Группа 2)

N 25239
Mean 23.9911989
Std Deviation 3.00628606

Kolmogorov-Smirnov Pr > D 0.1000
Cramer-von Mises Pr > W-Sq 0.1849
Anderson-Darling Pr > A-Sq 0.1837
____________________________________________

Когда я убеждаю медиков в необходимости использовать более 2-3-х статистических методов анализа, я напоминаю им,
как практикующие медики уточняют состояние пациента. Они используют для этого очень много методов анализа:
анализ крови, анализ мочи, ЭКГ, томография, УЗИ, и т.д. Что и позволяет им установить наиболее вероятное состояние пациента,
и в результате выбрать оптимальную подборку методов лечения. Такая же методология и в во многих науках, включая и статистику.


Спасибо за внимание к моим рекомендациям.
Уверен, что и Вы также часто выкладываете для читателей подобные полезные рекомендации.


Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
fattymouse
сообщение 25.12.2016 - 19:04
Сообщение #15





Группа: Пользователи
Сообщений: 14
Регистрация: 18.12.2016
Пользователь №: 29074



Цитата(DrgLena @ 24.12.2016 - 00:30) *
Выбор статистических методов определяется прежде всего типом клинического исследования. Описание первого дизайна скорее напоминает контролируемое клиническое исследование, в котором в качестве контроля может выступать применительно к хирургии какой то (или какие то) методы традиционной хирургической тактики. Вы предлагаете новый и хотите сравнить со старым. При таком типе исследования необходима рандомизация, но, в реальных условия хирургической практики нужно думать не о методах рандомизации, а о том какая операционная свободна. В этих условиях необходимо доказать гомогенность групп и не только по нозологии, но и по другим факторам, которые могут влиять на исход, т.е. обеспечить контроль конфаундингов при анализе влияния типа хирургического вмешательства на исход.
Но, если группы у вас, действительно различаются только видом вмешательства и сравниваются только два их вида (основная группа и контрольная) и исходов у вас только два (желаемый результат достигнут и не достигнут), то строятся элементарные таблицы сопряженности 2х2 и рассчитывается отношение рисков (RR) и необходимый ДИ. Исход может бать не бинарным, но представлен в виде упорядоченных категорий , тогда может быть использован хи квадрат критерий для упорядоченных категорий. Савнение койко дней будет происходить иначе. Анализ различий в числе и разнообразии осложений также может потребовать использования специальных методов, например индексов диверсификации, в случае редких, но важних для клиники осложнений.

Большая выборка - это, конечно хорошо, но вы не можете оценить риски возникновения именно этого состояния (ОЗМ) в зависимости от факторов риска (OR или RR) или оценить факторы, снижающие относительный риск (RRR) возникновения ОЗМ. Можно было бы использовать методы уже рекомендованные вам и машинное обучение и логистическую регрессию, дискриминантный анализ (что то все же измеряете, какие то маркеры воспаления или биохимию с иммунологией smile.gif ), методы деревовидных классификаций, методов классификации очень много. Но у вас нет альтернативной группы ? не у всех же ОЗМ развивается. Поэтому вы не можете провести клиническое исследование типа case ? control при котором как раз и рекомендуется использовать OR для оценки факторов, влияющих на появление этого самого case.
Но вы можете рассматривать в собранной вами группе больных с ОЗМ какое то состояние, наступление котрого вас интересует и прогнозировать вероятность его наступления в зависимости от сочетания различных факторов, логистическая регрессия в помощь!


Спасибо, DrgLena
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

3 страниц V   1 2 3 >
Добавить ответ в эту темуОткрыть тему