Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Выбор методов, Mixed-effects models, непараметрические аналоги
E_VA
сообщение 6.06.2016 - 19:36
Сообщение #1





Группа: Пользователи
Сообщений: 17
Регистрация: 18.10.2015
Пользователь №: 27589



Добрый день, Уважаемые участники форума!

Прошу Вашего совета с решением следующей задачи (не могу определиться с корректными методами и алгоритмами).
Пациенты разбиты на 3 группы по типу операции (50-30-30 человек), каждый характеризуется набором показателей до операции (7 шт) и они же после.
Стоят следующие задачи:
1) Сравнить показатели до и после операции в каждой группе (нужно ответить на вопрос эффективности операции и поменялся ли каждый показатель).
2) Сравнить группы до и после операции между собой по 7 показателям (нужно ответить на вопрос - есть ли среди набора показателей те, которые бы отличались в группах как до, так и после операции)
3) Разбить каждую группу на 2 подгруппы по значениям одного из 7 характеризующих их показателей (значение до какого-то балла шкалы и после) и провести сравнения для подгрупп (цель - проверка одной зарубежной статьи).

Нормальности распределений в целом нет, показатели - шкалы (0-10), (0-50) и числовые значения. Различные преобразования к нормальности тоже не приводят.
Насколько я понимаю предмет, то спотыкаюсь на проблему множественных сравнений во всей красе (вопросы 1 и 2), если сравнивать известными тестами (групповыми и парными). Надо делать корректировку на 7 показателей * 2 сравнения по времени (если сравнивать группы Краскелом-Уоллисом) + 7 показателей *3 группы (сравнение до и после в каждой группе) = 35 сравнений. И это я не затрагиваю вопрос 3.

Если смотреть рекомендации с данного форума, то основная ? дисперсионный анализ. Это вроде как Mixed-effects models. Но это было бы корректно, если бы данные были нормально распределены.
Может быть, конечно, что-то я пропустила, в этом случае буду благодарна, если отправят по нужному ?адресу?.

Единственный вариант, который благодаря p2004r пришел в голову для одновременного решения вопросов 1-2: построение деревьев классификаций при максимально возможном разбиении на группы: (время обследования + тип операции= 6 групп), а потом смотреть какие факторы позволили (и вообще позволили ли) сделать классификацию с допустимым уровнем ошибки. Потом можно объединять неразличимые группы и заново строить деревья. НО, когда задача спускается до вопроса 3, то 2*3*2=12 групп и в каждой немного данных. Сработает ли там этот подход? И будет ли это корректно? А самое главное, очень хочется врачам увидеть волшебное p.

Если есть возможность, то натолкните, пожалуйста, на корректное решение проблемы. Так как приходится использовать бесплатное ПО, то буду благодарна ссылке на функции из R.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 6.06.2016 - 22:16
Сообщение #2





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(E_VA @ 6.06.2016 - 19:36) *
Добрый день, Уважаемые участники форума!

Прошу Вашего совета с решением следующей задачи (не могу определиться с корректными методами и алгоритмами).
Пациенты разбиты на 3 группы по типу операции (50-30-30 человек), каждый характеризуется набором показателей до операции (7 шт) и они же после.
Стоят следующие задачи:
1) Сравнить показатели до и после операции в каждой группе (нужно ответить на вопрос эффективности операции и поменялся ли каждый показатель).
2) Сравнить группы до и после операции между собой по 7 показателям (нужно ответить на вопрос - есть ли среди набора показателей те, которые бы отличались в группах как до, так и после операции)
3) Разбить каждую группу на 2 подгруппы по значениям одного из 7 характеризующих их показателей (значение до какого-то балла шкалы и после) и провести сравнения для подгрупп (цель - проверка одной зарубежной статьи).

Нормальности распределений в целом нет, показатели - шкалы (0-10), (0-50) и числовые значения. Различные преобразования к нормальности тоже не приводят.
Насколько я понимаю предмет, то спотыкаюсь на проблему множественных сравнений во всей красе (вопросы 1 и 2), если сравнивать известными тестами (групповыми и парными). Надо делать корректировку на 7 показателей * 2 сравнения по времени (если сравнивать группы Краскелом-Уоллисом) + 7 показателей *3 группы (сравнение до и после в каждой группе) = 35 сравнений. И это я не затрагиваю вопрос 3.

Если смотреть рекомендации с данного форума, то основная ? дисперсионный анализ. Это вроде как Mixed-effects models. Но это было бы корректно, если бы данные были нормально распределены.
Может быть, конечно, что-то я пропустила, в этом случае буду благодарна, если отправят по нужному ?адресу?.

Единственный вариант, который благодаря p2004r пришел в голову для одновременного решения вопросов 1-2: построение деревьев классификаций при максимально возможном разбиении на группы: (время обследования + тип операции= 6 групп), а потом смотреть какие факторы позволили (и вообще позволили ли) сделать классификацию с допустимым уровнем ошибки. Потом можно объединять неразличимые группы и заново строить деревья. НО, когда задача спускается до вопроса 3, то 2*3*2=12 групп и в каждой немного данных. Сработает ли там этот подход? И будет ли это корректно? А самое главное, очень хочется врачам увидеть волшебное p.

Если есть возможность, то натолкните, пожалуйста, на корректное решение проблемы. Так как приходится использовать бесплатное ПО, то буду благодарна ссылке на функции из R.


Все описанное вами прекрасно решается в рамках многомерного дисперсионного анализа - MANOVA. К отклонениям от нормальности вроде бы устойчив.

Однако по опыту знаю, что особенно благосклоннно медики относятся к дисперсионному анализу по каждой переменной. Тут вы вольны 7 раз проделать ANOV'у по каждой из 7-ми координат вектора.

В качестве оффтопа - несколько замечаний из серии "музыкой навеяло":

поскольку для данной задачи понятие "эффективность" не определено (и не выводится напрямую из случайного вектора с 7-ю координатами), то в целях сведения многомерной задачи к одномерной (зачем вам это нужно - решать вам) можно попытаться:
1. Определить среди 7 компонент случайного вектора самую драгоценную, отождествить с ней понятие "эффективность" и решать задачу методом главного критерия;
2. Ввести в рассмотрение вектор весов а=(a1,a2,...,a7), таких что их сумма=1 и состряпать упомянутую эффективность как взвешенную сумму a1*x1+a2*x2+...+a7*x7. Это - обычная аддитивная свертка - способ сведения многокритериальной задачи к однокритериальной. Каким-то самым нужным показателям назначаем веса побольше, менее важным - поменьше. Тут, правда, желательно мнение научного сообщества по поводу важности частных критериев и их весов.

А любое обучение по прецедентам имеет целью получение решающего правила (алгоритма классификации), позволяющего отнести вновь поступающий объект к существующим классам. Н-р, для вновь поступившего пациента с конкретным набором 7 цифр понять, какой тип операции ему показан. Хотя я не уверен, что это статистическая задача, а не сугубо медицинская (требующая знаний из предметной области).

Сообщение отредактировал 100$ - 6.06.2016 - 22:39
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 7.06.2016 - 09:51
Сообщение #3





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(E_VA @ 6.06.2016 - 19:36) *
Добрый день, Уважаемые участники форума!

Единственный вариант, который благодаря p2004r пришел в голову для одновременного решения вопросов 1-2: построение деревьев классификаций при максимально возможном разбиении на группы: (время обследования + тип операции= 6 групп), а потом смотреть какие факторы позволили (и вообще позволили ли) сделать классификацию с допустимым уровнем ошибки. Потом можно объединять неразличимые группы и заново строить деревья. НО, когда задача спускается до вопроса 3, то 2*3*2=12 групп и в каждой немного данных. Сработает ли там этот подход? И будет ли это корректно? А самое главное, очень хочется врачам увидеть волшебное p.

Если есть возможность, то натолкните, пожалуйста, на корректное решение проблемы. Так как приходится использовать бесплатное ПО, то буду благодарна ссылке на функции из R.


1) Проблемы множественных групп на самом деле нет, поскольку есть чудесная техника Multi-Label Learning ( https://cran.r-project.org/web/packages/uti...ml-overview.pdf ). Это в случае когда датасет хочется рассмотреть под неким конкретным "углом зрения" и только ним.

2) Если хочется получить картину всех значимых (и что важно непротиворечивую картину) зависимостей которые следуют из датасета то есть {bnlearn}.

Например, для датасета (преобразованного в длинную форму) с которого началось обсуждение, картина вот такая получается

Код
> print(hc(datalong.bnlearn, optimized=F))

  Bayesian network learned via Score-based methods

  model:
   [N][Sex][Type][V][Age|Sex:Type][VASl0|Type:V][PT0|Type:V][ODI0|VASl0]
   [PI_GLL0|Type:PT0][SF36PH0|ODI0:V][VASs0|ODI0:V]
   [SF36MH0|ODI0:SF36PH0:VASs0:PT0]
  nodes:                                 12
  arcs:                                  17
    undirected arcs:                     0
    directed arcs:                       17
  average markov blanket size:           4.00
  average neighbourhood size:            2.83
  average branching factor:              1.42

  learning algorithm:                    Hill-Climbing
  score:                                 BIC (cond. Gauss.)
  penalization coefficient:              2.692248
  tests used in the learning procedure:  2772
  optimized:                             FALSE


V это факт воздействия оперативного Type - тип воздействия N - личность которой принадлежат замеры показателей

Вполне себе интерпретируемая картина?

Сообщение отредактировал p2004r - 7.06.2016 - 10:59
Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
 


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
E_VA
сообщение 7.06.2016 - 14:55
Сообщение #4





Группа: Пользователи
Сообщений: 17
Регистрация: 18.10.2015
Пользователь №: 27589



Цитата(100$ @ 7.06.2016 - 01:16) *
Все описанное вами прекрасно решается в рамках многомерного дисперсионного анализа - MANOVA. К отклонениям от нормальности вроде бы устойчив.


Думаю, что найти процедуру и формально запихнуть данные в такой анализ реально. Но, тогда надо будет ссылаться на литературу, где бы говорилось про устойчивость метода к отклонениям от нормальности. К сожалению, пока что такими ссылками не обладаю frown.gif

Цитата(100$ @ 7.06.2016 - 01:16) *
В качестве оффтопа - несколько замечаний из серии "музыкой навеяло":

поскольку для данной задачи понятие "эффективность" не определено (и не выводится напрямую из случайного вектора с 7-ю координатами), то в целях сведения многомерной задачи к одномерной (зачем вам это нужно - решать вам) можно попытаться:
1. Определить среди 7 компонент случайного вектора самую драгоценную, отождествить с ней понятие "эффективность" и решать задачу методом главного критерия;
2. Ввести в рассмотрение вектор весов а=(a1,a2,...,a7), таких что их сумма=1 и состряпать упомянутую эффективность как взвешенную сумму a1*x1+a2*x2+...+a7*x7. Это - обычная аддитивная свертка - способ сведения многокритериальной задачи к однокритериальной. Каким-то самым нужным показателям назначаем веса побольше, менее важным - поменьше. Тут, правда, желательно мнение научного сообщества по поводу важности частных критериев и их весов.

А любое обучение по прецедентам имеет целью получение решающего правила (алгоритма классификации), позволяющего отнести вновь поступающий объект к существующим классам. Н-р, для вновь поступившего пациента с конкретным набором 7 цифр понять, какой тип операции ему показан. Хотя я не уверен, что это статистическая задача, а не сугубо медицинская (требующая знаний из предметной области).


По вопросу эффективности. Тоже долго думали на эту тему, так как казалось логичным решением постараться соединить в одно. Но в итоге все-равно решили, что это разные характеристики состояния пациента: оценка боли в одной части тела, в другой, оценка качества жизни и т.д. Так и анализируется эффективность по разным направлениям. Как пример: пациенты здоров, но один оптимист, а другой пессимист, вот и будут разные баллы по оценке качества жизни, так что портить ими картину других более объективных характеристик не хочется.

В исследовании не стоит задача рекомендовать тип операции - это делается на основании других характеристик, которые в имеющуюся табличку не вошли. Тут, в частности, рассматривается такой вопрос - пациентов с разными характеристиками на входе и разными типами операций смогли ли довести до одинаково хорошего состояния, другими словами, так как были разные по сложности и степени вмешательства операции, то отразилось ли это в итоге на их послеоперационном состоянии.
А еще одна гипотеза, что люди одной группы со значением показателя до определенного уровня должны себя чувствовать лучше, чем оставшаяся часть - полностью мед. гипотеза. "Лучше" - это надо смотреть по всем шкалам...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
E_VA
сообщение 7.06.2016 - 15:09
Сообщение #5





Группа: Пользователи
Сообщений: 17
Регистрация: 18.10.2015
Пользователь №: 27589



Цитата(p2004r @ 7.06.2016 - 12:51) *
2) Если хочется получить картину всех значимых (и что важно непротиворечивую картину) зависимостей которые следуют из датасета то есть {bnlearn}.


Огромное спасибо за ссылку на {bnlearn}, произвело впечатление очень приятного и полезного инструмента. Приведенные Вами картинки имеют смысл.


Цитата(p2004r @ 7.06.2016 - 12:51) *
1) Проблемы множественных групп на самом деле нет, поскольку есть чудесная техника Multi-Label Learning ( https://cran.r-project.org/web/packages/uti...ml-overview.pdf ). Это в случае когда датасет хочется рассмотреть под неким конкретным "углом зрения" и только ним.


Извиняюсь, если туплю. Но я пытаюсь разобраться до состояния ?сама смогу объяснить?. Поэтому у меня возник вопрос.
Насколько я поняла, пакет utiml: Utilities for multi-label learning, реализующий Multi-Label Learning, решает следующие задачи: преобразование множеств, построение подмножеств из основного множества различными способами, запускает на данных подмножествах различные методы классификации. Не совсем понимаю, как в рамках имеющегося инструмента можно отойти от проблемы множественных сравнений (формирования нескольких моделей на одном множестве). frown.gif Генерировать специальным образом множества для проверки конкретных гипотез/оценки моделей?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 7.06.2016 - 16:29
Сообщение #6





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(E_VA @ 7.06.2016 - 15:09) *
Извиняюсь, если туплю. Но я пытаюсь разобраться до состояния ?сама смогу объяснить?. Поэтому у меня возник вопрос.
Насколько я поняла, пакет utiml: Utilities for multi-label learning, реализующий Multi-Label Learning, решает следующие задачи: преобразование множеств, построение подмножеств из основного множества различными способами, запускает на данных подмножествах различные методы классификации. Не совсем понимаю, как в рамках имеющегося инструмента можно отойти от проблемы множественных сравнений (формирования нескольких моделей на одном множестве). frown.gif Генерировать специальным образом множества для проверки конкретных гипотез/оценки моделей?


То о чем сказано делает пакет поверх которого реализован {utiml}, а сам он занимается построением ансамбля моделей который одновременно решает классификацию по всем представленным факторам.

Не всегда множественные сравнения это множественные сравнения, иногда это бутстреп. А в данном случае строиться ансамбль моделей (одним из многочисленных методов).


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
E_VA
сообщение 7.06.2016 - 20:25
Сообщение #7





Группа: Пользователи
Сообщений: 17
Регистрация: 18.10.2015
Пользователь №: 27589



Цитата(p2004r @ 7.06.2016 - 19:29) *
То о чем сказано делает пакет поверх которого реализован {utiml}, а сам он занимается построением ансамбля моделей который одновременно решает классификацию по всем представленным факторам.

Не всегда множественные сравнения это множественные сравнения, иногда это бутстреп. А в данном случае строиться ансамбль моделей (одним из многочисленных методов).


Верно ли я поняла, что смысл использования этого пакета для моей задачи - выбор наиболее адекватной модели построения классификации используя все инструменты по вложению, генерации выборок и т.д.?

И еще, может слегка философский вопрос. Если мы переходим к процессу размножения выборки, то по сути имитируем наличие у нас всей популяции, а на ее основании можно проверять любое количество гипотез не заботясь о множественных сравнениях, так как мы обладаем всей информацией и тут уже нет место случайностям и вероятностям?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 8.06.2016 - 09:36
Сообщение #8





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(E_VA @ 7.06.2016 - 20:25) *
Верно ли я поняла, что смысл использования этого пакета для моей задачи - выбор наиболее адекватной модели построения классификации используя все инструменты по вложению, генерации выборок и т.д.?

И еще, может слегка философский вопрос. Если мы переходим к процессу размножения выборки, то по сути имитируем наличие у нас всей популяции, а на ее основании можно проверять любое количество гипотез не заботясь о множественных сравнениях, так как мы обладаем всей информацией и тут уже нет место случайностям и вероятностям?


Мы одновременно проверяем все выдвигаемые гипотезы в момент генерации перевыборки (или соответствующей полезной нам рандомизации) поскольку сразу и вычисляем всё интересующее нас для этой перевыборки. Иными словами данное нам в виде выборки распределение мы просто "распространяем" на результаты наших вычислений.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 13.06.2016 - 20:47
Сообщение #9





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(E_VA @ 6.06.2016 - 21:36) *
...
Если смотреть рекомендации с данного форума, то основная ? дисперсионный анализ. Это вроде как Mixed-effects models. Но это было бы корректно, если бы данные были нормально распределены.
Может быть, конечно, что-то я пропустила, в этом случае буду благодарна, если отправят по нужному ?адресу?.
...

Традиционно - им и решается. Всё прочее - экзотика и свободное творчество. Осваивать экзотику - полезно: глядишь так и из неё что-то скоро станет классикой. Творить - вообще наша природа! Но чтобы коллеги вас поняли - нужна классика. Менее традиционные методы можно добавить в исследование.
Проблема ненормальности распределения ошибок модели традиционно решается преобразованием данных перед анализом (логарифмирование, квадратный корень, ... угловые преобразования для %). Лучшее из степенных преобразований - преобразование Бокса - Кокса (дополна информации уже).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
E_VA
сообщение 14.06.2016 - 08:47
Сообщение #10





Группа: Пользователи
Сообщений: 17
Регистрация: 18.10.2015
Пользователь №: 27589



Цитата(nokh @ 13.06.2016 - 23:47) *
Проблема ненормальности распределения ошибок модели традиционно решается преобразованием данных перед анализом (логарифмирование, квадратный корень, ... угловые преобразования для %). Лучшее из степенных преобразований - преобразование Бокса - Кокса (дополна информации уже).


Пробовала логарифмирование, корень, Бокса-Кокса. Ничего не получается (преобразования отрабатывают, но нормальность не появляется). Приложила картинку с частотами для одного показателя. Его возможные значения 0,1,2,...,10. При логарифмировании сдвигала на 1. В целом кажется, что найти монотонное преобразование, которое бы исправило эту картинку в сторону нормальности очень сложно или невозможно.

Прикрепленный файл  Plot.rar ( 2,64 килобайт ) Кол-во скачиваний: 232


К сожалению, не смогла разобраться, как прикрепить просто изображение frown.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 14.06.2016 - 14:29
Сообщение #11





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(E_VA @ 14.06.2016 - 08:47) *
Пробовала логарифмирование, корень, Бокса-Кокса. Ничего не получается (преобразования отрабатывают, но нормальность не появляется). Приложила картинку с частотами для одного показателя. Его возможные значения 0,1,2,...,10. При логарифмировании сдвигала на 1. В целом кажется, что найти монотонное преобразование, которое бы исправило эту картинку в сторону нормальности очень сложно или невозможно.

Прикрепленный файл  Plot.rar ( 2,64 килобайт ) Кол-во скачиваний: 232


К сожалению, не смогла разобраться, как прикрепить просто изображение frown.gif


Если собственная схема бутстрепа кажется чем то экзотичным, то берете готовый генератор таких схем под свою модель. smile.gif

Книги доступны с либген (только что проверил):
1)
John K. Kruschke, Kruschke John
Doing Bayesian Data Analysis: A Tutorial Introduction with R and BUGS

2) само руководство

The BUGS Book : A Practical Introduction to Bayesian Analysis
Best, Nicky; Jackson, Chris; Lunn, David; Spiegelhalter, David; Thomas, Andrew


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 15.06.2016 - 10:40
Сообщение #12





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(nokh @ 13.06.2016 - 20:47) *
Традиционно - им и решается. Всё прочее - экзотика и свободное творчество. Осваивать экзотику - полезно: глядишь так и из неё что-то скоро станет классикой. Творить - вообще наша природа! Но чтобы коллеги вас поняли - нужна классика. Менее традиционные методы можно добавить в исследование.
Проблема ненормальности распределения ошибок модели традиционно решается преобразованием данных перед анализом (логарифмирование, квадратный корень, ... угловые преобразования для %). Лучшее из степенных преобразований - преобразование Бокса - Кокса (дополна информации уже).


1) Я бы не был так уверен в "традиционности" smile.gif Вернее с исторической точки зрения естественно имеется огромное количество работ использующих ANOVA. Одновременно в последние годы появилась масса публикаций о плачевном состоянии дел с повторяемостью результатов в "медико-биологических" работах. Напомню после тщательного отбора "по внешнему виду" удалось повторить только ~12% публикаций. Напомню, что всё что должна делать по идее массово применяемая ANOVA это дать уверенность что работа может быть повторена. Для меня такой низкий процент воспроизводимости работ более чем "сильный сигнал" о устойчивости методологии "к неквалифицированному пользователю".

По моему процесс применения "традиционной статистики" уже зашел так далеко как "социализм в Грузинской ССР" smile.gif И скоро за результаты будут не просто давать, а догонять и давать.
Даже если начать рассуждать с точки зрения "ремесленной" --- "мне платят, значит я выдаю на гора p<0.05 и не жужжу".

Беда в том, что 12% воспроизводимости это у "топовых западных статей" (основной комментарий к обсуждению этой публикации в инете -- "чего так много то?!"). Опираясь на опыт консультирования могу сказать, что основная методология поставленного усредненным русскоязычным диссертантом без привлечения специалиста-статистика эксперимента сводиться к "закону возвращения к среднему" frown.gif. И это "выстраданная" (как я понимаю его научруком) "работающая методология" действительно дающая возможность получить заветные "p" "относительно честным путем".

Всё это проистекает в том числе из обстоятельства, что методы проверки гипотез принципиально нельзя использовать для поиска зависимостей и анализа данных.

Эксплораторный анализ должен предшествовать конфирматорному. Это закон последствие нарушения которого мы все видим. Образно говоря мы сначала должны "повесить мишень" и потом "стрелять в мишень", а не "выстрелить в стену" и потом "нарисовать мишень вокруг попадания".

2) Решение это применение статистик которые полностью проверяют записанную в явном виде схему эксперимента-наблюдения, и не нуждаются в какой либо предварительно "селекции данных".

Вот статья о фактическом состоянии дел с "генераторами бутстрепа" для проверки статмоделей:

http://onlinelibrary.wiley.com/doi/10.1002/sim.3680/pdf

Запрос на "WinBUGS" (непересекающийся ни с чем другим термин) в гоглошолар даёт ~19000 ссылок.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
E_VA
сообщение 16.06.2016 - 06:49
Сообщение #13





Группа: Пользователи
Сообщений: 17
Регистрация: 18.10.2015
Пользователь №: 27589



Цитата(p2004r @ 14.06.2016 - 17:29) *
Если собственная схема бутстрепа кажется чем то экзотичным, то берете готовый генератор таких схем под свою модель. smile.gif

Книги доступны с либген (только что проверил):
1)
John K. Kruschke, Kruschke John
Doing Bayesian Data Analysis: A Tutorial Introduction with R and BUGS

2) само руководство

The BUGS Book : A Practical Introduction to Bayesian Analysis
Best, Nicky; Jackson, Chris; Lunn, David; Spiegelhalter, David; Thomas, Andrew


Огромное спасибо за рекомендованную литературу. Пошла читать глубоко и сначала...

Добавлю "5 копеек" в тему применения "нетрадиционных методов". На днях пришлось отвечать на вопрос: почему при анализе данных не использовались деревья, вроде как все прогрессивное медицинское сообщество их использует. Пришлось возвращаться к анализу (тема активно обсуждалась на форуме в ноябре 2015 г.) и пояснять, что все использовалось smile.gif . Очень просила прислать статьи, что сподвигли врача задать такой вопрос.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 27.06.2016 - 19:02
Сообщение #14





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



>E_VA

1) Писалось и обсуждалось уже столько раз, что писать сил нет. Но если не писать - это будет нечестно по отношению к тем, кто пришёл на форум позже. А потом - ещё позже... Нормально должны быть распределены не данные, а остатки модели, в данном случае - модели ANOVA. Естественно, что раз ваш показатель различается в группах, то ничего кроме полимодального распределения быть не может и эту полимодальность не снять никакими преобразованими, да и незачем снимать. Но если из каждого значения в группе вычесть среднее его группы, то полимодальное распределение сводится к унимодальному со средним равным нулю. Оно и должно быть нормальным и в идеале ещё иметь одинаковые дисперсии для всех групп. В более сложных вариантах ANOVA сложнее, но принцип такой же. Короче, смотреть нужно Residuals!

2) По поводу деревьев классификации и прочего. Быстро время идёт... Помню ещё не так давно специально ставил WEKA чтобы иметь доступ к нескольким классическим алгоритмам построения деревьев, а по-русски прочитать про них можно было только на сайте разработчиков Deductor... А сейчас где и каких только нет, леса целые выросли smile.gif Но не люблю когда люди выделываются не по делу. Ведь наверняка - спроси такого вопрошающего про эти самые деревья и - поплывёт, а вот поумничать охота. Моё отношение к новому - взвешенное (надеюсь): использовать примерно на 70% классику + около 30% на менее традиционные техники. Так и связь стен с фундаментом не потеряешь, и развиваться продолжаешь. Потихоньку в разряд классики переходит то, что ещё лет 30-50 назад было экзотикой... А если конкретно по деревьям и лесам классификации - они, как и ставшие привычными модели дискриминантного анализа и множественной логистической регресии - техники для прогноза, т.е. техники, работающие на практику. Они не вскрывают никакие закономерности в данных, чтобы увидеть какие-то процессы за дискриминантными ключами или ветвлениями дерева нужны глубокие специальные знания, да и то не факт, что поможет. Практическая значимость - хорошо, для медицины - бесспорно хорошо, но вот сейчас половину докторских из регионов ВАК разворачивает только в силу практического акцента работы, поскольку типа научная квалификационная работа должна иметь серьёзную теоретическую значимость. Очередной эксцесс, конечно, но логика в этом есть. И вопрошающего про деревья я бы спросил о том, в состоянии ли он объяснить то, что построила программа.

> p2004r

Мой путь в биостатистику начался с книг Cокала и Рольфа (Biometry), Монтгомери (Планирование эксперимента...), Аптона (Таблицы сопряжённости), и далее - работ представителей канадской и французской школ экологов с их всякими наработками по многомерным техникам. Из переводных - Закс (статистическое оценивание), Хальд (Мат. статистика с техническими приложениями), из отчественных - Урбах, Лакин, Плохинский. Естественно первые книги откладывают определённый отпечаток и задают некий коридор для развития. Во всех этих учебниках большое место отводилось именно моделям дисперсионного анализа - классической техники разработанной создателем теории планирования эксперимента Р. Фишером, а также моделям логлинейного анализа (С. и Р., Аптон), как функционального аналога ANOVA для качественных признаков. Вероятно, такой опыт отчасти давлеет над полной свободой выбора, но я и не против smile.gif Эксперимент в науке - основной инструмент проверки гипотез, а техники типа ANOVA как нельзя лучше подходят для анализа эксперимента. Другое дело - действительно ли и насколько мы можем рассматривать обычные в медицине дизайны в качестве классических экспериментов...

Сообщение отредактировал nokh - 27.06.2016 - 19:07
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 27.06.2016 - 22:25
Сообщение #15





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(nokh @ 27.06.2016 - 19:02) *
> p2004r

Мой путь в биостатистику начался с книг Cокала и Рольфа (Biometry), Монтгомери (Планирование эксперимента...), Аптона (Таблицы сопряжённости), и далее - работ представителей канадской и французской школ экологов с их всякими наработками по многомерным техникам. Из переводных - Закс (статистическое оценивание), Хальд (Мат. статистика с техническими приложениями), из отчественных - Урбах, Лакин, Плохинский. Естественно первые книги откладывают определённый отпечаток и задают некий коридор для развития. Во всех этих учебниках большое место отводилось именно моделям дисперсионного анализа - классической техники разработанной создателем теории планирования эксперимента Р. Фишером, а также моделям логлинейного анализа (С. и Р., Аптон), как функционального аналога ANOVA для качественных признаков. Вероятно, такой опыт отчасти давлеет над полной свободой выбора, но я и не против smile.gif Эксперимент в науке - основной инструмент проверки гипотез, а техники типа ANOVA как нельзя лучше подходят для анализа эксперимента. Другое дело - действительно ли и насколько мы можем рассматривать обычные в медицине дизайны в качестве классических экспериментов...


1)

Мой путь начался с рекурсивного (по спискам литературы друг друга) прочтения всей русской библиографии руководств по многомерному анализу доступной через межбиб (старт в 1986 году) smile.gif.

Проверка гипотезы это простая геометрия, формулируется просто --- 1) можно ли провести границ(у|ы) в пространстве образованном параметрами эксперимента отделяющую данные (варианты населяющие это пространство) по целевой переменной друг от друга 2) насколько надежна эта граница отличит "очередной вариант".

За пределы этой "геометрии" никакая "алгебра" описывающая границу и считающая надежность границы выпрыгнуть не в состоянии принципиально. Можно строить прямые в кривом пространстве, кривые в линейном пространстве и т.д. и т.п., сути дела это не меняет.

(на случай непрерывной величины все естественно прекрасно обобщается)

Если какой нибудь "случайный бор" сделав тысячи перевыборок не находит способа разделить по экспериментальному воздействию выборки, то никакая классическая статистика помочь не в состоянии. Более того, если она и сможет в описанной ситуации, то тем хуже для "классической" статистики (так как явно в методологии доказательства не обошлось без натяжки совы на глобус).

2)

Принципиально эксперимент или наблюдение может быть описан целиком в виде конфигурации для WinBUGS которая породит проверяющий этот набор условий Монте-Карло эксперимент и снимет всякие возражения на тему "что проверялось" и "насколько полно проведена проверка". То есть можно претензии формулировать только в виде конкурирующей модели описании эксперимента-наблюдения.

Это очень важно, поскольку формулировкой эксперимента (или наблюдения) активно (я бы даже сказал агрессивно) пренебрегает большинство. Что и ведет к катастрофе воспроизводимости.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему