Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Перебор статистических методов в поисках закономерностей

Автор: nikita_zab 16.10.2018 - 17:38

Добрый день!

Прошу напомнить термин, которым называют применение всевозможных статистических методов к одним и тем же данным в попытке найти значимую разницу или закономерности.

И второй вопрос из области философии. Имеет ли смысл применять несколько методов для оценки "здесь что-то есть". И если применяется сразу несколько методов как быть, если некоторые из них показывают "р меньше 5 сотых", а другие нет?

Автор: leo_biostat 16.10.2018 - 18:46

hi.gif

Цитата(nikita_zab @ 16.10.2018 - 17:38) *
Добрый день!
Прошу напомнить термин, которым называют применение всевозможных статистических методов к одним и тем же данным в попытке найти значимую разницу или закономерности.
И второй вопрос из области философии. Имеет ли смысл применять несколько методов для оценки "здесь что-то есть". И если применяется сразу несколько методов как быть, если некоторые из них показывают "р меньше 5 сотых", а другие нет?

Основным термином касательно применения всевозможных методов к одним и тем же данным, и к одной и той же цели исследования, является "профессионализм".
То бишь профессионализм в биостатистике.Тогда как профессионал в иной науке, может не знать и не уметь применять массу продуктивных методов.

Имеет смысл применять "массу продуктивных методов", поскольку этот набор разных методов даёт такую же массу результаты. Анализируя которые и можно приходить
либо к принятию или отвержению неких стат. гипотез, либо к неким новым , ранее неизвестным гипотезам.

Успеха! yahoo.gif

Автор: ogurtsov 16.10.2018 - 20:33

Цитата(nikita_zab @ 16.10.2018 - 17:38) *
Добрый день!

Прошу напомнить термин, которым называют применение всевозможных статистических методов к одним и тем же данным в попытке найти значимую разницу или закономерности.

И второй вопрос из области философии. Имеет ли смысл применять несколько методов для оценки "здесь что-то есть". И если применяется сразу несколько методов как быть, если некоторые из них показывают "р меньше 5 сотых", а другие нет?

p-value-hunting. Или локальный мем данного форума - ковровая бомбардировка тестами.
https://mchankins.wordpress.com/2013/04/21/still-not-significant-2/
Цитата
(barely) not statistically significant (p=0.052)
a barely detectable statistically significant difference (p=0.073)
a borderline significant trend (p=0.09)
a certain trend toward significance (p=0.08)
a clear tendency to significance (p=0.052)
a clear trend (p<0.09)
a clear, strong trend (p=0.09)
a considerable trend toward significance (p=0.069)
a decreasing trend (p=0.09)
a definite trend (p=0.08)
a distinct trend toward significance (p=0.07)
a favorable trend (p=0.09)
a favourable statistical trend (p=0.09)
a little significant (p<0.1)
a margin at the edge of significance (p=0.0608)
a marginal trend (p=0.09)
a marginal trend toward significance (p=0.052)
a marked trend (p=0.07)
a mild trend (p<0.09)

Имеет ли смысл применять - ну это как вы со своей совестью договоритесь, или насколько умело отписавшийся выше профессионал разведет вас на бабки.

Автор: nokh 17.10.2018 - 13:17

Цитата(nikita_zab @ 16.10.2018 - 19:38) *
...Прошу напомнить термин, которым называют применение всевозможных статистических методов к одним и тем же данным в попытке найти значимую разницу или закономерности.

См. ещё здесь: https://en.wikipedia.org/wiki/Data_dredging
Цитата(nikita_zab @ 16.10.2018 - 19:38) *
И второй вопрос из области философии. Имеет ли смысл применять несколько методов для оценки "здесь что-то есть". И если применяется сразу несколько методов как быть, если некоторые из них показывают "р меньше 5 сотых", а другие нет?

Любое применение статистических методов - это приложение некоей математической модели к данным, а все модели условны. Как говаривал Джорж Бокс "All models are wrong but some are useful". Вот мы ими и пользуемся. Всегда есть модель, которая подходит к данным лучше всего, её и нужно искать и использовать. Проблема в том, что какая из них лучше не всегда видно по данным. И философский вопрос здесь скорее другой: а вправе ли мы по данным подбирать лучшую модель, или это нужно делать, исходя из других принципов? В любом случае, грамотный подход будет включать не выбор теста с самым маленьким Р, а выбор такого, который является наиболее мощным "в данной ситуации". Соответственно нужно знать что-то и о самих данных, их природе и о статистических критериях, их сильных и слабых сторонах (а они всегда есть, иначе бы не было предложено столько статметодов).

По поводу "массы методов" соглашусь с leo_biostat только в том случае, эти эти методы раскрывают разные стороны данных: например, сочетание классических и многомерных методов, многомерных методов и сетевого анализа и т.п. Если же речь идёт об одной задаче, об одной стороне данных - однозначно нужно искать лучшую модель. Если в публикации человек приведёт, скажем, и критерий Стьюдента, и критерий Манна - Уитни, и медианный критерий, то я сразу запишу его в "непрофессионалы" - ибо не умеет выбрать лучшую модель.

Автор: nikita_zab 18.10.2018 - 19:33

Бинго, дата дрэджинг! Большое спасибо за ответы и ссылки на статьи.
Да, вопрос касался не оценки разных сторон одних и тех же данных, а именно "ковровых бомбардировок".

Автор: 100$ 18.10.2018 - 20:02

Цитата(nikita_zab @ 18.10.2018 - 19:33) *
Да, вопрос касался не оценки разных сторон одних и тех же данных, а именно "ковровых бомбардировок".


В копилку философских вопросов: совместная проверка распределения на асимметрию+эксцесс - это уже "ковровая бомбардировка", или еще нет?

Автор: p2004r 22.10.2018 - 18:47

Цитата(nikita_zab @ 16.10.2018 - 17:38) *
Добрый день!

Прошу напомнить термин, которым называют применение всевозможных статистических методов к одним и тем же данным в попытке найти значимую разницу или закономерности.

И второй вопрос из области философии. Имеет ли смысл применять несколько методов для оценки "здесь что-то есть". И если применяется сразу несколько методов как быть, если некоторые из них показывают "р меньше 5 сотых", а другие нет?


Вообще использовать для анализа "просто собранных" данных в ходе того что называется "наблюдение" вот эти все "проверки гипотез" "первым делом" (и иные методы матстатистики) крайне плохая идея. Если эксперимента по сути не было (с соответствующим планированием цели), то следует вначале обращаться к эксплораторному (разведочному) анализу. Он происходит в виде простого преобразования данных (обычно проекции в пространство меньшей размерности) без каких либо ограничений со стороны матстатистики.

Если "разглядывание данных" с помощью методов разведочного анализа дало какие то гипотезы о "картине мира" в области изучаемого явления, то пишете модель описывающую ваши идеи в явном виде и проводите конфирматорный анализ (естественно делая эту операцию однократно).

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)