Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Требования к различным видам стат. методов, объём выборки, характер распределения и т.п.
Cules2013
сообщение 3.04.2018 - 08:40
Сообщение #1





Группа: Пользователи
Сообщений: 27
Регистрация: 5.02.2018
Пользователь №: 30938



Уже давно мучает меня вопрос о том, где бы найти достоверную инфу (а не кто-то где-то примерно что-то сказал на просторах сети) о том, какие требования и допущения к каждому конкретному стат. методу/критерию. И, если с такими вещами, как параметрический это критерий или нет, работает на связанных или независимых выборках, разобраться легко, то дальше возникают трудности. Здесь на форуме посоветовали неплохую книжку по этому поводу, но там, впрочем, как и во многих других подобных источниках, речь идёт не о самих критериях как таковых, а о требованиях к клиническим экспериментам, о репрезентативности выборки, о мощности критерия при определённом её объёме.
Сразу оговорюсь, что меня интересует исключительно доклиника! И, прошу вас слёзно, не пишите мне ответы вроде того, что доклиника сама диктует конкретные требования к объёмы выборок в соответствии с выбранным методом исследования. Это само собой разумеющиеся вещи. Я спрашиваю не о принципах организации экспериментов, а о чисто математических требованиях к каждому конкретному виду стат. анализа.
Приведу примеры того, что я желаю узнать:
1. Критерий Розенбаума требует объём каждой выборки не менее 11 случаев, Критерий Пейджа - 12.
2. Критерий Ван-дер-Вардена работает на выборках разного объёма, но разница не должна превышать 5 случаев.
3. Тот же критерий Пейджа работает на связанных выборках, если их количество не менее 3, но не более 6.
4. Критерий Вилкоксона работает с выборками объёмом от 3 до 25 случаев в каждой.

Вот в таком духе. У каждого критерия есть свои допущения и ограничения. Хотелось бы знать конкретно, "что, куда и как". А то в сети слышал мнения, что для однофакторного ANOVAнужен объём выборок не менее 5 случаев, для Стьдента - 10, а если брать критерий Смирнова-Колмогорова для определения распределения исходных данных, то там вообще не менее 80 случаев должно быть. Проблема же ещё и в том, что несоблюдение подобных требований, отнюдь не значит, что стат программа откажется вам делать анализ. Она, скорее всего, преспокойно вам выдаст какую-то ахинею, а вы и не будете знать и поверите ей "на слово" sad.gif .
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
100$
сообщение 3.04.2018 - 16:02
Сообщение #2





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата
Уже давно мучает меня вопрос о том, где бы найти достоверную инфу ... о том, какие требования и допущения к каждому конкретному стат. методу/критерию.


1. В оригинальных статьях автора/-ов критерия (это - печка, от которой надо плясать).
2. В статьях тех, кто либо развивал подобные идеи, либо прямо изучал данный критерий (скажем, Леман предложил, Розенблатт изучил, а мы на выходе имеем критерий Лемана - Розенблатта).
3. Трудах обзорного, обобщающего, справочного характера, учебники не забудьте (Гаек - Шидак, Хеттманспергер, Холлендер - Вульф, Большев - Смирнов, Орлов... их тьмы и тьмы).

Заниматься составлением шпаргалок в рецептурном духе категорически не советую, поскольку известно, что если в бочку меда добавить ложку известного субстрата, то на выходе гарантированно получится... целая бочка этого субстрата уникальный по глупости сборник мифов и городских легенд относительно разных критериев.

Так, например, в бочку меда под названием Page test вы ухитрились (понятно, что с чьей-то подачи) добавить ложку чего-то несъедобного

Цитата
Тот же критерий Пейджа работает на связанных выборках, если их количество не менее 3, но не более 6.


Между тем по свидетельству Холлендера и Вульфа критерий преспокойно работает на 2-х выборках (см. Х и В стр. 166, п. 7.12). А верхнее ограничение на число столбцов в дисперсионном комплексе никому и с бодуна не примнится. Должно быть поэтому Пейдж в своей работе приводит таблицу критических значений для аж - horribile dictu!- 10 столбцов. Видимо, эти ребята не знали чего-то такого сокровенного, что знаете вы.

Остальные ваши тайные знания - такого же качества.

Кроме того, надо понимать, что все эти оценки нижнего предела на численность выборки - родом из докомпьютерной эры, когда все прекрасно понимали, что тот или иной непараметрический критерий в силу дискретности своего распределения при H0 не выдерживает номинальный уровень значимости, и пытались понять, с какого объема выборок дискретностью можно пренебречь и использовать аппроксимации непрерывными распределениями, но возиться с вычислениями было невмочь. Сейчас же для малых объемов вычислить точную (exact) двустороннюю вероятность - не вопрос, монтекарлить до упаду- нет проблем...

Сообщение отредактировал 100$ - 3.04.2018 - 16:28
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Cules2013
сообщение 3.04.2018 - 17:19
Сообщение #3





Группа: Пользователи
Сообщений: 27
Регистрация: 5.02.2018
Пользователь №: 30938



Ну так это не я же придумал все эти ограничения. К слову именно та инфа, что я указал здесь - это из методички по статистике моего вуза, составленной по книгам Рокицкого, Лакина, Плохинского и т.д. Вполне допускаю, что эта инфа уже устарела, но взята отнюдь не с потолка.
Вы сказали, о "докомпьютерной эпохе" - это одна сторона вопроса, что многие расчёты было раньше сложно или трудоёмко выполнять. Но я имею виду те случаи, когда вы используете данные, что не подходят для данного критерия, т.к. не соответствуют неким математическим допущениям в самой формуле. В итоге вы можете получить ошибку первого/второго рода, или как один человек приводил интересный пример с критерием Смирнова-Колмогорова, что использовался для проверки на нормальность малых выборок данных (меньше 10 случаев) - программа вам может посчитать, что угодно, но в итоге получается, что ему банально не хватает мощности, чтобы отклонить нулевую гипотезу, и на малых выборках он всегда пишет, что распределение нормально, хотя это совсем не так. Вот таких вот проколов хотелось бы избегать. Статистика - это не философия и не литературоведение, здесь должно быть всё чётко и понятно, а не "трактуй, как хочешь". Вот люди и трактуют как хотят - у них критерий Стьюдента подходит на все случаи жизни и т.п.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 4.04.2018 - 10:05
Сообщение #4





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(Cules2013 @ 3.04.2018 - 16:19) *
Статистика - это не философия и не литературоведение, здесь должно быть всё чётко и понятно, а не "трактуй, как хочешь".

Вот тут вы ошибаетесь. В своей жизни я изучал одну единственную науку, в которой было все строго определено, выверено, безошибочно, четко и понятно - марксистско-ленинскую философию. Все остальные математики, физики, статистики, сопроматы, ТОЭ и прочие DataScience всегда строятся на огромном числе ограничений, допущений, предположений, трактовках, сомнений и пр.пр.пр smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему