![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 27 Регистрация: 5.02.2018 Пользователь №: 30938 ![]() |
Уже давно мучает меня вопрос о том, где бы найти достоверную инфу (а не кто-то где-то примерно что-то сказал на просторах сети) о том, какие требования и допущения к каждому конкретному стат. методу/критерию. И, если с такими вещами, как параметрический это критерий или нет, работает на связанных или независимых выборках, разобраться легко, то дальше возникают трудности. Здесь на форуме посоветовали неплохую книжку по этому поводу, но там, впрочем, как и во многих других подобных источниках, речь идёт не о самих критериях как таковых, а о требованиях к клиническим экспериментам, о репрезентативности выборки, о мощности критерия при определённом её объёме.
Сразу оговорюсь, что меня интересует исключительно доклиника! И, прошу вас слёзно, не пишите мне ответы вроде того, что доклиника сама диктует конкретные требования к объёмы выборок в соответствии с выбранным методом исследования. Это само собой разумеющиеся вещи. Я спрашиваю не о принципах организации экспериментов, а о чисто математических требованиях к каждому конкретному виду стат. анализа. Приведу примеры того, что я желаю узнать: 1. Критерий Розенбаума требует объём каждой выборки не менее 11 случаев, Критерий Пейджа - 12. 2. Критерий Ван-дер-Вардена работает на выборках разного объёма, но разница не должна превышать 5 случаев. 3. Тот же критерий Пейджа работает на связанных выборках, если их количество не менее 3, но не более 6. 4. Критерий Вилкоксона работает с выборками объёмом от 3 до 25 случаев в каждой. Вот в таком духе. У каждого критерия есть свои допущения и ограничения. Хотелось бы знать конкретно, "что, куда и как". А то в сети слышал мнения, что для однофакторного ANOVAнужен объём выборок не менее 5 случаев, для Стьдента - 10, а если брать критерий Смирнова-Колмогорова для определения распределения исходных данных, то там вообще не менее 80 случаев должно быть. Проблема же ещё и в том, что несоблюдение подобных требований, отнюдь не значит, что стат программа откажется вам делать анализ. Она, скорее всего, преспокойно вам выдаст какую-то ахинею, а вы и не будете знать и поверите ей "на слово" ![]() |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Цитата Уже давно мучает меня вопрос о том, где бы найти достоверную инфу ... о том, какие требования и допущения к каждому конкретному стат. методу/критерию. 1. В оригинальных статьях автора/-ов критерия (это - печка, от которой надо плясать). 2. В статьях тех, кто либо развивал подобные идеи, либо прямо изучал данный критерий (скажем, Леман предложил, Розенблатт изучил, а мы на выходе имеем критерий Лемана - Розенблатта). 3. Трудах обзорного, обобщающего, справочного характера, учебники не забудьте (Гаек - Шидак, Хеттманспергер, Холлендер - Вульф, Большев - Смирнов, Орлов... их тьмы и тьмы). Заниматься составлением шпаргалок в рецептурном духе категорически не советую, поскольку известно, что если в бочку меда добавить ложку известного субстрата, то на выходе гарантированно получится... Так, например, в бочку меда под названием Page test вы ухитрились (понятно, что с чьей-то подачи) добавить ложку чего-то несъедобного Цитата Тот же критерий Пейджа работает на связанных выборках, если их количество не менее 3, но не более 6. Между тем по свидетельству Холлендера и Вульфа критерий преспокойно работает на 2-х выборках (см. Х и В стр. 166, п. 7.12). А верхнее ограничение на число столбцов в дисперсионном комплексе никому и с бодуна не примнится. Должно быть поэтому Пейдж в своей работе приводит таблицу критических значений для аж - horribile dictu!- 10 столбцов. Видимо, эти ребята не знали чего-то такого сокровенного, что знаете вы. Остальные ваши тайные знания - такого же качества. Кроме того, надо понимать, что все эти оценки нижнего предела на численность выборки - родом из докомпьютерной эры, когда все прекрасно понимали, что тот или иной непараметрический критерий в силу дискретности своего распределения при H0 не выдерживает номинальный уровень значимости, и пытались понять, с какого объема выборок дискретностью можно пренебречь и использовать аппроксимации непрерывными распределениями, но возиться с вычислениями было невмочь. Сейчас же для малых объемов вычислить точную (exact) двустороннюю вероятность - не вопрос, монтекарлить до упаду- нет проблем... Сообщение отредактировал 100$ - 3.04.2018 - 16:28 |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 27 Регистрация: 5.02.2018 Пользователь №: 30938 ![]() |
Ну так это не я же придумал все эти ограничения. К слову именно та инфа, что я указал здесь - это из методички по статистике моего вуза, составленной по книгам Рокицкого, Лакина, Плохинского и т.д. Вполне допускаю, что эта инфа уже устарела, но взята отнюдь не с потолка.
Вы сказали, о "докомпьютерной эпохе" - это одна сторона вопроса, что многие расчёты было раньше сложно или трудоёмко выполнять. Но я имею виду те случаи, когда вы используете данные, что не подходят для данного критерия, т.к. не соответствуют неким математическим допущениям в самой формуле. В итоге вы можете получить ошибку первого/второго рода, или как один человек приводил интересный пример с критерием Смирнова-Колмогорова, что использовался для проверки на нормальность малых выборок данных (меньше 10 случаев) - программа вам может посчитать, что угодно, но в итоге получается, что ему банально не хватает мощности, чтобы отклонить нулевую гипотезу, и на малых выборках он всегда пишет, что распределение нормально, хотя это совсем не так. Вот таких вот проколов хотелось бы избегать. Статистика - это не философия и не литературоведение, здесь должно быть всё чётко и понятно, а не "трактуй, как хочешь". Вот люди и трактуют как хотят - у них критерий Стьюдента подходит на все случаи жизни и т.п. |
|
![]() |
![]() |
![]()
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760 ![]() |
Ну так это не я же придумал все эти ограничения. К слову именно та инфа, что я указал здесь - это из методички по статистике моего вуза, составленной по книгам Рокицкого, Лакина, Плохинского и т.д. Вполне допускаю, что эта инфа уже устарела, но взята отнюдь не с потолка. Вы сказали, о "докомпьютерной эпохе" - это одна сторона вопроса, что многие расчёты было раньше сложно или трудоёмко выполнять. Но я имею виду те случаи, когда вы используете данные, что не подходят для данного критерия, т.к. не соответствуют неким математическим допущениям в самой формуле. В итоге вы можете получить ошибку первого/второго рода, или как один человек приводил интересный пример с критерием Смирнова-Колмогорова, что использовался для проверки на нормальность малых выборок данных (меньше 10 случаев) - программа вам может посчитать, что угодно, но в итоге получается, что ему банально не хватает мощности, чтобы отклонить нулевую гипотезу, и на малых выборках он всегда пишет, что распределение нормально, хотя это совсем не так. Вот таких вот проколов хотелось бы избегать. Статистика - это не философия и не литературоведение, здесь должно быть всё чётко и понятно, а не "трактуй, как хочешь". Вот люди и трактуют как хотят - у них критерий Стьюдента подходит на все случаи жизни и т.п. На самом деле на все случаи жизни есть бустреп - генерируйте тысячи псевдовыборок, стройте эмпирические распределение требуемых статистик, по ним находите ДИ. ![]() |
|
![]() |
![]() |
![]() ![]() |