Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Требования к различным видам стат. методов, объём выборки, характер распределения и т.п.
Cules2013
сообщение 3.04.2018 - 08:40
Сообщение #1





Группа: Пользователи
Сообщений: 27
Регистрация: 5.02.2018
Пользователь №: 30938



Уже давно мучает меня вопрос о том, где бы найти достоверную инфу (а не кто-то где-то примерно что-то сказал на просторах сети) о том, какие требования и допущения к каждому конкретному стат. методу/критерию. И, если с такими вещами, как параметрический это критерий или нет, работает на связанных или независимых выборках, разобраться легко, то дальше возникают трудности. Здесь на форуме посоветовали неплохую книжку по этому поводу, но там, впрочем, как и во многих других подобных источниках, речь идёт не о самих критериях как таковых, а о требованиях к клиническим экспериментам, о репрезентативности выборки, о мощности критерия при определённом её объёме.
Сразу оговорюсь, что меня интересует исключительно доклиника! И, прошу вас слёзно, не пишите мне ответы вроде того, что доклиника сама диктует конкретные требования к объёмы выборок в соответствии с выбранным методом исследования. Это само собой разумеющиеся вещи. Я спрашиваю не о принципах организации экспериментов, а о чисто математических требованиях к каждому конкретному виду стат. анализа.
Приведу примеры того, что я желаю узнать:
1. Критерий Розенбаума требует объём каждой выборки не менее 11 случаев, Критерий Пейджа - 12.
2. Критерий Ван-дер-Вардена работает на выборках разного объёма, но разница не должна превышать 5 случаев.
3. Тот же критерий Пейджа работает на связанных выборках, если их количество не менее 3, но не более 6.
4. Критерий Вилкоксона работает с выборками объёмом от 3 до 25 случаев в каждой.

Вот в таком духе. У каждого критерия есть свои допущения и ограничения. Хотелось бы знать конкретно, "что, куда и как". А то в сети слышал мнения, что для однофакторного ANOVAнужен объём выборок не менее 5 случаев, для Стьдента - 10, а если брать критерий Смирнова-Колмогорова для определения распределения исходных данных, то там вообще не менее 80 случаев должно быть. Проблема же ещё и в том, что несоблюдение подобных требований, отнюдь не значит, что стат программа откажется вам делать анализ. Она, скорее всего, преспокойно вам выдаст какую-то ахинею, а вы и не будете знать и поверите ей "на слово" sad.gif .
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 3.04.2018 - 10:17
Сообщение #2





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(Cules2013 @ 3.04.2018 - 07:40) *
Уже давно мучает меня вопрос о том, где бы найти достоверную инфу (а не кто-то где-то примерно что-то сказал на просторах сети) о том, какие требования и допущения к каждому конкретному стат. методу/критерию..............
.........если их количество не менее 3, но не более 6.............
Хотелось бы знать конкретно, "что, куда и как". А то в сети слышал мнения, что .................
Проблема же ещё и в том, что несоблюдение подобных требований, отнюдь не значит, что стат программа откажется вам делать анализ. Она, скорее всего, преспокойно вам выдаст какую-то ахинею, а вы и не будете знать и поверите ей "на слово" ..........


Вы на самом деле зацепили два разных вопроса.
Ну, во-первых, конкретных цифр, подобно приведенным примерам, вы не найдете нигде (по крайней мере - в серьезных работах, а наличие таких цифр - лишний повод усомниться). Там будут более опекаемые формулировки, что в общем - понятно и правильно. Статистика по сути своей пытается дискретное пространство описать непрерывными категориями. А в непрерывном мире точных границ не существует по определению. Просто все понимают, что когда говорят, что "функция стремиться к нулю при X стремящемуся к бесконечности", то это может в реальном мире означать, что при некоторых, достаточно больших X функция станет неотличима с заданной точностью от нуля. А вот что такое "достаточно большие" и что такое "неотличима с заданной точностью" - при этом выносится за скобки. Так что, как правило, "что применимо при x=3, применимо и при x=4".
Во-вторых, вопрос касается того, а какие ограничения действительно существуют, работают или являются плодом воображения "кого-то там в сети". И вот тут засада. Для того, что-бы это понять, надо самому углубляться и разбираться в каждом методе. Почему? Да потому, что "то что сказано в сети" и "то что написано в умных книжках" отличается только тиражом распространения и доступностью, но не степенью "умности" или "глупости"вещей, там изложенных. Другими словами, кто-то (пусть даже очень авторитетный с вашей точки зрения) на форуме сказал "А", а в книге (тоже не менее авторитетной) написано "Б". Кому верить? Только прочитав и самому разобравшись можно "примкнуть к одному из лагерей". А часто и лагерей больше двух. Но заметьте, никто не даст гарантии, что ваша позиция действительно истинна. Ну, разве что Вы вступите в прямой контакт с Богом, да и то - не факт, что он хорошо разбирается в статистике :-).
Единственное, что можно и нужно сделать - помимо того, что самому разобраться в любом применяемом вами методе - это составить себе на каждый случай перечень всех понятых и принятых ЛИЧНО ВАМИ условий и ограничений, понимать как и не забывать их применять ВСЕГДА, когда вы используете этот метод . И еще - не менее важно - всегда уметь объяснить и обосновать то самое ваше личное мнение (а не просто сослаться на чей-то авторитет). Прислушаться к его критике и во время его изменять, если найдете критику основательной. И не отстаивать свое мнение только потому, что вы его высказали - это свойство исследователя я вообще выношу за скобки (и ставлю на первое, а вернее - нулевое место).
Так что вперед. Нужны ответы - не ждите готовых, а разбирайтесь и анализируйте их сами.
"Все сказанное выше является моим личным мнением, существующим на данный момент, может быть подвержено критике всех желающих и может быть мной изменено без предварительного оповещения" (С) - smile.gif

Сообщение отредактировал passant - 3.04.2018 - 10:29
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
leo_biostat
сообщение 3.04.2018 - 14:36
Сообщение #3





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953



Цитата(Cules2013 @ 3.04.2018 - 08:40) *
Уже давно мучает меня вопрос о том, где бы найти достоверную инфу ....

Cules2013, hi.gif!
passant абсолютно прав: "Нужны ответы - не ждите готовых, а разбирайтесь и анализируйте их сами".
Для этого рекомендую Вам популярные книги по математической статистике. И в них Вы найдёте много ответов на эти вопросы.
Зайдите на адрес https://www.twirpx.com/file/1457826/ и скачайте эту отличную книгу!
В конце книги есть раздел "Предметный указатель". Там найдёте страницы нужных Вам критериев и методов.
И на этом сайте посмотрите раздел "Теория вероятностей и математическая статистика", и там найдёте
очень много полезной литературы.
Кстати, на этом же сайте найдёте много литературы и по медицине, биологии, и многим иным наукам.

Успеха, Cules2013 !

Сообщение отредактировал leo_biostat - 3.04.2018 - 14:36
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 3.04.2018 - 16:02
Сообщение #4





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата
Уже давно мучает меня вопрос о том, где бы найти достоверную инфу ... о том, какие требования и допущения к каждому конкретному стат. методу/критерию.


1. В оригинальных статьях автора/-ов критерия (это - печка, от которой надо плясать).
2. В статьях тех, кто либо развивал подобные идеи, либо прямо изучал данный критерий (скажем, Леман предложил, Розенблатт изучил, а мы на выходе имеем критерий Лемана - Розенблатта).
3. Трудах обзорного, обобщающего, справочного характера, учебники не забудьте (Гаек - Шидак, Хеттманспергер, Холлендер - Вульф, Большев - Смирнов, Орлов... их тьмы и тьмы).

Заниматься составлением шпаргалок в рецептурном духе категорически не советую, поскольку известно, что если в бочку меда добавить ложку известного субстрата, то на выходе гарантированно получится... целая бочка этого субстрата уникальный по глупости сборник мифов и городских легенд относительно разных критериев.

Так, например, в бочку меда под названием Page test вы ухитрились (понятно, что с чьей-то подачи) добавить ложку чего-то несъедобного

Цитата
Тот же критерий Пейджа работает на связанных выборках, если их количество не менее 3, но не более 6.


Между тем по свидетельству Холлендера и Вульфа критерий преспокойно работает на 2-х выборках (см. Х и В стр. 166, п. 7.12). А верхнее ограничение на число столбцов в дисперсионном комплексе никому и с бодуна не примнится. Должно быть поэтому Пейдж в своей работе приводит таблицу критических значений для аж - horribile dictu!- 10 столбцов. Видимо, эти ребята не знали чего-то такого сокровенного, что знаете вы.

Остальные ваши тайные знания - такого же качества.

Кроме того, надо понимать, что все эти оценки нижнего предела на численность выборки - родом из докомпьютерной эры, когда все прекрасно понимали, что тот или иной непараметрический критерий в силу дискретности своего распределения при H0 не выдерживает номинальный уровень значимости, и пытались понять, с какого объема выборок дискретностью можно пренебречь и использовать аппроксимации непрерывными распределениями, но возиться с вычислениями было невмочь. Сейчас же для малых объемов вычислить точную (exact) двустороннюю вероятность - не вопрос, монтекарлить до упаду- нет проблем...

Сообщение отредактировал 100$ - 3.04.2018 - 16:28
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Cules2013
сообщение 3.04.2018 - 17:19
Сообщение #5





Группа: Пользователи
Сообщений: 27
Регистрация: 5.02.2018
Пользователь №: 30938



Ну так это не я же придумал все эти ограничения. К слову именно та инфа, что я указал здесь - это из методички по статистике моего вуза, составленной по книгам Рокицкого, Лакина, Плохинского и т.д. Вполне допускаю, что эта инфа уже устарела, но взята отнюдь не с потолка.
Вы сказали, о "докомпьютерной эпохе" - это одна сторона вопроса, что многие расчёты было раньше сложно или трудоёмко выполнять. Но я имею виду те случаи, когда вы используете данные, что не подходят для данного критерия, т.к. не соответствуют неким математическим допущениям в самой формуле. В итоге вы можете получить ошибку первого/второго рода, или как один человек приводил интересный пример с критерием Смирнова-Колмогорова, что использовался для проверки на нормальность малых выборок данных (меньше 10 случаев) - программа вам может посчитать, что угодно, но в итоге получается, что ему банально не хватает мощности, чтобы отклонить нулевую гипотезу, и на малых выборках он всегда пишет, что распределение нормально, хотя это совсем не так. Вот таких вот проколов хотелось бы избегать. Статистика - это не философия и не литературоведение, здесь должно быть всё чётко и понятно, а не "трактуй, как хочешь". Вот люди и трактуют как хотят - у них критерий Стьюдента подходит на все случаи жизни и т.п.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ogurtsov
сообщение 3.04.2018 - 21:03
Сообщение #6





Группа: Пользователи
Сообщений: 127
Регистрация: 15.12.2015
Пользователь №: 27760



Цитата(Cules2013 @ 3.04.2018 - 17:19) *
Ну так это не я же придумал все эти ограничения. К слову именно та инфа, что я указал здесь - это из методички по статистике моего вуза, составленной по книгам Рокицкого, Лакина, Плохинского и т.д. Вполне допускаю, что эта инфа уже устарела, но взята отнюдь не с потолка.
Вы сказали, о "докомпьютерной эпохе" - это одна сторона вопроса, что многие расчёты было раньше сложно или трудоёмко выполнять. Но я имею виду те случаи, когда вы используете данные, что не подходят для данного критерия, т.к. не соответствуют неким математическим допущениям в самой формуле. В итоге вы можете получить ошибку первого/второго рода, или как один человек приводил интересный пример с критерием Смирнова-Колмогорова, что использовался для проверки на нормальность малых выборок данных (меньше 10 случаев) - программа вам может посчитать, что угодно, но в итоге получается, что ему банально не хватает мощности, чтобы отклонить нулевую гипотезу, и на малых выборках он всегда пишет, что распределение нормально, хотя это совсем не так. Вот таких вот проколов хотелось бы избегать. Статистика - это не философия и не литературоведение, здесь должно быть всё чётко и понятно, а не "трактуй, как хочешь". Вот люди и трактуют как хотят - у них критерий Стьюдента подходит на все случаи жизни и т.п.

На самом деле на все случаи жизни есть бустреп - генерируйте тысячи псевдовыборок, стройте эмпирические распределение требуемых статистик, по ним находите ДИ.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 4.04.2018 - 10:05
Сообщение #7





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(Cules2013 @ 3.04.2018 - 16:19) *
Статистика - это не философия и не литературоведение, здесь должно быть всё чётко и понятно, а не "трактуй, как хочешь".

Вот тут вы ошибаетесь. В своей жизни я изучал одну единственную науку, в которой было все строго определено, выверено, безошибочно, четко и понятно - марксистско-ленинскую философию. Все остальные математики, физики, статистики, сопроматы, ТОЭ и прочие DataScience всегда строятся на огромном числе ограничений, допущений, предположений, трактовках, сомнений и пр.пр.пр smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 4.04.2018 - 12:50
Сообщение #8





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата
Ну так это не я же придумал все эти ограничения. К слову именно та инфа, что я указал здесь - это из методички по статистике моего вуза, составленной по книгам Рокицкого, Лакина, Плохинского и т.д. Вполне допускаю, что эта инфа уже устарела, но взята отнюдь не с потолка.


А я выше как раз и высказал уверенность, что это не ваши личные прозрения. Тогда мысленно переадресуйте сказанное этим безымянным составителям методичек и начните с чистого листа. Поскольку методическую работу с вузовских преподов требуют (а не так, что хочешь - пиши методички, а не хочешь - то и не надо), и любой препод воспринимает это как повинность, можно представить себе средний уровень этой писанины. Весь наш пятый курс (технического вуза, между прочим) на лабораторных по метрологии и стандартизации чего-то там пялясь в подобные методички так и не обрел понятия, что такое степени свободы, и как выбрать приличествующую случаю квантиль распределения Стьюдента.

Цитата
...или как один человек приводил интересный пример с критерием Смирнова-Колмогорова, что использовался для проверки на нормальность малых выборок данных (меньше 10 случаев) - программа вам может посчитать, что угодно, но в итоге получается, что ему банально не хватает мощности, чтобы отклонить нулевую гипотезу, и на малых выборках он всегда пишет, что распределение нормально, хотя это совсем не так. Вот таких вот проколов хотелось бы избегать. Статистика - это не философия и не литературоведение, здесь должно быть всё чётко и понятно, а не "трактуй, как хочешь". Вот люди и трактуют как хотят - у них критерий Стьюдента подходит на все случаи жизни и т.п.


Ах, зачем вам этих глупостев? Ну не отверглась у какого-то простака нулёвка на выборке объемом 10, ну так что же? Это факт его биографии, да и только. А фактом вашей биографии должно быть понимание того, что мощность критерия - это функция от альтернативной гипотезы. Если вы проверяете критерием Колмогорова гипотезу о принадлежности эмпирического распределения нормальному (н-р, в форме простой гипотезы), то ближайшей альтернативой будет логистическое распределение. Известно, что супремум модуля разности для этих ф-ций распределения есть величина порядка .01. Если совсем уж в первом приближении считать, что ошибка измерения этой разности пропорциональна корню из N, то сразу видно, что для надежного распознавания этих альтернатив грубая оценка требуемого объема выборки ~ 10 000. Вот вам и готовый рецепт избегания проколов.

Сообщение отредактировал 100$ - 4.04.2018 - 12:55
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 4.04.2018 - 22:06
Сообщение #9





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Cules2013 @ 3.04.2018 - 08:40) *
У каждого критерия есть свои допущения и ограничения. Хотелось бы знать конкретно, "что, куда и как".
Ну, допустим, вы накопали в оригинальных статьях или, что еще лучше, вывели сами критерии применимости нужного вам статистического метода. А толку-то - вам все равно никто не поверит ! Ведь медики - очень консервативный подтип человечества. Они привыкли к определенным рекомендованным книгам и руководствам, где черным по белому написано, что данный критерий можно применять только при ТАКИХ ограничениях. Это как в библии - я бога не видел, но в него верю, чтобы мне не говорили и какие бы доказательства не приводили!


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Cules2013
сообщение 5.04.2018 - 08:22
Сообщение #10





Группа: Пользователи
Сообщений: 27
Регистрация: 5.02.2018
Пользователь №: 30938



я знаю, что у нас есть понятие "так принято", которое зачастую расходится с адекватным применением какого-либо метода. Но это не значит, что я буду творить такую же дичь. Напротив, нужно ориентироваться на высокие стандарты, а не пороть отсебятину с покерфейсом нобелевского лауреата. Вот потому наука на постсоветском пространстве так низко котируется за рубежом. Вы почитайте зарубежные журналы, даже середнячки, не топовые - там любое исследование 100 очков даст нашим топовом разработкам. У нас с давних времён хорошо развита физика и математика, но большинство других наук в упадке, в т.ч. и потому, что сплошняком вот такие вот гении, что ничего, кроме критерия Стьюдента не слышали и понятия не имеют, что такое рандомизация и т.п. Предлагаете брать с них пример, чтобы не выделяться?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ogurtsov
сообщение 5.04.2018 - 19:17
Сообщение #11





Группа: Пользователи
Сообщений: 127
Регистрация: 15.12.2015
Пользователь №: 27760



Цитата(Cules2013 @ 5.04.2018 - 08:22) *
Предлагаете брать с них пример, чтобы не выделяться?

Цитаты плиз, кто и где это предлагает.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 14.02.2023 - 20:39
Сообщение #12





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(100$ @ 3.04.2018 - 16:02) *
3. Трудах обзорного, обобщающего, справочного характера, учебники не забудьте (Гаек - Шидак, Хеттманспергер, Холлендер - Вульф, Большев - Смирнов, Орлов... их тьмы и тьмы).

Извините, не смог удержаться. Недавно в поисках истины случайно набрел на рецензию Owen на таблицы Большева и Смирнова. Ссылка https://projecteuclid.org/journals/annals-o...1177699481.full
Рецензия не положительная ... хотя развитие компьютеров, при наличии качественной библиотеки функций, реализующих статистические распределения и специальные функции, уменьшает ценность сборников таблиц, в том числе и Owen. Надо сказать, что в книгах и Большева- Смирнова, и Owen наиболее ценным считаю не таблицы, а формулы.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 14.02.2023 - 22:44
Сообщение #13





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Игорь @ 14.02.2023 - 20:39) *
Рецензия не положительная ...


А Л.Н.Толстой терпеть не мог Шекспира...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему