Соответствие экспериментальных данных теоретической модели. - Форум врачей-аспирантов

Форум врачей-аспирантов

Правила форума

Пользователи

Календарь

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

2 страниц

1 2 >

Добавить ответ в эту тему

Открыть тему

Соответствие экспериментальных данных теоретической модели.

passant Просмотр профиля	31.08.2022 - 20:43 Сообщение #1
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223	Уважаемые коллеги. Поскольку сегодня последний день лета, хотелось бы немного встряхнуть наш форум и вывести его из "дрёмы". За одно - и попросить помощи, потому как задача вроде-бы и не суперсложная, и тема сто раз рассмотренная, а вот как-то у меня ускользает и ее решения и пазл не складывается. Итак. Есть некоторый процесс и нам абсолютно точно известна его теоретическая модель (ну или точнее - "ожидаемая" модель, т.е. как согласно нашим предположениям должен себя вести наш процесс). Более того - известно, что эта модель линейна, т.е. y=b0+b1x. Оба теоретических значений коэффициентов нам тоже известны. Набираем экспериментальные данные, строим модель - самым простым и очевидным способом. В виде линейной регрессии.* Понимаем, что эта модель имеет право несколько отличаться от теоретической. А вот теперь вопрос: а можем-ли мы считать(при заданном уровне значимости, разумеется или еще лучше - на основе полученного p_value некоторого критерия), что наши экспериментальные данные действительно есть данные, сгенерированные нашей теоретической моделью с соответствующими шумовыми отклонениями? Как ответить на этот вопрос? Первая идея, которая пришла в голову - строить доверительные интервалы для коэффициентов регрессии и смотреть, входят ли коэффициенты теоретической модели в эти интервалы. Похоже (?) что этот подход не катит, хотя-бы потому, что точечные оценки регрессионной модели нельзя считать независимыми случайным величинами. Кроме того, если прикинуть, то получается, что построенные таким образом две прямые (теоретическая и регрессионная) даже при сколь угодно малых различиях в коэффициенте b1, рано или поздно разойдутся на плоскости сколь угодно далеко, и следовательно оценку можно проводить только при четко оговоренных ограничениях на значения х. Вторая идея - посчитать Стандартную ошибку регрессии, отложить ее параллельно регрессионной прямой и посмотреть, не пересекает-ли теоретическая прямая эти границы - но снова, внутри некоторого интервала значений оси Х. И если наши экспериментальные данные все (?) лежат внутри этого интервала - удовлетвориться. Ну а если не все? Считать это выбросом? А на каком количестве таких "выбросов" отклонить исходную гипотезу? В общем- тут много неясностей. Третья идея - строить доверительную область для регрессии (ввиду разной встречающейся терминологии - ту область, границы которой имеют форму сужающейся-расширяющейся "трубки" вокруг линии регрессии). Вот тут возможна ситуация, когда теоретическая прямая будет всегда располагаться внутри этой "трубки" (за счет указанной ее формы). Но для этого оба коэффициента (и именно их комбинация, а не по отдельности каждый) должны удовлетворять некоторым требованиям. И проверять именно этот факт, т.е. гипотезу "теоретическая прямая не пересекает границы доверительной области линии регрессии". Возможно, существуют варианты решения без построения модели регрессии, а просто по сравнению теоретической прямой и экспериментальных данных. Просто ошибку эксперимента относительно теоретической модели считать? Ну так посчитать-то можно, и она всегда будет не минимальной. А как принять решение об отклонении или принятии гипотезы? Что-то в голову не приходит, а каким критерием тут можно было бы воспользоваться? В общем, задача заключается в том, что-бы ответить не вопрос - а могли-ли (в статистическом смысле) экспериментальные данные представлять собой зашумленную реализацию теоретической модели? Буду благодарен уважаемому сообществу если вы покритикуете представленные пути решения и/или предложите другие. Сообщение отредактировал passant - 31.08.2022 - 20:44

100$ Просмотр профиля	31.08.2022 - 22:01 Сообщение #2
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Рыба утку спросила: - Вернется ль вода, Что вчера утекла? Если да, то когда? Утка ей отвечала: - Когда нас зажарят, Разрешит все вопросы сковорода! (с) Хайям. А в эконометрике на все вопросы отвечает тщательный анализ остатков. И счастлив тот изыскатель, чья модель удовлетворяет вполне определенному набору тестов.

passant Просмотр профиля	31.08.2022 - 23:05 Сообщение #3
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223	Цитата(100$ @ 31.08.2022 - 22:01) Рыба утку спросила: - Вернется ль вода, Что вчера утекла? Если да, то когда? Утка ей отвечала: - Когда нас зажарят, Разрешит все вопросы сковорода! (с) Хайям. А в эконометрике на все вопросы отвечает тщательный анализ остатков. И счастлив тот изыскатель, чья модель удовлетворяет вполне определенному набору тестов. Так нет у меня остатков. Вернее есть остатки относительно построенной регрессионной модели. И они могут быть хороши. Т.е. удовлетворять всему набору тестов. Но вот что мне дадут остатки от теоретической модели? Ну да, они будут "больше" остатков от регрессионной, и может быть несколько хуже по всяким тестам. Как понять, что они "больше/хуже", но не на столько, что-бы отклонять гипотезу? P.S. Подумал - получается, что мне регрессионная модель в этом случае вообще не нужна? Надо подумать, как работать с остатками относительно заведомо не лучшей (с точки зрения МНК хотя бы) моделью. Спасибо за "направление" размышления. Сообщение отредактировал passant - 31.08.2022 - 23:13

100$ Просмотр профиля	31.08.2022 - 23:41 Сообщение #4
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(passant @ 31.08.2022 - 23:05) P.S. Подумал - получается, что мне регрессионная модель в этом случае вообще не нужна? Конечно, не нужна. У вас есть - процесс, порождающий данные (DGP), известный с точностью до параметров: Yистинное=Константа истинная + Наклон истинныйX; - истинные значения константы и наклона; - есть экспериментальный материал в виде пары (Yэксп; Xэксп). Вы строите Yэксп=Константа истинная + Наклон истинныйXэксп + Остатки. Откуда Остатки= Yэксп - Константа истинная - Наклон истинныйXэксп. А дальше возитесь с остатками, аки котенок с клубком. Сообщение отредактировал 100$* - 31.08.2022 - 23:43

ИНО Просмотр профиля	2.09.2022 - 14:25 Сообщение #5
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	Цитата Понимаем, что эта модель имеет право несколько отличаться от теоретической. А вот теперь вопрос: а можем-ли мы считать(при заданном уровне значимости, разумеется или еще лучше - на основе полученного p_value некоторого критерия), что наши экспериментальные данные действительно есть данные, сгенерированные нашей теоретической моделью с соответствующими шумовыми отклонениями? Или же у нас просто недостаточно наблюдений, чтобы опровергнуть это... Вообще, применительно именно к Вашей задачи что-то мне вспомнился Байесовский подход. Я, правда, так в него и не смог въехать, потому как не понял, откуда люди в реальной жизни берут априоры. Но вот пример того, как их с неба пускают. Но в любом случае линейная модель почти никогда не бывает верна, хотя и бывает полезна - почти (С).

Диагностик Просмотр профиля	3.09.2022 - 01:42 Сообщение #6
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146	Цитата(passant @ 1.09.2022 - 04:05) Как понять, что они "больше/хуже", но не на столько, что-бы отклонять гипотезу? Задать критическое значение уровня значимости критерия. Сообщение отредактировал Диагностик - 3.09.2022 - 11:15

passant Просмотр профиля	3.09.2022 - 15:46 Сообщение #7
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223	Спасибо всем участников слегка оживившегося форума :-) за интересные идеи и советы. Цитата(100$ @ 31.08.2022 - 23:41) Конечно, не нужна. .... А дальше возитесь с остатками, аки котенок с клубком. Цитата(Диагностик @ 3.09.2022 - 01:42) Задать критическое значение уровня значимости критерия. Попробовал. Узнал много нового :-). Ну например, сравнение модели с помощью коэффициента детерминации R2 (это конечно было известно и раньше), но вот как строить его доверительный интервал - никогда ранее не встречался. По крайней мере - нашел интересный материал, а по ходу - и методы аппроксимации и R2 и разности этого коэффициента для двух линейных регрессий. К сожалению, попытка применить приобретённые знания к моей конкретной задаче успеха не принесли. Оказалось, что данный критерий обладает очень высоким уровнем ошибок II типа. Это конечно требует дополнительных исследований, на который сейчас времени нет. Так что сейчас эта задача отложена в сторону, буду пробовать принципиально другие подходы. Цитата(ИНО @ 2.09.2022 - 14:25) Вообще, применительно именно к Вашей задачи что-то мне вспомнился Байесовский подход. Я, правда, так в него и не смог въехать,.... Касательно Байесовского подхода - у меня абсолютно та-же ситуация. Несколько попыток "въехать" в него серьезным успехом не увенчались. Теперь тешусь, что я не один такой :-) В общем, еще раз спасибо всем за идеи, подсказки и участие

100$ Просмотр профиля	3.09.2022 - 16:42 Сообщение #8
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(passant @ 3.09.2022 - 15:46) Касательно Байесовского подхода - у меня абсолютно та-же ситуация. Несколько попыток "въехать" в него серьезным успехом не увенчались. Теперь тешусь, что я не один такой :-) Да, вместе вы - сила. ) Так победим!

ИНО Просмотр профиля	4.09.2022 - 09:11 Сообщение #9
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	100$, а сами-то Вы уже победили? Потому на Западе многие бают, что за ним будущее, но вот еще не сталкивался хотя бы с одним "въехавшим", способным поделиться своим опытом нормльным русским языком. Цитата Оказалось, что данный критерий обладает очень высоким уровнем ошибок II типа. А "данный" - это какой? Вообще, 100$ уже все сказал: Вам следует заниматься тем, что называется диагностика модели, графики там всякие строить "предсказания vs остатки", "Q-Q" и т. п. Формальных критериев согласия остатков с линейной моделью в разных аспектах тоже есть куча, и можно быть практически уверенным, что, добавляя все больше наблюдений, рано или поздно Вы таки получите по ним p<0,05, потому как найти идеальную линейную зависимость с нормальным гомоскедантичным распределением ошибки в реальном мире, наверное, сложнее, чем выиграть в лотерею миллион.

100$ Просмотр профиля	4.09.2022 - 16:53 Сообщение #10
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(ИНО @ 4.09.2022 - 09:11) 100$, а сами-то Вы уже победили? Для ~~толстого тролля~~ приятного собеседника вы как-то чересчур обидчивы. Поконкретнее, пожалуйста: что именно в Бейесовской статистике мне надо "победить",чтобы произвести на вас впечатление, и когда экзамен? "А царевны мне и даром не надо.Чуду-Юду я и так победю!" Исходная постановка задачи - ни разу не Бейесовская. С таким же успехом по тому же шаблону всяк, кому не лень, может завалить форум вопросами типа: "У меня есть геометрическое броуновское движение, с таким-то матожиданием и таким-то sd. Как мне доказать, что цена акций Газпрома летом 2022 г. порождена именно им?" Или как вариант "Как мне доказать, что броуновское движение порождено винеровским процессом? Ась?" Или "У меня есть модель случайного блуждания, как мне доказать, что скорость роста телеграфных столбов в лунную ночь описывается именно им?" И потребовать от простодушных форумчан критерий. С подходящим p_value. А ведь есть еще: - ARMA/ARIMA/ARFIMA процессы...; - ARCH/GARGH/FIGARCH и прочие (бесчисленные) модели кластеризованной волатильности...; - мартингалы, суб- и супермартингалы...; - диффузионные процессы и модель Васичека...; - пуассоновские процессы...; - марковские цепи, винеровские сосиски, винеровские поля, винеровские процессы на группе Ли...; - ветвящиеся процессы типа Беллмана - Харриса, Гальтона-Уотсона, N-процессы... Ну, вот, где-то 1% перечислил ). P.S. А ларчик открывется, как обычно, просто: наш общий друг пассант по неизвестным науке причинам с трудом переносит затишье на форуме и развлекается тем, что время от времени забрасывает (набрасывает?) в него псевдоинтеллектуальные дрожжи. Одно утешение: русский язык у него более или менее похож на таковой. Правда, "-тся и -ться" пока еще путает. Как научу его правильно их употреблять - уйду с форума с чувством выполненного долга ) Сообщение отредактировал 100$ - 4.09.2022 - 17:45

ИНО Просмотр профиля	5.09.2022 - 10:48 Сообщение #11
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	Исходная постановка задачи - доказать единственноправильность некой теоретической модели - идиотская. Но ее ведь можно поменять на "получить апостериорную вероятность правильности модели". Разве это не баесовский вывод?

100$ Просмотр профиля	5.09.2022 - 12:09 Сообщение #12
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(ИНО @ 5.09.2022 - 10:48) Исходная постановка задачи - доказать единственноправильность некой теоретической модели - идиотская. Нет. Читайте внимательнее исходный пост. Можно по складам. Там истинность процесса, порождающего данные, не подвергается сомнению, и ее никто не предлагает "доказать". Речь идет о построении некой процедуры, выполняющей роль "критерия согласия". Разумеется, косвенного. Похожая ситуация рассматривается в критерии Брауна - Муда (Brown, Mood, 1950). Там тоже для парной линейной регрессии есть коэф-ты константы и наклона, претендующие на истинность, и требуется доказать, что это так и есть. Цитата Но ее ведь можно поменять на "получить апостериорную вероятность правильности модели". Разве это не баесовский вывод? Нет, не можно. Патамушта напрочь отсутствует задача обучения в эксперименте. Вся априорная информация носит невероятностный характер, ergo ее нельзя улучшить статистическими методами. В частности, отсутствует априорная информация о вероятностях гипотезе оказаться истинной/гипотезе оказаться ложной, которые вас просили бы уточнить после наблюдения скалярной выборки. P.S. Два юзера типа "Диагностик" для одного форума - явный перебор ) Сообщение отредактировал 100$ - 5.09.2022 - 12:18

ИНО Просмотр профиля	6.09.2022 - 08:16 Сообщение #13
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	Цитата Там истинность процесса, порождающего данные, не подвергается сомнению Если так, то зачем нужна статистика? Тут в область религии надо копать. Но все ж рискуну предположить, что не так, и ТС таки не страдает догматизмом, а хочет проверить теоретическую модель и, возможно, улучшить ее. Цитата В частности, отсутствует априорная информация о вероятностях гипотезе оказаться истинной/гипотезе оказаться ложно А откуда байесисты вообще эти параметр обычно берут? Как раз мое полное непонимание природы этого трансцендентного источника знаний и положило конец моим попыткам въехать в байесовскую статистику. Так что, звиняйте, если какую глупость написал, ибо уровень моих познаний в этой области так и остался окуолонулевым. Что, если априорная доверительная вероятноть равна 1, то с этим сделать уже ничего нельзя, только в морг? А если 0,999999999? Цитата Похожая ситуация рассматривается в критерии Брауна - Муда (Brown, Mood, 1950). Там тоже для парной линейной регрессии есть коэф-ты константы и наклона, претендующие на истинность, и [b]требуется доказать, что это так и есть. Так и написано: "доказать"? Или таки "проверить гипотезу"? Потому как доказывают, железно и навсегда разве что теоремы. Можно ссылку на эту статью? А то я только критерий Муда - Брауна знаю, а он о другом. Что касается фамилий этих ученых мужей в связи с линейной регррессией, то все, что выдал Гугл, - оценка неизвестного параметра наклона - тоже немного не то.

Диагностик Просмотр профиля	6.09.2022 - 12:40 Сообщение #14
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146	Цитата(ИНО @ 6.09.2022 - 13:16) А то я только критерий Муда - Брауна знаю, а он о другом. Что касается фамилий этих ученых мужей в связи с линейной регррессией, то все, что выдал Гугл, - оценка неизвестного параметра наклона - тоже немного не то. Проверяется гипотеза адекватности регрессии или пригодность выбранных коэффициентов линейной регрессии. Есть у Кобзаря на стр. 653. - 5.3.1.1.3.1. Медианный критерий Брауна-Муда. Сообщение отредактировал Диагностик - 6.09.2022 - 15:21

passant Просмотр профиля	6.09.2022 - 14:57 Сообщение #15
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223	Цитата(ИНО @ 6.09.2022 - 08:16) Можно ссылку на эту статью? А то я только критерий Муда - Брауна знаю, а он о другом. Что касается фамилий этих ученых мужей в связи с линейной регррессией, то все, что выдал Гугл, - оценка неизвестного параметра наклона - тоже немного не то. Цитата(Диагностик @ 6.09.2022 - 12:40) Проверяется гипотеза адекватности регрессии или пригодность выбранных ко- эффициентов линейной регрессии. Есть у Кобзаря на стр. 653. - 5.3.1.1.3.1. Медианный критерий Брауна-Муда. Кстати, очень интересный поворот. Я попытался найти первоисточник информации о том, что обычный медианный критерий Брауна-Муда используется в разрезе упомянутой мною задачи. А именно : имеются априорные значения коэффициентов b0 и b1, имеется набор реальных значений {уi} и требуется ответить на вопрос относительно гипотезы "{уi} порожден моделью b0+b1xi ". Мне удалось найти вроде-бы первоисточник, на который ссылаются все остальные - по крайней мере русскоязычные - статьи и работы. Таким первоисточником есть известная книга-справочник Кобзаря, где отдельно указан и просто медианный критерий Муда (как аналог "F-статистике Фишера, когда вместо наблюдений используются их ранги. "), так и совершенно отдельный, в другом разделе, на стр. 653 критерий, о котором мы и говорим. Даже с уточнением, что исследуются остатки между реальными и модельными значениями и оценивается факт того, что медианы этих остатков для половины меньших значений и для половины больших значений х равны. Но я не только нашел, я еще и попытался разобраться, что же там написано. К моему большому удивлению, хотя в справочнике есть аж две модификации этого критерия, описан этот метод весьма поверхностно, нетипично для данного справочника, без раскрытия всех обозначений и без таблицы распределения, которому данный критерий должен соотноситься (хотя два невесть как взявшихся вроде бы из этой таблицы значения для примера приведены). Естественно, как из одного варианта критерия получен другой - тоже ни слова. Нет там и информации о том, как приведенные формулы выводятся из "общего медианного критерия Муда"(а они весьма отличны между собой). Но зато есть отсылка к вроде-бы базовой работе, а именно, работе "Brown G. W., Mood A. M. On median tests for linear hypotheses // Proc. of the Second Berkeley Symp. on Math. Stat. And Prob., Univ. of Calif. Press., 1950. P. 159-166. " (Очевидно, это та работа, на которую ссылается уважаемый 100$) Я дотошный, я нашел эту работу в сети: https://digitalassets.lib.berkeley.edu/math..._article-12.pdf И к огромному удивлению обнаружил, что в ней нет ни описанного у Кобзаря критерия, ни в одной из модификаций, ни требуемой таблицы, вообще ничего, что может послужить для решения задачи. При этом поиски в англоязычном сегменте интернет ответа на вопрос о применении медианного критерия к задаче анализа остатков регрессионной модели - тоже к успеху не привели. В общем, если у кого есть более достоверная информация по вопросу - буду благодарен за соответствующие ссылки. P.S. На всякий случай, я не оспариваю формулы, приведенные у Кобзаря. Я пытаюсь разобраться, как они получены, какие ограничения на их использования, когда какую из двух лучше применять и пр. Сообщение отредактировал passant* - 6.09.2022 - 15:38

« Предыдущая тема · Медицинская статистика · Следующая тема »

2 страниц

1 2 >

Добавить ответ в эту тему

Открыть тему

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Форум IP.Board © 2024 IPS, Inc.