Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Регрессионный анализ

Автор: anna78 12.04.2017 - 09:12

Добрый день.

Задача заключается в поиске зависимости (по сути формулы) для оценки и прогнозирования (сколько нужно раз сделать то-то и то-то, чтобы получился такой-то результат).

Я так понимаю, что можно использовать регрессионный анализ, верно?

Или нужно выбирать другие методы?

Спасибо.

Автор: leo_biostat 12.04.2017 - 09:32

Цитата(anna78 @ 12.04.2017 - 09:12) *
Добрый день.

Задача заключается в поиске зависимости (по сути формулы) для оценки и прогнозирования (сколько нужно раз сделать то-то и то-то, чтобы получился такой-то результат).

Я так понимаю, что можно использовать регрессионный анализ, верно?

Или нужно выбирать другие методы?

Спасибо.


Анна, hi.gif!

Выбор методов анализа определяется двумя факторами. Во-первых, структурой анализируемых признаков массива данных (БД).
Т.е. составом этих признаков. Например, наличие только одних количественных признаков, или наличие только одних качественных признаков,
или наличие как количественных, так и качественных признаков. В связи с этим может использоваться регрессионный анализ разных типов.
Поскольку в практике биомедицинских исследований чаще всего примерно половина признаков являются количественными, а вторая половина - качественными,
то продуктивнее всего применять метод логистической регрессии. Описание метода см. по адресам http://www.biometrica.tomsk.ru/logit_1.htm --- http://www.biometrica.tomsk.ru/logit_9.htm
Также примеры использования этого метода можете прочитать в большой коллекции диссертаций, представленных на первой странице нашего сайта (см. http://www.biometrica.tomsk.ru/ ).

Во-вторых, если все признаки являются количественными, то начать надо с построения двумерных графиков, чтобы оценить типы парных взаимосвязей между признаками.
И далее при построении уравнения линейной регрессии использовать нужные изменения отдельных предикторов.
При этом кроме линейной регрессии можно использовать и уравнение, в котором предикторы не складываются (линейная регрессия), а перемножаются, предварительно возведённые
в оптимальные степени. Естественно, что все типы разных видов регрессионного анализа после их реализации далее следует сравнить по их результатам прогнозирования.

Желаю успешного проведения исследования!

Автор: anna78 12.04.2017 - 09:57

Цитата(leo_biostat @ 12.04.2017 - 09:32) *
Анна, hi.gif!

Выбор методов анализа определяется двумя факторами. Во-первых, структурой анализируемых признаков массива данных (БД).
Т.е. составом этих признаков. Например, наличие только одних количественных признаков, или наличие только одних качественных признаков,
или наличие как количественных, так и качественных признаков. В связи с этим может использоваться регрессионный анализ разных типов.
Поскольку в практике биомедицинских исследований чаще всего примерно половина признаков являются количественными, а вторая половина - качественными,
то продуктивнее всего применять метод логистической регрессии. Описание метода см. по адресам http://www.biometrica.tomsk.ru/logit_1.htm --- http://www.biometrica.tomsk.ru/logit_9.htm
Также примеры использования этого метода можете прочитать в большой коллекции диссертаций, представленных на первой странице нашего сайта (см. http://www.biometrica.tomsk.ru/ ).

Во-вторых, если все признаки являются количественными, то начать надо с построения двумерных графиков, чтобы оценить типы парных взаимосвязей между признаками.
И далее при построении уравнения линейной регрессии использовать нужные изменения отдельных предикторов.
При этом кроме линейной регрессии можно использовать и уравнение, в котором предикторы не складываются (линейная регрессия), а перемножаются, предварительно возведённые
в оптимальные степени. Естественно, что все типы разных видов регрессионного анализа после их реализации далее следует сравнить по их результатам прогнозирования.

Желаю успешного проведения исследования!


leo_biostat, спасибо Вам большое за подробный ответ и за ссылки!
Меня немного выбивает из колии, что в учебниках приводится много разных методов, кроме регрессии. Не могу понять, правильно ли я решила применять регрессию.

Автор: p2004r 12.04.2017 - 23:02

Цитата(anna78 @ 12.04.2017 - 09:12) *
Добрый день.

Задача заключается в поиске зависимости (по сути формулы) для оценки и прогнозирования (сколько нужно раз сделать то-то и то-то, чтобы получился такой-то результат).

Я так понимаю, что можно использовать регрессионный анализ, верно?

Или нужно выбирать другие методы?

Спасибо.



Поиск такой зависимости это управляемый эксперимент. Составляется план (специальные схемы), потом делается шаг эксперимента, потом план следующего шага и выполнение, пока не будет покрыта вся зона поиска (или не найден какой то оптимум, который обычно и ищут).

Весь план может быть выполнен и одномоментно, но обычно это крайне дорогостоящая процедура. Делать такое исследование по данным наблюдения, а не эксперимента чревато.

Автор: anna78 13.04.2017 - 08:02

Цитата(p2004r @ 12.04.2017 - 23:02) *
Поиск такой зависимости это управляемый эксперимент. Составляется план (специальные схемы), потом делается шаг эксперимента, потом план следующего шага и выполнение, пока не будет покрыта вся зона поиска (или не найден какой то оптимум, который обычно и ищут).

Весь план может быть выполнен и одномоментно, но обычно это крайне дорогостоящая процедура. Делать такое исследование по данным наблюдения, а не эксперимента чревато.


p2004r, спасибо большое за ответ.

А если проведены реальные операции, это можно считать экспериментом?

Автор: p2004r 13.04.2017 - 11:44

Цитата(anna78 @ 13.04.2017 - 08:02) *
p2004r, спасибо большое за ответ.

А если проведены реальные операции, это можно считать экспериментом?


(если это были люди) Только если выбор "алгоритма операции" не имел возможность интерпретировать его как "эксперименты над людьми", а диктовался "инвариантностью" по отношению к последствиям для больного. Ну и план должен был составлян что бы статистически полноценно исследовать пространство поиска в котором модель определена.

Автор: anna78 13.04.2017 - 19:08

Цитата(p2004r @ 13.04.2017 - 11:44) *
(если это были люди) Только если выбор "алгоритма операции" не имел возможность интерпретировать его как "эксперименты над людьми", а диктовался "инвариантностью" по отношению к последствиям для больного. Ну и план должен был составлян что бы статистически полноценно исследовать пространство поиска в котором модель определена.

p2004r, спасибо за ответ.
Можно я Вам в личку отправлю подробности плана для Вашей оценки: эксперимент это или скорее наблюдение?
Была бы Вам очень благодарна.

Автор: p2004r 14.04.2017 - 00:11

Цитата(anna78 @ 13.04.2017 - 19:08) *
p2004r, спасибо за ответ.
Можно я Вам в личку отправлю подробности плана для Вашей оценки: эксперимент это или скорее наблюдение?
Была бы Вам очень благодарна.


Отличие эксперимента от наблюдения очень простое --- при эксперименте обеспечена рандомизация, а в наблюдении мы "кушаем то что подано" не управляя (с точки зрения статистики) обстоятельствами в которых проведено испытание.

Автор: DrgLena 14.04.2017 - 00:54

Цитата(anna78 @ 12.04.2017 - 09:57) *
Меня немного выбивает из колии, что в учебниках приводится много разных методов, кроме регрессии. Не могу понять, правильно ли я решила применять регрессию.

Решительный вы исследователь! Ничего не нашли в учебниках про регрессию, и потому решили ее применить? В гугле по запросу regression analysis предлагается 43 млн ссылок!

Автор: anna78 14.04.2017 - 09:59

Цитата(DrgLena @ 14.04.2017 - 01:54) *
Решительный вы исследователь! Ничего не нашли в учебниках про регрессию, и потому решили ее применить? В гугле по запросу regression analysis предлагается 43 млн ссылок!


p2004r, спасибо.

DrgLena, ???
Имелось в виду, что есть регрессия, а есть ещё много методов.

Автор: anna78 25.04.2017 - 12:06

Подскажите, пожалуйста, если предполагается экспоненциальная зависимость y=a*e^bx, то b может принимать любые значения? Спасибо.

Поясню, почему возник этот вопрос. Использую метод наименьших квадратов, при стартовом b=0,4 аппроксимация получается, при b=0,5 все "буксует" на одном и том же значении.

Автор: passant 25.04.2017 - 21:28

Цитата(anna78 @ 25.04.2017 - 11:06) *
Подскажите, пожалуйста, если предполагается экспоненциальная зависимость y=a*e^bx, то b может принимать любые значения? Спасибо.

Поясню, почему возник этот вопрос. Использую метод наименьших квадратов, при стартовом b=0,4 аппроксимация получается, при b=0,5 все "буксует" на одном и том же значении.

Нет, почему возник вопрос совершенно непонятно.
Вы что, градиентный спуск применяете? С разными, скорее всего угаданными, стартовыми значениями b? И не понятно, что значит "буксует", да еще и "на одном и том же значении". Решение, что-ли расходится? Или все-таки имелось ввиду что-то другое?
Вообще-то, если заранее известен вид зависимости, да еще такой простой, то проще всего пойти стандартным путем. Преобразуем исходную экспоненциальную зависимость к виду ln(y)=ln(a)+bx, затем заменой переменных ln(a)->A, ln(y)->Y приходим к вполне удобоваримому ур-нию Y=A+bх, которое прекрасно решается что аналитически, что с помощью любой программы (функции, метода - в зависимости от применяемого Вами инструмента) ЛИНЕЙНОЙ регрессии. Главное потом не забыть сделать обратные преобразования.
И да, при этом b может принимать любые значения, мы ведь не знаем, какие у Вас там х и y. Просто вид зависимости получается разный.
P.S. Совет предварительно прочитать, что такое регрессия и какие они бывают - весьма полезный, кстати.

Автор: anna78 25.04.2017 - 21:56

Цитата(passant @ 25.04.2017 - 22:28) *
Нет, почему возник вопрос совершенно непонятно.
Вы что, градиентный спуск применяете? С разными, скорее всего угаданными, стартовыми значениями b? И не понятно, что значит "буксует", да еще и "на одном и том же значении". Решение, что-ли расходится? Или все-таки имелось ввиду что-то другое?
Вообще-то, если заранее известен вид зависимости, да еще такой простой, то проще всего пойти стандартным путем. Преобразуем исходную экспоненциальную зависимость к виду ln(y)=ln(a)+bx, затем заменой переменных ln(a)->A, ln(y)->Y приходим к вполне удобоваримому ур-нию Y=A+bх, которое прекрасно решается что аналитически, что с помощью любой программы (функции, метода - в зависимости от применяемого Вами инструмента) ЛИНЕЙНОЙ регрессии. Главное потом не забыть сделать обратные преобразования.
И да, при этом b может принимать любые значения, мы ведь не знаем, какие у Вас там х и y. Просто вид зависимости получается разный.
P.S. Совет предварительно прочитать, что такое регрессия и какие они бывают - весьма полезный, кстати.

passant, спасибо за ответ.
Пользуюсь стат. пакетом, a и b подбираются итерационно, но нужно задать начальные значения.
Например, если задаю b=0,5 (или больше), в каждой итерации b=0,5. И итоговые коэффициенты определяются не верно.
Если задаю b=0,4, то все итерации проходят корректно.

Автор: passant 25.04.2017 - 22:53

Цитата(anna78 @ 25.04.2017 - 20:56) *
И итоговые коэффициенты определяются не верно.

Стесняюсь спросить. Если вам известны ИТОГОВЫЕ КОЭФФИЦИЕНТЫ (а иначе - как вы определяете, верны они или нет), то что вы ищите???? shok.gif
И что имеется ввиду, когда вы говорите "итерации проходят корректно"? Как иначе они могут происходить?

Автор: nokh 26.04.2017 - 00:45

<passant
есть 2 комментария:)
1) Про разные результаты с разными стартовыми значениями. Подозреваю, что здесь просто используемый пакет алгоритмически слабоват, поскольку для двухпараметрических зависимостей обычно проблем не возникает. Проблемы со стартовыми значениями бывают когда 3 или даже 4 параметра. Но посмотрим, что автор темы ответит. Кстати, интересно было бы и название этого пакета узнать.

2) Про линеаризацию зависимостей с помощью преобразований. Не знаю, специально вы упростили ответ или нет, но на всякий случай напишу, что результаты расчёта параметров (а) итерационно и (б) через линеаризацию с последующей ретрансформацией в исходную шкалу будут немного отличаться. Дело в том, что при итерационной подгонке экспоненциальной зависимости методом наименьших квадратов нормально распределена будет ошибка исходных данных. В случае линеаризации логарифмированием нормально будет распределена ошибка логарифмов исходных данных. В итоге, при ретрансформации параметров их значения будут несколько иными. До эпохи компьютеров линеаризировали всё что можно было и радовались простоте не задумываясь. Но с появлением компов более грамотной и точной стала считаться именно итерационная подгонка. Поэтому сейчас так же радостно фитят нелинейные модели и радуются не задумываясь. Но дело в том, что в некоторых случаях просто нелогично предполагать нормальность ошибки для исходных данных. В частности это относится и к экспоненциальному, и к степенному росту. Например, если клеточная культура растёт по экспоненте - откуда взяться нормальной ошибке? Она будет распределена асимметрично, а вот её логарифм - куда скорее симметрично. Когда данных много в этом можно убедиться построив распределения на отдельных срезах регрессии. Получается, что дедовский способ с линеаризующим преобразованием и ретрансформацией чисто теоретически здесь подходит лучше современного итерационного подхода. К сожалению, не встречал нигде рекомендаций как выбирать между (а) и (б). Если вы или другие частники форума встречали обсуждение обозначенной проблемы - буду признателен за ссылку.

Автор: 100$ 26.04.2017 - 01:13

Цитата(nokh @ 26.04.2017 - 00:45) *
Если вы или другие частники форума встречали обсуждение обозначенной проблемы - буду признателен за ссылку.


Эту тему в районе 2009 г. плотно обсуждали на dxdy.ru

Автор: passant 26.04.2017 - 10:15

Цитата(nokh @ 25.04.2017 - 23:45) *
Но посмотрим, что автор темы ответит. Кстати, интересно было бы и название этого пакета узнать.

Мне тоже, только боюсь, нам этого не дождаться.
Цитата(nokh @ 25.04.2017 - 23:45) *
2) Про линеаризацию зависимостей с помощью преобразований. Не знаю, специально вы упростили ответ или нет,

Разумеется, я привел лишь схему (причем - по памяти rolleyes.gif ) . Я не думаю, что автор темы столь глубоко будет копать, что-бы разбираться в сравнении аналитических и итерационных методов. Но в случае автора "дедовский" способ реализуется в три клика даже на EXCEL. Я подумал, может не стоит ему "погружаться" в регрессионную теорию, к которой его явно не тянет, а достаточно достичь цели простейшим способом.
Цитата(nokh @ 25.04.2017 - 23:45) *
Получается, что дедовский способ с линеаризующим преобразованием и ретрансформацией чисто теоретически здесь подходит лучше современного итерационного подхода. К сожалению, не встречал нигде рекомендаций как выбирать между (а) и (б). Если вы или другие частники форума встречали обсуждение обозначенной проблемы - буду признателен за ссылку.

Нет, мне специально интересоваться темой не приходилось, но стало любопытно. Если что при случае найду - поделюсь.

Автор: anna78 26.04.2017 - 13:50

Цитата(nokh @ 26.04.2017 - 00:45) *
<passant
есть 2 комментария:)
1) Про разные результаты с разными стартовыми значениями. Подозреваю, что здесь просто используемый пакет алгоритмически слабоват, поскольку для двухпараметрических зависимостей обычно проблем не возникает. Проблемы со стартовыми значениями бывают когда 3 или даже 4 параметра. Но посмотрим, что автор темы ответит. Кстати, интересно было бы и название этого пакета узнать.

2) Про линеаризацию зависимостей с помощью преобразований. Не знаю, специально вы упростили ответ или нет, но на всякий случай напишу, что результаты расчёта параметров (а) итерационно и (б) через линеаризацию с последующей ретрансформацией в исходную шкалу будут немного отличаться. Дело в том, что при итерационной подгонке экспоненциальной зависимости методом наименьших квадратов нормально распределена будет ошибка исходных данных. В случае линеаризации логарифмированием нормально будет распределена ошибка логарифмов исходных данных. В итоге, при ретрансформации параметров их значения будут несколько иными. До эпохи компьютеров линеаризировали всё что можно было и радовались простоте не задумываясь. Но с появлением компов более грамотной и точной стала считаться именно итерационная подгонка. Поэтому сейчас так же радостно фитят нелинейные модели и радуются не задумываясь. Но дело в том, что в некоторых случаях просто нелогично предполагать нормальность ошибки для исходных данных. В частности это относится и к экспоненциальному, и к степенному росту. Например, если клеточная культура растёт по экспоненте - откуда взяться нормальной ошибке? Она будет распределена асимметрично, а вот её логарифм - куда скорее симметрично. Когда данных много в этом можно убедиться построив распределения на отдельных срезах регрессии. Получается, что дедовский способ с линеаризующим преобразованием и ретрансформацией чисто теоретически здесь подходит лучше современного итерационного подхода. К сожалению, не встречал нигде рекомендаций как выбирать между (а) и (б). Если вы или другие частники форума встречали обсуждение обозначенной проблемы - буду признателен за ссылку.


nokh, спасибо за вдумчивый ответ, использую spss. Про выбор в пользу линеаризации читала здесь: http://lib.qrz.ru/book/export/html/11304
Цитата
Возможность перевода в линейную модель нужно использовать всегда, так как в этом случае параметры регресии вычисляются непосредственно, а не определяются с помощью итераций.

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)