Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >  
Добавить ответ в эту темуОткрыть тему
> Регрессионный анализ
anna78
сообщение 12.04.2017 - 09:12
Сообщение #1





Группа: Пользователи
Сообщений: 20
Регистрация: 13.03.2016
Пользователь №: 28066



Добрый день.

Задача заключается в поиске зависимости (по сути формулы) для оценки и прогнозирования (сколько нужно раз сделать то-то и то-то, чтобы получился такой-то результат).

Я так понимаю, что можно использовать регрессионный анализ, верно?

Или нужно выбирать другие методы?

Спасибо.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
leo_biostat
сообщение 12.04.2017 - 09:32
Сообщение #2





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953



Цитата(anna78 @ 12.04.2017 - 09:12) *
Добрый день.

Задача заключается в поиске зависимости (по сути формулы) для оценки и прогнозирования (сколько нужно раз сделать то-то и то-то, чтобы получился такой-то результат).

Я так понимаю, что можно использовать регрессионный анализ, верно?

Или нужно выбирать другие методы?

Спасибо.


Анна, hi.gif!

Выбор методов анализа определяется двумя факторами. Во-первых, структурой анализируемых признаков массива данных (БД).
Т.е. составом этих признаков. Например, наличие только одних количественных признаков, или наличие только одних качественных признаков,
или наличие как количественных, так и качественных признаков. В связи с этим может использоваться регрессионный анализ разных типов.
Поскольку в практике биомедицинских исследований чаще всего примерно половина признаков являются количественными, а вторая половина - качественными,
то продуктивнее всего применять метод логистической регрессии. Описание метода см. по адресам http://www.biometrica.tomsk.ru/logit_1.htm --- http://www.biometrica.tomsk.ru/logit_9.htm
Также примеры использования этого метода можете прочитать в большой коллекции диссертаций, представленных на первой странице нашего сайта (см. http://www.biometrica.tomsk.ru/ ).

Во-вторых, если все признаки являются количественными, то начать надо с построения двумерных графиков, чтобы оценить типы парных взаимосвязей между признаками.
И далее при построении уравнения линейной регрессии использовать нужные изменения отдельных предикторов.
При этом кроме линейной регрессии можно использовать и уравнение, в котором предикторы не складываются (линейная регрессия), а перемножаются, предварительно возведённые
в оптимальные степени. Естественно, что все типы разных видов регрессионного анализа после их реализации далее следует сравнить по их результатам прогнозирования.

Желаю успешного проведения исследования!

Сообщение отредактировал leo_biostat - 12.04.2017 - 09:38
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
anna78
сообщение 12.04.2017 - 09:57
Сообщение #3





Группа: Пользователи
Сообщений: 20
Регистрация: 13.03.2016
Пользователь №: 28066



Цитата(leo_biostat @ 12.04.2017 - 09:32) *
Анна, hi.gif!

Выбор методов анализа определяется двумя факторами. Во-первых, структурой анализируемых признаков массива данных (БД).
Т.е. составом этих признаков. Например, наличие только одних количественных признаков, или наличие только одних качественных признаков,
или наличие как количественных, так и качественных признаков. В связи с этим может использоваться регрессионный анализ разных типов.
Поскольку в практике биомедицинских исследований чаще всего примерно половина признаков являются количественными, а вторая половина - качественными,
то продуктивнее всего применять метод логистической регрессии. Описание метода см. по адресам http://www.biometrica.tomsk.ru/logit_1.htm --- http://www.biometrica.tomsk.ru/logit_9.htm
Также примеры использования этого метода можете прочитать в большой коллекции диссертаций, представленных на первой странице нашего сайта (см. http://www.biometrica.tomsk.ru/ ).

Во-вторых, если все признаки являются количественными, то начать надо с построения двумерных графиков, чтобы оценить типы парных взаимосвязей между признаками.
И далее при построении уравнения линейной регрессии использовать нужные изменения отдельных предикторов.
При этом кроме линейной регрессии можно использовать и уравнение, в котором предикторы не складываются (линейная регрессия), а перемножаются, предварительно возведённые
в оптимальные степени. Естественно, что все типы разных видов регрессионного анализа после их реализации далее следует сравнить по их результатам прогнозирования.

Желаю успешного проведения исследования!


leo_biostat, спасибо Вам большое за подробный ответ и за ссылки!
Меня немного выбивает из колии, что в учебниках приводится много разных методов, кроме регрессии. Не могу понять, правильно ли я решила применять регрессию.

Сообщение отредактировал anna78 - 12.04.2017 - 14:47
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 12.04.2017 - 23:02
Сообщение #4





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(anna78 @ 12.04.2017 - 09:12) *
Добрый день.

Задача заключается в поиске зависимости (по сути формулы) для оценки и прогнозирования (сколько нужно раз сделать то-то и то-то, чтобы получился такой-то результат).

Я так понимаю, что можно использовать регрессионный анализ, верно?

Или нужно выбирать другие методы?

Спасибо.



Поиск такой зависимости это управляемый эксперимент. Составляется план (специальные схемы), потом делается шаг эксперимента, потом план следующего шага и выполнение, пока не будет покрыта вся зона поиска (или не найден какой то оптимум, который обычно и ищут).

Весь план может быть выполнен и одномоментно, но обычно это крайне дорогостоящая процедура. Делать такое исследование по данным наблюдения, а не эксперимента чревато.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
anna78
сообщение 13.04.2017 - 08:02
Сообщение #5





Группа: Пользователи
Сообщений: 20
Регистрация: 13.03.2016
Пользователь №: 28066



Цитата(p2004r @ 12.04.2017 - 23:02) *
Поиск такой зависимости это управляемый эксперимент. Составляется план (специальные схемы), потом делается шаг эксперимента, потом план следующего шага и выполнение, пока не будет покрыта вся зона поиска (или не найден какой то оптимум, который обычно и ищут).

Весь план может быть выполнен и одномоментно, но обычно это крайне дорогостоящая процедура. Делать такое исследование по данным наблюдения, а не эксперимента чревато.


p2004r, спасибо большое за ответ.

А если проведены реальные операции, это можно считать экспериментом?

Сообщение отредактировал anna78 - 13.04.2017 - 08:02
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 13.04.2017 - 11:44
Сообщение #6





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(anna78 @ 13.04.2017 - 08:02) *
p2004r, спасибо большое за ответ.

А если проведены реальные операции, это можно считать экспериментом?


(если это были люди) Только если выбор "алгоритма операции" не имел возможность интерпретировать его как "эксперименты над людьми", а диктовался "инвариантностью" по отношению к последствиям для больного. Ну и план должен был составлян что бы статистически полноценно исследовать пространство поиска в котором модель определена.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
anna78
сообщение 13.04.2017 - 19:08
Сообщение #7





Группа: Пользователи
Сообщений: 20
Регистрация: 13.03.2016
Пользователь №: 28066



Цитата(p2004r @ 13.04.2017 - 11:44) *
(если это были люди) Только если выбор "алгоритма операции" не имел возможность интерпретировать его как "эксперименты над людьми", а диктовался "инвариантностью" по отношению к последствиям для больного. Ну и план должен был составлян что бы статистически полноценно исследовать пространство поиска в котором модель определена.

p2004r, спасибо за ответ.
Можно я Вам в личку отправлю подробности плана для Вашей оценки: эксперимент это или скорее наблюдение?
Была бы Вам очень благодарна.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 14.04.2017 - 00:11
Сообщение #8





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(anna78 @ 13.04.2017 - 19:08) *
p2004r, спасибо за ответ.
Можно я Вам в личку отправлю подробности плана для Вашей оценки: эксперимент это или скорее наблюдение?
Была бы Вам очень благодарна.


Отличие эксперимента от наблюдения очень простое --- при эксперименте обеспечена рандомизация, а в наблюдении мы "кушаем то что подано" не управляя (с точки зрения статистики) обстоятельствами в которых проведено испытание.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 14.04.2017 - 00:54
Сообщение #9





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Цитата(anna78 @ 12.04.2017 - 09:57) *
Меня немного выбивает из колии, что в учебниках приводится много разных методов, кроме регрессии. Не могу понять, правильно ли я решила применять регрессию.

Решительный вы исследователь! Ничего не нашли в учебниках про регрессию, и потому решили ее применить? В гугле по запросу regression analysis предлагается 43 млн ссылок!

Сообщение отредактировал DrgLena - 14.04.2017 - 00:57
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
anna78
сообщение 14.04.2017 - 09:59
Сообщение #10





Группа: Пользователи
Сообщений: 20
Регистрация: 13.03.2016
Пользователь №: 28066



Цитата(DrgLena @ 14.04.2017 - 01:54) *
Решительный вы исследователь! Ничего не нашли в учебниках про регрессию, и потому решили ее применить? В гугле по запросу regression analysis предлагается 43 млн ссылок!


p2004r, спасибо.

DrgLena, ???
Имелось в виду, что есть регрессия, а есть ещё много методов.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
anna78
сообщение 25.04.2017 - 12:06
Сообщение #11





Группа: Пользователи
Сообщений: 20
Регистрация: 13.03.2016
Пользователь №: 28066



Подскажите, пожалуйста, если предполагается экспоненциальная зависимость y=a*e^bx, то b может принимать любые значения? Спасибо.

Поясню, почему возник этот вопрос. Использую метод наименьших квадратов, при стартовом b=0,4 аппроксимация получается, при b=0,5 все "буксует" на одном и том же значении.

Сообщение отредактировал anna78 - 25.04.2017 - 13:44
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 25.04.2017 - 21:28
Сообщение #12





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(anna78 @ 25.04.2017 - 11:06) *
Подскажите, пожалуйста, если предполагается экспоненциальная зависимость y=a*e^bx, то b может принимать любые значения? Спасибо.

Поясню, почему возник этот вопрос. Использую метод наименьших квадратов, при стартовом b=0,4 аппроксимация получается, при b=0,5 все "буксует" на одном и том же значении.

Нет, почему возник вопрос совершенно непонятно.
Вы что, градиентный спуск применяете? С разными, скорее всего угаданными, стартовыми значениями b? И не понятно, что значит "буксует", да еще и "на одном и том же значении". Решение, что-ли расходится? Или все-таки имелось ввиду что-то другое?
Вообще-то, если заранее известен вид зависимости, да еще такой простой, то проще всего пойти стандартным путем. Преобразуем исходную экспоненциальную зависимость к виду ln(y)=ln(a)+bx, затем заменой переменных ln(a)->A, ln(y)->Y приходим к вполне удобоваримому ур-нию Y=A+bх, которое прекрасно решается что аналитически, что с помощью любой программы (функции, метода - в зависимости от применяемого Вами инструмента) ЛИНЕЙНОЙ регрессии. Главное потом не забыть сделать обратные преобразования.
И да, при этом b может принимать любые значения, мы ведь не знаем, какие у Вас там х и y. Просто вид зависимости получается разный.
P.S. Совет предварительно прочитать, что такое регрессия и какие они бывают - весьма полезный, кстати.

Сообщение отредактировал passant - 25.04.2017 - 21:35
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
anna78
сообщение 25.04.2017 - 21:56
Сообщение #13





Группа: Пользователи
Сообщений: 20
Регистрация: 13.03.2016
Пользователь №: 28066



Цитата(passant @ 25.04.2017 - 22:28) *
Нет, почему возник вопрос совершенно непонятно.
Вы что, градиентный спуск применяете? С разными, скорее всего угаданными, стартовыми значениями b? И не понятно, что значит "буксует", да еще и "на одном и том же значении". Решение, что-ли расходится? Или все-таки имелось ввиду что-то другое?
Вообще-то, если заранее известен вид зависимости, да еще такой простой, то проще всего пойти стандартным путем. Преобразуем исходную экспоненциальную зависимость к виду ln(y)=ln(a)+bx, затем заменой переменных ln(a)->A, ln(y)->Y приходим к вполне удобоваримому ур-нию Y=A+bх, которое прекрасно решается что аналитически, что с помощью любой программы (функции, метода - в зависимости от применяемого Вами инструмента) ЛИНЕЙНОЙ регрессии. Главное потом не забыть сделать обратные преобразования.
И да, при этом b может принимать любые значения, мы ведь не знаем, какие у Вас там х и y. Просто вид зависимости получается разный.
P.S. Совет предварительно прочитать, что такое регрессия и какие они бывают - весьма полезный, кстати.

passant, спасибо за ответ.
Пользуюсь стат. пакетом, a и b подбираются итерационно, но нужно задать начальные значения.
Например, если задаю b=0,5 (или больше), в каждой итерации b=0,5. И итоговые коэффициенты определяются не верно.
Если задаю b=0,4, то все итерации проходят корректно.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 25.04.2017 - 22:53
Сообщение #14





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(anna78 @ 25.04.2017 - 20:56) *
И итоговые коэффициенты определяются не верно.

Стесняюсь спросить. Если вам известны ИТОГОВЫЕ КОЭФФИЦИЕНТЫ (а иначе - как вы определяете, верны они или нет), то что вы ищите???? shok.gif
И что имеется ввиду, когда вы говорите "итерации проходят корректно"? Как иначе они могут происходить?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 26.04.2017 - 00:45
Сообщение #15





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



<passant
есть 2 комментария:)
1) Про разные результаты с разными стартовыми значениями. Подозреваю, что здесь просто используемый пакет алгоритмически слабоват, поскольку для двухпараметрических зависимостей обычно проблем не возникает. Проблемы со стартовыми значениями бывают когда 3 или даже 4 параметра. Но посмотрим, что автор темы ответит. Кстати, интересно было бы и название этого пакета узнать.

2) Про линеаризацию зависимостей с помощью преобразований. Не знаю, специально вы упростили ответ или нет, но на всякий случай напишу, что результаты расчёта параметров (а) итерационно и (б) через линеаризацию с последующей ретрансформацией в исходную шкалу будут немного отличаться. Дело в том, что при итерационной подгонке экспоненциальной зависимости методом наименьших квадратов нормально распределена будет ошибка исходных данных. В случае линеаризации логарифмированием нормально будет распределена ошибка логарифмов исходных данных. В итоге, при ретрансформации параметров их значения будут несколько иными. До эпохи компьютеров линеаризировали всё что можно было и радовались простоте не задумываясь. Но с появлением компов более грамотной и точной стала считаться именно итерационная подгонка. Поэтому сейчас так же радостно фитят нелинейные модели и радуются не задумываясь. Но дело в том, что в некоторых случаях просто нелогично предполагать нормальность ошибки для исходных данных. В частности это относится и к экспоненциальному, и к степенному росту. Например, если клеточная культура растёт по экспоненте - откуда взяться нормальной ошибке? Она будет распределена асимметрично, а вот её логарифм - куда скорее симметрично. Когда данных много в этом можно убедиться построив распределения на отдельных срезах регрессии. Получается, что дедовский способ с линеаризующим преобразованием и ретрансформацией чисто теоретически здесь подходит лучше современного итерационного подхода. К сожалению, не встречал нигде рекомендаций как выбирать между (а) и (б). Если вы или другие частники форума встречали обсуждение обозначенной проблемы - буду признателен за ссылку.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V   1 2 >
Добавить ответ в эту темуОткрыть тему