Регрессионный анализ |
Здравствуйте, гость ( Вход | Регистрация )
Регрессионный анализ |
12.04.2017 - 09:12
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 20 Регистрация: 13.03.2016 Пользователь №: 28066 |
Добрый день.
Задача заключается в поиске зависимости (по сути формулы) для оценки и прогнозирования (сколько нужно раз сделать то-то и то-то, чтобы получился такой-то результат). Я так понимаю, что можно использовать регрессионный анализ, верно? Или нужно выбирать другие методы? Спасибо. |
|
12.04.2017 - 09:32
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 105 Регистрация: 23.11.2016 Пользователь №: 28953 |
Добрый день. Задача заключается в поиске зависимости (по сути формулы) для оценки и прогнозирования (сколько нужно раз сделать то-то и то-то, чтобы получился такой-то результат). Я так понимаю, что можно использовать регрессионный анализ, верно? Или нужно выбирать другие методы? Спасибо. Анна, ! Выбор методов анализа определяется двумя факторами. Во-первых, структурой анализируемых признаков массива данных (БД). Т.е. составом этих признаков. Например, наличие только одних количественных признаков, или наличие только одних качественных признаков, или наличие как количественных, так и качественных признаков. В связи с этим может использоваться регрессионный анализ разных типов. Поскольку в практике биомедицинских исследований чаще всего примерно половина признаков являются количественными, а вторая половина - качественными, то продуктивнее всего применять метод логистической регрессии. Описание метода см. по адресам http://www.biometrica.tomsk.ru/logit_1.htm --- http://www.biometrica.tomsk.ru/logit_9.htm Также примеры использования этого метода можете прочитать в большой коллекции диссертаций, представленных на первой странице нашего сайта (см. http://www.biometrica.tomsk.ru/ ). Во-вторых, если все признаки являются количественными, то начать надо с построения двумерных графиков, чтобы оценить типы парных взаимосвязей между признаками. И далее при построении уравнения линейной регрессии использовать нужные изменения отдельных предикторов. При этом кроме линейной регрессии можно использовать и уравнение, в котором предикторы не складываются (линейная регрессия), а перемножаются, предварительно возведённые в оптимальные степени. Естественно, что все типы разных видов регрессионного анализа после их реализации далее следует сравнить по их результатам прогнозирования. Желаю успешного проведения исследования! Сообщение отредактировал leo_biostat - 12.04.2017 - 09:38 |
|
12.04.2017 - 09:57
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 20 Регистрация: 13.03.2016 Пользователь №: 28066 |
Анна, ! Выбор методов анализа определяется двумя факторами. Во-первых, структурой анализируемых признаков массива данных (БД). Т.е. составом этих признаков. Например, наличие только одних количественных признаков, или наличие только одних качественных признаков, или наличие как количественных, так и качественных признаков. В связи с этим может использоваться регрессионный анализ разных типов. Поскольку в практике биомедицинских исследований чаще всего примерно половина признаков являются количественными, а вторая половина - качественными, то продуктивнее всего применять метод логистической регрессии. Описание метода см. по адресам http://www.biometrica.tomsk.ru/logit_1.htm --- http://www.biometrica.tomsk.ru/logit_9.htm Также примеры использования этого метода можете прочитать в большой коллекции диссертаций, представленных на первой странице нашего сайта (см. http://www.biometrica.tomsk.ru/ ). Во-вторых, если все признаки являются количественными, то начать надо с построения двумерных графиков, чтобы оценить типы парных взаимосвязей между признаками. И далее при построении уравнения линейной регрессии использовать нужные изменения отдельных предикторов. При этом кроме линейной регрессии можно использовать и уравнение, в котором предикторы не складываются (линейная регрессия), а перемножаются, предварительно возведённые в оптимальные степени. Естественно, что все типы разных видов регрессионного анализа после их реализации далее следует сравнить по их результатам прогнозирования. Желаю успешного проведения исследования! leo_biostat, спасибо Вам большое за подробный ответ и за ссылки! Меня немного выбивает из колии, что в учебниках приводится много разных методов, кроме регрессии. Не могу понять, правильно ли я решила применять регрессию. Сообщение отредактировал anna78 - 12.04.2017 - 14:47 |
|
12.04.2017 - 23:02
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Добрый день. Задача заключается в поиске зависимости (по сути формулы) для оценки и прогнозирования (сколько нужно раз сделать то-то и то-то, чтобы получился такой-то результат). Я так понимаю, что можно использовать регрессионный анализ, верно? Или нужно выбирать другие методы? Спасибо. Поиск такой зависимости это управляемый эксперимент. Составляется план (специальные схемы), потом делается шаг эксперимента, потом план следующего шага и выполнение, пока не будет покрыта вся зона поиска (или не найден какой то оптимум, который обычно и ищут). Весь план может быть выполнен и одномоментно, но обычно это крайне дорогостоящая процедура. Делать такое исследование по данным наблюдения, а не эксперимента чревато. |
|
13.04.2017 - 08:02
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 20 Регистрация: 13.03.2016 Пользователь №: 28066 |
Поиск такой зависимости это управляемый эксперимент. Составляется план (специальные схемы), потом делается шаг эксперимента, потом план следующего шага и выполнение, пока не будет покрыта вся зона поиска (или не найден какой то оптимум, который обычно и ищут). Весь план может быть выполнен и одномоментно, но обычно это крайне дорогостоящая процедура. Делать такое исследование по данным наблюдения, а не эксперимента чревато. p2004r, спасибо большое за ответ. А если проведены реальные операции, это можно считать экспериментом? Сообщение отредактировал anna78 - 13.04.2017 - 08:02 |
|
13.04.2017 - 11:44
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
p2004r, спасибо большое за ответ. А если проведены реальные операции, это можно считать экспериментом? (если это были люди) Только если выбор "алгоритма операции" не имел возможность интерпретировать его как "эксперименты над людьми", а диктовался "инвариантностью" по отношению к последствиям для больного. Ну и план должен был составлян что бы статистически полноценно исследовать пространство поиска в котором модель определена. |
|
13.04.2017 - 19:08
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 20 Регистрация: 13.03.2016 Пользователь №: 28066 |
(если это были люди) Только если выбор "алгоритма операции" не имел возможность интерпретировать его как "эксперименты над людьми", а диктовался "инвариантностью" по отношению к последствиям для больного. Ну и план должен был составлян что бы статистически полноценно исследовать пространство поиска в котором модель определена. p2004r, спасибо за ответ. Можно я Вам в личку отправлю подробности плана для Вашей оценки: эксперимент это или скорее наблюдение? Была бы Вам очень благодарна. |
|
14.04.2017 - 00:11
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
p2004r, спасибо за ответ. Можно я Вам в личку отправлю подробности плана для Вашей оценки: эксперимент это или скорее наблюдение? Была бы Вам очень благодарна. Отличие эксперимента от наблюдения очень простое --- при эксперименте обеспечена рандомизация, а в наблюдении мы "кушаем то что подано" не управляя (с точки зрения статистики) обстоятельствами в которых проведено испытание. |
|
14.04.2017 - 00:54
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Меня немного выбивает из колии, что в учебниках приводится много разных методов, кроме регрессии. Не могу понять, правильно ли я решила применять регрессию. Решительный вы исследователь! Ничего не нашли в учебниках про регрессию, и потому решили ее применить? В гугле по запросу regression analysis предлагается 43 млн ссылок! Сообщение отредактировал DrgLena - 14.04.2017 - 00:57 |
|
14.04.2017 - 09:59
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 20 Регистрация: 13.03.2016 Пользователь №: 28066 |
|
|
25.04.2017 - 12:06
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 20 Регистрация: 13.03.2016 Пользователь №: 28066 |
Подскажите, пожалуйста, если предполагается экспоненциальная зависимость y=a*e^bx, то b может принимать любые значения? Спасибо.
Поясню, почему возник этот вопрос. Использую метод наименьших квадратов, при стартовом b=0,4 аппроксимация получается, при b=0,5 все "буксует" на одном и том же значении. Сообщение отредактировал anna78 - 25.04.2017 - 13:44 |
|
25.04.2017 - 21:28
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
Подскажите, пожалуйста, если предполагается экспоненциальная зависимость y=a*e^bx, то b может принимать любые значения? Спасибо. Поясню, почему возник этот вопрос. Использую метод наименьших квадратов, при стартовом b=0,4 аппроксимация получается, при b=0,5 все "буксует" на одном и том же значении. Нет, почему возник вопрос совершенно непонятно. Вы что, градиентный спуск применяете? С разными, скорее всего угаданными, стартовыми значениями b? И не понятно, что значит "буксует", да еще и "на одном и том же значении". Решение, что-ли расходится? Или все-таки имелось ввиду что-то другое? Вообще-то, если заранее известен вид зависимости, да еще такой простой, то проще всего пойти стандартным путем. Преобразуем исходную экспоненциальную зависимость к виду ln(y)=ln(a)+bx, затем заменой переменных ln(a)->A, ln(y)->Y приходим к вполне удобоваримому ур-нию Y=A+bх, которое прекрасно решается что аналитически, что с помощью любой программы (функции, метода - в зависимости от применяемого Вами инструмента) ЛИНЕЙНОЙ регрессии. Главное потом не забыть сделать обратные преобразования. И да, при этом b может принимать любые значения, мы ведь не знаем, какие у Вас там х и y. Просто вид зависимости получается разный. P.S. Совет предварительно прочитать, что такое регрессия и какие они бывают - весьма полезный, кстати. Сообщение отредактировал passant - 25.04.2017 - 21:35 |
|
25.04.2017 - 21:56
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 20 Регистрация: 13.03.2016 Пользователь №: 28066 |
Нет, почему возник вопрос совершенно непонятно. Вы что, градиентный спуск применяете? С разными, скорее всего угаданными, стартовыми значениями b? И не понятно, что значит "буксует", да еще и "на одном и том же значении". Решение, что-ли расходится? Или все-таки имелось ввиду что-то другое? Вообще-то, если заранее известен вид зависимости, да еще такой простой, то проще всего пойти стандартным путем. Преобразуем исходную экспоненциальную зависимость к виду ln(y)=ln(a)+bx, затем заменой переменных ln(a)->A, ln(y)->Y приходим к вполне удобоваримому ур-нию Y=A+bх, которое прекрасно решается что аналитически, что с помощью любой программы (функции, метода - в зависимости от применяемого Вами инструмента) ЛИНЕЙНОЙ регрессии. Главное потом не забыть сделать обратные преобразования. И да, при этом b может принимать любые значения, мы ведь не знаем, какие у Вас там х и y. Просто вид зависимости получается разный. P.S. Совет предварительно прочитать, что такое регрессия и какие они бывают - весьма полезный, кстати. passant, спасибо за ответ. Пользуюсь стат. пакетом, a и b подбираются итерационно, но нужно задать начальные значения. Например, если задаю b=0,5 (или больше), в каждой итерации b=0,5. И итоговые коэффициенты определяются не верно. Если задаю b=0,4, то все итерации проходят корректно. |
|
25.04.2017 - 22:53
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
И итоговые коэффициенты определяются не верно. Стесняюсь спросить. Если вам известны ИТОГОВЫЕ КОЭФФИЦИЕНТЫ (а иначе - как вы определяете, верны они или нет), то что вы ищите???? И что имеется ввиду, когда вы говорите "итерации проходят корректно"? Как иначе они могут происходить? |
|
26.04.2017 - 00:45
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
<passant
есть 2 комментария:) 1) Про разные результаты с разными стартовыми значениями. Подозреваю, что здесь просто используемый пакет алгоритмически слабоват, поскольку для двухпараметрических зависимостей обычно проблем не возникает. Проблемы со стартовыми значениями бывают когда 3 или даже 4 параметра. Но посмотрим, что автор темы ответит. Кстати, интересно было бы и название этого пакета узнать. 2) Про линеаризацию зависимостей с помощью преобразований. Не знаю, специально вы упростили ответ или нет, но на всякий случай напишу, что результаты расчёта параметров (а) итерационно и (б) через линеаризацию с последующей ретрансформацией в исходную шкалу будут немного отличаться. Дело в том, что при итерационной подгонке экспоненциальной зависимости методом наименьших квадратов нормально распределена будет ошибка исходных данных. В случае линеаризации логарифмированием нормально будет распределена ошибка логарифмов исходных данных. В итоге, при ретрансформации параметров их значения будут несколько иными. До эпохи компьютеров линеаризировали всё что можно было и радовались простоте не задумываясь. Но с появлением компов более грамотной и точной стала считаться именно итерационная подгонка. Поэтому сейчас так же радостно фитят нелинейные модели и радуются не задумываясь. Но дело в том, что в некоторых случаях просто нелогично предполагать нормальность ошибки для исходных данных. В частности это относится и к экспоненциальному, и к степенному росту. Например, если клеточная культура растёт по экспоненте - откуда взяться нормальной ошибке? Она будет распределена асимметрично, а вот её логарифм - куда скорее симметрично. Когда данных много в этом можно убедиться построив распределения на отдельных срезах регрессии. Получается, что дедовский способ с линеаризующим преобразованием и ретрансформацией чисто теоретически здесь подходит лучше современного итерационного подхода. К сожалению, не встречал нигде рекомендаций как выбирать между (а) и (б). Если вы или другие частники форума встречали обсуждение обозначенной проблемы - буду признателен за ссылку. |
|