![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]() ![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 36 Регистрация: 27.08.2012 Пользователь №: 24128 ![]() |
Здравствуйте уважаемые участники форума!
Обращаюсь к Вам за помощью в решении следующего вопроса: 1. есть одна переменная отклика (или зависимая переменная) - удельная активность Cs-137 в древесине (Бк/кг); количественная. 2. есть три независимых (или предикторных) переменных - одна количественная (плотность загрязнения территории произрастания по Cs-137, Ки/км2) и две категориальных (одна из них - тип древесной породы (сосна, береза, ольха), а вторая - тип сосняка (мшистый, вересковый, черничный и лишайниковый); основная порода - сосна, а остальные (береза, ольха) идут как примесь в сосняках этих четырех типов). Задача: установить какие из этих трёх независимых (предикторных) переменных оказывают статистически значимое влияние на вариацию зависимой переменной и дать количественную оценку влиянию каждой независимой переменной (т.е. насколько (в процентах) общая вариация (или дисперсия?) зависимой переменной обусловлена влиянием той или иной независимой переменной). И желательно бы ещё на основе имеющихся данных прогнозировать удельную активность древесины (т.е. при произрастании в сосняке мшистом, имеющим такую-то плотность загрязнения, в березе будет такой-то уровень удельной активности Cs-137). Вот я затрудняюсь подобрать наиболее подходящий тип анализа для вышеизложенной структуры данных. Множественная регрессия? Ну так в этом случае используются количественные предикторы. Логистическая регрессия? Насколько знаю в этом случае переменная отклика является дихотомической (например да/нет) или категориальной. Хорошо бы ещё (простите мне мою наглость) указать стат. пакеты, где реализованы искомые мною типы анализов (просьба пакет R не предлагать - мне бы что-нибудь с готовыми кнопочными интерфейсами типа SPSS, STATISTICA, поскольку с R я не дружу; шучу, конечно - если будет нужен R, то придётся разбираться). Спасибо! |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 107 Регистрация: 27.12.2015 Пользователь №: 27815 ![]() |
2 passant
В уравнении переменные уровень категориального признака можно записать как b0, b0+lvl1 и т.д. Соответственно, градации признаков выражаются в виде матрицы с единичками и нуликами, где референтная категория имеет 0 по всей строке. Количество таких комбинаций не может быть больше n-1 для каждого категориального предиктора. И Вы однозначно правы, когда пишите, что там всё строится отдельно. Например, в этой презентации, наглядно изображены плоскости для случая, когда есть одна количественная и одна качественная переменная (почти ситуация Blaid). Однако пользователь программы всё это не увидит. Видеть он будет примерно то, что изображено на прикреплённой картинке. Я не исключаю ситуацию, что пользователь захочет построить три модели по одной на каждый предиктор (мало ли). 2 Blaid Небольшой комментарий по вводу данных. Некоторые программы спокойно переносят категориальные переменные, записанные в буквенной форме. Но есть нюанс (с): "береза" и "берёза" машиной будут восприниматься как разные категории. Есть специальные программы для внесения данных, например EpiData, Open Foris, которая, судя по описанию, связана с деревьями. Теперь к картинке. Она получилась так: Запуск jamovi->три полоски в левом верхнем углу->Import->Browse->Blaid_df.xlsx. Если в jamovi остались остались колонки A, B, C - удаляйте смело. Заходите в модуль Regression->Linear Regression->вносите в Dependent variable Cs137, в Covariates - Plotnost, в Factors - Sosnak и Poroda. Формально получилась Ваша "multiple regression with categorical predictors". Там ещё много функций есть, но это требует чтения руководства. Модель не фонтан - на такое большое количество категориальных предикторов данных мало, на что обратил Ваше внимание passant. Если говорить про этот набор и если это соответствует каким-то идеям, можно малочисленные/неинтересные категории объединить в группу other (хотя эту практику не следует признать удачной). Опять же касательного предоставленного набора данных - не знаю как принято, но мне представляется, что удельная активность ограничена снизу нулём, а сверху - очень "круто" растёт. В этой связи я активность прологарифмировал и заметил, что есть какой-то уровень "разрыва" по этой активности (постройте гистограмму для исходных данных и прологарифмированных). Можете сами попробовать выполнить регрессионный анализ с уже прологарифмированным значением. Допустим, Вы захотите сделать логистическую регрессию, то можно по этому уровню данные разделить. Наверняка есть нормативы по активности - поделить можно по ним и т.д. Если эта активность - величина дискретная (например, как койкодень) - можно рассмотреть вариант использования регрессии Пуассона или её вариаций (опять же - профильную литературу смотреть надо). Если у Вас есть повторные измерения - Вам нужно будет (потом, когда освоитесь) искать материалы по mixed models. После сортировки данных по активности мне в глаза бросилось, что мшистый Sosnak почти в полном составе у Вас был в зоне загрязнения. Либо так получилось при наборе данных, либо этому есть какое-то объяснение. Думаю, Вам лучше видно. Ссылки на некоторые источники, которые может и не помогут Вам решить текущую задачу, но станут отправной точкой для самообразования: Biostatistics for Biomedical Research и материалы на http://hbiostat.org/ Руководство с примерами в jamovi Statistics Using R with Biological Examples Форум к упоминавшейся программе Open Foris http://www.biostathandbook.com/ Крайне сжатое введение http://forum.disser.ru/ - самая главная))) Сообщение отредактировал comisora - 10.09.2021 - 11:11
Прикрепленные файлы
|
|
![]() |
![]() |
![]() ![]() |