Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Выбор типа анализа, количественные и категориальные переменные
Blaid
сообщение 8.09.2021 - 18:18
Сообщение #1





Группа: Пользователи
Сообщений: 36
Регистрация: 27.08.2012
Пользователь №: 24128



Здравствуйте уважаемые участники форума!

Обращаюсь к Вам за помощью в решении следующего вопроса:

1. есть одна переменная отклика (или зависимая переменная) - удельная активность Cs-137 в древесине (Бк/кг); количественная.
2. есть три независимых (или предикторных) переменных - одна количественная (плотность загрязнения территории произрастания по Cs-137, Ки/км2) и две категориальных (одна из них - тип древесной породы (сосна, береза, ольха), а вторая - тип сосняка (мшистый, вересковый, черничный и лишайниковый); основная порода - сосна, а остальные (береза, ольха) идут как примесь в сосняках этих четырех типов).

Задача: установить какие из этих трёх независимых (предикторных) переменных оказывают статистически значимое влияние на вариацию зависимой переменной и дать количественную оценку влиянию каждой независимой переменной (т.е. насколько (в процентах) общая вариация (или дисперсия?) зависимой переменной обусловлена влиянием той или иной независимой переменной). И желательно бы ещё на основе имеющихся данных прогнозировать удельную активность древесины (т.е. при произрастании в сосняке мшистом, имеющим такую-то плотность загрязнения, в березе будет такой-то уровень удельной активности Cs-137).

Вот я затрудняюсь подобрать наиболее подходящий тип анализа для вышеизложенной структуры данных.

Множественная регрессия? Ну так в этом случае используются количественные предикторы.

Логистическая регрессия? Насколько знаю в этом случае переменная отклика является дихотомической (например да/нет) или категориальной.

Хорошо бы ещё (простите мне мою наглость) указать стат. пакеты, где реализованы искомые мною типы анализов (просьба пакет R не предлагать - мне бы что-нибудь с готовыми кнопочными интерфейсами типа SPSS, STATISTICA, поскольку с R я не дружу; шучу, конечно - если будет нужен R, то придётся разбираться).

Спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
Blaid
сообщение 9.09.2021 - 16:34
Сообщение #2





Группа: Пользователи
Сообщений: 36
Регистрация: 27.08.2012
Пользователь №: 24128



Цитата
Если у Вас активность Cs-137 это количественная переменная


Да, количественная.

Прикрепляю файл с данными.

Корреляция между плотностью загрязнения (количественным предиктором) и удельной активностью (переменной отклика) имеет R2 равный 0,66. Т.е. явно вариация удельной активности обусловлена не только (и может быть не столько) плотностью загрязнения территории.

Сообщение отредактировал Blaid - 9.09.2021 - 16:40
Прикрепленные файлы
Прикрепленный файл  Книга080921___данные.xlsx ( 9,83 килобайт ) Кол-во скачиваний: 499
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 9.09.2021 - 22:50
Сообщение #3





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Blaid @ 9.09.2021 - 16:34) *
Прикрепляю файл с данными.



А почему вместо заявленных 20-ти значений в базе данных только 19? Тут каждая цифирь на вес золота...

Цитата
Корреляция между плотностью загрязнения (количественным предиктором) и удельной активностью (переменной отклика) имеет R2 равный 0,66.


Это чушь. Коэф-том детерминации называется квадрат коэф-та корреляции. Соответственно, к-т корреляции в этой истории равен r=sqr(.6631) =.814.

Однако, его вычисление по объединенной выборке не имеет никакого смысла, поскольку

а) вы произвольно объединили три разные по удельной активности цезия породы дерева в одну общую кучу, сконструировав, таким образом, "композитную" переменную "тип древесины", хотя со статистической точки зрения это преждевременно.

б) здесь в принципе не может быть и речи о регресии по такой вот объединенной выборке, т.к. регрессия- это функциональная зависимость. Отображение, именуемое функцией, должно быть биективно, т.е. должно наблюдаться взаимно-однозначное соответствие между значениями из области определения функции и значениями из области прибытия функции.
Здесь же величине 46,9 из области определения функции соответствует три разных значения отклика (области прибытия): 1744, 4351 и 843; значению из области определения 2,29 соответствует в объединенной выборке два очень не похожих друг на друга значения 140 и 45. Рекомендую дальнейший анализ выборки с этой точки зрения провести самостоятельно в качестве полезного упражнения. Так сказать, для закрепления материала.

Следовательно, восстанавливать зависимость придется для каждой конкретной древесины: своя регрессия для сосны, своя для березы, ольхи, осины, финиковой пальмы ....

Цитата
Т.е. явно вариация удельной активности обусловлена не только (и может быть не столько) плотностью загрязнения территории.


Ничего подобного: значение корреляции по каждой конкретной породе плюс-минус-одинаково и составляет величину порядка ,8. Следовательно, на переменную "тип сосняка" в терминах корреляции приходится чуть менее 36% вариации отклика.

Кроме того, не для каждой породы древесины есть сведения по всем 4 типам сосняков: для березы только 3 типа из 4-х, для ольхи - того меньше.

Словом, вы тянете пустышку.

Не готов пожелать вам в этом успехов: это было бы просто бесчеловечно...

Сообщение отредактировал 100$ - 9.09.2021 - 23:14
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему