Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Выбор типа анализа, количественные и категориальные переменные
Blaid
сообщение 8.09.2021 - 18:18
Сообщение #1





Группа: Пользователи
Сообщений: 36
Регистрация: 27.08.2012
Пользователь №: 24128



Здравствуйте уважаемые участники форума!

Обращаюсь к Вам за помощью в решении следующего вопроса:

1. есть одна переменная отклика (или зависимая переменная) - удельная активность Cs-137 в древесине (Бк/кг); количественная.
2. есть три независимых (или предикторных) переменных - одна количественная (плотность загрязнения территории произрастания по Cs-137, Ки/км2) и две категориальных (одна из них - тип древесной породы (сосна, береза, ольха), а вторая - тип сосняка (мшистый, вересковый, черничный и лишайниковый); основная порода - сосна, а остальные (береза, ольха) идут как примесь в сосняках этих четырех типов).

Задача: установить какие из этих трёх независимых (предикторных) переменных оказывают статистически значимое влияние на вариацию зависимой переменной и дать количественную оценку влиянию каждой независимой переменной (т.е. насколько (в процентах) общая вариация (или дисперсия?) зависимой переменной обусловлена влиянием той или иной независимой переменной). И желательно бы ещё на основе имеющихся данных прогнозировать удельную активность древесины (т.е. при произрастании в сосняке мшистом, имеющим такую-то плотность загрязнения, в березе будет такой-то уровень удельной активности Cs-137).

Вот я затрудняюсь подобрать наиболее подходящий тип анализа для вышеизложенной структуры данных.

Множественная регрессия? Ну так в этом случае используются количественные предикторы.

Логистическая регрессия? Насколько знаю в этом случае переменная отклика является дихотомической (например да/нет) или категориальной.

Хорошо бы ещё (простите мне мою наглость) указать стат. пакеты, где реализованы искомые мною типы анализов (просьба пакет R не предлагать - мне бы что-нибудь с готовыми кнопочными интерфейсами типа SPSS, STATISTICA, поскольку с R я не дружу; шучу, конечно - если будет нужен R, то придётся разбираться).

Спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 8.09.2021 - 20:32
Сообщение #2





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Ответ: методы классификации. Их есть много и разных, начиная с kNN, деревья решений, SVM, та же логистическая регрессия (которая на самом-то деле - классификация) и т.д. (Про соответствующие нейросети советовать не буду -
вряд-ли у вас найдется необходимое количество обучающих примеров). Смотрите, выбирайте.
По кнопочным интерфейсам не подскажу. Но вот в Python реализован и доступен наверное один из самых больших арсеналов реализации методов классификации (модуль Scikit-Learn, если что).

Сообщение отредактировал passant - 8.09.2021 - 20:33
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
comisora
сообщение 8.09.2021 - 22:51
Сообщение #3





Группа: Пользователи
Сообщений: 95
Регистрация: 27.12.2015
Пользователь №: 27815



2 Blaid

Можно начать с простой линейной регрессии. Может потребоваться какая-специфическая модель, например, с экспоненциальным распределением. Взаимодействия эффектов проверить следует Вам.
Кнопочные программы типа SPSS, которые могут помочь реализовать линейную модель или рекомендации passant есть:

https://jasp-stats.org/
https://www.jamovi.org/

К ним есть руководства - не пропадёте от обилия возможностей (регрессии, классификации и .т.п).
Надеюсь Вам это поможет.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 9.09.2021 - 00:08
Сообщение #4





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(comisora @ 8.09.2021 - 22:51) *
2 Blaid

Можно начать с простой линейной регрессии. Может потребоваться какая-специфическая модель, например, с экспоненциальным распределением.


Какая может быть простая линейная регрессия если две из трех независимых переменных представлены в номинальной шкале???
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Blaid
сообщение 9.09.2021 - 09:10
Сообщение #5





Группа: Пользователи
Сообщений: 36
Регистрация: 27.08.2012
Пользователь №: 24128



Благодарю участников за информацию!

Да, ещё раз хотел бы акцентировать внимание на том, что две из трёх независимых (предикторных) переменных - категориальные (не знаю одно ли это и то же, что и номинальные). Предикторная переменная "тип древесной породы" имеет три категории (сосна, береза, ольха), а предикторная переменная "тип сосняка" - четыре (по типам сосняков - мшистый, вересковый, черничный и лишайниковый). Третья предикторная переменная (плотность загрязнения территории) - количественная. Ну и сама переменная отклика тоже количественная.

Прогнозирование удельной активности Cs-137 (на основе имеющихся данных) - это, скажем так, опционально. В первую очередь нужно оценить (количественно бы) влияние предикторов на переменную отклика (выяснив, проще говоря, какие из предикторных переменных статистически значимо влияют на вариацию переменной отклика и насколько каждая из них это делает).
Поэтому нейронные сети сходу слишком круто будет (да и у меня пока выборка данных небольшая - 20 значений). Но как знать...

Я тоже подумал сперва о логистической регрессии, но потом пришёл к выводу, что обычная логрегрессия (с дихотомической переменной отклика) не то...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
comisora
сообщение 9.09.2021 - 10:02
Сообщение #6





Группа: Пользователи
Сообщений: 95
Регистрация: 27.12.2015
Пользователь №: 27815



2 passant

Простую регрессию (simple regression model) можно сделать три раза для каждой переменной, почитав руководство к JASP с целью тренировки и обучения. Сразу же после описания простой модели идёт обобщение на большее количество предикторов. Все примеры показаны с картинками. Хотя, вероятно, мне не стоило упоминать "простую" модель.

2 Blaid

Категориальная и номинальная можно использовать как синонимы. По поводу Вашей задачи. Если у Вас активность Cs-137 это количественная переменная, то элементарная модель будет такая: Y=b1*Plotnost+b2*Poroda+b3*Sosnak+b0+e

Код
lm(Cs.137~Plotnost+Poroda+Sosnak)


Как вариант можно включить эффекты взаимодействия (вдруг порода с сосняком взаимодействует). Логит-модель можно использовать, если у Вас есть какое-то разделение зависимой переменной из серии "много-мало". Активность цезия можно перевести в проценты (0.01 - минимум, 0.99 - максимум) и запустить бета-регрессию, можно моделировать значение обратное активности (1/R), можно вообще использовать proportional odds logisitc model (doi: 10.1002/sim.7433) так как количественные переменные имеют свойства порядковых (но не наоборот).
На мой взгляд, основная сложность - это правильно "угадать" характер целевой модели. А чтобы подобрать модель, нужно знать как делают и почему делают именно так. https://www.stat.auckland.ac.nz/~yee/VGAM/ - вот длиннющий список с моделями. В книжке к этому пакету есть куча примеров на разные типы данных и задач. К другим пакетам, например gamlss, тоже есть примеры. Я не интересовался, как моделируют удельную активность элементов, но допускаю, что про это хоть кто-то уже написал. Мои варианты моделей рассматривайте как фантазию.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 9.09.2021 - 15:57
Сообщение #7





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(comisora @ 9.09.2021 - 10:02) *
2 passant

Простую регрессию (simple regression model) можно сделать три раза для каждой переменной, почитав руководство к JASP с целью тренировки и обучения.


Извините, но не три раза. Регрессионная модель - по определению - требует, что-бы и предикторные и зависимая (зависимые) переменные были количественные. А такую зависимость для данной задачи можно строить для каждой пары ЗНАЧЕНИЙ номинальных (качественных) признаков. Другими словами - отдельная модель для (береза, вересковый), отдельная для (береза, лишайниковый), ..... отдельно для (ольха, вересковый), отдельная для (ольха, лишайниковый) и т.д. А учитывая, что у ТС всего-то 20 примеров в наличии, а пар 3*4=12, то чуть больше одного (!!!) примера на каждую возможную комбинацию. И какую модель вы предлагаете строить?

И еще вопрос. Вот в этом уравнении Y=b1*Plotnost+b2*Poroda+b3*Sosnak+b0+e - какие значения у вас могут принимать коэффициенты b2, b3, Poroda, Sosnak. Так что-бы операция умножения имела смысл? Я понимаю, вы намекаете на введение т.н. Dummy-переменных, но их-то у вас должно быть не две, а как минимум 7. И то, что строиться таким образом хоть и называют "регрессией" (как и логистическую регрессию, кстати), но по сути представляет собой типичную классификационную модель (практически - классификация на основе деревьев).


Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Blaid
сообщение 9.09.2021 - 16:34
Сообщение #8





Группа: Пользователи
Сообщений: 36
Регистрация: 27.08.2012
Пользователь №: 24128



Цитата
Если у Вас активность Cs-137 это количественная переменная


Да, количественная.

Прикрепляю файл с данными.

Корреляция между плотностью загрязнения (количественным предиктором) и удельной активностью (переменной отклика) имеет R2 равный 0,66. Т.е. явно вариация удельной активности обусловлена не только (и может быть не столько) плотностью загрязнения территории.

Сообщение отредактировал Blaid - 9.09.2021 - 16:40
Прикрепленные файлы
Прикрепленный файл  Книга080921___данные.xlsx ( 9,83 килобайт ) Кол-во скачиваний: 388
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 9.09.2021 - 22:50
Сообщение #9





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Blaid @ 9.09.2021 - 16:34) *
Прикрепляю файл с данными.



А почему вместо заявленных 20-ти значений в базе данных только 19? Тут каждая цифирь на вес золота...

Цитата
Корреляция между плотностью загрязнения (количественным предиктором) и удельной активностью (переменной отклика) имеет R2 равный 0,66.


Это чушь. Коэф-том детерминации называется квадрат коэф-та корреляции. Соответственно, к-т корреляции в этой истории равен r=sqr(.6631) =.814.

Однако, его вычисление по объединенной выборке не имеет никакого смысла, поскольку

а) вы произвольно объединили три разные по удельной активности цезия породы дерева в одну общую кучу, сконструировав, таким образом, "композитную" переменную "тип древесины", хотя со статистической точки зрения это преждевременно.

б) здесь в принципе не может быть и речи о регресии по такой вот объединенной выборке, т.к. регрессия- это функциональная зависимость. Отображение, именуемое функцией, должно быть биективно, т.е. должно наблюдаться взаимно-однозначное соответствие между значениями из области определения функции и значениями из области прибытия функции.
Здесь же величине 46,9 из области определения функции соответствует три разных значения отклика (области прибытия): 1744, 4351 и 843; значению из области определения 2,29 соответствует в объединенной выборке два очень не похожих друг на друга значения 140 и 45. Рекомендую дальнейший анализ выборки с этой точки зрения провести самостоятельно в качестве полезного упражнения. Так сказать, для закрепления материала.

Следовательно, восстанавливать зависимость придется для каждой конкретной древесины: своя регрессия для сосны, своя для березы, ольхи, осины, финиковой пальмы ....

Цитата
Т.е. явно вариация удельной активности обусловлена не только (и может быть не столько) плотностью загрязнения территории.


Ничего подобного: значение корреляции по каждой конкретной породе плюс-минус-одинаково и составляет величину порядка ,8. Следовательно, на переменную "тип сосняка" в терминах корреляции приходится чуть менее 36% вариации отклика.

Кроме того, не для каждой породы древесины есть сведения по всем 4 типам сосняков: для березы только 3 типа из 4-х, для ольхи - того меньше.

Словом, вы тянете пустышку.

Не готов пожелать вам в этом успехов: это было бы просто бесчеловечно...

Сообщение отредактировал 100$ - 9.09.2021 - 23:14
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Blaid
сообщение 10.09.2021 - 09:22
Сообщение #10





Группа: Пользователи
Сообщений: 36
Регистрация: 27.08.2012
Пользователь №: 24128



100$! Спасибо за участие в обсуждении темы!

Вы, часом, монополией на истину не обладаете? Если да, то поделитесь, будьте добры!

Цитата
А почему вместо заявленных 20-ти значений в базе данных только 19? Тут каждая цифирь на вес золота...


Не точно указал, что их 20 (19 на самом деле). Это тестовая выборка (у меня в наличии гораздо больше подобных данных, да ещё в виде динамики за несколько лет и относящихся к разным лесничествам, т.е. теоретически имеется ещё два предиктора), но пока так для понимания "чего и как".

Цитата
Это чушь.


Кому как. Вам виднее.

Это лишь моё предположение, что эти данные можно обработать каким-нибудь типом регрессионного анализа (допустим multiple regression with categorical predictors, если таковой существует).

Из всего Вами написанного я понял только, что структуру данных нужно упрощать и не пытаться оценить влияния на удельную активность Cs-137 в древесине "всего сразу" (да, мои проблемы что не понял больше; если, конечно, что-то большее в написанном Вами в принципе имеется).

Сообщение отредактировал Blaid - 10.09.2021 - 09:24
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
comisora
сообщение 10.09.2021 - 11:10
Сообщение #11





Группа: Пользователи
Сообщений: 95
Регистрация: 27.12.2015
Пользователь №: 27815



2 passant

В уравнении переменные уровень категориального признака можно записать как b0, b0+lvl1 и т.д. Соответственно, градации признаков выражаются в виде матрицы с единичками и нуликами, где референтная категория имеет 0 по всей строке. Количество таких комбинаций не может быть больше n-1 для каждого категориального предиктора. И Вы однозначно правы, когда пишите, что там всё строится отдельно. Например, в этой презентации, наглядно изображены плоскости для случая, когда есть одна количественная и одна качественная переменная (почти ситуация Blaid). Однако пользователь программы всё это не увидит. Видеть он будет примерно то, что изображено на прикреплённой картинке. Я не исключаю ситуацию, что пользователь захочет построить три модели по одной на каждый предиктор (мало ли).

2 Blaid

Небольшой комментарий по вводу данных. Некоторые программы спокойно переносят категориальные переменные, записанные в буквенной форме. Но есть нюанс (с): "береза" и "берёза" машиной будут восприниматься как разные категории. Есть специальные программы для внесения данных, например EpiData, Open Foris, которая, судя по описанию, связана с деревьями.
Теперь к картинке. Она получилась так:
Запуск jamovi->три полоски в левом верхнем углу->Import->Browse->Blaid_df.xlsx. Если в jamovi остались остались колонки A, B, C - удаляйте смело. Заходите в модуль Regression->Linear Regression->вносите в Dependent variable Cs137, в Covariates - Plotnost, в Factors - Sosnak и Poroda. Формально получилась Ваша "multiple regression with categorical predictors". Там ещё много функций есть, но это требует чтения руководства.
Модель не фонтан - на такое большое количество категориальных предикторов данных мало, на что обратил Ваше внимание passant. Если говорить про этот набор и если это соответствует каким-то идеям, можно малочисленные/неинтересные категории объединить в группу other (хотя эту практику не следует признать удачной). Опять же касательного предоставленного набора данных - не знаю как принято, но мне представляется, что удельная активность ограничена снизу нулём, а сверху - очень "круто" растёт. В этой связи я активность прологарифмировал и заметил, что есть какой-то уровень "разрыва" по этой активности (постройте гистограмму для исходных данных и прологарифмированных). Можете сами попробовать выполнить регрессионный анализ с уже прологарифмированным значением.
Допустим, Вы захотите сделать логистическую регрессию, то можно по этому уровню данные разделить. Наверняка есть нормативы по активности - поделить можно по ним и т.д. Если эта активность - величина дискретная (например, как койкодень) - можно рассмотреть вариант использования регрессии Пуассона или её вариаций (опять же - профильную литературу смотреть надо). Если у Вас есть повторные измерения - Вам нужно будет (потом, когда освоитесь) искать материалы по mixed models.

После сортировки данных по активности мне в глаза бросилось, что мшистый Sosnak почти в полном составе у Вас был в зоне загрязнения. Либо так получилось при наборе данных, либо этому есть какое-то объяснение. Думаю, Вам лучше видно.

Ссылки на некоторые источники, которые может и не помогут Вам решить текущую задачу, но станут отправной точкой для самообразования:
Biostatistics for Biomedical Research и материалы на http://hbiostat.org/
Руководство с примерами в jamovi
Statistics Using R with Biological Examples
Форум к упоминавшейся программе Open Foris
http://www.biostathandbook.com/
Крайне сжатое введение
http://forum.disser.ru/ - самая главная)))

Сообщение отредактировал comisora - 10.09.2021 - 11:11
Эскизы прикрепленных изображений
Прикрепленное изображение
 

Прикрепленные файлы
Прикрепленный файл  Blaid_df.xlsx ( 10,14 килобайт ) Кол-во скачиваний: 386
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 10.09.2021 - 12:04
Сообщение #12





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Blaid @ 10.09.2021 - 09:22) *
100$! Спасибо за участие в обсуждении темы!

Вы, часом, монополией на истину не обладаете? Если да, то поделитесь, будьте добры!


Уже поделился, как видите.


Цитата
Не точно указал, что их 20 (19 на самом деле). Это тестовая выборка (у меня в наличии гораздо больше подобных данных, да ещё в виде динамики за несколько лет и относящихся к разным лесничествам, т.е. теоретически имеется ещё два предиктора), но пока так для понимания "чего и как".


Очень жаль, что вы нам скармливаете информацию по частям.


Цитата
Кому как. Вам виднее.


Даже не сомневайтесь. Слово "чушь" относилось к вашему пониманию соотношения между корреляцией и к-том детерминации.


Цитата
Это лишь моё предположение, что эти данные можно обработать каким-нибудь типом регрессионного анализа (допустим multiple regression with categorical predictors, если таковой существует).


Что касается собственно регрессии/анализа - то базовая модель для вашего случая - обычная ANCOVA. Я так же, как и comisora, не поленился прологарифмировать переменную-отклик.

Цитата
Из всего Вами написанного я понял только, что структуру данных нужно упрощать и не пытаться оценить влияния на удельную активность Cs-137 в древесине "всего сразу" (да, мои проблемы что не понял больше; если, конечно, что-то большее в написанном Вами в принципе имеется).


Имеется. Это объяснение того, почему то, что вы сотворили, недопустимо со статистической точки зрения.

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Blaid
сообщение 11.09.2021 - 14:25
Сообщение #13





Группа: Пользователи
Сообщений: 36
Регистрация: 27.08.2012
Пользователь №: 24128



Цитата
Но есть нюанс (с): "береза" и "берёза" машиной будут восприниматься как разные категории.


Это понятно.

Не знаю насколько правильно выносить количественный предиктор (плотность загрязнения) в ковариату...

Ничтоже сумняшеся пока что прихожу к выводу что лучше всего подойдёт т.н. CATREG ( категориальная регрессия):

https://www.ibm.com/docs/ru/spss-statistics...gression-catreg

Вот только не знаю: нужно ли предварительно количественные переменные (и предикторы, и зависимую) переводить в порядковую шкалу?..



Прикрепленные файлы
Прикрепленный файл  almeida2016.pdf ( 470,3 килобайт ) Кол-во скачиваний: 364
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 15.09.2021 - 22:43
Сообщение #14





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(Blaid @ 9.09.2021 - 16:34) *
Да, количественная.

Прикрепляю файл с данными.

Корреляция между плотностью загрязнения (количественным предиктором) и удельной активностью (переменной отклика) имеет R2 равный 0,66. Т.е. явно вариация удельной активности обусловлена не только (и может быть не столько) плотностью загрязнения территории.


Прежде чем включать какие либо предикторы в модель, надо убедиться что эти предикторы вообще имеют связь с моделируемой переменной.

На основании приложенных данных простая рандомизация показывает, что строить что либо сложнее модели "Удельная активность Cs-137 в древесине, Бк/кг ~ плотность загрязнения, Ки/кв. км + Черничный " нет никаких.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему