Выбор метода сравнения групп - Форум врачей-аспирантов

Выбор метода сравнения групп

statistonline Просмотр профиля	3.03.2016 - 07:59 Сообщение #1
Группа: Пользователи Сообщений: 15 Регистрация: 20.07.2014 Пользователь №: 26530	Доброго времени суток! У меня такой вопрос. Есть 3 группы больных, сгруппированные по возрасту. Оценивается общее состояние больного по 12-ти признакам. Указывается, сколько человек в той или иной группе имеют данный признак. Какими критериями можно сравнить группы по частотам, если каждый больной может иметь более одного признака (они частично пересекаются)? Например, больной может иметь 1-й, 7-й и 10-й признаки. Я так понимаю, что таблицы сопряженности здесь не проходят.

Ответов

DoctorStat Просмотр профиля	3.03.2016 - 21:53 Сообщение #2
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224	Цитата(statistonline @ 3.03.2016 - 07:59) Какими критериями можно сравнить группы по частотам, если каждый больной может иметь более одного признака (они частично пересекаются)? Например, больной может иметь 1-й, 7-й и 10-й признаки. Я, конечно, не большой знаток многомерного анализа. С одной стороны, это плохо, так как я не в курсе общепринятых подходов, которых медики в силу своей консервативности (чуть не сказал косности) должны придерживаться. С другой стороны - хорошо, т.к. не мешает генерации новых идей. Вот одна из них: скомбинировать все признаки (12 штук) в виде линейной функции, например: f(a1,..,an) = a1p1+...+anpn, где a1,...,an - неизвестные коэффициенты, p1,...,pn - наличие(=1)/отсутствие(=0) признака. Тогда можно проварьировать функцию f() по коэффициентам ai, так , чтобы хи-квадрат (или какая-либо другая дифференцирующая статистика ) дала максимальное отличие между группами. Тем самым мы найдем всего один (вместо 12) комбинированный признак. Величина коэффициентов ai покажет важность отдельных признаков. Если для каких-то i-ых признаков коэффициенты ai окажутся малы по сравнению с другими, то эти признаки не влияют на результат и, поэтому , их можно исключить. Сообщение отредактировал DoctorStat - 3.03.2016 - 21:53 Просто включи мозги => http://doctorstat.narod.ru

statistonline Просмотр профиля	4.03.2016 - 05:01 Сообщение #3
Группа: Пользователи Сообщений: 15 Регистрация: 20.07.2014 Пользователь №: 26530	Цитата(DoctorStat @ 3.03.2016 - 22:53) Я, конечно, не большой знаток многомерного анализа. С одной стороны, это плохо, так как я не в курсе общепринятых подходов, которых медики в силу своей консервативности (чуть не сказал косности) должны придерживаться. С другой стороны - хорошо, т.к. не мешает генерации новых идей. Вот одна из них: скомбинировать все признаки (12 штук) в виде линейной функции, например: f(a1,..,an) = a1p1+...+anpn, где a1,...,an - неизвестные коэффициенты, p1,...,pn - наличие(=1)/отсутствие(=0) признака. Тогда можно проварьировать функцию f() по коэффициентам ai, так , чтобы хи-квадрат (или какая-либо другая дифференцирующая статистика ) дала максимальное отличие между группами. Тем самым мы найдем всего один (вместо 12) комбинированный признак. Величина коэффициентов ai покажет важность отдельных признаков. Если для каких-то i-ых признаков коэффициенты ai окажутся малы по сравнению с другими, то эти признаки не влияют на результат и, поэтому , их можно исключить. А что значит проварьировать функцию по коэффициентам? В математике понятие вариации функции строго определено, и вряд ли имеет отношение к статистике.

DoctorStat Просмотр профиля	4.03.2016 - 10:32 Сообщение #4
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224	Цитата(statistonline @ 4.03.2016 - 05:01) А что значит проварьировать функцию по коэффициентам? В математике понятие вариации функции строго определено, и вряд ли имеет отношение к статистике. Это значит выписать статистику, по которой проводится анализ, в виде функции от неизвестных коэффициентов: f(a1,...,an) . Проварьировать функцию - это значит найти ее экстремум с помощью частных производных по коэффициентам ai: df/d_ai=0. Сообщение отредактировал DoctorStat - 4.03.2016 - 10:34 Просто включи мозги => http://doctorstat.narod.ru

Олег Кравец Просмотр профиля	5.03.2016 - 20:39 Сообщение #5
Группа: Модераторы Сообщений: 286 Регистрация: 1.02.2005 Из: Воронеж Пользователь №: 93	Цитата(DoctorStat @ 4.03.2016 - 10:32) Это значит выписать статистику, по которой проводится анализ, в виде функции от неизвестных коэффициентов: f(a1,...,an) . Проварьировать функцию - это значит найти ее экстремум с помощью частных производных по коэффициентам ai: df/d_ai=0. Занятно. Вы априори предполагаете, что: - вид функции известен; - функция непрерывно дифференцируема по каждой из переменных. Но если вид функции известен, задача становится тривиальной. О.Я.Кравец, д.т.н., проф.

DoctorStat Просмотр профиля	5.03.2016 - 22:28 Сообщение #6
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224	Цитата(Олег Кравец @ 5.03.2016 - 20:39) Но если вид функции известен, задача становится тривиальной. Давайте рассмотрим учебный пример, чтобы стала понятна идея предложенного метода нахождения долей отдельных признаков в различии популяций. Пусть (для простоты) у нас есть только две группы пациентов: контроль и больные (случай), для которых мы регистрируем два (тоже для простоты) признака: 1. X - курит(1)/нет(0) - (качественный бинарный признак) 2. Y - употребляет наркотик(1)/нет(0) - (качественный бинарный признак) Мы хотим найти комбинированный (составленный из отдельных признаков) показатель, по которому эти две популяции различаются и долю каждого признака в отличии между популяциями. Введем линейную функцию комбинированного признака: z(x,y) = ax + by, где a, b - неизвестные коэффициенты (доли отдельных признаков, которые мы будем искать), одинаковые для обеих групп. Для ограничения функции z введем нормировку: a^2+b^2=1 Для сравнения групп используем критерий Стьюдента, статистика которого равна: t(a, b)=(<Z1> - <Z2>)/sqrt(s1^2+s2^2), где <Z1>, <Z2> - выборочные средние двух групп, s1^2, s2^2 - квадраты стандартных ошибок средних этих групп. Выпишем для примера выборочное среднее для группы 1, которое равно: <Z1>(a,b)= 1/n(Z1+...+Zn) Пусть 1-ый пациент группы 1 курит и не употребляет наркотик. Тогда для него комбинированный признак равен Z1(a,b)=a1+b0=a Аналогично вычисляются признаки для остальных пациентов. Подставляя в формулу для среднего, получаем, что среднее значение группы тоже зависит только от двух неизвестных параметров: a и b. Стандартная ошибка среднего s1(a, b) также зависит только от этих параметров. Следовательно, и сама статистика Стьюдента t(a, b) (см.формулу выше) тоже зависит неким сложным образом от a и b. Теперь (ключевой момент!) нам нужно найти максимум функции Стьюдента. Для этого нужно продифференцировать функцию t(a, b) по каждому аргументу a и b и приравнять частные производные нулю. Я не буду здесь выписывать и, тем более, решать эти два уравнения (важна сама идея). В результате решения мы получим два коэффициента: a и b. Подставим их в формулу для статистики Стьюдента t(a, b) и подсчитаем ее. Если статистика окажется больше критической (для заданной численности групп), то ура ! - нам повезло - комбинированный признак работает - он статистически значим. Вдобавок, в качестве бонуса, мы получили относительную важность двух признаков, которая просто равна отношению коэффициентов a/b. Сообщение отредактировал DoctorStat - 6.03.2016 - 12:39 Просто включи мозги => http://doctorstat.narod.ru

statistonline Просмотр профиля	6.03.2016 - 09:29 Сообщение #7
Группа: Пользователи Сообщений: 15 Регистрация: 20.07.2014 Пользователь №: 26530	Цитата(DoctorStat @ 5.03.2016 - 23:28) Давайте рассмотрим учебный пример... 1. На этом форуме LATex не работает? Тяжело видеть формулы в таком виде 2. Про бинарные регрессии, насколько мне известно, пока мало что написано и сказано. Тем более, подходить к этому вопросу с позиции методов для количественных переменных, как то: найдем среднее, дисперсию, и т.д. - крайне сомнительный путь. 3. Важность двух признаков, равная a/b - это пока только показатель, придуманный "из ноги", а не от головы. Не совсем ясно, что такое "относительная важность двух признаков". 4. Нормировка, введенная вами, она откуда? Я понимаю, что вы пытаетесь вписаться в квадрант [1;1]. Но хотелось бы вообще понять - что такое "доля важности признака", и почему ее надо оценивать некоей линейной функцией. С таким же успехом я могу строить "функцию" методами дискретной математики, используя ее язык "И/ИЛИ/НЕ". Во всяком случае, для бинарных переменных это кажется более уместным. Что-то типа: строим логическую функцию БОЛЬНЫЕ=(КУРИТ)и(УПОТРЕБЛЯЕТ_НАРКОТИКИ)или(неКУРИТ)и(УПОТРЕБЛЯЕТ_НАРКОТИКИ) Сообщение отредактировал statistonline - 6.03.2016 - 09:29

DoctorStat Просмотр профиля	6.03.2016 - 10:04 Сообщение #8
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224	Цитата(statistonline @ 6.03.2016 - 09:29) 2. Про бинарные регрессии, насколько мне известно, пока мало что написано и сказано. Тем более, подходить к этому вопросу с позиции методов для количественных переменных, как то: найдем среднее, дисперсию, и т.д. - крайне сомнительный путь. Вы правы. Я выбрал параметрическую статистику Стьюдента только из-за соображений удобства - ее все проходили в институте и что-то о ней слышали. Более подходящей для примера была бы непараметрическая статистика, например, Манна-Уитни. Цитата(statistonline @ 6.03.2016 - 09:29) 3. Важность двух признаков, равная a/b - это пока только показатель, придуманный "из ноги", а не от головы. Не совсем ясно, что такое "относительная важность двух признаков". Ну, смотрите. В комбинированный признак z входят два разных бинарных признака с коэффициентами a и b. Если a>>b (гораздо больше), то второй признак почти не влияет на z и его можно исключить. Важность признаков можно измерять разными способами, например, отношением a/b или еще как-то. Я указал простейший способ, но возможно он зависит от нормировки. Тогда для нашей нормировки можно было бы использовать еще отношение квадратов a^2/b^2 Цитата(statistonline @ 6.03.2016 - 09:29) 4. Нормировка, введенная вами, она откуда? Я понимаю, что вы пытаетесь вписаться в квадрант [1;1]. Но хотелось бы вообще понять - что такое "доля важности признака", и почему ее надо оценивать некоей линейной функцией. С таким же успехом я могу строить "функцию" методами дискретной математики, используя ее язык "И/ИЛИ/НЕ". Во всяком случае, для бинарных переменных это кажется более уместным. Что-то типа: строим логическую функцию БОЛЬНЫЕ=(КУРИТ)и(УПОТРЕБЛЯЕТ_НАРКОТИКИ)или(неКУРИТ)и(УПОТРЕБЛЯЕТ_НАРКОТИКИ) Нормировка коэффициентов a^2+b^2=1 обусловлена бинарностью переменных (=0 или 1). Она нужна для учета вклада переменных, различающихся своим интервалом изменения. Например, если бы вторая переменная была давлением (меняющимся в пределах от 0 до 200), то условие нормировки выглядело бы так: a^2+(b/200)^2=1 или нужно было бы изменить комбинированный признак, нормировав давление на 1 : z=ax+b(y/200) Имейте ввиду, что я дал только черновик, набросок, подкинул идею. Другими словами, снабдил вас инструментом для ловли рыбы, а уж ловить рыбку в пруду вы должны сами Сообщение отредактировал DoctorStat - 6.03.2016 - 12:54 Просто включи мозги => http://doctorstat.narod.ru

Сообщений в этой теме

statistonline Выбор метода сравнения групп 3.03.2016 - 07:59

ogurtsov Простейший вариант: анализируйте 12 дихотомических... 3.03.2016 - 19:09

statistonline Цитата(ogurtsov @ 3.03.2016 - 20:09)... 4.03.2016 - 05:04

ogurtsov Или же сконструируйте другие переменные на основе ... 3.03.2016 - 19:10

DrgLena Подобная задача рассматривалась на этом форуме, не... 3.03.2016 - 20:15

DrgLena http://forum.disser.ru/index.php?showtopic...%EA%E... 3.03.2016 - 20:21

DoctorStat Цитата(statistonline @ 3.03.2016 - 07... 3.03.2016 - 21:53

ogurtsov Цитата(DoctorStat @ 3.03.2016 - 22:5... 3.03.2016 - 21:57

statistonline Цитата(DoctorStat @ 3.03.2016 - 22:5... 4.03.2016 - 05:01

DoctorStat Цитата(statistonline @ 4.03.2016 - 05... 4.03.2016 - 10:32

statistonline Цитата(DoctorStat @ 4.03.2016 - 11:3... 4.03.2016 - 10:53

DoctorStat Цитата(statistonline @ 4.03.2016 - 10... 4.03.2016 - 11:44

100$ Цитата(DoctorStat @ 4.03.2016 - 11:4... 5.03.2016 - 13:47

statistonline Цитата(100$ @ 5.03.2016 - 14:47... 5.03.2016 - 20:31

Олег Кравец Цитата(DoctorStat @ 4.03.2016 - 10:3... 5.03.2016 - 20:39

DoctorStat Цитата(Олег Кравец @ 5.03.2016 - 20... 5.03.2016 - 22:28

statistonline Цитата(DoctorStat @ 5.03.2016 - 23:2... 6.03.2016 - 09:29

DoctorStat Цитата(statistonline @ 6.03.2016 - 09... 6.03.2016 - 10:04

statistonline Цитата(DoctorStat @ 6.03.2016 - 11:0... 6.03.2016 - 17:33

DoctorStat Цитата(statistonline @ 6.03.2016 - 17... 6.03.2016 - 18:48

statistonline Цитата(statistonline @ 6.03.2016 - 18... 6.03.2016 - 19:01

Олег Кравец Цитата(DoctorStat @ 5.03.2016 - 22:2... 6.03.2016 - 17:50

DoctorStat Цитата(Олег Кравец @ 6.03.2016 - 17... 6.03.2016 - 19:11

statistonline Цитата(DoctorStat @ 6.03.2016 - 20:1... 6.03.2016 - 20:14

DoctorStat Цитата(statistonline @ 6.03.2016 - 20... 6.03.2016 - 22:43

statistonline Цитата(Олег Кравец @ 6.03.2016 - 18... 6.03.2016 - 20:20

ogurtsov Цитата(statistonline @ 6.03.2016 - 21... 6.03.2016 - 20:39

Олег Кравец Цитата(statistonline @ 6.03.2016 - 20... 6.03.2016 - 21:18

DrgLena Именно в таком виде и нужны данные, приведите их. ... 4.03.2016 - 09:45

DrgLena ststistonline, Клод Шеннон скучает по вашим данным... 5.03.2016 - 22:31

statistonline Цитата(DrgLena @ 5.03.2016 - 23:31) ... 6.03.2016 - 17:14

statistonline http://math.phys.msu.ru/data/28/Lecture_1.pdf - бу... 7.03.2016 - 07:31

100$ В этой ситуации вспоминаются таблицы типа Объект -... 7.03.2016 - 15:10

statistonline Цитата(100$ @ 7.03.2016 - 16:10... 7.03.2016 - 15:55

nokh Цитата(statistonline @ 3.03.2016 - 09... 7.03.2016 - 15:31

statistonline Цитата(nokh @ 7.03.2016 - 16:31) ...... 7.03.2016 - 15:58

DrgLena Этот простой путь, анализировать сопряженность каж... 7.03.2016 - 17:33

Nazuka Хотел спросить кто то пользовался услугами данной ... 12.04.2016 - 15:04

« Предыдущая тема · Медицинская статистика · Следующая тема »