Выбор метода сравнения групп |
Здравствуйте, гость ( Вход | Регистрация )
Выбор метода сравнения групп |
3.03.2016 - 07:59
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 15 Регистрация: 20.07.2014 Пользователь №: 26530 |
Доброго времени суток!
У меня такой вопрос. Есть 3 группы больных, сгруппированные по возрасту. Оценивается общее состояние больного по 12-ти признакам. Указывается, сколько человек в той или иной группе имеют данный признак. Какими критериями можно сравнить группы по частотам, если каждый больной может иметь более одного признака (они частично пересекаются)? Например, больной может иметь 1-й, 7-й и 10-й признаки. Я так понимаю, что таблицы сопряженности здесь не проходят. |
|
3.03.2016 - 21:53
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Какими критериями можно сравнить группы по частотам, если каждый больной может иметь более одного признака (они частично пересекаются)? Например, больной может иметь 1-й, 7-й и 10-й признаки. Я, конечно, не большой знаток многомерного анализа. С одной стороны, это плохо, так как я не в курсе общепринятых подходов, которых медики в силу своей консервативности (чуть не сказал косности) должны придерживаться. С другой стороны - хорошо, т.к. не мешает генерации новых идей. Вот одна из них: скомбинировать все признаки (12 штук) в виде линейной функции, например: f(a1,..,an) = a1*p1+...+an*pn, где a1,...,an - неизвестные коэффициенты, p1,...,pn - наличие(=1)/отсутствие(=0) признака. Тогда можно проварьировать функцию f() по коэффициентам ai, так , чтобы хи-квадрат (или какая-либо другая дифференцирующая статистика ) дала максимальное отличие между группами. Тем самым мы найдем всего один (вместо 12) комбинированный признак. Величина коэффициентов ai покажет важность отдельных признаков. Если для каких-то i-ых признаков коэффициенты ai окажутся малы по сравнению с другими, то эти признаки не влияют на результат и, поэтому , их можно исключить.
Сообщение отредактировал DoctorStat - 3.03.2016 - 21:53 Просто включи мозги => http://doctorstat.narod.ru
|
|
4.03.2016 - 05:01
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 15 Регистрация: 20.07.2014 Пользователь №: 26530 |
Я, конечно, не большой знаток многомерного анализа. С одной стороны, это плохо, так как я не в курсе общепринятых подходов, которых медики в силу своей консервативности (чуть не сказал косности) должны придерживаться. С другой стороны - хорошо, т.к. не мешает генерации новых идей. Вот одна из них: скомбинировать все признаки (12 штук) в виде линейной функции, например: f(a1,..,an) = a1*p1+...+an*pn, где a1,...,an - неизвестные коэффициенты, p1,...,pn - наличие(=1)/отсутствие(=0) признака. Тогда можно проварьировать функцию f() по коэффициентам ai, так , чтобы хи-квадрат (или какая-либо другая дифференцирующая статистика ) дала максимальное отличие между группами. Тем самым мы найдем всего один (вместо 12) комбинированный признак. Величина коэффициентов ai покажет важность отдельных признаков. Если для каких-то i-ых признаков коэффициенты ai окажутся малы по сравнению с другими, то эти признаки не влияют на результат и, поэтому , их можно исключить. А что значит проварьировать функцию по коэффициентам? В математике понятие вариации функции строго определено, и вряд ли имеет отношение к статистике. |
|
4.03.2016 - 10:32
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
А что значит проварьировать функцию по коэффициентам? В математике понятие вариации функции строго определено, и вряд ли имеет отношение к статистике. Это значит выписать статистику, по которой проводится анализ, в виде функции от неизвестных коэффициентов: f(a1,...,an) . Проварьировать функцию - это значит найти ее экстремум с помощью частных производных по коэффициентам ai: df/d_ai=0.
Сообщение отредактировал DoctorStat - 4.03.2016 - 10:34 Просто включи мозги => http://doctorstat.narod.ru
|
|
5.03.2016 - 20:39
Сообщение
#5
|
|
Группа: Модераторы Сообщений: 286 Регистрация: 1.02.2005 Из: Воронеж Пользователь №: 93 |
Это значит выписать статистику, по которой проводится анализ, в виде функции от неизвестных коэффициентов: f(a1,...,an) . Проварьировать функцию - это значит найти ее экстремум с помощью частных производных по коэффициентам ai: df/d_ai=0. Занятно. Вы априори предполагаете, что: - вид функции известен; - функция непрерывно дифференцируема по каждой из переменных. Но если вид функции известен, задача становится тривиальной. О.Я.Кравец, д.т.н., проф.
|
|
5.03.2016 - 22:28
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Но если вид функции известен, задача становится тривиальной. Давайте рассмотрим учебный пример, чтобы стала понятна идея предложенного метода нахождения долей отдельных признаков в различии популяций. Пусть (для простоты) у нас есть только две группы пациентов: контроль и больные (случай), для которых мы регистрируем два (тоже для простоты) признака:1. X - курит(1)/нет(0) - (качественный бинарный признак) 2. Y - употребляет наркотик(1)/нет(0) - (качественный бинарный признак) Мы хотим найти комбинированный (составленный из отдельных признаков) показатель, по которому эти две популяции различаются и долю каждого признака в отличии между популяциями. Введем линейную функцию комбинированного признака: z(x,y) = a*x + b*y, где a, b - неизвестные коэффициенты (доли отдельных признаков, которые мы будем искать), одинаковые для обеих групп. Для ограничения функции z введем нормировку: a^2+b^2=1 Для сравнения групп используем критерий Стьюдента, статистика которого равна: t(a, b)=(<Z1> - <Z2>)/sqrt(s1^2+s2^2), где <Z1>, <Z2> - выборочные средние двух групп, s1^2, s2^2 - квадраты стандартных ошибок средних этих групп. Выпишем для примера выборочное среднее для группы 1, которое равно: <Z1>(a,b)= 1/n(Z1+...+Zn) Пусть 1-ый пациент группы 1 курит и не употребляет наркотик. Тогда для него комбинированный признак равен Z1(a,b)=a*1+b*0=a Аналогично вычисляются признаки для остальных пациентов. Подставляя в формулу для среднего, получаем, что среднее значение группы тоже зависит только от двух неизвестных параметров: a и b. Стандартная ошибка среднего s1(a, b) также зависит только от этих параметров. Следовательно, и сама статистика Стьюдента t(a, b) (см.формулу выше) тоже зависит неким сложным образом от a и b. Теперь (ключевой момент!) нам нужно найти максимум функции Стьюдента. Для этого нужно продифференцировать функцию t(a, b) по каждому аргументу a и b и приравнять частные производные нулю. Я не буду здесь выписывать и, тем более, решать эти два уравнения (важна сама идея). В результате решения мы получим два коэффициента: a и b. Подставим их в формулу для статистики Стьюдента t(a, b) и подсчитаем ее. Если статистика окажется больше критической (для заданной численности групп), то ура ! - нам повезло - комбинированный признак работает - он статистически значим. Вдобавок, в качестве бонуса, мы получили относительную важность двух признаков, которая просто равна отношению коэффициентов a/b. Сообщение отредактировал DoctorStat - 6.03.2016 - 12:39 Просто включи мозги => http://doctorstat.narod.ru
|
|
6.03.2016 - 09:29
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 15 Регистрация: 20.07.2014 Пользователь №: 26530 |
Давайте рассмотрим учебный пример... 1. На этом форуме LATex не работает? Тяжело видеть формулы в таком виде 2. Про бинарные регрессии, насколько мне известно, пока мало что написано и сказано. Тем более, подходить к этому вопросу с позиции методов для количественных переменных, как то: найдем среднее, дисперсию, и т.д. - крайне сомнительный путь. 3. Важность двух признаков, равная a/b - это пока только показатель, придуманный "из ноги", а не от головы. Не совсем ясно, что такое "относительная важность двух признаков". 4. Нормировка, введенная вами, она откуда? Я понимаю, что вы пытаетесь вписаться в квадрант [1;1]. Но хотелось бы вообще понять - что такое "доля важности признака", и почему ее надо оценивать некоей линейной функцией. С таким же успехом я могу строить "функцию" методами дискретной математики, используя ее язык "И/ИЛИ/НЕ". Во всяком случае, для бинарных переменных это кажется более уместным. Что-то типа: строим логическую функцию БОЛЬНЫЕ=(КУРИТ)и(УПОТРЕБЛЯЕТ_НАРКОТИКИ)или(неКУРИТ)и(УПОТРЕБЛЯЕТ_НАРКОТИКИ) Сообщение отредактировал statistonline - 6.03.2016 - 09:29 |
|
6.03.2016 - 10:04
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
2. Про бинарные регрессии, насколько мне известно, пока мало что написано и сказано. Тем более, подходить к этому вопросу с позиции методов для количественных переменных, как то: найдем среднее, дисперсию, и т.д. - крайне сомнительный путь. Вы правы. Я выбрал параметрическую статистику Стьюдента только из-за соображений удобства - ее все проходили в институте и что-то о ней слышали. Более подходящей для примера была бы непараметрическая статистика, например, Манна-Уитни.3. Важность двух признаков, равная a/b - это пока только показатель, придуманный "из ноги", а не от головы. Не совсем ясно, что такое "относительная важность двух признаков". Ну, смотрите. В комбинированный признак z входят два разных бинарных признака с коэффициентами a и b. Если a>>b (гораздо больше), то второй признак почти не влияет на z и его можно исключить. Важность признаков можно измерять разными способами, например, отношением a/b или еще как-то. Я указал простейший способ, но возможно он зависит от нормировки. Тогда для нашей нормировки можно было бы использовать еще отношение квадратов a^2/b^24. Нормировка, введенная вами, она откуда? Я понимаю, что вы пытаетесь вписаться в квадрант [1;1]. Но хотелось бы вообще понять - что такое "доля важности признака", и почему ее надо оценивать некоей линейной функцией. С таким же успехом я могу строить "функцию" методами дискретной математики, используя ее язык "И/ИЛИ/НЕ". Во всяком случае, для бинарных переменных это кажется более уместным. Что-то типа: строим логическую функцию Нормировка коэффициентов a^2+b^2=1 обусловлена бинарностью переменных (=0 или 1). Она нужна для учета вклада переменных, различающихся своим интервалом изменения. Например, если бы вторая переменная была давлением (меняющимся в пределах от 0 до 200), то условие нормировки выглядело бы так: a^2+(b/200)^2=1 или нужно было бы изменить комбинированный признак, нормировав давление на 1 : z=a*x+b*(y/200)БОЛЬНЫЕ=(КУРИТ)и(УПОТРЕБЛЯЕТ_НАРКОТИКИ)или(неКУРИТ)и(УПОТРЕБЛЯЕТ_НАРКОТИКИ) Имейте ввиду, что я дал только черновик, набросок, подкинул идею. Другими словами, снабдил вас инструментом для ловли рыбы, а уж ловить рыбку в пруду вы должны сами Сообщение отредактировал DoctorStat - 6.03.2016 - 12:54 Просто включи мозги => http://doctorstat.narod.ru
|
|