Выбор метода сравнения групп |
Здравствуйте, гость ( Вход | Регистрация )
Выбор метода сравнения групп |
3.03.2016 - 07:59
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 15 Регистрация: 20.07.2014 Пользователь №: 26530 |
Доброго времени суток!
У меня такой вопрос. Есть 3 группы больных, сгруппированные по возрасту. Оценивается общее состояние больного по 12-ти признакам. Указывается, сколько человек в той или иной группе имеют данный признак. Какими критериями можно сравнить группы по частотам, если каждый больной может иметь более одного признака (они частично пересекаются)? Например, больной может иметь 1-й, 7-й и 10-й признаки. Я так понимаю, что таблицы сопряженности здесь не проходят. |
|
3.03.2016 - 21:53
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Какими критериями можно сравнить группы по частотам, если каждый больной может иметь более одного признака (они частично пересекаются)? Например, больной может иметь 1-й, 7-й и 10-й признаки. Я, конечно, не большой знаток многомерного анализа. С одной стороны, это плохо, так как я не в курсе общепринятых подходов, которых медики в силу своей консервативности (чуть не сказал косности) должны придерживаться. С другой стороны - хорошо, т.к. не мешает генерации новых идей. Вот одна из них: скомбинировать все признаки (12 штук) в виде линейной функции, например: f(a1,..,an) = a1*p1+...+an*pn, где a1,...,an - неизвестные коэффициенты, p1,...,pn - наличие(=1)/отсутствие(=0) признака. Тогда можно проварьировать функцию f() по коэффициентам ai, так , чтобы хи-квадрат (или какая-либо другая дифференцирующая статистика ) дала максимальное отличие между группами. Тем самым мы найдем всего один (вместо 12) комбинированный признак. Величина коэффициентов ai покажет важность отдельных признаков. Если для каких-то i-ых признаков коэффициенты ai окажутся малы по сравнению с другими, то эти признаки не влияют на результат и, поэтому , их можно исключить.
Сообщение отредактировал DoctorStat - 3.03.2016 - 21:53 Просто включи мозги => http://doctorstat.narod.ru
|
|
4.03.2016 - 05:01
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 15 Регистрация: 20.07.2014 Пользователь №: 26530 |
Я, конечно, не большой знаток многомерного анализа. С одной стороны, это плохо, так как я не в курсе общепринятых подходов, которых медики в силу своей консервативности (чуть не сказал косности) должны придерживаться. С другой стороны - хорошо, т.к. не мешает генерации новых идей. Вот одна из них: скомбинировать все признаки (12 штук) в виде линейной функции, например: f(a1,..,an) = a1*p1+...+an*pn, где a1,...,an - неизвестные коэффициенты, p1,...,pn - наличие(=1)/отсутствие(=0) признака. Тогда можно проварьировать функцию f() по коэффициентам ai, так , чтобы хи-квадрат (или какая-либо другая дифференцирующая статистика ) дала максимальное отличие между группами. Тем самым мы найдем всего один (вместо 12) комбинированный признак. Величина коэффициентов ai покажет важность отдельных признаков. Если для каких-то i-ых признаков коэффициенты ai окажутся малы по сравнению с другими, то эти признаки не влияют на результат и, поэтому , их можно исключить. А что значит проварьировать функцию по коэффициентам? В математике понятие вариации функции строго определено, и вряд ли имеет отношение к статистике. |
|
4.03.2016 - 10:32
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
А что значит проварьировать функцию по коэффициентам? В математике понятие вариации функции строго определено, и вряд ли имеет отношение к статистике. Это значит выписать статистику, по которой проводится анализ, в виде функции от неизвестных коэффициентов: f(a1,...,an) . Проварьировать функцию - это значит найти ее экстремум с помощью частных производных по коэффициентам ai: df/d_ai=0.
Сообщение отредактировал DoctorStat - 4.03.2016 - 10:34 Просто включи мозги => http://doctorstat.narod.ru
|
|
5.03.2016 - 20:39
Сообщение
#5
|
|
Группа: Модераторы Сообщений: 286 Регистрация: 1.02.2005 Из: Воронеж Пользователь №: 93 |
Это значит выписать статистику, по которой проводится анализ, в виде функции от неизвестных коэффициентов: f(a1,...,an) . Проварьировать функцию - это значит найти ее экстремум с помощью частных производных по коэффициентам ai: df/d_ai=0. Занятно. Вы априори предполагаете, что: - вид функции известен; - функция непрерывно дифференцируема по каждой из переменных. Но если вид функции известен, задача становится тривиальной. О.Я.Кравец, д.т.н., проф.
|
|
5.03.2016 - 22:28
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Но если вид функции известен, задача становится тривиальной. Давайте рассмотрим учебный пример, чтобы стала понятна идея предложенного метода нахождения долей отдельных признаков в различии популяций. Пусть (для простоты) у нас есть только две группы пациентов: контроль и больные (случай), для которых мы регистрируем два (тоже для простоты) признака:1. X - курит(1)/нет(0) - (качественный бинарный признак) 2. Y - употребляет наркотик(1)/нет(0) - (качественный бинарный признак) Мы хотим найти комбинированный (составленный из отдельных признаков) показатель, по которому эти две популяции различаются и долю каждого признака в отличии между популяциями. Введем линейную функцию комбинированного признака: z(x,y) = a*x + b*y, где a, b - неизвестные коэффициенты (доли отдельных признаков, которые мы будем искать), одинаковые для обеих групп. Для ограничения функции z введем нормировку: a^2+b^2=1 Для сравнения групп используем критерий Стьюдента, статистика которого равна: t(a, b)=(<Z1> - <Z2>)/sqrt(s1^2+s2^2), где <Z1>, <Z2> - выборочные средние двух групп, s1^2, s2^2 - квадраты стандартных ошибок средних этих групп. Выпишем для примера выборочное среднее для группы 1, которое равно: <Z1>(a,b)= 1/n(Z1+...+Zn) Пусть 1-ый пациент группы 1 курит и не употребляет наркотик. Тогда для него комбинированный признак равен Z1(a,b)=a*1+b*0=a Аналогично вычисляются признаки для остальных пациентов. Подставляя в формулу для среднего, получаем, что среднее значение группы тоже зависит только от двух неизвестных параметров: a и b. Стандартная ошибка среднего s1(a, b) также зависит только от этих параметров. Следовательно, и сама статистика Стьюдента t(a, b) (см.формулу выше) тоже зависит неким сложным образом от a и b. Теперь (ключевой момент!) нам нужно найти максимум функции Стьюдента. Для этого нужно продифференцировать функцию t(a, b) по каждому аргументу a и b и приравнять частные производные нулю. Я не буду здесь выписывать и, тем более, решать эти два уравнения (важна сама идея). В результате решения мы получим два коэффициента: a и b. Подставим их в формулу для статистики Стьюдента t(a, b) и подсчитаем ее. Если статистика окажется больше критической (для заданной численности групп), то ура ! - нам повезло - комбинированный признак работает - он статистически значим. Вдобавок, в качестве бонуса, мы получили относительную важность двух признаков, которая просто равна отношению коэффициентов a/b. Сообщение отредактировал DoctorStat - 6.03.2016 - 12:39 Просто включи мозги => http://doctorstat.narod.ru
|
|
6.03.2016 - 17:50
Сообщение
#7
|
|
Группа: Модераторы Сообщений: 286 Регистрация: 1.02.2005 Из: Воронеж Пользователь №: 93 |
Теперь (ключевой момент!) нам нужно найти максимум функции Стьюдента. Для этого нужно продифференцировать функцию t(a, b) по каждому аргументу a и b и приравнять частные производные нулю. Я вообще-то имел в виду техническую тривиальность именно этого момента. О.Я.Кравец, д.т.н., проф.
|
|
6.03.2016 - 19:11
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Я вообще-то имел в виду техническую тривиальность именно этого момента. Спасибо за ваши вопросы - они двигают науку вперед! Вычисления частных производных - далеко не тривиальная задача. Я не сумел пробиться до конечных формул, но ради чистоты эксперимента приведу начальные выкладки.Итак, пусть комбинированный признак имеет (несколько модифицированный) вид: z=a^2*x + b^2*y . Здесь коэффициенты a и b заменены своими квадратами (для положительности вкладов) Статистика Стьюдента имеет вид: t(a,b)=(<Z1>-<Z2>)/sqrt(s1+s2) , где <Z1>=1/n1(Z1+...+Zn1)=1/n1(a^2*SUM(xi)+b^2*SUM(yi)) - выборочное среднее для 1-ой группы s1=1/sqrt(n1-1)*sqrt(SUM[(zi-<Z1>)^2]) - выборочное стандартное отклонение для первой группы Возьмем производную числителя t(a,b) по переменной a: d(<Z1>-<Z2>)/da=1/n1*(2a*SUM(xi))-1/n2*(2a*SUM(xj)) Возьмем производную стандартного отклонения для первой группы по переменной a: d(s1)/da=1/sqrt(n1-1)*1/(2*sqrt(SUM[(zi-<Z1>)^2]))*sqrt(SUM[2*(zi-<Z1>)*2a(xi-SUM(xi))) К сожалению, дальнейшие вычисления становятся все сложнее, а формулы все запутаннее. Главная идея (брать производные) остается прежней, но количество слагаемых увеличивается Сообщение отредактировал DoctorStat - 6.03.2016 - 19:14 Просто включи мозги => http://doctorstat.narod.ru
|
|
6.03.2016 - 20:14
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 15 Регистрация: 20.07.2014 Пользователь №: 26530 |
Спасибо за ваши вопросы - они двигают науку вперед! Вычисления частных производных - далеко не тривиальная задача. Я не сумел пробиться до конечных формул, но ради чистоты эксперимента приведу начальные выкладки. Итак, пусть комбинированный признак имеет... 1. Вы немного запутались в матанализе. Производная от частного не равна частной от производных. Далее, вообще непонятно, почему вы от функции z(x, y) переходите к функции z(a, b) и далее ищете производную от статистики. Вам указали на нелепость поиска производных от линейной функции. Эта производная будет равна самим коэффициентам, т.е. z'(x, y)|x = a, z'(x, y)|y = b. Приравнивать ссами коэффициенты к нулю, сами понимаете, смысла большого нет, иначе вы получите невнятное z(x, y) = 0. 2. Также не забывайте, что вам указали на то, что выборочные характеристики не являются непрерывными функциями, поэтому нахождение производных от них - это бабушка надвое сказала. Складывается впечатление, что вы вкратце ознакомились с методом максимального правдоподобия, где для поиска параметров распределения используются частные производные от функции правдоподобия, но это ведь совсем-совсем не то! Сообщение отредактировал statistonline - 6.03.2016 - 20:27 |
|
6.03.2016 - 22:43
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
1. Вы немного запутались в матанализе. Производная от частного не равна частной от производных. Вот еще одна попытка пробиться сквозь формулы и доказать, что существует нетривиальное решение.Как и прежде используем комбинированный признак: z=a^2*x + b^2*y (квадраты коэффициентов для положительности) статистику Стьюдента (для наглядности): t(a,b)=(<Z1>-<Z2>)/sqrt(s1+s2) нормировку коэффициентов (без обоснования - нам так хочется!): a^2 + b^2=1 Теперь (новая идея, которой не было раньше!) вместо двух переменных a и b, у нас из-за наличия нормировки (связи) всего одна. Можно выбрать любую переменную a или b. Выберем произвольно в качестве единственной переменной - a. Вычислим по ней производную числителя (Ч) статистики t(a)=Ч/M : d(Ч)/da=d(<Z1>)/da-d(<Z2>)/da=2a/n1*SUM(xi-yi)-2a/n2*SUM(xj-yj) При приравнивании этой производной нулю, мы получаем тривиальное решение a=0, которое очень беспокоило наших участников. Но они забыли про знаменатель! В формуле статистики для t(a)=Ч/M есть знаменатель M. Производная от частного равна: dt/da=d(Ч/M)/da=[d(Ч)/da*M-Ч*d(M)/da]/M^2=0 Таким образом, в числителе стоит разность двух выражений: d(Ч)/da*M-Ч*d(M)/da=0 Последнее уравнение должно иметь нетривиальное решение: a!=0. Ура - мы победили ! Где взять заслуженный приз? Сообщение отредактировал DoctorStat - 6.03.2016 - 22:44 Просто включи мозги => http://doctorstat.narod.ru
|
|