Выбор метода сравнения групп - Форум врачей-аспирантов

Выбор метода сравнения групп

statistonline Просмотр профиля	3.03.2016 - 07:59 Сообщение #1
Группа: Пользователи Сообщений: 15 Регистрация: 20.07.2014 Пользователь №: 26530	Доброго времени суток! У меня такой вопрос. Есть 3 группы больных, сгруппированные по возрасту. Оценивается общее состояние больного по 12-ти признакам. Указывается, сколько человек в той или иной группе имеют данный признак. Какими критериями можно сравнить группы по частотам, если каждый больной может иметь более одного признака (они частично пересекаются)? Например, больной может иметь 1-й, 7-й и 10-й признаки. Я так понимаю, что таблицы сопряженности здесь не проходят.

Ответов

DoctorStat Просмотр профиля	3.03.2016 - 21:53 Сообщение #2
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224	Цитата(statistonline @ 3.03.2016 - 07:59) Какими критериями можно сравнить группы по частотам, если каждый больной может иметь более одного признака (они частично пересекаются)? Например, больной может иметь 1-й, 7-й и 10-й признаки. Я, конечно, не большой знаток многомерного анализа. С одной стороны, это плохо, так как я не в курсе общепринятых подходов, которых медики в силу своей консервативности (чуть не сказал косности) должны придерживаться. С другой стороны - хорошо, т.к. не мешает генерации новых идей. Вот одна из них: скомбинировать все признаки (12 штук) в виде линейной функции, например: f(a1,..,an) = a1p1+...+anpn, где a1,...,an - неизвестные коэффициенты, p1,...,pn - наличие(=1)/отсутствие(=0) признака. Тогда можно проварьировать функцию f() по коэффициентам ai, так , чтобы хи-квадрат (или какая-либо другая дифференцирующая статистика ) дала максимальное отличие между группами. Тем самым мы найдем всего один (вместо 12) комбинированный признак. Величина коэффициентов ai покажет важность отдельных признаков. Если для каких-то i-ых признаков коэффициенты ai окажутся малы по сравнению с другими, то эти признаки не влияют на результат и, поэтому , их можно исключить. Сообщение отредактировал DoctorStat - 3.03.2016 - 21:53 Просто включи мозги => http://doctorstat.narod.ru

statistonline Просмотр профиля	4.03.2016 - 05:01 Сообщение #3
Группа: Пользователи Сообщений: 15 Регистрация: 20.07.2014 Пользователь №: 26530	Цитата(DoctorStat @ 3.03.2016 - 22:53) Я, конечно, не большой знаток многомерного анализа. С одной стороны, это плохо, так как я не в курсе общепринятых подходов, которых медики в силу своей консервативности (чуть не сказал косности) должны придерживаться. С другой стороны - хорошо, т.к. не мешает генерации новых идей. Вот одна из них: скомбинировать все признаки (12 штук) в виде линейной функции, например: f(a1,..,an) = a1p1+...+anpn, где a1,...,an - неизвестные коэффициенты, p1,...,pn - наличие(=1)/отсутствие(=0) признака. Тогда можно проварьировать функцию f() по коэффициентам ai, так , чтобы хи-квадрат (или какая-либо другая дифференцирующая статистика ) дала максимальное отличие между группами. Тем самым мы найдем всего один (вместо 12) комбинированный признак. Величина коэффициентов ai покажет важность отдельных признаков. Если для каких-то i-ых признаков коэффициенты ai окажутся малы по сравнению с другими, то эти признаки не влияют на результат и, поэтому , их можно исключить. А что значит проварьировать функцию по коэффициентам? В математике понятие вариации функции строго определено, и вряд ли имеет отношение к статистике.

DoctorStat Просмотр профиля	4.03.2016 - 10:32 Сообщение #4
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224	Цитата(statistonline @ 4.03.2016 - 05:01) А что значит проварьировать функцию по коэффициентам? В математике понятие вариации функции строго определено, и вряд ли имеет отношение к статистике. Это значит выписать статистику, по которой проводится анализ, в виде функции от неизвестных коэффициентов: f(a1,...,an) . Проварьировать функцию - это значит найти ее экстремум с помощью частных производных по коэффициентам ai: df/d_ai=0. Сообщение отредактировал DoctorStat - 4.03.2016 - 10:34 Просто включи мозги => http://doctorstat.narod.ru

Олег Кравец Просмотр профиля	5.03.2016 - 20:39 Сообщение #5
Группа: Модераторы Сообщений: 286 Регистрация: 1.02.2005 Из: Воронеж Пользователь №: 93	Цитата(DoctorStat @ 4.03.2016 - 10:32) Это значит выписать статистику, по которой проводится анализ, в виде функции от неизвестных коэффициентов: f(a1,...,an) . Проварьировать функцию - это значит найти ее экстремум с помощью частных производных по коэффициентам ai: df/d_ai=0. Занятно. Вы априори предполагаете, что: - вид функции известен; - функция непрерывно дифференцируема по каждой из переменных. Но если вид функции известен, задача становится тривиальной. О.Я.Кравец, д.т.н., проф.

DoctorStat Просмотр профиля	5.03.2016 - 22:28 Сообщение #6
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224	Цитата(Олег Кравец @ 5.03.2016 - 20:39) Но если вид функции известен, задача становится тривиальной. Давайте рассмотрим учебный пример, чтобы стала понятна идея предложенного метода нахождения долей отдельных признаков в различии популяций. Пусть (для простоты) у нас есть только две группы пациентов: контроль и больные (случай), для которых мы регистрируем два (тоже для простоты) признака: 1. X - курит(1)/нет(0) - (качественный бинарный признак) 2. Y - употребляет наркотик(1)/нет(0) - (качественный бинарный признак) Мы хотим найти комбинированный (составленный из отдельных признаков) показатель, по которому эти две популяции различаются и долю каждого признака в отличии между популяциями. Введем линейную функцию комбинированного признака: z(x,y) = ax + by, где a, b - неизвестные коэффициенты (доли отдельных признаков, которые мы будем искать), одинаковые для обеих групп. Для ограничения функции z введем нормировку: a^2+b^2=1 Для сравнения групп используем критерий Стьюдента, статистика которого равна: t(a, b)=(<Z1> - <Z2>)/sqrt(s1^2+s2^2), где <Z1>, <Z2> - выборочные средние двух групп, s1^2, s2^2 - квадраты стандартных ошибок средних этих групп. Выпишем для примера выборочное среднее для группы 1, которое равно: <Z1>(a,b)= 1/n(Z1+...+Zn) Пусть 1-ый пациент группы 1 курит и не употребляет наркотик. Тогда для него комбинированный признак равен Z1(a,b)=a1+b0=a Аналогично вычисляются признаки для остальных пациентов. Подставляя в формулу для среднего, получаем, что среднее значение группы тоже зависит только от двух неизвестных параметров: a и b. Стандартная ошибка среднего s1(a, b) также зависит только от этих параметров. Следовательно, и сама статистика Стьюдента t(a, b) (см.формулу выше) тоже зависит неким сложным образом от a и b. Теперь (ключевой момент!) нам нужно найти максимум функции Стьюдента. Для этого нужно продифференцировать функцию t(a, b) по каждому аргументу a и b и приравнять частные производные нулю. Я не буду здесь выписывать и, тем более, решать эти два уравнения (важна сама идея). В результате решения мы получим два коэффициента: a и b. Подставим их в формулу для статистики Стьюдента t(a, b) и подсчитаем ее. Если статистика окажется больше критической (для заданной численности групп), то ура ! - нам повезло - комбинированный признак работает - он статистически значим. Вдобавок, в качестве бонуса, мы получили относительную важность двух признаков, которая просто равна отношению коэффициентов a/b. Сообщение отредактировал DoctorStat - 6.03.2016 - 12:39 Просто включи мозги => http://doctorstat.narod.ru

Олег Кравец Просмотр профиля	6.03.2016 - 17:50 Сообщение #7
Группа: Модераторы Сообщений: 286 Регистрация: 1.02.2005 Из: Воронеж Пользователь №: 93	Цитата(DoctorStat @ 5.03.2016 - 22:28) Теперь (ключевой момент!) нам нужно найти максимум функции Стьюдента. Для этого нужно продифференцировать функцию t(a, b) по каждому аргументу a и b и приравнять частные производные нулю. Я вообще-то имел в виду техническую тривиальность именно этого момента. О.Я.Кравец, д.т.н., проф.

DoctorStat Просмотр профиля	6.03.2016 - 19:11 Сообщение #8
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224	Цитата(Олег Кравец @ 6.03.2016 - 17:50) Я вообще-то имел в виду техническую тривиальность именно этого момента. Спасибо за ваши вопросы - они двигают науку вперед! Вычисления частных производных - далеко не тривиальная задача. Я не сумел пробиться до конечных формул, но ради чистоты эксперимента приведу начальные выкладки. Итак, пусть комбинированный признак имеет (несколько модифицированный) вид: z=a^2x + b^2y . Здесь коэффициенты a и b заменены своими квадратами (для положительности вкладов) Статистика Стьюдента имеет вид: t(a,b)=(<Z1>-<Z2>)/sqrt(s1+s2) , где <Z1>=1/n1(Z1+...+Zn1)=1/n1(a^2SUM(xi)+b^2SUM(yi)) - выборочное среднее для 1-ой группы s1=1/sqrt(n1-1)sqrt(SUM[(zi-<Z1>)^2]) - выборочное стандартное отклонение для первой группы Возьмем производную числителя t(a,b) по переменной a: d(<Z1>-<Z2>)/da=1/n1(2aSUM(xi))-1/n2(2aSUM(xj)) Возьмем производную стандартного отклонения для первой группы по переменной a: d(s1)/da=1/sqrt(n1-1)1/(2sqrt(SUM[(zi-<Z1>)^2]))sqrt(SUM[2(zi-<Z1>)2a(xi-SUM(xi))) К сожалению, дальнейшие вычисления становятся все сложнее, а формулы все запутаннее. Главная идея (брать производные) остается прежней, но количество слагаемых увеличивается Сообщение отредактировал DoctorStat - 6.03.2016 - 19:14 Просто включи мозги => http://doctorstat.narod.ru

statistonline Просмотр профиля	6.03.2016 - 20:14 Сообщение #9
Группа: Пользователи Сообщений: 15 Регистрация: 20.07.2014 Пользователь №: 26530	Цитата(DoctorStat @ 6.03.2016 - 20:11) Спасибо за ваши вопросы - они двигают науку вперед! Вычисления частных производных - далеко не тривиальная задача. Я не сумел пробиться до конечных формул, но ради чистоты эксперимента приведу начальные выкладки. Итак, пусть комбинированный признак имеет... 1. Вы немного запутались в матанализе. Производная от частного не равна частной от производных. Далее, вообще непонятно, почему вы от функции z(x, y) переходите к функции z(a, b) и далее ищете производную от статистики. Вам указали на нелепость поиска производных от линейной функции. Эта производная будет равна самим коэффициентам, т.е. z'(x, y)\|x = a, z'(x, y)\|y = b. Приравнивать ссами коэффициенты к нулю, сами понимаете, смысла большого нет, иначе вы получите невнятное z(x, y) = 0. 2. Также не забывайте, что вам указали на то, что выборочные характеристики не являются непрерывными функциями, поэтому нахождение производных от них - это бабушка надвое сказала. Складывается впечатление, что вы вкратце ознакомились с методом максимального правдоподобия, где для поиска параметров распределения используются частные производные от функции правдоподобия, но это ведь совсем-совсем не то! Сообщение отредактировал statistonline - 6.03.2016 - 20:27

DoctorStat Просмотр профиля	6.03.2016 - 22:43 Сообщение #10
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224	Цитата(statistonline @ 6.03.2016 - 20:14) 1. Вы немного запутались в матанализе. Производная от частного не равна частной от производных. Вот еще одна попытка пробиться сквозь формулы и доказать, что существует нетривиальное решение. Как и прежде используем комбинированный признак: z=a^2x + b^2y (квадраты коэффициентов для положительности) статистику Стьюдента (для наглядности): t(a,b)=(<Z1>-<Z2>)/sqrt(s1+s2) нормировку коэффициентов (без обоснования - нам так хочется!): a^2 + b^2=1 Теперь (новая идея, которой не было раньше!) вместо двух переменных a и b, у нас из-за наличия нормировки (связи) всего одна. Можно выбрать любую переменную a или b. Выберем произвольно в качестве единственной переменной - a. Вычислим по ней производную числителя (Ч) статистики t(a)=Ч/M : d(Ч)/da=d(<Z1>)/da-d(<Z2>)/da=2a/n1SUM(xi-yi)-2a/n2SUM(xj-yj) При приравнивании этой производной нулю, мы получаем тривиальное решение a=0, которое очень беспокоило наших участников. Но они забыли про знаменатель! В формуле статистики для t(a)=Ч/M есть знаменатель M. Производная от частного равна: dt/da=d(Ч/M)/da=[d(Ч)/daM-Чd(M)/da]/M^2=0 Таким образом, в числителе стоит разность двух выражений: d(Ч)/daM-Чd(M)/da=0 Последнее уравнение должно иметь нетривиальное решение: a!=0. Ура - мы победили ! Где взять заслуженный приз? Сообщение отредактировал DoctorStat - 6.03.2016 - 22:44 Просто включи мозги => http://doctorstat.narod.ru

Сообщений в этой теме

statistonline Выбор метода сравнения групп 3.03.2016 - 07:59

ogurtsov Простейший вариант: анализируйте 12 дихотомических... 3.03.2016 - 19:09

statistonline Цитата(ogurtsov @ 3.03.2016 - 20:09)... 4.03.2016 - 05:04

ogurtsov Или же сконструируйте другие переменные на основе ... 3.03.2016 - 19:10

DrgLena Подобная задача рассматривалась на этом форуме, не... 3.03.2016 - 20:15

DrgLena http://forum.disser.ru/index.php?showtopic...%EA%E... 3.03.2016 - 20:21

DoctorStat Цитата(statistonline @ 3.03.2016 - 07... 3.03.2016 - 21:53

ogurtsov Цитата(DoctorStat @ 3.03.2016 - 22:5... 3.03.2016 - 21:57

statistonline Цитата(DoctorStat @ 3.03.2016 - 22:5... 4.03.2016 - 05:01

DoctorStat Цитата(statistonline @ 4.03.2016 - 05... 4.03.2016 - 10:32

statistonline Цитата(DoctorStat @ 4.03.2016 - 11:3... 4.03.2016 - 10:53

DoctorStat Цитата(statistonline @ 4.03.2016 - 10... 4.03.2016 - 11:44

100$ Цитата(DoctorStat @ 4.03.2016 - 11:4... 5.03.2016 - 13:47

statistonline Цитата(100$ @ 5.03.2016 - 14:47... 5.03.2016 - 20:31

Олег Кравец Цитата(DoctorStat @ 4.03.2016 - 10:3... 5.03.2016 - 20:39

DoctorStat Цитата(Олег Кравец @ 5.03.2016 - 20... 5.03.2016 - 22:28

statistonline Цитата(DoctorStat @ 5.03.2016 - 23:2... 6.03.2016 - 09:29

DoctorStat Цитата(statistonline @ 6.03.2016 - 09... 6.03.2016 - 10:04

statistonline Цитата(DoctorStat @ 6.03.2016 - 11:0... 6.03.2016 - 17:33

DoctorStat Цитата(statistonline @ 6.03.2016 - 17... 6.03.2016 - 18:48

statistonline Цитата(statistonline @ 6.03.2016 - 18... 6.03.2016 - 19:01

Олег Кравец Цитата(DoctorStat @ 5.03.2016 - 22:2... 6.03.2016 - 17:50

DoctorStat Цитата(Олег Кравец @ 6.03.2016 - 17... 6.03.2016 - 19:11

statistonline Цитата(DoctorStat @ 6.03.2016 - 20:1... 6.03.2016 - 20:14

DoctorStat Цитата(statistonline @ 6.03.2016 - 20... 6.03.2016 - 22:43

statistonline Цитата(Олег Кравец @ 6.03.2016 - 18... 6.03.2016 - 20:20

ogurtsov Цитата(statistonline @ 6.03.2016 - 21... 6.03.2016 - 20:39

Олег Кравец Цитата(statistonline @ 6.03.2016 - 20... 6.03.2016 - 21:18

DrgLena Именно в таком виде и нужны данные, приведите их. ... 4.03.2016 - 09:45

DrgLena ststistonline, Клод Шеннон скучает по вашим данным... 5.03.2016 - 22:31

statistonline Цитата(DrgLena @ 5.03.2016 - 23:31) ... 6.03.2016 - 17:14

statistonline http://math.phys.msu.ru/data/28/Lecture_1.pdf - бу... 7.03.2016 - 07:31

100$ В этой ситуации вспоминаются таблицы типа Объект -... 7.03.2016 - 15:10

statistonline Цитата(100$ @ 7.03.2016 - 16:10... 7.03.2016 - 15:55

nokh Цитата(statistonline @ 3.03.2016 - 09... 7.03.2016 - 15:31

statistonline Цитата(nokh @ 7.03.2016 - 16:31) ...... 7.03.2016 - 15:58

DrgLena Этот простой путь, анализировать сопряженность каж... 7.03.2016 - 17:33

Nazuka Хотел спросить кто то пользовался услугами данной ... 12.04.2016 - 15:04

« Предыдущая тема · Медицинская статистика · Следующая тема »