Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Выбор метода сравнения групп

Автор: statistonline 3.03.2016 - 07:59

Доброго времени суток!

У меня такой вопрос. Есть 3 группы больных, сгруппированные по возрасту. Оценивается общее состояние больного по 12-ти признакам. Указывается, сколько человек в той или иной группе имеют данный признак. Какими критериями можно сравнить группы по частотам, если каждый больной может иметь более одного признака (они частично пересекаются)? Например, больной может иметь 1-й, 7-й и 10-й признаки. Я так понимаю, что таблицы сопряженности здесь не проходят.

Автор: ogurtsov 3.03.2016 - 19:09

Простейший вариант: анализируйте 12 дихотомических переменных "есть признак/нет признака", по каждой делайте независимые выводы.
Какой-то мощной науки из этого не получится (как и из любого исследования, которое проводилось без цели и четкого плана действий), но формально анализ будет выполнен.

Автор: ogurtsov 3.03.2016 - 19:10

Или же сконструируйте другие переменные на основе комбинаций признаков, таким образом можно привнести некоторую клиническую значимость.

Автор: DrgLena 3.03.2016 - 20:15

Подобная задача рассматривалась на этом форуме, необходимо было сравнить две группы по числу послеоперационных осложнений, на сколько я помню. Например, какие то осложнения очень редко отмечаются в какой то группе, но их много разных, а в какой то чаще несколько видов, но других вообще нет. Число и разнообразие анализируется с использованием индексов диверсификации. Задача сводится к расчету этих индексов, в данном случае для трех групп, и сравнение их посредством ДИ. В расчете SD были сложности, но на форуме мне помогли, есть решение, сейчас прошло уже много лет, уже есть пограммы, которые сравнивают эти индексы.

Автор: DrgLena 3.03.2016 - 20:21

http://forum.disser.ru/index.php?showtopic=2757&hl=%E8%ED%E4%E5%EA%F1%FB+%E4%E8%E2%E5%F0%F1%E8%F4%E8%EA%E0%F6%E8%E8

Автор: DoctorStat 3.03.2016 - 21:53

Цитата(statistonline @ 3.03.2016 - 07:59) *
Какими критериями можно сравнить группы по частотам, если каждый больной может иметь более одного признака (они частично пересекаются)? Например, больной может иметь 1-й, 7-й и 10-й признаки.
Я, конечно, не большой знаток многомерного анализа. С одной стороны, это плохо, так как я не в курсе общепринятых подходов, которых медики в силу своей консервативности (чуть не сказал косности) должны придерживаться. С другой стороны - хорошо, т.к. не мешает генерации новых идей. Вот одна из них: скомбинировать все признаки (12 штук) в виде линейной функции, например: f(a1,..,an) = a1*p1+...+an*pn, где a1,...,an - неизвестные коэффициенты, p1,...,pn - наличие(=1)/отсутствие(=0) признака. Тогда можно проварьировать функцию f() по коэффициентам ai, так , чтобы хи-квадрат (или какая-либо другая дифференцирующая статистика ) дала максимальное отличие между группами. Тем самым мы найдем всего один (вместо 12) комбинированный признак. Величина коэффициентов ai покажет важность отдельных признаков. Если для каких-то i-ых признаков коэффициенты ai окажутся малы по сравнению с другими, то эти признаки не влияют на результат и, поэтому , их можно исключить.

Автор: ogurtsov 3.03.2016 - 21:57

Цитата(DoctorStat @ 3.03.2016 - 22:53) *
Тогда можно проварьировать функцию f() по коэффициентам ai, так , чтобы хи-квадрат (или какая-либо другая дифференцирующая статистика ) дала максимальное отличие между группами.

Это чистый, рафинированный образец фальсификации научного исследования получается.

Автор: statistonline 4.03.2016 - 05:01

Цитата(DoctorStat @ 3.03.2016 - 22:53) *
Я, конечно, не большой знаток многомерного анализа. С одной стороны, это плохо, так как я не в курсе общепринятых подходов, которых медики в силу своей консервативности (чуть не сказал косности) должны придерживаться. С другой стороны - хорошо, т.к. не мешает генерации новых идей. Вот одна из них: скомбинировать все признаки (12 штук) в виде линейной функции, например: f(a1,..,an) = a1*p1+...+an*pn, где a1,...,an - неизвестные коэффициенты, p1,...,pn - наличие(=1)/отсутствие(=0) признака. Тогда можно проварьировать функцию f() по коэффициентам ai, так , чтобы хи-квадрат (или какая-либо другая дифференцирующая статистика ) дала максимальное отличие между группами. Тем самым мы найдем всего один (вместо 12) комбинированный признак. Величина коэффициентов ai покажет важность отдельных признаков. Если для каких-то i-ых признаков коэффициенты ai окажутся малы по сравнению с другими, то эти признаки не влияют на результат и, поэтому , их можно исключить.

А что значит проварьировать функцию по коэффициентам? В математике понятие вариации функции строго определено, и вряд ли имеет отношение к статистике.

Автор: statistonline 4.03.2016 - 05:04

Цитата(ogurtsov @ 3.03.2016 - 20:09) *
Простейший вариант: анализируйте 12 дихотомических переменных "есть признак/нет признака", по каждой делайте независимые выводы.

К сожалению, у меня нет данных отдельно по больным, а есть уже общее число больных, указывающих на признак. Т.е. это не дихотомические переменные.

Автор: DrgLena 4.03.2016 - 09:45

Именно в таком виде и нужны данные, приведите их. Общее число больных в каждой группе и число больных, имеющих признак в каждой из групп, т.е. табличку 12х3. Будет сравнение суммарной оценки частот в 3-х группах.

Автор: DoctorStat 4.03.2016 - 10:32

Цитата(statistonline @ 4.03.2016 - 05:01) *
А что значит проварьировать функцию по коэффициентам? В математике понятие вариации функции строго определено, и вряд ли имеет отношение к статистике.
Это значит выписать статистику, по которой проводится анализ, в виде функции от неизвестных коэффициентов: f(a1,...,an) . Проварьировать функцию - это значит найти ее экстремум с помощью частных производных по коэффициентам ai: df/d_ai=0.

Автор: statistonline 4.03.2016 - 10:53

Цитата(DoctorStat @ 4.03.2016 - 11:32) *
Это значит выписать статистику, по которой проводится анализ, в виде функции от неизвестных коэффициентов: f(a1,...,an) . Проварьировать функцию - это значит найти ее экстремум с помощью частных производных по коэффициентам ai: df/d_ai=0.

Вы имеете в виду продифференциировать линейную функцию по переменным?!

Автор: DoctorStat 4.03.2016 - 11:44

Цитата(statistonline @ 4.03.2016 - 10:53) *
Вы имеете в виду продифференциировать линейную функцию по переменным?!
Да, нужно продифференцировать функцию по каждой переменной ai и приравнять все частные производные нулю. После решения полученной системы уравнений (12 штук), найдем все коэффициенты ai.

Автор: 100$ 5.03.2016 - 13:47

Цитата(DoctorStat @ 4.03.2016 - 11:44) *
Да, нужно продифференцировать функцию по каждой переменной ai и приравнять все частные производные нулю. После решения полученной системы уравнений (12 штук), найдем все коэффициенты ai.


Пальмовая ветвь в номинации "Лучшая шутка 2016 года"

Автор: statistonline 5.03.2016 - 20:31

Цитата(100$ @ 5.03.2016 - 14:47) *
Пальмовая ветвь в номинации "Лучшая шутка 2016 года"

Я бы даже Оскара за такой вариант решения проблемы дал! laugh.gif

Автор: Олег Кравец 5.03.2016 - 20:39

Цитата(DoctorStat @ 4.03.2016 - 10:32) *
Это значит выписать статистику, по которой проводится анализ, в виде функции от неизвестных коэффициентов: f(a1,...,an) . Проварьировать функцию - это значит найти ее экстремум с помощью частных производных по коэффициентам ai: df/d_ai=0.


Занятно. Вы априори предполагаете, что:
- вид функции известен;
- функция непрерывно дифференцируема по каждой из переменных.

Но если вид функции известен, задача становится тривиальной.

Автор: DoctorStat 5.03.2016 - 22:28

Цитата(Олег Кравец @ 5.03.2016 - 20:39) *
Но если вид функции известен, задача становится тривиальной.
Давайте рассмотрим учебный пример, чтобы стала понятна идея предложенного метода нахождения долей отдельных признаков в различии популяций. Пусть (для простоты) у нас есть только две группы пациентов: контроль и больные (случай), для которых мы регистрируем два (тоже для простоты) признака:
1. X - курит(1)/нет(0) - (качественный бинарный признак)
2. Y - употребляет наркотик(1)/нет(0) - (качественный бинарный признак)

Мы хотим найти комбинированный (составленный из отдельных признаков) показатель, по которому эти две популяции различаются и долю каждого признака в отличии между популяциями. Введем линейную функцию комбинированного признака:
z(x,y) = a*x + b*y, где a, b - неизвестные коэффициенты (доли отдельных признаков, которые мы будем искать), одинаковые для обеих групп. Для ограничения функции z введем нормировку: a^2+b^2=1
Для сравнения групп используем критерий Стьюдента, статистика которого равна:
t(a, b)=(<Z1> - <Z2>)/sqrt(s1^2+s2^2), где <Z1>, <Z2> - выборочные средние двух групп, s1^2, s2^2 - квадраты стандартных ошибок средних этих групп.
Выпишем для примера выборочное среднее для группы 1, которое равно:
<Z1>(a,b)= 1/n(Z1+...+Zn)
Пусть 1-ый пациент группы 1 курит и не употребляет наркотик. Тогда для него комбинированный признак равен Z1(a,b)=a*1+b*0=a
Аналогично вычисляются признаки для остальных пациентов. Подставляя в формулу для среднего, получаем, что среднее значение группы тоже зависит только от двух неизвестных параметров: a и b. Стандартная ошибка среднего s1(a, b) также зависит только от этих параметров. Следовательно, и сама статистика Стьюдента t(a, b) (см.формулу выше) тоже зависит неким сложным образом от a и b.
Теперь (ключевой момент!) нам нужно найти максимум функции Стьюдента. Для этого нужно продифференцировать функцию t(a, b) по каждому аргументу a и b и приравнять частные производные нулю. Я не буду здесь выписывать и, тем более, решать эти два уравнения (важна сама идея). В результате решения мы получим два коэффициента: a и b. Подставим их в формулу для статистики Стьюдента t(a, b) и подсчитаем ее. Если статистика окажется больше критической (для заданной численности групп), то ура ! - нам повезло - комбинированный признак работает - он статистически значим. Вдобавок, в качестве бонуса, мы получили относительную важность двух признаков, которая просто равна отношению коэффициентов a/b.

Автор: DrgLena 5.03.2016 - 22:31

ststistonline, Клод Шеннон скучает по вашим данным, многим интересно было бы посмотреть, что нового появилось в области "Теории информации и статистики"после Кульбака какие новые возможности появились для решения подобных задач с приходом компьютеров. Не обязательно раскрывать данные, откуда они и зачем.

Автор: statistonline 6.03.2016 - 09:29

Цитата(DoctorStat @ 5.03.2016 - 23:28) *
Давайте рассмотрим учебный пример...

1. На этом форуме LATex не работает? Тяжело видеть формулы в таком виде
2. Про бинарные регрессии, насколько мне известно, пока мало что написано и сказано. Тем более, подходить к этому вопросу с позиции методов для количественных переменных, как то: найдем среднее, дисперсию, и т.д. - крайне сомнительный путь.
3. Важность двух признаков, равная a/b - это пока только показатель, придуманный "из ноги", а не от головы. Не совсем ясно, что такое "относительная важность двух признаков".
4. Нормировка, введенная вами, она откуда? Я понимаю, что вы пытаетесь вписаться в квадрант [1;1]. Но хотелось бы вообще понять - что такое "доля важности признака", и почему ее надо оценивать некоей линейной функцией. С таким же успехом я могу строить "функцию" методами дискретной математики, используя ее язык "И/ИЛИ/НЕ". Во всяком случае, для бинарных переменных это кажется более уместным. Что-то типа: строим логическую функцию
БОЛЬНЫЕ=(КУРИТ)и(УПОТРЕБЛЯЕТ_НАРКОТИКИ)или(неКУРИТ)и(УПОТРЕБЛЯЕТ_НАРКОТИКИ)

Автор: DoctorStat 6.03.2016 - 10:04

Цитата(statistonline @ 6.03.2016 - 09:29) *
2. Про бинарные регрессии, насколько мне известно, пока мало что написано и сказано. Тем более, подходить к этому вопросу с позиции методов для количественных переменных, как то: найдем среднее, дисперсию, и т.д. - крайне сомнительный путь.
Вы правы. Я выбрал параметрическую статистику Стьюдента только из-за соображений удобства - ее все проходили в институте и что-то о ней слышали. Более подходящей для примера была бы непараметрическая статистика, например, Манна-Уитни.
Цитата(statistonline @ 6.03.2016 - 09:29) *
3. Важность двух признаков, равная a/b - это пока только показатель, придуманный "из ноги", а не от головы. Не совсем ясно, что такое "относительная важность двух признаков".
Ну, смотрите. В комбинированный признак z входят два разных бинарных признака с коэффициентами a и b. Если a>>b (гораздо больше), то второй признак почти не влияет на z и его можно исключить. Важность признаков можно измерять разными способами, например, отношением a/b или еще как-то. Я указал простейший способ, но возможно он зависит от нормировки. Тогда для нашей нормировки можно было бы использовать еще отношение квадратов a^2/b^2
Цитата(statistonline @ 6.03.2016 - 09:29) *
4. Нормировка, введенная вами, она откуда? Я понимаю, что вы пытаетесь вписаться в квадрант [1;1]. Но хотелось бы вообще понять - что такое "доля важности признака", и почему ее надо оценивать некоей линейной функцией. С таким же успехом я могу строить "функцию" методами дискретной математики, используя ее язык "И/ИЛИ/НЕ". Во всяком случае, для бинарных переменных это кажется более уместным. Что-то типа: строим логическую функцию
БОЛЬНЫЕ=(КУРИТ)и(УПОТРЕБЛЯЕТ_НАРКОТИКИ)или(неКУРИТ)и(УПОТРЕБЛЯЕТ_НАРКОТИКИ)
Нормировка коэффициентов a^2+b^2=1 обусловлена бинарностью переменных (=0 или 1). Она нужна для учета вклада переменных, различающихся своим интервалом изменения. Например, если бы вторая переменная была давлением (меняющимся в пределах от 0 до 200), то условие нормировки выглядело бы так: a^2+(b/200)^2=1 или нужно было бы изменить комбинированный признак, нормировав давление на 1 : z=a*x+b*(y/200)
Имейте ввиду, что я дал только черновик, набросок, подкинул идею. Другими словами, снабдил вас инструментом для ловли рыбы, а уж ловить рыбку в пруду вы должны сами smile.gif

Автор: statistonline 6.03.2016 - 17:14

Цитата(DrgLena @ 5.03.2016 - 23:31) *
ststistonline, Клод Шеннон скучает по вашим данным, многим интересно было бы посмотреть, что нового появилось в области "Теории информации и статистики"после Кульбака какие новые возможности появились для решения подобных задач с приходом компьютеров. Не обязательно раскрывать данные, откуда они и зачем.

Шеннон давно уже не скучает ни по какому поводу smile.gif. Ларчик в моем случае открывается просто: как указывали вы и другие, надо анализировать по отдельности дихотомические признаки, составляя таблицы сопряженности по конкретным жалобам больных, а не собирая в кучу общее число жалоб того или иного вида. И дальше - стандартные критерии для таблиц.

Автор: statistonline 6.03.2016 - 17:33

Цитата(DoctorStat @ 6.03.2016 - 11:04) *
Вы правы. Я выбрал параметрическую статистику Стьюдента только из-за соображений удобства - ее все проходили в институте и что-то о ней слышали. Более подходящей для примера была бы непараметрическая статистика, например, Манна-Уитни.Ну, смотрите. В комбинированный признак z входят два разных бинарных признака с коэффициентами a и b. Если a>>b (гораздо больше), то второй признак почти не влияет на z и его можно исключить. Важность признаков можно измерять разными способами, например, отношением a/b или еще как-то. Я указал простейший способ, но возможно он зависит от нормировки. Тогда для нашей нормировки можно было бы использовать еще отношение квадратов a^2/b^2
Нормировка коэффициентов a^2+b^2=1 обусловлена бинарностью переменных (=0 или 1). Она нужна для учета вклада переменных, различающихся своим интервалом изменения. Например, если бы вторая переменная была давлением (меняющимся в пределах от 0 до 200), то условие нормировки выглядело бы так: a^2+(b/200)^2=1 или нужно было бы изменить комбинированный признак, нормировав давление на 1 : z=a*x+b*(y/200)
Имейте ввиду, что я дал только черновик, набросок, подкинул идею. Другими словами, снабдил вас инструментом для ловли рыбы, а уж ловить рыбку в пруду вы должны сами smile.gif

1. Так как тут с LATex'ом?
2. "Все слышали" - не очень хороший повод для использования. Для бинарных переменных не подойдет никакая, ни параметрическая, ни непараметрическая статистика, использующая при расчете арифметические действия. И сразу же, отвечая на замечание о нормировках - мы не находимся в рамках квантовомеханической картины мира, где суперпозиции волновых состояний (по типу кота Шредингера) - обычная вещь. Бинарный признак не может быть частично присущ классическому объекту, он либо есть, либо нет. Поэтому я не вижу способа, как можно трактовать такую суперпозицию для случая вашей линейной функции. Кроме того, даже если такую интерпретацию придумать, непонятно, как под нее математический аппарат, указанный вами, подогнать. Мы ведь должны, как это делается в серьезной статистике, доказать характер распределения некоторой случайной величины, непрерывной или дискретной, и после смотреть, к чему она там у нас в пределах сойдется, а не брать первую вспомнившуюся как общеупотребимую. А что если, умудрившись ввести на бинарных переменных некоторую статистику, она окажется распределена не по Стьюденту, а, допустим, по Пуассону? И чем хуже нормировка |a|<=1, |b|<=1?
К сожалению, это пока не удочка, это вы мне рукой показали на большущий лес, где можно сломать прут для удочки, а можно и шею smile.gif

Автор: Олег Кравец 6.03.2016 - 17:50

Цитата(DoctorStat @ 5.03.2016 - 22:28) *
Теперь (ключевой момент!) нам нужно найти максимум функции Стьюдента. Для этого нужно продифференцировать функцию t(a, b) по каждому аргументу a и b и приравнять частные производные нулю.


Я вообще-то имел в виду техническую тривиальность именно этого момента.

Автор: DoctorStat 6.03.2016 - 18:48

Цитата(statistonline @ 6.03.2016 - 17:33) *
1. Так как тут с LATex'ом?
Если честно, то не знаю - никогда им не пользовался. Спросите у модераторов.
Цитата(statistonline @ 6.03.2016 - 17:33) *
2. "Все слышали" - не очень хороший повод для использования. Для бинарных переменных не подойдет никакая, ни параметрическая, ни непараметрическая статистика, использующая при расчете арифметические действия. И сразу же, отвечая на замечание о нормировках - мы не находимся в рамках квантовомеханической картины мира, где суперпозиции волновых состояний (по типу кота Шредингера) - обычная вещь. Бинарный признак не может быть частично присущ классическому объекту, он либо есть, либо нет. Поэтому я не вижу способа, как можно трактовать такую суперпозицию для случая вашей линейной функции. Кроме того, даже если такую интерпретацию придумать, непонятно, как под нее математический аппарат, указанный вами, подогнать. Мы ведь должны, как это делается в серьезной статистике, доказать характер распределения некоторой случайной величины, непрерывной или дискретной, и после смотреть, к чему она там у нас в пределах сойдется, а не брать первую вспомнившуюся как общеупотребимую. А что если, умудрившись ввести на бинарных переменных некоторую статистику, она окажется распределена не по Стьюденту, а, допустим, по Пуассону? И чем хуже нормировка |a|<=1, |b|<=1?
К сожалению, это пока не удочка, это вы мне рукой показали на большущий лес, где можно сломать прут для удочки, а можно и шею smile.gif
Спасибо за ваши сомнения и вопросы - они позволяют улучшить теорию и высветить ее недостатки. К сожалению, моя квалификация и отсутствие свободного времени не позволяют ответить на все замечания или даже исправить неверные формулы. Давайте работать как олимпийские факелоносцы: я передаю вам горящий факел, а вы несете его дальше, чтобы в конце эстафеты зажечь большой костер (разумеется, не сломав при этом себе шею smile.gif

Автор: statistonline 6.03.2016 - 19:01

Цитата(statistonline @ 6.03.2016 - 18:33) *
Для бинарных переменных не подойдет никакая, ни параметрическая, ни непараметрическая статистика...

Кстати, приношу извинения, тут я погорячился. Кохреновский критерий вполне подойдет для случая зависимых выборок в бинарных переменных. Да и точечно-бисериальную корреляцию можно при опред. условиях заменять на r-Пирсона.

Автор: DoctorStat 6.03.2016 - 19:11

Цитата(Олег Кравец @ 6.03.2016 - 17:50) *
Я вообще-то имел в виду техническую тривиальность именно этого момента.
Спасибо за ваши вопросы - они двигают науку вперед! Вычисления частных производных - далеко не тривиальная задача. Я не сумел пробиться до конечных формул, но ради чистоты эксперимента приведу начальные выкладки.
Итак, пусть комбинированный признак имеет (несколько модифицированный) вид: z=a^2*x + b^2*y . Здесь коэффициенты a и b заменены своими квадратами (для положительности вкладов)
Статистика Стьюдента имеет вид: t(a,b)=(<Z1>-<Z2>)/sqrt(s1+s2)
, где <Z1>=1/n1(Z1+...+Zn1)=1/n1(a^2*SUM(xi)+b^2*SUM(yi)) - выборочное среднее для 1-ой группы
s1=1/sqrt(n1-1)*sqrt(SUM[(zi-<Z1>)^2]) - выборочное стандартное отклонение для первой группы
Возьмем производную числителя t(a,b) по переменной a:
d(<Z1>-<Z2>)/da=1/n1*(2a*SUM(xi))-1/n2*(2a*SUM(xj))
Возьмем производную стандартного отклонения для первой группы по переменной a:
d(s1)/da=1/sqrt(n1-1)*1/(2*sqrt(SUM[(zi-<Z1>)^2]))*sqrt(SUM[2*(zi-<Z1>)*2a(xi-SUM(xi)))
К сожалению, дальнейшие вычисления становятся все сложнее, а формулы все запутаннее. Главная идея (брать производные) остается прежней, но количество слагаемых увеличивается frown.gif

Автор: statistonline 6.03.2016 - 20:14

Цитата(DoctorStat @ 6.03.2016 - 20:11) *
Спасибо за ваши вопросы - они двигают науку вперед! Вычисления частных производных - далеко не тривиальная задача. Я не сумел пробиться до конечных формул, но ради чистоты эксперимента приведу начальные выкладки.
Итак, пусть комбинированный признак имеет...

1. Вы немного запутались в матанализе. Производная от частного не равна частной от производных. Далее, вообще непонятно, почему вы от функции z(x, y) переходите к функции z(a, b) и далее ищете производную от статистики. Вам указали на нелепость поиска производных от линейной функции. Эта производная будет равна самим коэффициентам, т.е.
z'(x, y)|x = a, z'(x, y)|y = b. Приравнивать ссами коэффициенты к нулю, сами понимаете, смысла большого нет, иначе вы получите невнятное z(x, y) = 0.
2. Также не забывайте, что вам указали на то, что выборочные характеристики не являются непрерывными функциями, поэтому нахождение производных от них - это бабушка надвое сказала. Складывается впечатление, что вы вкратце ознакомились с методом максимального правдоподобия, где для поиска параметров распределения используются частные производные от функции правдоподобия, но это ведь совсем-совсем не то!

Автор: statistonline 6.03.2016 - 20:20

Цитата(Олег Кравец @ 6.03.2016 - 18:50) *
Я вообще-то имел в виду техническую тривиальность именно этого момента.

Говорят, что по поводу LATex можно обратиться именно к Вам. Почему он здесь не работает? В разделе "медстатистика" он сильно бы пригодился.

Автор: ogurtsov 6.03.2016 - 20:39

Цитата(statistonline @ 6.03.2016 - 21:20) *
Говорят, что по поводу LATex можно обратиться именно к Вам. Почему он здесь не работает? В разделе "медстатистика" он сильно бы пригодился.

Тоже хотелось бы увидеть поддержку LaTeX-а, а пока в качестве полумеры можно использовать http://www.codecogs.com/latex/eqneditor.php и вставлять в сообщения получившиеся картинки.

Автор: Олег Кравец 6.03.2016 - 21:18

Цитата(statistonline @ 6.03.2016 - 20:20) *
Говорят, что по поводу LATex можно обратиться именно к Вам. Почему он здесь не работает? В разделе "медстатистика" он сильно бы пригодился.


Я всего лишь один из модераторов. Есть главный управляющий - все вопросы к нему. Ник - logvin

Автор: DoctorStat 6.03.2016 - 22:43

Цитата(statistonline @ 6.03.2016 - 20:14) *
1. Вы немного запутались в матанализе. Производная от частного не равна частной от производных.
Вот еще одна попытка пробиться сквозь формулы и доказать, что существует нетривиальное решение.
Как и прежде используем комбинированный признак: z=a^2*x + b^2*y (квадраты коэффициентов для положительности)
статистику Стьюдента (для наглядности): t(a,b)=(<Z1>-<Z2>)/sqrt(s1+s2)
нормировку коэффициентов (без обоснования - нам так хочется!): a^2 + b^2=1
Теперь (новая идея, которой не было раньше!) вместо двух переменных a и b, у нас из-за наличия нормировки (связи) всего одна. Можно выбрать любую переменную a или b. Выберем произвольно в качестве единственной переменной - a. Вычислим по ней производную числителя (Ч) статистики t(a)=Ч/M :
d(Ч)/da=d(<Z1>)/da-d(<Z2>)/da=2a/n1*SUM(xi-yi)-2a/n2*SUM(xj-yj)
При приравнивании этой производной нулю, мы получаем тривиальное решение a=0, которое очень беспокоило наших участников. Но они забыли про знаменатель! В формуле статистики для t(a)=Ч/M есть знаменатель M. Производная от частного равна:
dt/da=d(Ч/M)/da=[d(Ч)/da*M-Ч*d(M)/da]/M^2=0
Таким образом, в числителе стоит разность двух выражений: d(Ч)/da*M-Ч*d(M)/da=0
Последнее уравнение должно иметь нетривиальное решение: a!=0. Ура - мы победили ! Где взять заслуженный приз? smile.gif

Автор: statistonline 7.03.2016 - 07:31

http://math.phys.msu.ru/data/28/Lecture_1.pdf - будем считать, что это ваш приз. Пока большее не светит, не обижайтесь smile.gif
Еще раз. Вы пытаетесь рассмотреть аналогию метода максимального правдоподобия. Но в этом методе вводится непрерывная, всюду на распределении дифференциируемая функция - функция правдоподобия.

Автор: 100$ 7.03.2016 - 15:10

В этой ситуации вспоминаются таблицы типа http://stu.sernam.ru/book_stat2.php?id=47, с. 135-136

С бодряческим заявлением

Цитата
надо анализировать по отдельности дихотомические признаки, составляя таблицы сопряженности по конкретным жалобам больных, а не собирая в кучу общее число жалоб того или иного вида. И дальше - стандартные критерии для таблиц.

позвольте тактично не согласиться.

Автор: nokh 7.03.2016 - 15:31

Цитата(statistonline @ 3.03.2016 - 09:59) *
У меня такой вопрос. Есть 3 группы больных, сгруппированные по возрасту. Оценивается общее состояние больного по 12-ти признакам. Указывается, сколько человек в той или иной группе имеют данный признак. Какими критериями можно сравнить группы по частотам, если каждый больной может иметь более одного признака (они частично пересекаются)? Например, больной может иметь 1-й, 7-й и 10-й признаки. Я так понимаю, что таблицы сопряженности здесь не проходят.

Во-первых, вопрос содержит вводящую в заблуждение информацию. В нём трижды встречается: "состояние больного", "каждый больной", "больной". А оказывается никакого "больного" вообще нет, а есть только сгруппированные данные, т.е. данные собранные с колоссальной потерей информации. Причём (важно!) с потерей информации как раз о больном, о "каждом больном". Это уже не медицина, а просто статистика. Некачественные данные сложно обработать качественно, а потому способ, предложенный ogurtsov'ым в первом же ответе на ваш вопрос - самый естественный. Хотя к предложенному можно ещё и возраст добавить - всё-таки больше имеющейся информации получится учесть. И для такого анализа у вас есть все исходные данные. Для этого:

1. Забываете про 12 признаков и берёте только первый. Если материал - большая таблица, то всё что не относится к признаку N 1 можно зачеркнуть или стереть - чтобы не отвлекало. Зная общее количество пациентов в каждой из трёх групп и процент (или число) пациентов в каждой возрастной категории с признаком N 1 вычисляете соответствующее число человек без этого признака. Полученную информацию сводите в таблицу сопряжённости с тремя входами:
1) Группа (3 категории)
2) Возрастная категория (Не указали сколько, но допустим 5 категорий. Надеюсь для всех групп эти категории одинаковы). Способ анализа возраста будет зависеть от того как собирался материал. Если на эти категории разбивался уже собранный материал, это - полноценный фактор. Если же специально ставилась цель охватить разные возрастные группы и в каждой такой группе набиралось заранее запланированное число человек (ну типа для репрезентативности) значит взаимодействие этого фактора с другими находится под контролем исследователя и его нельзя исключать из анализа.
3) Признак N 1 (2 категории: есть или нет).

2. Полученную таблицу из 3 х 5? х 2 ячеек анализируете иерархическим логлинейным анализом. Если взаимодействие всех трёх входов 123 окажется незначимым:
а) для случая контролируемого возраста сразу делается вывод об отсутствии всяких различий в таблице.
б) для случая неконтролируемого возраста - проверяете поочерёдно 12, 13 и 23.
Если что-то значимо - то выяснить за счёт чего именно можно по анализу отклонений Фримана - Тьюки или по анализу скорректированных стандартизованных остатков (остатков Хабермана).

3. "Вспоминаете", что есть ещё Признак N 2. По нему - аналогично. И т.д. по всем 12. Таким образом имеете 12 анализов и не менее 12 выводов. Конечно, с ростом числа признаков ошибка I рода тоже будет расти. Но тут что поделаешь? Можно, конечно, поиграться с поправками типа Бонферрони, хотя я их не люблю. Да и при 12 признаках любой даже менее консервативный метод учёта множественности сравнений начисто лишит радости открытия...

Пока всё. Если данные - ваши, то вы приобрели определённый опыт, и в следующий раз соберёте их уже по-человечески: строка - пациент, колонка - признак. Для этого есть все предпосылки: что на карточках, что в базах данных информация представлена в несгруппированном виде, т.е. именно по каждому больному индивидуально. При полноценных данных есть возможности для манёвров (я бы начал с канонического анализа соответствий, а самые интересные моменты подкрепил бы обычным хи-квадратом). Если же данные не ваши - ещё проще: вали'те всё на заказчика, это - его просчёты, ну а уж вы-то старались как могли - целых 12 анализов сделали...

Автор: statistonline 7.03.2016 - 15:55

Цитата(100$ @ 7.03.2016 - 16:10) *
В этой ситуации вспоминаются таблицы типа http://stu.sernam.ru/book_stat2.php?id=47, с. 135-136

С бодряческим заявлением

позвольте тактично не согласиться.

Почему? Я объяснил, что необходимо взять данные по каждому больному, и работать примерно таким образом.

Автор: statistonline 7.03.2016 - 15:58

Цитата(nokh @ 7.03.2016 - 16:31) *
...уже по-человечески: строка - пациент, колонка - признак. Для этого есть все предпосылки: что на карточках, что в базах данных информация представлена в несгруппированном виде, т.е. именно по каждому больному индивидуально.

Ну да, спасибо! Я ровно так и сделал, о чем писал в последующих постах. Замечания Ogurtsov'a мне сразу показались наиболее дельными.

Автор: DrgLena 7.03.2016 - 17:33

Этот простой путь, анализировать сопряженность каждого признака с тремя градациями возраста, может не дать никакого результата, даже если повезет найти различия по каким-то отдельным признаком, и вы сможете сделать вывод, что чем больше возраст, тем чаще наблюдается определенный синдром. Но, возможно, что чаще синдром будет наблюдаться, например, не в самой старшей группе. Как правило, есть определенные диагностические шкалы, отражающие конкретные состояния и нужно проанализировать различия в группах одновременно по всем элементам шкалы. Психиатры, например, просто складывают положительные ответы шкалы и сравнивают эти суммы. Анализ соответствий, предложенный nokh, даст ответ, какие ответы ближе к каждому возрасту, очень красиво показать это графически, после чего можно проводить меньше 12 анализов. Но все равно, не будет ответа на вопрос о различиях всей диагностической шкалы.

Автор: Nazuka 12.04.2016 - 15:04

Хотел спросить кто то пользовался услугами данной компании? http://www.incorp-company.ru/vertical-blinds/plastic/ так как хочу у них купить шторы под заказ

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)