Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

3 страниц V  < 1 2 3 >  
Добавить ответ в эту темуОткрыть тему
> Выбор метода сравнения групп
Олег Кравец
сообщение 5.03.2016 - 20:39
Сообщение #16


Редколлегия журнала "Врач-аспирант"
*

Группа: Модераторы
Сообщений: 274
Регистрация: 1.02.2005
Из: Воронеж
Пользователь №: 93



Цитата(DoctorStat @ 4.03.2016 - 10:32) *
Это значит выписать статистику, по которой проводится анализ, в виде функции от неизвестных коэффициентов: f(a1,...,an) . Проварьировать функцию - это значит найти ее экстремум с помощью частных производных по коэффициентам ai: df/d_ai=0.


Занятно. Вы априори предполагаете, что:
- вид функции известен;
- функция непрерывно дифференцируема по каждой из переменных.

Но если вид функции известен, задача становится тривиальной.


Signature
О.Я.Кравец, д.т.н., проф.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 5.03.2016 - 22:28
Сообщение #17


Дух форума
*

Группа: Пользователи
Сообщений: 364
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Олег Кравец @ 5.03.2016 - 20:39) *
Но если вид функции известен, задача становится тривиальной.
Давайте рассмотрим учебный пример, чтобы стала понятна идея предложенного метода нахождения долей отдельных признаков в различии популяций. Пусть (для простоты) у нас есть только две группы пациентов: контроль и больные (случай), для которых мы регистрируем два (тоже для простоты) признака:
1. X - курит(1)/нет(0) - (качественный бинарный признак)
2. Y - употребляет наркотик(1)/нет(0) - (качественный бинарный признак)

Мы хотим найти комбинированный (составленный из отдельных признаков) показатель, по которому эти две популяции различаются и долю каждого признака в отличии между популяциями. Введем линейную функцию комбинированного признака:
z(x,y) = a*x + b*y, где a, b - неизвестные коэффициенты (доли отдельных признаков, которые мы будем искать), одинаковые для обеих групп. Для ограничения функции z введем нормировку: a^2+b^2=1
Для сравнения групп используем критерий Стьюдента, статистика которого равна:
t(a, b)=(<Z1> - <Z2>)/sqrt(s1^2+s2^2), где <Z1>, <Z2> - выборочные средние двух групп, s1^2, s2^2 - квадраты стандартных ошибок средних этих групп.
Выпишем для примера выборочное среднее для группы 1, которое равно:
<Z1>(a,b)= 1/n(Z1+...+Zn)
Пусть 1-ый пациент группы 1 курит и не употребляет наркотик. Тогда для него комбинированный признак равен Z1(a,b)=a*1+b*0=a
Аналогично вычисляются признаки для остальных пациентов. Подставляя в формулу для среднего, получаем, что среднее значение группы тоже зависит только от двух неизвестных параметров: a и b. Стандартная ошибка среднего s1(a, b) также зависит только от этих параметров. Следовательно, и сама статистика Стьюдента t(a, b) (см.формулу выше) тоже зависит неким сложным образом от a и b.
Теперь (ключевой момент!) нам нужно найти максимум функции Стьюдента. Для этого нужно продифференцировать функцию t(a, b) по каждому аргументу a и b и приравнять частные производные нулю. Я не буду здесь выписывать и, тем более, решать эти два уравнения (важна сама идея). В результате решения мы получим два коэффициента: a и b. Подставим их в формулу для статистики Стьюдента t(a, b) и подсчитаем ее. Если статистика окажется больше критической (для заданной численности групп), то ура ! - нам повезло - комбинированный признак работает - он статистически значим. Вдобавок, в качестве бонуса, мы получили относительную важность двух признаков, которая просто равна отношению коэффициентов a/b.

Сообщение отредактировал DoctorStat - 6.03.2016 - 12:39


Signature
Просто включи мозг => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 5.03.2016 - 22:31
Сообщение #18


Дух форума
*

Группа: Пользователи
Сообщений: 1324
Регистрация: 27.11.2007
Пользователь №: 4573



ststistonline, Клод Шеннон скучает по вашим данным, многим интересно было бы посмотреть, что нового появилось в области "Теории информации и статистики"после Кульбака какие новые возможности появились для решения подобных задач с приходом компьютеров. Не обязательно раскрывать данные, откуда они и зачем.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
statistonline
сообщение 6.03.2016 - 09:29
Сообщение #19


Дух форума
*

Группа: Пользователи
Сообщений: 15
Регистрация: 20.07.2014
Пользователь №: 26530



Цитата(DoctorStat @ 5.03.2016 - 23:28) *
Давайте рассмотрим учебный пример...

1. На этом форуме LATex не работает? Тяжело видеть формулы в таком виде
2. Про бинарные регрессии, насколько мне известно, пока мало что написано и сказано. Тем более, подходить к этому вопросу с позиции методов для количественных переменных, как то: найдем среднее, дисперсию, и т.д. - крайне сомнительный путь.
3. Важность двух признаков, равная a/b - это пока только показатель, придуманный "из ноги", а не от головы. Не совсем ясно, что такое "относительная важность двух признаков".
4. Нормировка, введенная вами, она откуда? Я понимаю, что вы пытаетесь вписаться в квадрант [1;1]. Но хотелось бы вообще понять - что такое "доля важности признака", и почему ее надо оценивать некоей линейной функцией. С таким же успехом я могу строить "функцию" методами дискретной математики, используя ее язык "И/ИЛИ/НЕ". Во всяком случае, для бинарных переменных это кажется более уместным. Что-то типа: строим логическую функцию
БОЛЬНЫЕ=(КУРИТ)и(УПОТРЕБЛЯЕТ_НАРКОТИКИ)или(неКУРИТ)и(УПОТРЕБЛЯЕТ_НАРКОТИКИ)

Сообщение отредактировал statistonline - 6.03.2016 - 09:29
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 6.03.2016 - 10:04
Сообщение #20


Дух форума
*

Группа: Пользователи
Сообщений: 364
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(statistonline @ 6.03.2016 - 09:29) *
2. Про бинарные регрессии, насколько мне известно, пока мало что написано и сказано. Тем более, подходить к этому вопросу с позиции методов для количественных переменных, как то: найдем среднее, дисперсию, и т.д. - крайне сомнительный путь.
Вы правы. Я выбрал параметрическую статистику Стьюдента только из-за соображений удобства - ее все проходили в институте и что-то о ней слышали. Более подходящей для примера была бы непараметрическая статистика, например, Манна-Уитни.
Цитата(statistonline @ 6.03.2016 - 09:29) *
3. Важность двух признаков, равная a/b - это пока только показатель, придуманный "из ноги", а не от головы. Не совсем ясно, что такое "относительная важность двух признаков".
Ну, смотрите. В комбинированный признак z входят два разных бинарных признака с коэффициентами a и b. Если a>>b (гораздо больше), то второй признак почти не влияет на z и его можно исключить. Важность признаков можно измерять разными способами, например, отношением a/b или еще как-то. Я указал простейший способ, но возможно он зависит от нормировки. Тогда для нашей нормировки можно было бы использовать еще отношение квадратов a^2/b^2
Цитата(statistonline @ 6.03.2016 - 09:29) *
4. Нормировка, введенная вами, она откуда? Я понимаю, что вы пытаетесь вписаться в квадрант [1;1]. Но хотелось бы вообще понять - что такое "доля важности признака", и почему ее надо оценивать некоей линейной функцией. С таким же успехом я могу строить "функцию" методами дискретной математики, используя ее язык "И/ИЛИ/НЕ". Во всяком случае, для бинарных переменных это кажется более уместным. Что-то типа: строим логическую функцию
БОЛЬНЫЕ=(КУРИТ)и(УПОТРЕБЛЯЕТ_НАРКОТИКИ)или(неКУРИТ)и(УПОТРЕБЛЯЕТ_НАРКОТИКИ)
Нормировка коэффициентов a^2+b^2=1 обусловлена бинарностью переменных (=0 или 1). Она нужна для учета вклада переменных, различающихся своим интервалом изменения. Например, если бы вторая переменная была давлением (меняющимся в пределах от 0 до 200), то условие нормировки выглядело бы так: a^2+(b/200)^2=1 или нужно было бы изменить комбинированный признак, нормировав давление на 1 : z=a*x+b*(y/200)
Имейте ввиду, что я дал только черновик, набросок, подкинул идею. Другими словами, снабдил вас инструментом для ловли рыбы, а уж ловить рыбку в пруду вы должны сами smile.gif

Сообщение отредактировал DoctorStat - 6.03.2016 - 12:54


Signature
Просто включи мозг => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
statistonline
сообщение 6.03.2016 - 17:14
Сообщение #21


Дух форума
*

Группа: Пользователи
Сообщений: 15
Регистрация: 20.07.2014
Пользователь №: 26530



Цитата(DrgLena @ 5.03.2016 - 23:31) *
ststistonline, Клод Шеннон скучает по вашим данным, многим интересно было бы посмотреть, что нового появилось в области "Теории информации и статистики"после Кульбака какие новые возможности появились для решения подобных задач с приходом компьютеров. Не обязательно раскрывать данные, откуда они и зачем.

Шеннон давно уже не скучает ни по какому поводу smile.gif. Ларчик в моем случае открывается просто: как указывали вы и другие, надо анализировать по отдельности дихотомические признаки, составляя таблицы сопряженности по конкретным жалобам больных, а не собирая в кучу общее число жалоб того или иного вида. И дальше - стандартные критерии для таблиц.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
statistonline
сообщение 6.03.2016 - 17:33
Сообщение #22


Дух форума
*

Группа: Пользователи
Сообщений: 15
Регистрация: 20.07.2014
Пользователь №: 26530



Цитата(DoctorStat @ 6.03.2016 - 11:04) *
Вы правы. Я выбрал параметрическую статистику Стьюдента только из-за соображений удобства - ее все проходили в институте и что-то о ней слышали. Более подходящей для примера была бы непараметрическая статистика, например, Манна-Уитни.Ну, смотрите. В комбинированный признак z входят два разных бинарных признака с коэффициентами a и b. Если a>>b (гораздо больше), то второй признак почти не влияет на z и его можно исключить. Важность признаков можно измерять разными способами, например, отношением a/b или еще как-то. Я указал простейший способ, но возможно он зависит от нормировки. Тогда для нашей нормировки можно было бы использовать еще отношение квадратов a^2/b^2
Нормировка коэффициентов a^2+b^2=1 обусловлена бинарностью переменных (=0 или 1). Она нужна для учета вклада переменных, различающихся своим интервалом изменения. Например, если бы вторая переменная была давлением (меняющимся в пределах от 0 до 200), то условие нормировки выглядело бы так: a^2+(b/200)^2=1 или нужно было бы изменить комбинированный признак, нормировав давление на 1 : z=a*x+b*(y/200)
Имейте ввиду, что я дал только черновик, набросок, подкинул идею. Другими словами, снабдил вас инструментом для ловли рыбы, а уж ловить рыбку в пруду вы должны сами smile.gif

1. Так как тут с LATex'ом?
2. "Все слышали" - не очень хороший повод для использования. Для бинарных переменных не подойдет никакая, ни параметрическая, ни непараметрическая статистика, использующая при расчете арифметические действия. И сразу же, отвечая на замечание о нормировках - мы не находимся в рамках квантовомеханической картины мира, где суперпозиции волновых состояний (по типу кота Шредингера) - обычная вещь. Бинарный признак не может быть частично присущ классическому объекту, он либо есть, либо нет. Поэтому я не вижу способа, как можно трактовать такую суперпозицию для случая вашей линейной функции. Кроме того, даже если такую интерпретацию придумать, непонятно, как под нее математический аппарат, указанный вами, подогнать. Мы ведь должны, как это делается в серьезной статистике, доказать характер распределения некоторой случайной величины, непрерывной или дискретной, и после смотреть, к чему она там у нас в пределах сойдется, а не брать первую вспомнившуюся как общеупотребимую. А что если, умудрившись ввести на бинарных переменных некоторую статистику, она окажется распределена не по Стьюденту, а, допустим, по Пуассону? И чем хуже нормировка |a|<=1, |b|<=1?
К сожалению, это пока не удочка, это вы мне рукой показали на большущий лес, где можно сломать прут для удочки, а можно и шею smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Олег Кравец
сообщение 6.03.2016 - 17:50
Сообщение #23


Редколлегия журнала "Врач-аспирант"
*

Группа: Модераторы
Сообщений: 274
Регистрация: 1.02.2005
Из: Воронеж
Пользователь №: 93



Цитата(DoctorStat @ 5.03.2016 - 22:28) *
Теперь (ключевой момент!) нам нужно найти максимум функции Стьюдента. Для этого нужно продифференцировать функцию t(a, b) по каждому аргументу a и b и приравнять частные производные нулю.


Я вообще-то имел в виду техническую тривиальность именно этого момента.


Signature
О.Я.Кравец, д.т.н., проф.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 6.03.2016 - 18:48
Сообщение #24


Дух форума
*

Группа: Пользователи
Сообщений: 364
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(statistonline @ 6.03.2016 - 17:33) *
1. Так как тут с LATex'ом?
Если честно, то не знаю - никогда им не пользовался. Спросите у модераторов.
Цитата(statistonline @ 6.03.2016 - 17:33) *
2. "Все слышали" - не очень хороший повод для использования. Для бинарных переменных не подойдет никакая, ни параметрическая, ни непараметрическая статистика, использующая при расчете арифметические действия. И сразу же, отвечая на замечание о нормировках - мы не находимся в рамках квантовомеханической картины мира, где суперпозиции волновых состояний (по типу кота Шредингера) - обычная вещь. Бинарный признак не может быть частично присущ классическому объекту, он либо есть, либо нет. Поэтому я не вижу способа, как можно трактовать такую суперпозицию для случая вашей линейной функции. Кроме того, даже если такую интерпретацию придумать, непонятно, как под нее математический аппарат, указанный вами, подогнать. Мы ведь должны, как это делается в серьезной статистике, доказать характер распределения некоторой случайной величины, непрерывной или дискретной, и после смотреть, к чему она там у нас в пределах сойдется, а не брать первую вспомнившуюся как общеупотребимую. А что если, умудрившись ввести на бинарных переменных некоторую статистику, она окажется распределена не по Стьюденту, а, допустим, по Пуассону? И чем хуже нормировка |a|<=1, |b|<=1?
К сожалению, это пока не удочка, это вы мне рукой показали на большущий лес, где можно сломать прут для удочки, а можно и шею smile.gif
Спасибо за ваши сомнения и вопросы - они позволяют улучшить теорию и высветить ее недостатки. К сожалению, моя квалификация и отсутствие свободного времени не позволяют ответить на все замечания или даже исправить неверные формулы. Давайте работать как олимпийские факелоносцы: я передаю вам горящий факел, а вы несете его дальше, чтобы в конце эстафеты зажечь большой костер (разумеется, не сломав при этом себе шею smile.gif


Signature
Просто включи мозг => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
statistonline
сообщение 6.03.2016 - 19:01
Сообщение #25


Дух форума
*

Группа: Пользователи
Сообщений: 15
Регистрация: 20.07.2014
Пользователь №: 26530



Цитата(statistonline @ 6.03.2016 - 18:33) *
Для бинарных переменных не подойдет никакая, ни параметрическая, ни непараметрическая статистика...

Кстати, приношу извинения, тут я погорячился. Кохреновский критерий вполне подойдет для случая зависимых выборок в бинарных переменных. Да и точечно-бисериальную корреляцию можно при опред. условиях заменять на r-Пирсона.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 6.03.2016 - 19:11
Сообщение #26


Дух форума
*

Группа: Пользователи
Сообщений: 364
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Олег Кравец @ 6.03.2016 - 17:50) *
Я вообще-то имел в виду техническую тривиальность именно этого момента.
Спасибо за ваши вопросы - они двигают науку вперед! Вычисления частных производных - далеко не тривиальная задача. Я не сумел пробиться до конечных формул, но ради чистоты эксперимента приведу начальные выкладки.
Итак, пусть комбинированный признак имеет (несколько модифицированный) вид: z=a^2*x + b^2*y . Здесь коэффициенты a и b заменены своими квадратами (для положительности вкладов)
Статистика Стьюдента имеет вид: t(a,b)=(<Z1>-<Z2>)/sqrt(s1+s2)
, где <Z1>=1/n1(Z1+...+Zn1)=1/n1(a^2*SUM(xi)+b^2*SUM(yi)) - выборочное среднее для 1-ой группы
s1=1/sqrt(n1-1)*sqrt(SUM[(zi-<Z1>)^2]) - выборочное стандартное отклонение для первой группы
Возьмем производную числителя t(a,b) по переменной a:
d(<Z1>-<Z2>)/da=1/n1*(2a*SUM(xi))-1/n2*(2a*SUM(xj))
Возьмем производную стандартного отклонения для первой группы по переменной a:
d(s1)/da=1/sqrt(n1-1)*1/(2*sqrt(SUM[(zi-<Z1>)^2]))*sqrt(SUM[2*(zi-<Z1>)*2a(xi-SUM(xi)))
К сожалению, дальнейшие вычисления становятся все сложнее, а формулы все запутаннее. Главная идея (брать производные) остается прежней, но количество слагаемых увеличивается frown.gif

Сообщение отредактировал DoctorStat - 6.03.2016 - 19:14


Signature
Просто включи мозг => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
statistonline
сообщение 6.03.2016 - 20:14
Сообщение #27


Дух форума
*

Группа: Пользователи
Сообщений: 15
Регистрация: 20.07.2014
Пользователь №: 26530



Цитата(DoctorStat @ 6.03.2016 - 20:11) *
Спасибо за ваши вопросы - они двигают науку вперед! Вычисления частных производных - далеко не тривиальная задача. Я не сумел пробиться до конечных формул, но ради чистоты эксперимента приведу начальные выкладки.
Итак, пусть комбинированный признак имеет...

1. Вы немного запутались в матанализе. Производная от частного не равна частной от производных. Далее, вообще непонятно, почему вы от функции z(x, y) переходите к функции z(a, b) и далее ищете производную от статистики. Вам указали на нелепость поиска производных от линейной функции. Эта производная будет равна самим коэффициентам, т.е.
z'(x, y)|x = a, z'(x, y)|y = b. Приравнивать ссами коэффициенты к нулю, сами понимаете, смысла большого нет, иначе вы получите невнятное z(x, y) = 0.
2. Также не забывайте, что вам указали на то, что выборочные характеристики не являются непрерывными функциями, поэтому нахождение производных от них - это бабушка надвое сказала. Складывается впечатление, что вы вкратце ознакомились с методом максимального правдоподобия, где для поиска параметров распределения используются частные производные от функции правдоподобия, но это ведь совсем-совсем не то!

Сообщение отредактировал statistonline - 6.03.2016 - 20:27
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
statistonline
сообщение 6.03.2016 - 20:20
Сообщение #28


Дух форума
*

Группа: Пользователи
Сообщений: 15
Регистрация: 20.07.2014
Пользователь №: 26530



Цитата(Олег Кравец @ 6.03.2016 - 18:50) *
Я вообще-то имел в виду техническую тривиальность именно этого момента.

Говорят, что по поводу LATex можно обратиться именно к Вам. Почему он здесь не работает? В разделе "медстатистика" он сильно бы пригодился.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ogurtsov
сообщение 6.03.2016 - 20:39
Сообщение #29


Дух форума
*

Группа: Пользователи
Сообщений: 115
Регистрация: 15.12.2015
Пользователь №: 27760



Цитата(statistonline @ 6.03.2016 - 21:20) *
Говорят, что по поводу LATex можно обратиться именно к Вам. Почему он здесь не работает? В разделе "медстатистика" он сильно бы пригодился.

Тоже хотелось бы увидеть поддержку LaTeX-а, а пока в качестве полумеры можно использовать http://www.codecogs.com/latex/eqneditor.php и вставлять в сообщения получившиеся картинки.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Олег Кравец
сообщение 6.03.2016 - 21:18
Сообщение #30


Редколлегия журнала "Врач-аспирант"
*

Группа: Модераторы
Сообщений: 274
Регистрация: 1.02.2005
Из: Воронеж
Пользователь №: 93



Цитата(statistonline @ 6.03.2016 - 20:20) *
Говорят, что по поводу LATex можно обратиться именно к Вам. Почему он здесь не работает? В разделе "медстатистика" он сильно бы пригодился.


Я всего лишь один из модераторов. Есть главный управляющий - все вопросы к нему. Ник - logvin


Signature
О.Я.Кравец, д.т.н., проф.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

3 страниц V  < 1 2 3 >
Добавить ответ в эту темуОткрыть тему