Цитата(pencha @ 5.05.2009 - 20:46)

Имеются реальные данные (20 признаков) 50 пациентов, у всех одно и то же заболевание.
Возможно ли с помощью статистики вывести математическую модель,
которая позволит определять в дальнейшем по этим 20-ти признакам наличие или отсутствие данного заболевания?
Данные представлены в виде матрицы отсутствие признака "0", присунствие "1"
?пациента\? признака| 1|2|3|4|5|...|20|
1 | 0|1|0|0|1|...
2 |1|1|0|1|0|...
3 .
4 .
. .
.
.
50
Цитата(YVR @ 20.03.2012 - 19:36)

Можно только в том случае, если заведомо известно о том, что любая другая комбинация признаков, не входящих в множество, сообщает об отсутствии заболевания. В этом случае построение точной математической модели - тривиальная задача.
Привет, pencha!
В предыдущем посте DoctorStat обозначил верный путь: нужна контрольная группа здоровых пациентов, у которых измерены (установлены) значения всех тех же признаков, что и у больных. И действительно, наиболее оптимальный метод получения выражения для прогноза этого заболевания, это логистичекая регрессия. Примерно 10 лет назад у меня была такая же ситуация, и я собирала данные по одному из заболеваний. Хорошо, что вовремя обратилась к профессиональному биостатистику, который подсказал как все это нужно сформировать для проведения дальнейшего анализа. С тех пор я просто обожаю метод логистической регрессии. В предыдущих постах я уже рекомендовала хорошую статью об этом методе (http://www.biometrica.tomsk.ru/logit_1.htm). Там много примеров по реальным данным, среди них и мои данные упоминаются. Но не менее важное не только получить это уравнение, но также затем получить и наборы тех значений признаков. которые наиболее информативны, и дают высокие, близкие к 1, или низкие, близкие к 0, значения вероятностей заболевания. И хотя это не единственный метод для получения таких оценок, этот метод наиболее ценный и полезный для практики. Поскольку далее эти уравнения просто записываются в таблицу EXCEL, далее в неё подставляешь признаки конкретного пациента, и сразу получаешь вероятность того, что он болен, либо здоров.
Не могу согласиться с мнением, что это "тривиальная задача". Это смотря что понимать под "задачей", и под "тривиальностью". Напомню, слово "тривиальность" происходит от латинского trivialis "простой, обыденный"; и от trivium "пересечение трех дорог; тривий ? три начальные дисциплины в средневековом университете. Так что и для тривиальности нужны, как минимум три университетские дисциплины :-)) Опять же, смотря для кого эта задача тривиальна: для медика, или для статистика? Чем больше узнаёшь о сути сложных методов, тем менее тривиальными их считаешь. И проблема не в том, чтобы уметь самому считать в стат. пакетах. Важнее другое - понимание сути метода, и его результатов. А в логистической регрессии, как верно написано в статье о ней, не бывает единственного уравнения. Их всегда много. И выбор оптимального набора признаков - задача не тривиальная. По крайней мере, для медика. И вот здесь очень полезны другие методы. Например, мне помог в выборе биплот, с графическим отображением распределения комбинаций разных признаков у больных и здоровых.
Успеха, pencha!