Как создать формулу для расчета прогноза? |
Здравствуйте, гость ( Вход | Регистрация )
Как создать формулу для расчета прогноза? |
15.10.2008 - 21:08
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 35 Регистрация: 3.10.2008 Из: Москва Пользователь №: 5369 |
Всем здравствуйте. Прошу опять помощи.
Стоит такая задача. Как создать формулу, с помощью которой можно вычислить вероятность положительного исхода лечения у конкретного больного. Т.е. формулу, в которую можно подставлять данные (признаки, разные показатели и пр.) конкретного обратившегося за помощью больного, далее получать с помощью этой формулы какую то цифру - % (70%, или 60, или 95 ... и т.д.). Эта цифра и будет отражать вероятность положительного исхода лечения этого больного. Имеются результаты лечения около 100 больных, известны все их показатели, влияющие на результат лечения. Этих показателей - около 5-6. Все они должны входить в формулу. Я слышала, что этой формулой является дискриминантное уравнение. Но как его построить? В Экселе или в Статистике? |
|
12.12.2008 - 13:35
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 12.12.2008 Пользователь №: 5615 |
Уважаемый DrStat
Я коллега Anny_K. Мы провели анализ вашей информации. по исходному файлу Stenokardia.xls с использованием а) методов Рраспознования около 10 методов б) перестановочного теста на бинарных показателях, соответствующих встречаемости номеров аллелей и их парных сочетаниях Вывод Довольно высокая прогностическая способность группы бинарных показателей, соответствующих гену C От 80 до 96% в группе здоровых и от 66 до 92% в группе больных. Режим скользящий контроль (Leave-one-out) По группе показателей для генов А и B для всех методов результат нулевой. Либо относят в один класс, либо около 50% для обоих. Тот же самый результат для парных сочетаний бинарных показателей для аллелей Значимые различия в распределениях больных-здоровых на уровне <0.001 на 1000 случайных перестановок для пар С_a2_10 C_a2_4 C_a1_2 C_a2_10 То есть всё соответствует тому, что говорит Ваш предыдущий оппонент У вас достаточно необычный результат. Насколько я понимаю вы делаете кластерный анализ парных значений аллелей? Regards
Прикрепленные файлы
|
|
12.12.2008 - 14:09
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Мы провели анализ вашей информации. по исходному Вот это - хорошая работа!файлу Stenokardia.xls с использованием а) методов Рраспознования около 10 методов б) перестановочного теста на бинарных показателях, соответствующих встречаемости номеров аллелей и их парных сочетаниях То есть всё соответствует тому, что говорит Ваш предыдущий оппонент DrgLena, это комплимент в Вашу сторону!Насколько я понимаю вы делаете кластерный анализ парных значений аллелей? Грубо говоря, я объединяю генотипы (парные сочетания аллелей), чаще встречающиеся у больных, в «больной» кластер, а чаще встречающиеся у здоровых в «здоровый» кластер. Потом сравниваю эти 2 кластера в таблице сопряженности размером 2Х2 критерием хи-квадрат, чтобы проверить значимость отличий кластеров.
Сообщение отредактировал DoctorStat - 12.12.2008 - 14:34 Просто включи мозги => http://doctorstat.narod.ru
|
|
12.12.2008 - 15:51
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 12.12.2008 Пользователь №: 5615 |
Вот это - хорошая работа! DrgLena, это комплимент в Вашу сторону! Грубо говоря, я объединяю генотипы (парные сочетания аллелей), чаще встречающиеся у больных, в «больной» кластер, а чаще встречающиеся у здоровых в «здоровый» кластер. Потом сравниваю эти 2 кластера в таблице сопряженности размером 2Х2 критерием хи-квадрат, чтобы проверить значимость отличий кластеров. Что вы ставите в ячейки таблицы сопряжённости? |
|
12.12.2008 - 16:13
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Что вы ставите в ячейки таблицы сопряжённости? Структура финальной таблицы сопряженности размерности 2Х2.1-ый столбец таблицы - группа пациентов «Здоровые», 2-ой столбец - группа «Больные». 1-ая строка таблицы - генотипы кластера «Здоровый», 2-ая строка - кластера «Больной» Значение ячейки (1,1) - количество здоровых пациентов, у которых генотип принадлежит кластеру «Здоровый». Сообщение отредактировал DoctorStat - 12.12.2008 - 16:13 Просто включи мозги => http://doctorstat.narod.ru
|
|
13.12.2008 - 12:38
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 12.12.2008 Пользователь №: 5615 |
Структура финальной таблицы сопряженности размерности 2Х2. 1-ый столбец таблицы - группа пациентов «Здоровые», 2-ой столбец - группа «Больные». 1-ая строка таблицы - генотипы кластера «Здоровый», 2-ая строка - кластера «Больной» Значение ячейки (1,1) - количество здоровых пациентов, у которых генотип принадлежит кластеру «Здоровый». Позвольте. Но мне кажется, что получается следующее. Вы одну случайную величину вычисляете по другой и затем проверяете гипотезу о независимости этих двух величин. Конечно она будет отвергнута с высоким уровнем значимости. |
|
13.12.2008 - 14:22
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Вы одну случайную величину вычисляете по другой и затем Есть таблица сопряженности, см.приложенный рисунок. В столбце ВЫБ.1 - количество здоровых пациентов. В столбце ВЫБ.2 - количество пациентов со стенокардией. Строки таблицы соответствуют генотипам гена С. Для генотипов 1\1 и 1\2 здоровых пациентов нет, зато есть 7 больных по каждому генотипу. Эти два генотипа я объединяю в один и отношу его к «больному» кластеру. Генотип 2\4 и 2\10 встречается только у здоровых пациентов в количестве 10 и 11 человек соответственно. Эти два генотипа я объединяю в один и отношу его к «здоровому» кластеру. Продолжаю эту процедуру (кластеризацию) до тех пор, пока все генотипы не будут объединены в 2 больших кластера - «больной» и «здоровый». Эта процедура объединения строк таблицы сопряженности аналогична описанной в книге: Стентон Гланц «Медико-биологическая статистика», стр. 147, раздел «Преобразование таблиц сопряженности». Объединяются группы генотипов, не отличающиеся между собой по критерию хи-квадрат.
проверяете гипотезу о независимости этих двух величин. Конечно она будет отвергнута с высоким уровнем значимости. Сообщение отредактировал DoctorStat - 13.12.2008 - 14:23 Просто включи мозги => http://doctorstat.narod.ru
|
|
13.12.2008 - 16:09
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 12.12.2008 Пользователь №: 5615 |
Есть таблица сопряженности, см.приложенный рисунок. В столбце ВЫБ.1 - количество здоровых пациентов. В столбце ВЫБ.2 - количество пациентов со стенокардией. Строки таблицы соответствуют генотипам гена С. Для генотипов 1\1 и 1\2 здоровых пациентов нет, зато есть 7 больных по каждому генотипу. Эти два генотипа я объединяю в один и отношу его к «больному» кластеру. Генотип 2\4 и 2\10 встречается только у здоровых пациентов в количестве 10 и 11 человек соответственно. Эти два генотипа я объединяю в один и отношу его к «здоровому» кластеру. Продолжаю эту процедуру (кластеризацию) до тех пор, пока все генотипы не будут объединены в 2 больших кластера - «больной» и «здоровый». Эта процедура объединения строк таблицы сопряженности аналогична описанной в книге: Стентон Гланц «Медико-биологическая статистика», стр. 147, раздел «Преобразование таблиц сопряженности». Объединяются группы генотипов, не отличающиеся между собой по критерию хи-квадрат. Хорошо. Но представим такую ситуацию. У вас относительно небольшие группы больных и здоровых одинаковым образом и чисто случайно рассеяны по большому числу генотипов. Вы в один кластер отнесёте все генотипы, в которые попали больные, а в другой кластер все генотипы, в который попали здоровые. В вашей схеме это, насколько я понял, допускается. И вы спокойно получаете, что исход зависит от гена с огромной значимостью, которой по сценарию заведомо и в помине быть не может. |
|
13.12.2008 - 16:43
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Хорошо. Но представим такую ситуацию. У вас относительно небольшие группы больных и здоровых одинаковым образом и чисто случайно рассеяны по большому числу генотипов. Вы в один кластер отнесёте все генотипы, в которые попали больные, а в другой кластер все генотипы, в который попали здоровые. В вашей схеме это, насколько я понял, допускается. И вы спокойно получаете, что исход зависит от гена с огромной значимостью, которой по сценарию заведомо и в помине быть не может. 1. СЛУЧАЙНЫЕ ГЕНОТИПЫ.Если генотипы случайным образом рассеяны между 2-мя группами, то их частоты встречаемости в 2-х выборках будут приблизительно равны, поэтому значимость p-value отличия «больного» кластера от «здорового» будет невелика. Мы не найдем ни «плохих», ни «хороших» генотипов. 2. МАЛЫЙ ОБЪЕМ ВЫБОРОК. Алгоритм отсеивает и не учитывает редкие, малочисленные генотипы. Если группы окажутся слишком малы, а ген, наоборот, высокополиморфен (как, например, ген В), то все генотипы станут редкими, и кластеризация, а стало быть, и выявление «особых» генов станет невозможной. Существует минимальный объем выборок, связанный с полиморфизмом и распределением частот генотипов, ниже которого алгоритм не работает. Сообщение отредактировал DoctorStat - 13.12.2008 - 16:50 Просто включи мозги => http://doctorstat.narod.ru
|
|