![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() ![]() |
![]() |
![]()
Сообщение
#61
|
|
Группа: Пользователи Сообщений: 381 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 ![]() |
Вы, почему то, упорно игнорируете тот факт, что у одного больного имеется только одно сочетание двух аллелей для одного гена, а не все 10 сочетаний вместе. Я ищу кластеры или группы генотипов, поэтому приходится объединять генотипы разных пациентов.по гену С я дала вам вчера ранжированный ряд по увеличению "болезненности" гена, от "самых здоровых" 4\10 (сумма J=-10,78), до самых больных 1\2 (сумма J =+15,36). Как Вы определяете "болезненность" гена?![]() Просто включи мозги => http://doctorstat.narod.ru
|
|
![]() |
![]() |
![]()
Сообщение
#62
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 12.12.2008 Пользователь №: 5615 ![]() |
Уважаемый DrStat
Я коллега Anny_K. Мы провели анализ вашей информации. по исходному файлу Stenokardia.xls с использованием а) методов Рраспознования около 10 методов б) перестановочного теста на бинарных показателях, соответствующих встречаемости номеров аллелей и их парных сочетаниях Вывод Довольно высокая прогностическая способность группы бинарных показателей, соответствующих гену C От 80 до 96% в группе здоровых и от 66 до 92% в группе больных. Режим скользящий контроль (Leave-one-out) По группе показателей для генов А и B для всех методов результат нулевой. Либо относят в один класс, либо около 50% для обоих. Тот же самый результат для парных сочетаний бинарных показателей для аллелей Значимые различия в распределениях больных-здоровых на уровне <0.001 на 1000 случайных перестановок для пар С_a2_10 C_a2_4 C_a1_2 C_a2_10 То есть всё соответствует тому, что говорит Ваш предыдущий оппонент У вас достаточно необычный результат. Насколько я понимаю вы делаете кластерный анализ парных значений аллелей? Regards
Прикрепленные файлы
|
|
![]() |
![]() |
![]()
Сообщение
#63
|
|
Группа: Пользователи Сообщений: 381 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 ![]() |
Мы провели анализ вашей информации. по исходному Вот это - хорошая работа!файлу Stenokardia.xls с использованием а) методов Рраспознования около 10 методов б) перестановочного теста на бинарных показателях, соответствующих встречаемости номеров аллелей и их парных сочетаниях То есть всё соответствует тому, что говорит Ваш предыдущий оппонент DrgLena, это комплимент в Вашу сторону!Насколько я понимаю вы делаете кластерный анализ парных значений аллелей? Грубо говоря, я объединяю генотипы (парные сочетания аллелей), чаще встречающиеся у больных, в «больной» кластер, а чаще встречающиеся у здоровых в «здоровый» кластер. Потом сравниваю эти 2 кластера в таблице сопряженности размером 2Х2 критерием хи-квадрат, чтобы проверить значимость отличий кластеров.
Сообщение отредактировал DoctorStat - 12.12.2008 - 14:34 ![]() Просто включи мозги => http://doctorstat.narod.ru
|
|
![]() |
![]() |
![]()
Сообщение
#64
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 12.12.2008 Пользователь №: 5615 ![]() |
Вот это - хорошая работа! DrgLena, это комплимент в Вашу сторону! Грубо говоря, я объединяю генотипы (парные сочетания аллелей), чаще встречающиеся у больных, в «больной» кластер, а чаще встречающиеся у здоровых в «здоровый» кластер. Потом сравниваю эти 2 кластера в таблице сопряженности размером 2Х2 критерием хи-квадрат, чтобы проверить значимость отличий кластеров. Что вы ставите в ячейки таблицы сопряжённости? |
|
![]() |
![]() |
![]()
Сообщение
#65
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
DoctorStat, всю технологию описал на своем сайте http://doctorstat.narod.ru/doc/gen_d.html#p2 в таблицах сопряженности то, что я назвала в нашей дискуссии "кучками" т.е. объединено в одну группу все что немножко хуже по любым сочетаниям одного гена, а что чуть-чуть лучше - в другую и все - таблица 2х2 готова к употреблению.
|
|
![]() |
![]() |
![]()
Сообщение
#66
|
|
Группа: Пользователи Сообщений: 381 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 ![]() |
Что вы ставите в ячейки таблицы сопряжённости? Структура финальной таблицы сопряженности размерности 2Х2.1-ый столбец таблицы - группа пациентов «Здоровые», 2-ой столбец - группа «Больные». 1-ая строка таблицы - генотипы кластера «Здоровый», 2-ая строка - кластера «Больной» Значение ячейки (1,1) - количество здоровых пациентов, у которых генотип принадлежит кластеру «Здоровый». Сообщение отредактировал DoctorStat - 12.12.2008 - 16:13 ![]() Просто включи мозги => http://doctorstat.narod.ru
|
|
![]() |
![]() |
![]()
Сообщение
#67
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Autumn, не могу сказать, чтобы я разобралась, почему из ваших графиков можно сделать такие выводы. А по сему, прошу вас уточнить какие сочетания C1 и С2 наиболее неблагоприятные, или какие из них являются по результатам вашего анализа факторами риска развития болезни. На первых двух рис. у вас одна и та же аллель в двух значениях 2\10 и 2\4, а сочетаться может только одна из первой и одна из второй аллели.
|
|
![]() |
![]() |
![]()
Сообщение
#68
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 12.12.2008 Пользователь №: 5615 ![]() |
Извините, я как-то забыл про комментарии.
Квадранты пронумерованы по часовой стрелке. И Квадрант-1 -это левый верхний. Совпадению двух значений аллели у испытуемого соответствует попадание в квадрант 2. Как видите, на рисунке 1 он пуст и именного из-за того, что два значения одной аллели не могут сочетаться. Отсутствие у испытуемого значений 4 и 10 (то есть значение аллели№2 должно быть не 4 и не 10) соответствует наиболее тяжёлому случаю (из 28 таких испытуемых 22 болеют стенокардией и только 6 здоровы). Если у испытуемого значение аллели№2 равно 10, то здоровы все десять испытуемых с таким значением аллели№2. Если у испытуемого значение аллели№2 равно 4, то здоровы 38 испытуемых с таким значением аллели№2 и только 1 болен. Случайно перемешивая индикатор наличия заболевания относительно фиксированных значений аллелей. мы убеждаемся, что простой игрой случая, такой уровень разделения быть не может |
|
![]() |
![]() |
![]()
Сообщение
#69
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Большое спасибо, я поняла. Теперь я вижу, что результаты совпали.
Свой результат, который я представила выше, я получила ранжируя суммарные информационные меры по двум аллелям. Но дерево (Classification Trees) выдало решение используя только вторую аллель 4,5,6,10 - хорошие и 1,2,3,4,7 -плохие и 95,65% больных имеют их и только 4 здоровых (7,4%) |
|
![]() |
![]() |
![]()
Сообщение
#70
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 12.12.2008 Пользователь №: 5615 ![]() |
Структура финальной таблицы сопряженности размерности 2Х2. 1-ый столбец таблицы - группа пациентов «Здоровые», 2-ой столбец - группа «Больные». 1-ая строка таблицы - генотипы кластера «Здоровый», 2-ая строка - кластера «Больной» Значение ячейки (1,1) - количество здоровых пациентов, у которых генотип принадлежит кластеру «Здоровый». Позвольте. Но мне кажется, что получается следующее. Вы одну случайную величину вычисляете по другой и затем проверяете гипотезу о независимости этих двух величин. Конечно она будет отвергнута с высоким уровнем значимости. |
|
![]() |
![]() |
![]()
Сообщение
#71
|
|
Группа: Пользователи Сообщений: 381 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 ![]() |
Вы одну случайную величину вычисляете по другой и затем Есть таблица сопряженности, см.приложенный рисунок. В столбце ВЫБ.1 - количество здоровых пациентов. В столбце ВЫБ.2 - количество пациентов со стенокардией. Строки таблицы соответствуют генотипам гена С. Для генотипов 1\1 и 1\2 здоровых пациентов нет, зато есть 7 больных по каждому генотипу. Эти два генотипа я объединяю в один и отношу его к «больному» кластеру. Генотип 2\4 и 2\10 встречается только у здоровых пациентов в количестве 10 и 11 человек соответственно. Эти два генотипа я объединяю в один и отношу его к «здоровому» кластеру. Продолжаю эту процедуру (кластеризацию) до тех пор, пока все генотипы не будут объединены в 2 больших кластера - «больной» и «здоровый». Эта процедура объединения строк таблицы сопряженности аналогична описанной в книге: Стентон Гланц «Медико-биологическая статистика», стр. 147, раздел «Преобразование таблиц сопряженности». Объединяются группы генотипов, не отличающиеся между собой по критерию хи-квадрат.
проверяете гипотезу о независимости этих двух величин. Конечно она будет отвергнута с высоким уровнем значимости. Сообщение отредактировал DoctorStat - 13.12.2008 - 14:23 ![]() Просто включи мозги => http://doctorstat.narod.ru
|
|
![]() |
![]() |
![]()
Сообщение
#72
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 12.12.2008 Пользователь №: 5615 ![]() |
Есть таблица сопряженности, см.приложенный рисунок. В столбце ВЫБ.1 - количество здоровых пациентов. В столбце ВЫБ.2 - количество пациентов со стенокардией. Строки таблицы соответствуют генотипам гена С. Для генотипов 1\1 и 1\2 здоровых пациентов нет, зато есть 7 больных по каждому генотипу. Эти два генотипа я объединяю в один и отношу его к «больному» кластеру. Генотип 2\4 и 2\10 встречается только у здоровых пациентов в количестве 10 и 11 человек соответственно. Эти два генотипа я объединяю в один и отношу его к «здоровому» кластеру. Продолжаю эту процедуру (кластеризацию) до тех пор, пока все генотипы не будут объединены в 2 больших кластера - «больной» и «здоровый». Эта процедура объединения строк таблицы сопряженности аналогична описанной в книге: Стентон Гланц «Медико-биологическая статистика», стр. 147, раздел «Преобразование таблиц сопряженности». Объединяются группы генотипов, не отличающиеся между собой по критерию хи-квадрат. Хорошо. Но представим такую ситуацию. У вас относительно небольшие группы больных и здоровых одинаковым образом и чисто случайно рассеяны по большому числу генотипов. Вы в один кластер отнесёте все генотипы, в которые попали больные, а в другой кластер все генотипы, в который попали здоровые. В вашей схеме это, насколько я понял, допускается. И вы спокойно получаете, что исход зависит от гена с огромной значимостью, которой по сценарию заведомо и в помине быть не может. |
|
![]() |
![]() |
![]()
Сообщение
#73
|
|
Группа: Пользователи Сообщений: 381 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 ![]() |
Хорошо. Но представим такую ситуацию. У вас относительно небольшие группы больных и здоровых одинаковым образом и чисто случайно рассеяны по большому числу генотипов. Вы в один кластер отнесёте все генотипы, в которые попали больные, а в другой кластер все генотипы, в который попали здоровые. В вашей схеме это, насколько я понял, допускается. И вы спокойно получаете, что исход зависит от гена с огромной значимостью, которой по сценарию заведомо и в помине быть не может. 1. СЛУЧАЙНЫЕ ГЕНОТИПЫ.Если генотипы случайным образом рассеяны между 2-мя группами, то их частоты встречаемости в 2-х выборках будут приблизительно равны, поэтому значимость p-value отличия «больного» кластера от «здорового» будет невелика. Мы не найдем ни «плохих», ни «хороших» генотипов. 2. МАЛЫЙ ОБЪЕМ ВЫБОРОК. Алгоритм отсеивает и не учитывает редкие, малочисленные генотипы. Если группы окажутся слишком малы, а ген, наоборот, высокополиморфен (как, например, ген В), то все генотипы станут редкими, и кластеризация, а стало быть, и выявление «особых» генов станет невозможной. Существует минимальный объем выборок, связанный с полиморфизмом и распределением частот генотипов, ниже которого алгоритм не работает. Сообщение отредактировал DoctorStat - 13.12.2008 - 16:50 ![]() Просто включи мозги => http://doctorstat.narod.ru
|
|
![]() |
![]() |
![]()
Сообщение
#74
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Очевидно, моих аргументов не хватило для того, чтобы убедить DoctorStat в том, что он проделал, называется манипуляция данными с целью получить p<0,05. Почему манипуляция, потому что гены А и Б в результате анализа объявлены ответственными за развитие болезни, а на самом деле этот не так. Это как раз яркий пример того, как ошибки в статистике приводят к неверным выводам.
Гланц объединил в одну группу физкультурниц и спортсменок, назвал их бегуньи, и относительно контрольной группы анализировал обращаемость и доказал различия между бегуньями и контролем. Вы же объединили в одну группу несколько худшие сочетания двух аллелей одного и того же гена и назвали их больными (при этом каждый из них в отдельности больным не является), как будто они могут сразу все быть у больных, а другую группу сочетаний аллелей по одному и тому же гену назвали здоровыми , как будто они все сразу могут быть у здоровых. С точки зрения генетики - это чистый бред, как и игнорирование вами редких или полиморфных генов. Именно они могут быть ответственными за болезнь. С точки зрения статистики, вы почему то упорно желаете, чтобы между больным кластером и здоровым кластером (в кавычках как больные, так и кластеры) было p<0,05. А нужно показать, что между определенным генотипом (пусть пока по одному гену) и болезнью есть сопряженность. Если вы хотите использовать кластерный анализ, то с его помощью в пространстве многих генов и их алеллей находят группы схожих по многим признакам т.е. по генетическим признакам, выделяют и описывают их особенности, а потом ищут связь определенного генотипа с заболеванием. То, что результат полученный разными методами анализа сходится, говорит о том, что в ваших данных он был заложен, но извлекали мы его по разному, я очень старым методом, меня научили здесь на этом сайте, год назад я пришла сюда с вопросом, Плав и Игорь мне очень помогли, познакомив с методами теории информации, второй ваш аппонент применил другой алгоритм извлечения данных data-mining. Вы продолжаете настаивать на своих выводах по первому набору данных ? |
|
![]() |
![]() |
![]()
Сообщение
#75
|
|
Группа: Пользователи Сообщений: 18 Регистрация: 23.10.2008 Пользователь №: 5430 ![]() |
С файлом Stenocardia.xls разобрались. Но мне так и не ответили, почему файлы с тем же название под номерами 2 и 3 такие различные. Где же все-таки настоящие реальные данные по стенокардии?
|
|
![]() |
![]() |
![]() ![]() |