Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Построение таблиц сопряженности с пакете Статистика 6.0

Автор: Pyrosmani 7.02.2010 - 14:50

Уважаемые коллеги! Подскажите пожалуйста, как построить таблицы кросстабуляции в пакете Статистика 6.0. В Excel приходится вводить формулы, что несколько затрудняет работу. В большинстве литературных источников построения в Статистике 6.0 ограничиваются примером четырехпольной таблицы. Подскажите можно ли строить таблицы, в которых учитывается более 2 значений для каждого признака ( прим.1) в модуле Таблицы сопряженности и как это сделать. В книге Ребровой О.Ю. не рассматриваются примеры построения таблиц с числом строк и столбцов более 2 (без итоговых) при наличии известных значений наблюдаемых частот, и предлагается воспользоваться модулем Логлинейный анализ.
Как рассчитать хи-квадрат для случаев, когда частоты меньше 5 или равны 0(прим.2). И подскажите, как перенести наблюдаемые и ожидаемые частоты из Эксель(указываются на одном листе) в Статистику (файл2).

Я еще прикрепил пару задач (в файле1), взятых из методичек для ВУЗов и прошу, если есть возможность и время, описать алгоритм их решения и построения таблиц кросстабуляции в Статистика 6.0, чтобы понять как решать подобные задачи применительно к результатам моего исследования.

 Результаты_лечения.doc ( 163 килобайт ) : 1201
 как_перенести_данные_из_Эксель_в_Статистику6.0_.doc ( 32 килобайт ) : 1082
 

Автор: DoctorStat 7.02.2010 - 17:35

Цитата(Pyrosmani @ 7.02.2010 - 14:50) *
Как рассчитать хи-квадрат для случаев, когда частоты меньше 5 или равны 0(прим.2)
Используйте точный критерий Фишера. В программах Statistica, Excel его нет.

Автор: nokh 8.02.2010 - 00:43

>Pyrosmani
Уточните пожалуйста что Вам нужно: (1) грамотно проанализировать слабонасыщенную таблицу частот или (2) проанализировать большую таблицу частот в пакете Statistica? К сожалению эти вопросы нельзя совместить в одном.

Автор: Игорь 8.02.2010 - 09:07

Цитата(DoctorStat @ 7.02.2010 - 17:35) *
Используйте точный критерий Фишера. В программах Statistica, Excel его нет.

Вот тут есть http://www.biometrica.tomsk.ru/programm_stat.htm.

Комментарии к программе на указанном сайте - чушь. Но сама программа работает исправно.

Автор: Pyrosmani 8.02.2010 - 21:07

Большое спасибо всем кто откликнулся!

2 nokh: Я не специалист в области статистики и к сожалению тот материал, который дается в институте в рамках изучения курса не дает уверенности, в правильности применения того или иного метода. Если невозможно совместить эти вопросы в одном, то хотя бы как грамотно решить эти вопросы по отдельности. Чем проще будет объяснено, тем лучше.

2 DoctorStat: насколько я понял из литературы точный критерий Фишера применяется для оценки четырехпольных таблиц, поэтому скорее всего придется объединить частоты в таблицу 2х2, по крайней мере так предлагает делать О.Ю.Реброва.
Что касается отсутствия точного критерия Фишера в программе Статистика 6.0- это не так. В книге Ребровой О.Ю. " Статистический анализ медицинских данных" стр.178, в программе Статистика 6.0: Модуль "Непараметрическая статистика"- "Таблицы 2х2 (хи, Фи, МакНемара, точный Фишера).
Что касается Excel 2007, там тоже есть Фишер fx- в Мастере функций- Статистические - ФИШЕР, ФИШЕРОБР (правда применительно к этой функции непосредственно в Excel 2007 не знаю как пользоваться, посмотрел книжку "Прикладная медицинская статистика" В.М.Зайцев и соавт. в ней тоже не нашел).
В то же время есть замечательная программа AtteStat от Игоря Гайдышева, которая работает как надстройка к Эксель, в которой реализована эта функция и самое главное-дан пример заполнения таблицы и расчета с картинкой, что не может не радовать неспециалиста в области матем. статистики. Единственая сложность, которая возникла - найти эту программу. Большинство сайтов на которых упоминается программа ссылаются на www.izone.ru, а ссылки с этого сайта приводят на http://attestatsoft.com/download/AtteStat.exe, с которого скачать программу невозможно, использование менеджера закачки тоже не помогло. Нашел только потому, что знал имя и фамилию разработчика.

2 Игорь: есть еще программа для расчета точного критерия Фишера от Владимира Беляева, программа бесплатная, весит 302 кб. Она, как мне кажется, лучше чем программа от Кхана.

В архиве программа от В.Беляева для расчета критерия Фишера (добавлена информация для восстановления). Скачано с http://soft.mail.ru/program_page.php?grp=64052&ver=419353.

 Fisher_TK.rar ( 327,96 килобайт ) : 861
 

Автор: Green 8.02.2010 - 22:09

>Я еще прикрепил пару задач (в файле1), взятых из методичек для ВУЗов

Посмотрела файл1. Там есть порядок в строках и столбцах.

в строках результаты, которые образуют порядковую шкалу от отличных до неуд. ( типа оценки от 5 до 2)
В столбцах - длительность 1 мес, 2, и т.д.



На рис. посмотрите, это Вам надо? Если строить согласно табл.1 примера. Если строить согласно табл.2 примера, то строки и столбцы меняют название.

> и прошу, если есть возможность и время, описать алгоритм их решения
какого решения? цель какая?

Влияние месяца лечения на качество лечения?



Автор: nokh 8.02.2010 - 23:56

Как уже заметила Green, входы вашей таблицы сопряжённости упорядочены. А это значит, что использовать критерии типа хи-квадрат не вполне корректно. Почитайте пока мой пост #15 и смежные посты здесь http://forum.disser.ru/index.php?showtopic=1904 . Statistica не позволяет эффективно обсчитывать ни слабонасыщенные таблицы частот, ни учитывать упорядоченность входов и т.о. может нормально обсчитать только данные типа примера 5. Если интересно - опишу как. Но для решения Вашей задачи нужен StatXact. Пока скачайте, а потом я напишу что делать, она проработает 30 дней: http://www.cytel.com/Software/StatXact.aspx . Для закачки 30-дневной демо-версии (Demo Now) потребуется заполнить форму.
PS
Программа AtteStat лежит сейчас здесь: http://attestatsoft.narod.ru/download.htm и видимо из скромности её автор отослал Вас к арабскому продукту на сайт биометрики в Томск smile.gif

Автор: Green 9.02.2010 - 16:44

StatXact 8.0 -trial на 30 дней.
У них там есть StatXact 6.0 - free. Этого хватит.

Автор: Pyrosmani 11.02.2010 - 23:30

Спасибо Green и nokh!


Извините за долгое молчание, работал, не было возможности написать.
Спасибо за таблицу. Приблизительно понятно, что надо закодировать цифрами результаты лечения( отл., хор. и т.д) и сроки от начала лечения (1-2 мес, и т.д.). И расположить частоты наблюдаемые и ожидаемые в одном столбце, результаты лечения (5,4,3,2) в другом, сроки от начала лечения (1,2,3.4) в другом.


В связи с этим у меня возникли следующие вопросы:
1) вводятся ли в таблицу суммарные частоты, которые располагаются по краям таблицы- тут моя недоработка я не обозначил названия столбцов, в том числе итоговых в файле " как перенести...". Правильно ли я понял, в тех случаях когда не получено никаких результатов ( там где прочерк) надо ставить 0.

2) что значит "входы упорядочены"? объяните если можно.

Давайте, чтобы не было путаницы, будем разбирать только табл1 и 2, я прикрепил файлы и видоизменил их с учетом Вашего справедливого вопроса- речь идет о лечении стриктур (если нужно более подробно напишу в личку в чем суть работы). В 1-ой таблице приведены результаты бужирования стриктур в зависимости от времени, прошедшего с момента ожога, во 2 табл.-зависимость результатов лечения от степени рубцового сужения.
Соответственно надо проанализировать каким образом результаты лечения зависят от времени, прошедшего с момента ожога и от степени рубцового сужения.

Спасибо за подсказку насчет программы StatXact. Получилось скачать триальную 6 версию с сайта http://www.statcon.de/.
В 8 версии устранены ошибки, которые были в предыдущих версиях. Теперь я готов следовать вашим рекомендациям.

Пожалуйста, подскажите как правильно обработать данные приведенные в таблицах 1 и 2 и оценить полученные результаты.

В архиве файл Xls, в котором я попытался расположить данные из табл 1 (результаты лечения в зависимости от сроков от момента ожога)- подскажите пожалуйста правильно я это сделал. И как анализировать таблицы более 2х2 с частотами меньше 5 или равными 0.


 results.doc ( 43 килобайт ) : 612
 табл_1.zip ( 7 килобайт ) : 534
 

Автор: nokh 12.02.2010 - 22:45

Все категории делятся на номинальные (нельзя упорядочить) и упорядоченные (соответственно можно упорядочить smile.gif). Все ваши категории можно упорядочить - выстроить в каком-то направлении. А, скажем, различные нозологии или диагностические процедуры - нельзя, это - номинальные категории. Посмотрите еще тему, на которую я давал ссылку, там плав объяснял почему важно учитывать упорядоченность.
Общая схема анализа в присутствии упорядоченности будет такова:
1). Определиться насколько слабонасыщена таблица. Считается, что для критериев хи-квадрат (Chi-square) и G-критерия (отношение максимального правдоподобия - Likelihood ratio) минимальные ожидаемые не должны быть меньше 4, иначе эти критерии "плохо работают". Насколько плохо - зависит также от числа степеней свободы, поэтому лучше использовать более тонкие специализированные методы. Поставьте программу AtteStat ( http://attestatsoft.narod.ru/download.htm ), в Excel добавится её меню. Набейте таблицу абсолютных частот без краевых частот (сумм по строкам и рядам), т.е. для первой таблицы - 4 строки и 6 колонок. В модуле Кросстабуляция отметьте хи-квадрат, отношение правдоподобия (G-критерий) и обе диагностики - они подскажут можно ли использовать эти критерии (см. помощь). Если нельзя - нужно смотреть точными методами в StatXact (Non-Parametrics - Unordered RxC table - Chi-square и Likelihood ratio).
2). Посмотреть таблицу критерием типа хи-квадрат, лучше G-критерием. Этот критерий - полный аналог хи-квадрата и имеет теоретическое распределение хи-квадрат, однако более современный и хорошо обоснован теоретически в отличие от столетнего пирсоновского хи-квадрата. Поэтому везде где возможно его следует применять вместо хи-квадрата. Единственное исключение - если научный руководитель пожилой и встаёт на дыбы, т.к. его учили хи-квадрату, а от нового у него мозг взорвётся. Если тест окажется незначимым - не страшно, возможно просто не хватило мощности, т.к. число степеней свободы (degree of freedom = df) относительно велико (у Вас: df=(4-1)х(6-1)=15). Если значим - нужно разбираться за счёт чего, но здесь потребуется другой софт.
3). Проанализировать таблицу на тренд. В этом случае единицей анализа будет уже не ячейка таблицы (df=15), а один единственный тренд (df=1). Отсюда - большой выигрыш по мощности. Обязательно прочитайте сначала про это у Закса ( http://www.onlinedisk.ru/file/205482/ ), стр. 440. Также про критерий Вулфа и информационный критерий Кульбака (стр. 318-336 и стр. 444) - это и есть G-критерий. Аналог описанной проверки на тренд есть в StatXact. Нажмите в ней на вторую иконку (таблица) и подкорректируйте Setting: рядов - 4, колонок - 6, также нужно поставить обе галочки в Scores, т.к. у вас упорядочены и ряды и колонки. Получите таблицу, которую нужно заполнить. Веса упорядоченности можно выбрать просто 1,2,3 и.т.д., можно иначе. Далее Non-Parametrics - Double ordered RxC table. Проверьте обоими тестами, но Linear-by-linear assosiation - примерно то, что описано у Закса. Отрицательный знак статистики укажет на отрицательную связь, положительный - на положительную. Т.е. если вы закодировали оценки от 1 (неуд) до 4 (отл), а время начала процедуры - от 1 до 6, то отриц. статистически значимая связь укажет на то, что "чем больше время, тем ниже оценка".
4). По (2) и (3) можно сделать предварительные выводы и далее разбираться в тонкостях. В выходные покажу как это делать с помощью Statistica. Также почитайте пока у Ребровой про отношение шансов - понадобиться когда будем сворачивать исходную таблицу.

Автор: Pyrosmani 14.02.2010 - 20:26

Цитата(nokh @ 12.02.2010 - 22:45) *
1). Определиться насколько слабонасыщена таблица. Считается, что для критериев хи-квадрат (Chi-square) и G-критерия (отношение максимального правдоподобия - Likelihood ratio) минимальные ожидаемые не должны быть меньше 4, иначе эти критерии "плохо работают". Насколько плохо - зависит также от числа степеней свободы, поэтому лучше использовать более тонкие специализированные методы.
.

Что касается минимальных ожидаемых сходную информацию дают и Реброва и Закс (большое спасибо за ссылку! сейчас изучаю). Моя ошибка состояла в том, что я полагал- значение наблюдаемых частот не должно быть меньше 5. Такие условия применения метода приводит В.М.Зайцев и соавт. в книге "Прикладная математическая статистика" изд-во, "Фолиант", СПтб-2003г, стр.256. Условие применимости по http://www.machinelearning.ru/wiki/index.php?title=%D0%A2%D0%B0%D0%B1%D0%BB%D0%B8%D1%86%D0%B0_%D1%81%D0%BE%D0%BF%D1%80%D1%8F%D0%B6%D0%B5%D0%BD%D0%BD%D0%BE%D1%81%D1%82%D0%B8#.D0.9A.D1.80.D0.B8.D1.82.D0.B5.D1.80.D0.B8.D0.B9_.22.D1.85.D0.B8-.D0.BA.D0.B2.D0.B0.D0.B4.D1.80.D0.B0.D1.82.22_.D0.B4.D0.BB.D1.8F_.D0.B0.D0.BD.D0.B0.D0.BB.D0.B8.D0.B7.D0.B0_.D1.82.D0.B0.D0.B1.D0.BB.D0.B8.D1.86_.D1.81.D0.BE.D0.BF.D1.80.D1.8F.D0.B6.D0.B5.D0.BD.D0.BD.D0.BE.D1.81.D1.82.D0.B8 Eij<5 не более чем в 20% ячеек n>40 . При расчете в Excel ожидаемых частот у меня тоже по 1 табл. в ряде ячеек значения меньше 4, а то и меньше 1.

Цитата
Посмотреть таблицу критерием типа хи-квадрат, лучше G-критерием. Этот критерий - полный аналог хи-квадрата и имеет теоретическое распределение хи-квадрат, однако более современный и хорошо обоснован теоретически в отличие от столетнего пирсоновского хи-квадрата. Поэтому везде где возможно его следует применять вместо хи-квадрата. Единственное исключение - если научный руководитель пожилой и встаёт на дыбы, т.к. его учили хи-квадрату, а от нового у него мозг взорвётся. Если тест окажется незначимым - не страшно, возможно просто не хватило мощности, т.к. число степеней свободы (degree of freedom = df) относительно велико (у Вас: df=(4-1)х(6-1)=15). Если значим - нужно разбираться за счёт чего, но здесь потребуется другой софт.


Посмотрел обоими критериями, данные в файлах, сейчас попытаюсь посмотреть что предлагается в Заксе по ручному расчету критерия G. Кроме того, я решил если не получется проанализировать хи-квадрат, как того требуют условия, объединить сроки лечения в две группы: 1до 2 мес, и 3 и более мес (результаты тоже прикрепил в файлах - My Experim), тут у меня возникает закономерный вопрос, если по результатам расчетов р меньше 0,001 ( у меня в ряде случаев- 0,0001 и того меньше, как трактовать данные где р стремится к нулю (0,00001; 0,000001; 0,0000001) и что делать принимать нулевую гипотезу об отсутствии связи между результатом лечения и временем начала бужирования или отклонить ее. Кстати, по тому алгоритму который вы дали можно наверное сразу считать и строить таблицы в StatExact, в конечном итоге результаты по расчетам в нем и в Аттестате получаются одни и те же. Единственное, в чем пока не разобрался как в Атттестате задается величина р=0,05 или она по умолчанию в нем принята для расчетов и надо ли что-то менять в опции параметры указанных методов в Аттестате(файл - tab2 calc). Этот вопрос актуален и для тех, кто работает в Эксель. Я, например, считал в Эксель ожидаемые частоты. По крайней мере Реброва указывает, что расчет их должен обязательно предшествовать дальнейшим этапам статистич. обработки при вычислении хи-квадрат. Но к сожалению здесь, есть одна закавыка- необходимость введения формул ( но и это не так страшно), куда более сложно проводить трактовку результатов. Попытаюсь разобраться с результатами по G.

Цитата
Проанализировать таблицу на тренд. В этом случае единицей анализа будет уже не ячейка таблицы (df=15), а один единственный тренд (df=1). Отсюда - большой выигрыш по мощности. Обязательно прочитайте сначала про это у Закса ( http://www.onlinedisk.ru/file/205482/ ), стр. 440. Также про критерий Вулфа и информационный критерий Кульбака (стр. 318-336 и стр. 444) - это и есть G-критерий. Аналог описанной проверки на тренд есть в StatXact. Нажмите в ней на вторую иконку (таблица) и подкорректируйте Setting: рядов - 4, колонок - 6, также нужно поставить обе галочки в Scores, т.к. у вас упорядочены и ряды и колонки. Получите таблицу, которую нужно заполнить. Веса упорядоченности можно выбрать просто 1,2,3 и.т.д., можно иначе. Далее Non-Parametrics - Double ordered RxC table. Проверьте обоими тестами, но Linear-by-linear assosiation - примерно то, что описано у Закса. Отрицательный знак статистики укажет на отрицательную связь, положительный - на положительную. Т.е. если вы закодировали оценки от 1 (неуд) до 4 (отл), а время начала процедуры - от 1 до 6, то отриц. статистически значимая связь укажет на то, что "чем больше время, тем ниже оценка".


Оба теста выполнил, но затрудняюсь в трактовке результатов ( приложены в файлах по обеим таблицам), особенно что касается отрицательного и положительного знака статистик.




 tab1.rar ( 552,14 килобайт ) : 696
 tab2.rar ( 338,22 килобайт ) : 606
 tab___2_My_Experim.rar ( 211,24 килобайт ) : 514
 _1_table_data_My_Experim.rar ( 259,41 килобайт ) : 526
 tab1_Excel.rar ( 429,06 килобайт ) : 599
 

Автор: Green 14.02.2010 - 21:42

Pyrosmani,

1. StatXact - создает файл с расширением .cyd, Где фиксирует и данные и результаты. Имхо, было бы лучше его выкладывать.
2. Не у всех стоит Офис 2007 (расширения docx и xlsx). Если кто-то заинтересуется с скачает, то было бы наверное проще сохранять в формате doc и xls.

3. И еще вопрос такой: Скажите, если 1 пациент после 1 месяца имел удовлет. результат, а через 6 мес - отличный, он дважды включен в таблицу частот?

Автор: nokh 14.02.2010 - 23:11

1. По расчёту ожидаемых. Действительно, оба критерия нуждаются в предварительном расчёте ожидаемых - для дальнейших расчётов самих критериев. Но любое действие должно иметь цель. Какую цель Вы преследуете рассчитывая ожидаемые, причём даже более сложным путём, чем это можно сделать с калькулятором и листочком бумаги? Зачем вам эти цифры в Excel? Как используете затем эти данные? Если никак - то и не нужно их считать, доверьтесь программе. К слову, если таблица частот не двумерная как у Вас, а трёх- или более мерная (например, одновременно: время начала бужирования, пол пациента и оценка успешности исхода лечения), то расчёт ожидаемых частот по итерационному алгоритму Деминга-Стефана займёт у вас несколько часов (баловался как-то), а с проверкой - все несколько дней.
2. По ограничениям методов. Никаких ошибок Вы ещё не сделали. Меньше 4, меньше 5, 20% и т.д. - это всё вата. Это - простые решения для тех, кому нужно неглубоко и быстро. Я знаю ещё 2-3 рекомендации и что со всем этим делать? Диагностики, присутствующие в AtteStat позволяют обоснованно принять решение о (не)допустимости аппроксимации решения статистикой хи-квадрат. Если допустима - считаем, не обращая внимания на меньше 4, на ноли и т.д. в любом пакете или вручную. Если недопустима - считаем точными перестановочными (permutation) методами в пакете StatXact (или в SAS, считающем это по лицензии Cytel StatXact. Другие пакеты мне неизвестны, в R это кажется можно посчитать только для таблиц 2х2). Значение критерия получится одинаковым в любом случае, а вот значение Р будет разным: с использованием аппроксимации - менее точным. Точный расчёт P - наиболее правильное и точное решение для любой таблицы сопряжённости и здесь нет проблемы минимального ожидаемого, т.к. вероятности считаются напрямую, перебором всех вариантов. Если StatXact не сможет "переварить" таблицу сопряжённости точным методом (бывает нужно минут 20) - используйте ресэмплинг-метод Монте-Карло - хуже чем точное решение, но всяко лучше чем асимптотика. Потом укажете в материалах и методах (статьи, диссертации) что использовали в расчётах пакет StatXact и этого достаточно, кто в теме - поймут. С диссертационным советом сложнее - все могут быть не в теме и начать придираться к нулям - вы должны быть готовы аргументированно ответить. Объединение ячеек - выход, для тех, у кого нет StatXact, но во-первых такой подход предполагает огрубление исходных данных, что не есть хорошо, а во-вторых, StatXact у вас ведь уже есть:).
3. По оценке P. Поскольку в литературе есть неразбериха (смешиваются и переплетаются P-value в понимании Фишера и уровень значимости "альфа" в понимании Пирсона и Неймана) то придётся ответить, но почитайте и Закса и Реброву (стр. 64) по принципам проверки гипотез. P - непрямая мера оценки вероятности нулевой гипотезы и представляет собой вероятность наблюдать имеющиеся или ещё более экстремальные данные при условии справедливости нулевой гипотезы. Т.к. в статистическом оценивании "по техническим причинам" всегда проверяется нулевая гипотеза (нет различий, нет связей, нет зависимостей), то часто наша гипотеза доказывается методом от противного. Скажем мы хотим доказать, что существует связь между временем начала бужирования и оценкой результата. Мы выдвигаем нулевую гипотезу - такой связи нет - и проверяем её с помощью к/л статистического критерия с получением оценки Р. Если Р будет мало, скажем меньше 5% (P<0,05) мы говорим: "вероятность нулевой гипотезы ("связи нет") мала, поэтому мы её отклоним и примем альтернативную: "связь есть"". Типичное доказательство от противного. Т.е. в современном научном подходе мы не можем подтвердить свою гипотезу, мы можем только отклонить нулевую на выбранном уровне значимости и с натяжкой считать это доказательством. Пока мы её не отклонили - она остаётся в силе; в этом - одна из причин консерватизма научного метода. Если в к/л книге (есть такие) вы прочтёте, что P<0.05 на самом деле означает, что с вероятностью 95% верна ваша гипотеза - сдавайте её обратно в библиотеку или стирайте с винта, каламбур таков: ничему научному она не научит. 5% - не волшебное и не научное число, просто люди договорились считать малым то, что меньше или равно 5%. Такое граничное значение называется уровнем значимости. Иногда 5%-ный уровень значимости слишком строг, иногда слишком либерален. Если P<0,0000001, то такая нулевая гипотеза ещё менее правдоподобна, соответственно более правдоподобна альтернативная. Следовательно P=0.05 нигде не задаётся, ни в одном пакете или тесте; число 0,05 может понадобиться вам только для планирования объёмов выборок: понятно, что если вы хотите доказать наличие связи на 1%-ном уровне значимости понадобится больше наблюдений, чем для 5%-ного у.з.
4. Проверка на тренд. А как Вы закодировали веса для данных? Разве так как собирались (1-неуд, 4-отл.)? Вы их закодировали наоборот, т.е. чем больше балл, тем хуже оценка. Чтобы не путаться - перекодируйте их в соответствующем месте в StatXact в привычную для интерпретации шкалу и проинтерпретируйте.

Попробуйте опираясь на проведённые тесты самостоятельно сформулировать предварительные выводы - так как они будут звучать в публикации (диссертации) или можно более подробно. Потом подправим. Я имею в виду только первую таблицу, вторую потом проанализируете самостоятельно.

Автор: Pyrosmani 15.02.2010 - 00:37

Цитата(Green @ 14.02.2010 - 21:42) *
Pyrosmani,
1. StatXact - создает файл с расширением .cyd, Где фиксирует и данные и результаты. Имхо, было бы лучше его выкладывать.


Не спорю, но есть несколько причин, в силу которых я не выложил файлы с этим расширением:
1) не все используют StatXact ( в силу разных причин), а я хотел чтобы как можно больше людей имело возможность ознакомиться с результатами без необходимости установки программы, которая является триальной (даже 6 версия, которую я скачал в сети поставляется с временым ключом на 30 дней); исходные данные можно скачать в моем предыдущем топике (табл. 1 и 2); 2) пожалуй главная- это было мое первое знакомство с программой, поэтому я не сделал должного упора на сохранении файлов .cyd, справедливости ради стоит заметить, что в архиве к табл.2 эти файлы приложены. Обязуюсь, в следующий раз, если и далее расчеты будут связаны с использованием данной программы, выкладывать и файлы этой программы, для специалистов.

Цитата
2. Не у всех стоит Офис 2007 (расширения docx и xlsx). Если кто-то заинтересуется с скачает, то было бы наверное проще сохранять в формате doc и xls.
Каюсь, грешен. Собственно из этой ситуации есть 2 выхода: 1) установить пакет совместимости между Офис 2003 и Офис 2007 -это на мой взгляд самое простое и наиболее продуктивное решение с перспективой на будущее, бесплатно скачать можно с сайта http://www.microsoft.com/downloads/details.aspx?displaylang=ru&FamilyID=941b3470-3ae9-4aee-8f43-c6bb74cd1466, после этого можно забыть о проблемах с открытием файлов 2007 Офиса; 2) скачать архив файлов Эксель, который я сконвертировал с учетом ваших пожеланий.

Цитата
3. И еще вопрос такой: Скажите, если 1 пациент после 1 месяца имел удовлет. результат, а через 6 мес - отличный, он дважды включен в таблицу частот?
Ни один пациент не был дважды включен в таблицу-в этом не было никакой нужды и это неправильно. Результат бужирования непосредственый оценивался на момент окончания лечения (я не привожу здесь критерии оценки результатов бужирования ). Чтобы вам было понятно бужирование проводится курсами, каждый курс может включать от 4-6 сеансов- в ходе которых проводится дилатация стриктуры с целью восстановления просвета органа. Длительность проведения курсового бужирования зависит от протяженности стриктуры, времени прошедшего от момента ожога до начала бужирования (со временем происходит рубцевание стриктуры и шансы разбужировать ее уменьшаются), степени ожога и ряда др. факторов ( в том числе от реактивности организма и личностных характеристик пациента- встречаются люди, которые после кратковременного положительного эффекта считают, что врачебная помощь им не нужна и прерывают курс лечения- со всеми вытекающими отсюда последствиями). Отдельно мы еще проанализировали отдаленные результаты бужирования- через 6 и более мес после его прекращения, для того, чтобы определиться в каком случае проведение бужирования бесперспективно в связи с высокой частотой рецидивов рубцового процесса, высоким риском развития осложнений и т.д. и в каких случаях следует отдавать предпочтение хирургической операции. Ряду пациентов провести бужирование было невозможно- в этом случае выполнялась пластика пораженного органа. Возможно у вас возникнет вопрос, почему в 1 таблице -152 пациента, а во второй -56. В 1 ой- пациенты с изолированными стриктурами, во второй- с сочетанными- это разные куски моей работы. Я выбрал их потому что, как мне показалось, гораздо интереснее рассматривать сложные случаи, которые в большинстве изданий по медицинской статистике не рассматриваются, чем те случаи, которые всегда рассматриваются (четырехпольные таблицы и т.д.) потому что их изложение не требует дополнительных выкладок, обоснований, не занимает большего объема в рамках одного издания и более просто для восприятия неспециалистами.


 XLS.rar ( 13,53 килобайт ) : 574
 

Автор: Pyrosmani 15.02.2010 - 01:54

Цитата(nokh @ 14.02.2010 - 23:11) *
1. По расчёту ожидаемых. Действительно, оба критерия нуждаются в предварительном расчёте ожидаемых - для дальнейших расчётов самих критериев. Но любое действие должно иметь цель. Какую цель Вы преследуете рассчитывая ожидаемые, причём даже более сложным путём, чем это можно сделать с калькулятором и листочком бумаги? Зачем вам эти цифры в Excel? Как используете затем эти данные? Если никак - то и не нужно их считать, доверьтесь программе. К слову, если таблица частот не двумерная как у Вас, а трёх- или более мерная (например, одновременно: время начала бужирования, пол пациента и оценка успешности исхода лечения), то расчёт ожидаемых частот по итерационному алгоритму Деминга-Стефана займёт у вас несколько часов (баловался как-то), а с проверкой - все несколько дней.
. Я тоже, если честно побаловался- имею ввиду расчеты в Эксель (собственно я писал, что именно в Эксель начинал считать результаты), так получилось что первыми книгами по статистике были именно Реброва и уже упоминавшийся мною Зайцев, которые я приобрел еще в институте. В данном случае интерес к Excel был продиктован еще и разными ( по крайней мере так мне показалось) алгоритмами расчета в этом пакете которые изложены у Зайцева и в книге С.Н. Лапача "Статистические методы в медико-биологических исследованиях с использованием Excel" Киев, "Морион"- 2001г. Правда некоторые формулы, приведенные в последней книге и результаты указанные на рисунках разнятся с теми данными, которые приводят сами авторы и которые получаются если считать по Зайцеву. Поэтому и любопытство тоже. Кстати в отличие от Зайцева в Лапаче при расчете табличного значения хи-квадрат в формулу вводится значение р=0,05. Поэтому у меня и возник этот вопрос насчет Аттестата и др. программ.

Цитата
2. По ограничениям методов. Никаких ошибок Вы ещё не сделали. Меньше 4, меньше 5, 20% и т.д. - это всё вата. Это - простые решения для тех, кому нужно неглубоко и быстро. Я знаю ещё 2-3 рекомендации и что со всем этим делать? Диагностики, присутствующие в AtteStat позволяют обоснованно принять решение о (не)допустимости аппроксимации решения статистикой хи-квадрат. Если допустима - считаем, не обращая внимания на меньше 4, на ноли и т.д. в любом пакете или вручную. Если недопустима - считаем точными перестановочными (permutation) методами в пакете StatXact (или в SAS, считающем это по лицензии Cytel StatXact. Другие пакеты мне неизвестны, в R это кажется можно посчитать только для таблиц 2х2). Значение критерия получится одинаковым в любом случае, а вот значение Р будет разным: с использованием аппроксимации - менее точным. Точный расчёт P - наиболее правильное и точное решение для любой таблицы сопряжённости и здесь нет проблемы минимального ожидаемого, т.к. не используется аппроксимация. Укажете в материалах и методах (статьи, диссертации) что использовали в расчётах StatXact и этого достаточно, кто в теме - поймут. С диссертационным советом сложнее - все могут быть не в теме и начать придираться к нулям - вы должны быть готовы аргументированно ответить. Объединение ячеек - выход, для тех, у кого нет StatXact, но во-первых такой подход предполагает огрубление исходных данных, что не есть хорошо, а во-вторых, StatXact у вас ведь уже есть.


Вы правы насчет диссертационного совета и людей, которые не в теме к сожалению много. С этим я столкнулся, когда сдавал аннотацию и проходил этический комитет. К сожалению количество специалистов в такого рода комитетах много меньше, чем должностных лиц и представителей духовенства, которые в силу специфики своей повседневной деятельности не могут оценить перспективности проводимого исследования для дальнейшего развития медицины. Что касается вымарывания нулей, которое я не раз встречал, анализируя диссертационные работы как кандидатов, так и докторов наук. Тут, наверное, как правильно заметил Игорь, проблема в том, что не каждый готов разбираться со статистическими методами и зачастую предпочитают воспользоваться услугами специалиста и получить уже готовые результаты, отсюда и желание идти по пути наименьшего сопротивления, не оспаривая точку зрения дисс. советов, потому что нет возможности аргументированно доказать правильность полученных результатов. Кроме того, тут еще и какие-то требования ВАКа, наверняка, к представлению результатов исследования.
Огрубление данных,- здесь я тоже с Вами согласен, нивелирует многие факторы, которые влияют на результаты лечения.

Цитата
3. По оценке P. Поскольку в литературе есть неразбериха (смешиваются и переплетаются P-value в понимании Фишера и уровень значимости "альфа" в понимании Пирсона и Неймана) то придётся ответить, но почитайте и Закса и Реброву (стр. 64) по принципам проверки гипотез. P - непрямая мера оценки вероятности нулевой гипотезы и представляет собой вероятность наблюдать имеющиеся или ещё более экстремальные данные при условии справедливости нулевой гипотезы. Т.к. в статистическом оценивании всегда проверяется нулевая гипотеза (нет различий, нет связей, нет зависимостей), то часто наша гипотеза доказывается методом от противного. Скажем мы хотим доказать, что существует связь между временем начала бужирования и оценкой результата. Мы выдвигаем нулевую гипотезу - такой связи нет - и проверяем её с помощью к/л статистического критерия с получением оценки Р. Если Р будет мало, скажем меньше 5% (P<0,05) мы говорим: "вероятность нулевой гипотезы ("связи нет") мала, поэтому мы её отклоним и примем альтернативную: "связь есть"". Типичное доказательство от противного. Т.е. в современном научном подходе мы не можем подтвердить свою гипотезу, мы можем только отклонить нулевую. Пока мы её не отклонили - она остаётся в силе; в этом - одна из причин консерватизма научного метода. 5% - не волшебное число, просто люди договорились считать малым то, что меньше или равно 5%. Такое граничное значение называется уровнем значимости. Иногда 5%-ный уровень значимости слишком строг, иногда слишком либерален. Если P<0,0000001, то такая нулевая гипотеза ещё менее правдоподобна, соответственно более правдоподобна альтернативная. Следовательно P=0.05 нигде не задаётся, ни в одном пакете или тесте; число 0,05 может понадобиться вам только для планирования объёмов выборок: понятно, что если вы хотите доказать наличие связи на 1%-ном уровне значимости понадобится больше наблюдений, чем для 5%-ного у.з.


Спасибо за ценные замечания. Теперь все более понятно. Реброву и Закса почитаю еще раз. Проблема с оценкой значений р была связана с тем, что для закрепления той информации, которая приводится в литературе я решал примеры и сравнивал свои результаты с тем,что дают авторы. Возможно я не так понял из условий задач, что они принимают за нулевую гипотезу- отсюда неправильная трактовка результатов (пересмотрю еще раз).

Цитата
4. Проверка на тренд. А как Вы закодировали веса для данных? Разве так как собирались (1-неуд, 4-отл.)? Вы их закодировали наоборот, т.е. чем больше балл, тем хуже оценка. Чтобы не путаться - перекодируйте их в привычную для интерпретации шкалу и проинтерпретируйте. Попробуйте опираясь на проведённые тесты самостоятельно сформулировать предварительные выводы - так как они будут звучать в публикации (диссертации) или можно более подробно. Потом подправим. Я имею в виду только первую таблицу, вторую потом проанализируете самостоятельно.


Хорошо, учту Ваши замечания перекодирую данные (действительно закодировал так как предлагает программа, а не так как Вы мне до этого посоветовали) и сформулирую выводы и еще, наверное, надо как-то представить полученные данные, чтобы не было вопросов на дисс.совете.

Спасибо!




 Анализ_табл._сопряженности_в_Excel.rar ( 962,73 килобайт ) : 744
 

Автор: Green 15.02.2010 - 11:52

Т.е. у вас была когорта пациентов с разными временами наблюдения?

И Вы изучаете влияние длительности лечения на качество (результат) ? или как сформулировать?
Вот получили, Вы к примеру, что тренд есть.
Чем дольше лечите, тем лучше результат?
Я пока не понимаю, о чем скажет тренд frown.gif

Я имею ввиду первую таблицу, по второй вопросов нет.

Автор: Green 15.02.2010 - 16:47

И еще, навскидку



Рисунок понятен?

Автор: Green 16.02.2010 - 11:32

Напишу сейчас, потом времени не будет.

Из этого рисунка неумолимо следует следующее:
1. Вы напрасно делали 4 уровня состояния, достаточно двух ( хорошо/плохо).
2. Никаких линейных трендов тут не будет.

==
Основные Ваши ошибки:
1. Шкала времени - количественная, Вы ее разбили на участки причем непропорциональные.( Т.е. уже исказили линейность)
2. Изучением событий и их появлением во времени занимается эпид. статистика, специальные методы, где считается, что события происходят по закону Пуассона во времени. Никакой линейности у Пуассона нет и не было никогда.
Таблицы частот обычно строятся для когорты, в которой все наблюдения закончены (Ваш случай). Изучается частоты, связанные с воздействием разных факторов, но не времени!. ( Ваша вторая таблица)
Когда всупает такой показатель, как время - используются таблицы дожития, Каплан-Майер и проч.
3. Попытка использовать стат.методы, не валидные для этих данных, к успеху не приведут.

Хорошие новости: Никто не мешает получить результаты типа
1. Объединив отл. и хор. в хороших, уд. и неуд. в плохих
Вероятность получить хор. результат при лечении до года... составляет 0.6645, ДИ(0.5835, 0.7389).
2. Лечение эффективно первые четыре месяца, отношение шансов 2.1892 ДИ (1.4605, 3.2911)
Все эти показатели не привязаны ко времени, частоты имеют биноминальное распределение.
3. Если хотите изучать наблюдения во времени, вам придется знакомится с survival analysis.

Рекомендация - не бойтесь статистики, это не использование сложных мат. методов, а в первую очередь, собственной головы и понимания своих данных. 60-70% -осознание данных и выбор адекватных методов, 5-10 % подготовка данных, 5-10% освоение стат. пакетов, 10% - оформление результата.

Впрочем, Вам решать smile.gif
Ваша вторая таблица может быть проанализирована, как предлагал nokh.

nokh, мои извинения.

Автор: nokh 17.02.2010 - 07:25

Цитата(Green @ 16.02.2010 - 13:32) *
Напишу сейчас, потом времени не будет.

Из этого рисунка неумолимо следует следующее:
1. Вы напрасно делали 4 уровня состояния, достаточно двух ( хорошо/плохо).
2. Никаких линейных трендов тут не будет.

==
Основные Ваши ошибки:
1. Шкала времени - количественная, Вы ее разбили на участки причем непропорциональные.( Т.е. уже исказили линейность)
2. Изучением событий и их появлением во времени занимается эпид. статистика, специальные методы, где считается, что события происходят по закону Пуассона во времени. Никакой линейности у Пуассона нет и не было никогда.
Таблицы частот обычно строятся для когорты, в которой все наблюдения закончены (Ваш случай). Изучается частоты, связанные с воздействием разных факторов, но не времени!. ( Ваша вторая таблица)
Когда всупает такой показатель, как время - используются таблицы дожития, Каплан-Майер и проч.
3. Попытка использовать стат.методы, не валидные для этих данных, к успеху не приведут.

...

nokh, мои извинения.


Мне извинения не нужны, Вы не в состоянии обидеть меня своей некомпетентностью. Извиняйтесь перед Pyrosmani - ведь это его Вы безответственно вводите в заблуждение, учите жизни и попрекаете какими-то ошибками (кстати, не первый раз на этом форуме), не имея на то морального права.





Автор: Pyrosmani 18.02.2010 - 10:26

Nokh благодарю за помощь, которую Вы мне оказываете! Распечатал и еще несколько раз прочел ваши выкладки по оценке р и методике проведения анализа, следуя вашим рекомендациям еще раз прочел по этому вопросу Закса и Реброву- все встало на свои места.
Теперь что касается выводов по 1 таблице- перекодировал как Вы и рекомендовали результаты (4 отл, 3 -хор. и т.д.) и заново выполнил расчет требуемых критериев с помощью AtteStat и StatExact. результаты в файле.

Выводы будут звучать так (если что-то неправильно, подкорректируйте пожалуйста):

Зависимость результатов лечения от времени, прошедшего с момента ожога до начала бужирования, проанализирована с использованием показателей непараметрической статистики: G2 (отношение максимального правдоподобия), диагностик Хабермана и Симонова-Цая, Lynear-By-Linear Association test (как перевести поточнее и есть ли какие-либо эквиваленты этому названию в отечественной литературе?). При этом выявлена статистически значимая отрицательная связь между временем, прошедшим от момента ожога до начала бужирования и результатами лечения (p<<0,001).

Указываю так значение р, потому что Реброва пишет на стр. 67 "Значение р принято указывать в тексте статей с точностью до 3 десятичных знаков, и только в случае если р меньше 0,001 в формате р<0,001 , т.е. в формате указания лишь интервала значений". Аналогичную форму представления результатов при р много меньше 0,001 находим у Закса на стр.442 (спасибо за Закса еще раз).
Еще, если Вас не затруднит, укажите пожалуйста пару современных источников, в которых Джи-тест указан в качестве предпочтительного для анализа таблиц сопряженности (боюсь, если сошлюсь только на Закса, будут проблемы; язык источников значения не имеет).

У меня возникло несколько вопросов: 1) что означают символы GE и LE в окошке Tail программы StatExact при расчете показателей; 2) правильно ли я понял, если возможны проблемы с аппроксимацией как у меня в 1 таблице- все равно можно считать, какая из диагностик Хабермана или Симонова более точная, или они характеризуют с разных сторон одно и тоже явление и мой вопрос не корректен; 3) как можно объяснить что тест Джонкхира-Терпстра в обоих случаях показывает положительные значения статистик, а Linear-By-Lynear при перекодировании по указанному выше методу (4-отл. и т.д) меняет знак с положительного на отрицательный.

Спасибо!

Автор: Pyrosmani 18.02.2010 - 12:26

Цитата(Green @ 16.02.2010 - 11:32) *
Из этого рисунка неумолимо следует следующее:
1. Вы напрасно делали 4 уровня состояния, достаточно двух ( хорошо/плохо).
2. Никаких линейных трендов тут не будет.


Возможно, что достаточно и 2-х уровней (с позиций статистики), но есть нюанс- каждой из позиций (отличн., хорошо, удовлетворительно, неудовлетворительно) соответствуют определенные эндоскопически выверенные показатели просвета пищевода (чего уж там скрывать) и соотвественно им - клинические проявления. Поэтому если, к примеру, неудовл. результаты- соответствуют практически полной дисфагии, когда даже вода проходит через рубцово-измененный пищевод с трудом, больные говорят что буквально по глотку пьют воду (как птицы); то при удовлетворительных- пациенты могут питаться измельченной или полужидкой пищей. Таким образом, невозможно объединить столь разные результаты под одной категорией "плохо".
Все-таки как и указывал Nokh выявлена отрицательная статистически значимая связь между анализируемыми признаками (по табл.1), т.е. тенденция есть.


Цитата
Основные Ваши ошибки:
1. Шкала времени - количественная, Вы ее разбили на участки причем непропорциональные.( Т.е. уже исказили линейность)
2. Изучением событий и их появлением во времени занимается эпид. статистика, специальные методы, где считается, что события происходят по закону Пуассона во времени. Никакой линейности у Пуассона нет и не было никогда.
Таблицы частот обычно строятся для когорты, в которой все наблюдения закончены (Ваш случай). Изучается частоты, связанные с воздействием разных факторов, но не времени!. ( Ваша вторая таблица)
Когда всупает такой показатель, как время - используются таблицы дожития, Каплан-Майер и проч.
3. Попытка использовать стат.методы, не валидные для этих данных, к успеху не приведут.


Я честно говоря не понимаю как представить время в виде качественной шкалы. Что касается непропорциональности временных интервалов- это конечно моя недоработка и скорее всего я ее исправлю ( будут группы 1-2 мес, 3-4 мес, 5-6 мес, 7 и более мес).

Основная закавыка в том, что я не занимаюсь изучением проявления событий во времени. Давайте расставим точки над i. Моя ошибка- я сознательно изменил заголовок таблицы 1, чтобы завуалировать полученные мною в ходе исследования данные, причем сделал это не самым удачным образом. В то же время в топиках я указывал, что в 1 табл. анализируется зависимость результатов бужирования от времени, прошедшего с момента ожога до начала бужирования, таким образом получается, что на момент начала бужирования, самого события (т.е. результатов этого самого бужирования) не было. И время здесь
эквивалентно качественным изменениям- а именно выраженности рубцового процесса
в пищеводе на момент начала бужирования. Длительность последующего бужирования не является основным лимитирующим фактором для наступления исхода. Она зависит от таких факторов как степень сужения пищевода, протяженность стриктуры, наличие сопутствующей патологии (рефлюкс-эзофагит) и т.д. Я уже писал, что с течением времени в пораженном органе процессы рубцевания прогрессируют, поэтому чем раньше начинается бужирование, тем больше шансов разбужировать пищевод и избежать операции.

1; 1,5; 2 мес и т.д. - это не длительность бужирования, это время с момента ожога до начала бужирования

Цитата
Хорошие новости: Никто не мешает получить результаты типа
1. Объединив отл. и хор. в хороших, уд. и неуд. в плохих
Вероятность получить хор. результат при лечении до года... составляет 0.6645, ДИ(0.5835, 0.7389).
2. Лечение эффективно первые четыре месяца, отношение шансов 2.1892 ДИ (1.4605, 3.2911)
Все эти показатели не привязаны ко времени, частоты имеют биноминальное распределение.
3. Если хотите изучать наблюдения во времени, вам придется знакомится с survival analysis.

Рекомендация - не бойтесь статистики, это не использование сложных мат. методов, а в первую очередь, собственной головы и понимания своих данных. 60-70% -осознание данных и выбор адекватных методов, 5-10 % подготовка данных, 5-10% освоение стат. пакетов, 10% - оформление результата.

Впрочем, Вам решать smile.gif


Что касается объединения результатов я уже написал. Понимание данных исследования пока не склоняет чашу весов в сторону анализа выживаемости. С освоением статистических пакетов пока слабовато - ни один из тех, которые у меня есть, не освоен на все 100%- не хватает времени, чтобы разбирать клинические задачи применительно конкретным пакетам. Кроме того, насколько я понимаю, на сегодняшний день нет ни одного пакета, в котором было бы реализовано все многообразие статистик, большинство пакетов ориентировано на работу с исходными данными и лишь единицы позволяют работать с уже построенными таблицами частот. Лишь единичные пакеты имеют русификацию и подробное, а главное доступное и наглядное описание имеющихся в них функций применительно к конкретным задачам. Ну и главное отсутствие должной подготовки- все-таки мне кажется статистику надо читать именно аспирантам и разбирать каждый метод применительно к задачам, которые могут быть поставлены исследователем. У нас же медстатистика изучается как раз с позиций эпидемиологии и в основном такие аспекты как рождаемость, смертность, заболеваемость, средний койко-день и т.д.

Автор: nokh 18.02.2010 - 22:53

Цитата
Еще, если Вас не затруднит, укажите пожалуйста пару современных источников, в которых Джи-тест указан в качестве предпочтительного для анализа таблиц сопряженности (боюсь, если сошлюсь только на Закса, будут проблемы; язык источников значения не имеет).

Sokal R.R., Rohlf F.J. Biometry: the principles and practice of statistics in biological research. N-Y: Freeman & Co, 1995. 850 p. В принципе столь авторитетного источника достаточно одного (см. рядом топик Игоря \"Лучшие книги по биометрии\"). Но посмотрю еще у Agresti, тоже должно быть, но не знаю в столь ли жесткой форме рекомендация.
Цитата
3) как можно объяснить что тест Джонкхира-Терпстра в обоих случаях показывает положительные значения статистик, а Linear-By-Lynear при перекодировании по указанному выше методу (4-отл. и т.д) меняет знак с положительного на отрицательный.

С критерием Джонкхира-Терпстры не работал, не знаю пока как он считает. Но на этом форуме он обсуждался. Где-то выше писал о 20 мин расчётов в StatXact точным методом. В этот раз Linear-By-Lynear ass. она считала 1 час 37 минут (!). Это на AMD Athlon 64 4000+ ("честных" - 2,61 ГГц).
Цитата
Что касается непропорциональности временных интервалов- это конечно моя недоработка и скорее всего я ее исправлю ( будут группы 1-2 мес, 3-4 мес, 5-6 мес, 7 и более мес).

Это не недоработка, а фантазии отдельных участников форума. Анализ таблиц сопряжённости не налагает никаких ограничений на структуру упорядоченности категорий. Хоть 1, 2-1000 и более 1000. Главное чтобы за этим стоял какой-то смысл: например, особенности смены клинической картины заболевания или избавление от ненасыщенности таблицы путём объединения соседних категорий. Ваш способ разбивки первой таблицы представляется как раз удачным. Не нужно ничего менять.

Пока всё. Я хочу описать и выложить здесь алгоритм анализа таблиц сопряжённости r x c на примере ваших данных - тема нужная, учитывая что топик посмотрела уже 1000 человек. Думаю в течение праздников. Постараюсь ответить там на другие Ваши вопросы. Там будет и кусочек по пакету Statistica, но только кусочек - использование модуля логлинейного анализа и анализ остатков. Графики я строю в другом пакете, поэтому поразбирайтесь со Statistica сами, думаю лучше всего подойдёт трёхмерная столбчатая диаграмма типа рисунка ниже. Кстати по ней хорошо видно наличие двух кластеров объектов, которые и натянули отрицательную связь между оценкой и временем.

 

Автор: Pyrosmani 19.02.2010 - 00:06

Цитата(nokh @ 18.02.2010 - 22:53) *
Sokal R.R., Rohlf F.J. Biometry: the principles and practice of statistics in biological research. N-Y: Freeman & Co, 1995. 850 p. В принципе столь авторитетного источника достаточно одного (см. рядом топик Игоря \"Лучшие книги по биометрии\"). Но посмотрю еще у Agresti, тоже должно быть, но не знаю в столь ли жесткой форме рекомендация.


Спасибо за ссылку!

Цитата
С критерием Джонкхира-Терпстры не работал, не знаю пока как он считает. Но на этом форуме он обсуждался. Где-то выше писал о 20 мин расчётов в StatXact точным методом. В этот раз Linear-By-Lynear ass. она считала 1 час 37 минут (!). Это на AMD Athlon 64 4000+ ("честных" - 2,61 ГГц).


А что вы считали? Или может я не то посчитал (по крайней мере по времени у меня это не заняло 1 ч37 мин, поэтому начал сомневаться то ли я считал -хотя вроде следовал тому алгоритму, который описан Вами). Посмотрите пожалуйста скрины, которые я выложил в предыдущем топике. У меня это заняло минут 5 на стареньком Ровере 1999 года выпуска с 256 мегабайтами памяти, Пентиум 3. Вы ничего не написали по поводу выводов- правильно ли они сформулированы. Еще хотел уточнить правильно ли я понял выражение 3,02е-006 значит 3,02х10 в минус 6 степени.


Цитата
Пока всё. Я хочу описать и выложить здесь алгоритм анализа таблиц сопряжённости r x c на примере ваших данных - тема нужная, учитывая что топик посмотрела уже 1000 человек. Думаю в течение праздников. Постараюсь ответить там на другие Ваши вопросы. Там будет и кусочек по пакету Statistica, но только кусочек - использование модуля логлинейного анализа и анализ остатков. Графики я строю в другом пакете, поэтому поразбирайтесь со Statistica сами, думаю лучше всего подойдёт трёхмерная столбчатая диаграмма типа рисунка ниже. Кстати по ней хорошо видно наличие двух кластеров объектов, которые и натянули отрицательную связь между оценкой и временем.


Идея хорошая. У меня была идея создать силами специалистов в рамках этого форума электронное пособие по статистике для медиков хотя бы объединив и отредактировав топики по разным вопросам статистического анализа - было бы гораздо удобнее, чем просматривать все посты по теме- но это на усмотрение администрации и модераторов форума.

Что касается диаграммы - правильнее время до начала бужирования, в мес, почему я уже писал чуть выше Green.

Автор: nokh 19.02.2010 - 00:54

1 ч 37 мин - ставил точку в "Exact" + веса для времени закодировал иначе. Но это не принципиально, всё равно P<0,001. Просто забавно.

3,02е-006 значит 3,02х10 в минус 6 степени

Электронное пособие по материалам форума - титанический труд, требующий массы времени, оплаты и высокой квалификации составителя для отделения зёрен от плевел. Последнее проблематично даже теоретически, учитывая сам формат форума. И корифеи могут ошибаться и недопонимать, и у новичков могут быть здравые интересные идеи, и признанные авторитеты в силу возраста могут непредсказуемо утрачивать адекватность, а заинтересованные личности могут использовать те или иные темы исключительно для пиара. И.т.п. Всё это так или иначе встречается на этом форуме. Как в этом разобраться? Проще с нуля пособие написать.

Остальное - потом.

Автор: Pyrosmani 19.02.2010 - 02:35

Цитата(nokh @ 19.02.2010 - 00:54) *
1 ч 37 мин - ставил точку в "Exact" + веса для времени закодировал иначе. Но это не принципиально, всё равно P<0,001. Просто забавно.

3,02е-006 значит 3,02х10 в минус 6 степени

Электронное пособие по материалам форума - титанический труд, требующий массы времени, оплаты и высокой квалификации составителя для отделения зёрен от плевел. Последнее проблематично даже теоретически, учитывая сам формат форума. И корифеи могут ошибаться и недопонимать, и у новичков могут быть здравые интересные идеи, и признанные авторитеты в силу возраста могут непредсказуемо утрачивать адекватность, а заинтересованные личности могут использовать те или иные темы исключительно для пиара. И.т.п. Всё это так или иначе встречается на этом форуме. Как в этом разобраться? Проще с нуля пособие написать.

Остальное - потом.


Действительно, как я не догадался поставить точку в Exact, Вы же указывали, что считать точными методами будет долго по времени и что в крайнем случае можно использовать тест Монте-Карло, который как Вы писали хуже чем точные методы, но лучше чем асимптотика.
Как только поставил точку- комп призадумался и счетчик времени неумолимо начал отсчитывать минуты, а потом программа выдала Error: Insufficient memory to solve the problem, Either increase the memory limit or try Monte Carlo.. Будет время выгружу лишние процессы и и посчитаю на стац.компе. Монте_Карло в принципе дал тот же статистически значимый рез-т и отриц.связь как при асимптотич. исслед.

А график Вы в каком пакете строили и подойдет ли он для новичка?

Автор: Игорь 19.02.2010 - 06:52

Цитата(Pyrosmani @ 19.02.2010 - 03:35) *
... что считать точными методами будет долго по времени и что в крайнем случае можно использовать тест Монте-Карло ...

Это небольшое заблуждение, что, раз затруднительно посчитать точными методами, поможет Монте-Карло. Например, в одном из примеров, показанных в данной теме, оценка потребного числа таблиц дает около 770 млн. Это столько надо сгенерировать для Монте-Карло, чтобы получить адекватный вывод. Монте-Карло - это тоже "долго по времени".

Если диагностики показывают, что асимптотика допустима, использование асимптотики показано в данном случае (например, по хи-квадрат результат p = 1*10-7, точный метод или Монте-Карло дадут, скажем, p = 1*10-8 - явно не стоит полутора часов работы).

Автор: Green 22.02.2010 - 21:47

Да, в данном случае я ошиблась, если это "Время до начала бужирования". Почему-то сложилось представление, что это время от начала до результата. Все, что было сказано - относилось к неверному представлению."Методологическая ошибка" - тоже, если бы к данным относится также.
"В 1-ой таблице приведены результаты бужирования стриктур в зависимости от времени, прошедшего с момента ожога" -эти Ваши слова читались двояко.

Pyrosmani, извините.

Кодировать можно исходя из своих задач. Тоже верно. Главное, чтобы последовательность интервалов на исходной шкале не нарушалась.
Результат говорит о том, что чем ранее начали бужирование, тем больше вероятность хорошего и отличного результата лечения ( если говорить о линейном тренде).
Более того, результат устойчив, т.е. если к примеру, объединить в "ранее начало" (1-1.5), c 2 до 6, свыше 6. то получится еще более убедительный результат.
-----------

Nokh, я месяц "гонялась" за Вами по форуму, чтобы пояснить то, что упустили Вы, но было важным. Я же читаю Ваши посты внимательно и, если неправа, то признаю.
Некомпетентность, по-моему, это когда утверждение строится на доводе - я так хочу.
Вы, безусловно, гуру этого форума.
Но у меня иногда бывают основания не соглашаться с Вами, причем веские. В таком случае решают источники.
А когда я ссылаюсь на источники, Вы перестаете комментировать frown.gif Мне жаль, что так получается.

Автор: Pyrosmani 22.02.2010 - 23:32

Цитата(Green @ 22.02.2010 - 21:47) *
Да, в данном случае я ошиблась, если это "Время до начала бужирования". Почему-то сложилось представление, что это время от начала до результата. Все, что было сказано - относилось к неверному представлению.
"В 1-ой таблице приведены результаты бужирования стриктур в зависимости от времени, прошедшего с момента ожога" -эти Ваши слова читались двояко.
Pyrosmani, извините.


Людям свойственно ошибаться, как говорили древние. И моя ошибка в формулировке, привела неверному трактованию приведенных в таблице результатов- поэтому не корите себя. Благо на форуме всегда есть возможность уточнить интересующие вопросы.





Автор: Green 23.02.2010 - 09:24

Pyrosmani, спасибо!

У меня еще один небольшой вопрос. Степень ожога при таких типах ожогов есть?
Чтобы не получилось, что первыми шли на бужирование легкие степени ожога. Т.е. чтобы не было смещения типа "легкие ожоги - идут раньше на лечение - лучше результат лечения".

Да, про три группы написала не потому, что предлагаю. Просто есть вариант, что Вас попросят обосновать 6 периодов времени. Думаю, обоснуете, но в любом случае, иногда любят разбивать интервалы на три части и настаивать на таких разбиениях. Так вот, чтоб уж быть спокойным и уверенным - и там все в порядке.

P.S. По поводу Jonckheere-Terpstra Test и изменения знака статистики. JT не "рабоает" с рангами ( весами строк), в отличие от Linear by Linear.
Поменяйте местами строки в таблице 1 с 4, 2 с 3 . Посмотрите, результат статистики поменяет знак.

Автор: nokh 23.02.2010 - 10:54

Цитата(Green @ 22.02.2010 - 23:47) *
Nokh, я месяц "гонялась" за Вами по форуму, чтобы пояснить то, что упустили Вы, но было важным. Я же читаю Ваши посты внимательно и, если неправа, то признаю.
Некомпетентность, по-моему, это когда утверждение строится на доводе - я так хочу.
Вы, безусловно, гуру этого форума.
Но у меня иногда бывают основания не соглашаться с Вами, причем веские. В таком случае решают источники.
А когда я ссылаюсь на источники, Вы перестаете комментировать frown.gif Мне жаль, что так получается.

Я не многомудрый гуру, а обычный человек: со своим опытом, своими заблуждениями и своими эмоциями. А от Вас я просто устал, считайте что не сошлись характерами. Поэтому реагировать на какие-либо "вызовы" и призывы к дискуссии не буду и впредь. А чтобы избавить Вас от столь насущной необходимости месяцами "гоняться" за мной по форуму в попытке исправить мои очередные упущения решил обещанных материалов по анализу таблиц сопряжённости сюда не выкладывать. Автору топика отвечу лично.

>Pyrosmani. Скиньте мне в личку e-mail - вышлю свой вариант анализа.

Автор: Pyrosmani 24.02.2010 - 04:20

Цитата(nokh @ 23.02.2010 - 10:54) *
>Pyrosmani. Скиньте мне в личку e-mail - вышлю свой вариант анализа.


Хорошо

Автор: Pyrosmani 24.02.2010 - 06:11

Цитата(Green @ 23.02.2010 - 09:24) *
Pyrosmani, спасибо!

У меня еще один небольшой вопрос. Степень ожога при таких типах ожогов есть?
Чтобы не получилось, что первыми шли на бужирование легкие степени ожога. Т.е. чтобы не было смещения типа "легкие ожоги - идут раньше на лечение - лучше результат лечения".

Да, про три группы написала не потому, что предлагаю. Просто есть вариант, что Вас попросят обосновать 6 периодов времени. Думаю, обоснуете, но в любом случае, иногда любят разбивать интервалы на три части и настаивать на таких разбиениях. Так вот, чтоб уж быть спокойным и уверенным - и там все в порядке.

P.S. По поводу Jonckheere-Terpstra Test и изменения знака статистики. JT не "рабоает" с рангами ( весами строк), в отличие от Linear by Linear.
Поменяйте местами строки в таблице 1 с 4, 2 с 3 . Посмотрите, результат статистики поменяет знак.


Степень ожога есть конечно- она определяется концентрацией, природой химического вещества и экспозицией (длительностью его действия).
Мы ориентировались не на степень ожога, а на степень сужения пищевода в зоне стриктуры. На степень стеноза оказывает влияние не только выраженность действия повреждающего фактора, но и некоторые особенности самого организма (реактивность, возраст), присоединение на фоне ожогового поражения гастроэзофагеального рефлюкса и конечно время прошедшее с момента ожога и т.д.
Смещения "легкие ожоги - идут раньше на лечение - лучше результат лечения" здесь нет. Причин несколько: 1) в сроки до 1 мес с момента ожога никого не бужируют (высока опасность перфорации;а современные методы эндоскопической диагностики, которые помогли бы определить глубину поражения пищевода в нашей стране только начинают активно внедряться и пока нет речи о рутинном их применении);
в это время больными занимаются токсикологи или реаниматологи- токсический эффект большинства агрессивных жидкостей требует проведения активных пособий направленных на восстановление гомеостаза.
2) после выписки из стационара больных могут направить к ЛОРу, терапевту, к хирургам направляют только в случае выраженной дисфагии или при наличии сочетанного поражения ( с желудком) при развитии стеноза привратника.
3) в какие сроки пациент поступает для оказания специализированной помощи напрямую не связано с тяжестью ожогового поражения, так пациент с 1-2 степенью сужения обратиться за помощью через 9 месяцев с момента получения ожога (потому что до этого не придавал значения дисфагии, или потому что не было возможности приехать из какого-нибудь отдаленного района, или не мог по семейным обстоятельствам; а было не раз и так, что пациент наркоман и все что ему надо- сильное обезболивающее); а может пациент с 3-4ст. сужения поступить сразу после выписки из токсикологич.отделения через месяц с момент ожога- и тут бывает по-разному- одни хотят лечиться, а другие думают что "это пройдет само по себе"- и могут по несколько раз поступать по направлению с места жительства, но от проведения бужирования категорически отказываются.







Автор: Pyrosmani 28.02.2010 - 06:47

При обследовании 113 пациентов, которым ранее проведено бужирование, у 30 выявлены ранние рестенозы. Проанализировано влияние факторов (пол; возраст; время, прошедшее с момента ожога до начала бужирования; протяженность стриктуры; локализация; степень сужения и т.д.) на развитие ранних рестенозов. Установлено статистически значимое влияние некоторых из них на развитие ранних рестенозов (анализ проводился путем построения таблиц сопряженности, расчетом критерия согласия хи-квадрат и отношения максимального правдоподобия, ОШ развития рестеноза под действием независимого фактора с 95% ДИ).
Надо определить, как будет изменяться вероятность раннего рестенозирования при совокупном влиянии 2 и более факторов (примерно так: фактор 1+2 приводят к увелич. частоты ранних рестенозов в 2 раза, 1+3 в 1,5 раза - т.е. сочетание каких факторов будет прогностически наиболее неблагоприятным в отношении ранних рестенозов)- достаточно ли для этого ОШ- правильно ли на основании значений ОШ сделать такой вывод в отношении 2 и более признаков. К примеру заключить, что наиболее неблагоприятным будет сочетание рефлюкса (ОШ=27; 95% ДИ 8.36-86.81) и 3-4 степ.стеноза (ОШ=4.51; 95% ДИ 1.41-14.44)?
Нужно ли тут использовать логистический анализ или существуют какие-либо более простые варианты решения (формулы), из пакетов есть Статистика, Аттестат, SPSS, StatExact. По логистическому анализу прочитал соотвеств. главы в Рук-ве к SPSS 10 Бююля, Цёфеля, которое было рекомендовано здесь на форуме в соотвествующей ветке.
К сожалению, что касается логистического анализа в Ребровой даны только условия задачи, применимости метода и трактовка результатов, скриншоты результатов, но как вводить данные не показано-попытаюсь закодировать как представляю, но что из этого выйдет не знаю; у Зайцева (?Прикладная медицинская статистика?) предлагается использовать метод множественной корреляции для оценки совокупного влияния комплекса независимых факторов на признак.
Мне сложно определиться с тем, какой метод выбрать подскажите, пожалуйста, как будет грамотнее. Какие статистические методы лучше применить и какие статистич. пакеты оптимальнее использовать.

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)