Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

3 страниц V   1 2 3 >  
Добавить ответ в эту темуОткрыть тему
> Построение таблиц сопряженности с пакете Статистика 6.0
Pyrosmani
сообщение 7.02.2010 - 14:50
Сообщение #1





Группа: Пользователи
Сообщений: 94
Регистрация: 6.02.2010
Из: Клайпеда
Пользователь №: 10967



Уважаемые коллеги! Подскажите пожалуйста, как построить таблицы кросстабуляции в пакете Статистика 6.0. В Excel приходится вводить формулы, что несколько затрудняет работу. В большинстве литературных источников построения в Статистике 6.0 ограничиваются примером четырехпольной таблицы. Подскажите можно ли строить таблицы, в которых учитывается более 2 значений для каждого признака ( прим.1) в модуле Таблицы сопряженности и как это сделать. В книге Ребровой О.Ю. не рассматриваются примеры построения таблиц с числом строк и столбцов более 2 (без итоговых) при наличии известных значений наблюдаемых частот, и предлагается воспользоваться модулем Логлинейный анализ.
Как рассчитать хи-квадрат для случаев, когда частоты меньше 5 или равны 0(прим.2). И подскажите, как перенести наблюдаемые и ожидаемые частоты из Эксель(указываются на одном листе) в Статистику (файл2).

Я еще прикрепил пару задач (в файле1), взятых из методичек для ВУЗов и прошу, если есть возможность и время, описать алгоритм их решения и построения таблиц кросстабуляции в Статистика 6.0, чтобы понять как решать подобные задачи применительно к результатам моего исследования.
Прикрепленные файлы
Прикрепленный файл  Результаты_лечения.doc ( 163 килобайт ) Кол-во скачиваний: 1195
Прикрепленный файл  как_перенести_данные_из_Эксель_в_Статистику6.0_.doc ( 32 килобайт ) Кол-во скачиваний: 1078
 


Signature
Cogito ergo sum
Nemo omnia potest scire
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 7.02.2010 - 17:35
Сообщение #2





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Pyrosmani @ 7.02.2010 - 14:50) *
Как рассчитать хи-квадрат для случаев, когда частоты меньше 5 или равны 0(прим.2)
Используйте точный критерий Фишера. В программах Statistica, Excel его нет.

Сообщение отредактировал DoctorStat - 7.02.2010 - 17:36


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 8.02.2010 - 00:43
Сообщение #3





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



>Pyrosmani
Уточните пожалуйста что Вам нужно: (1) грамотно проанализировать слабонасыщенную таблицу частот или (2) проанализировать большую таблицу частот в пакете Statistica? К сожалению эти вопросы нельзя совместить в одном.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 8.02.2010 - 09:07
Сообщение #4





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(DoctorStat @ 7.02.2010 - 17:35) *
Используйте точный критерий Фишера. В программах Statistica, Excel его нет.

Вот тут есть http://www.biometrica.tomsk.ru/programm_stat.htm.

Комментарии к программе на указанном сайте - чушь. Но сама программа работает исправно.

Сообщение отредактировал Игорь - 8.02.2010 - 09:09


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pyrosmani
сообщение 8.02.2010 - 21:07
Сообщение #5





Группа: Пользователи
Сообщений: 94
Регистрация: 6.02.2010
Из: Клайпеда
Пользователь №: 10967



Большое спасибо всем кто откликнулся!

2 nokh: Я не специалист в области статистики и к сожалению тот материал, который дается в институте в рамках изучения курса не дает уверенности, в правильности применения того или иного метода. Если невозможно совместить эти вопросы в одном, то хотя бы как грамотно решить эти вопросы по отдельности. Чем проще будет объяснено, тем лучше.

2 DoctorStat: насколько я понял из литературы точный критерий Фишера применяется для оценки четырехпольных таблиц, поэтому скорее всего придется объединить частоты в таблицу 2х2, по крайней мере так предлагает делать О.Ю.Реброва.
Что касается отсутствия точного критерия Фишера в программе Статистика 6.0- это не так. В книге Ребровой О.Ю. " Статистический анализ медицинских данных" стр.178, в программе Статистика 6.0: Модуль "Непараметрическая статистика"- "Таблицы 2х2 (хи, Фи, МакНемара, точный Фишера).
Что касается Excel 2007, там тоже есть Фишер fx- в Мастере функций- Статистические - ФИШЕР, ФИШЕРОБР (правда применительно к этой функции непосредственно в Excel 2007 не знаю как пользоваться, посмотрел книжку "Прикладная медицинская статистика" В.М.Зайцев и соавт. в ней тоже не нашел).
В то же время есть замечательная программа AtteStat от Игоря Гайдышева, которая работает как надстройка к Эксель, в которой реализована эта функция и самое главное-дан пример заполнения таблицы и расчета с картинкой, что не может не радовать неспециалиста в области матем. статистики. Единственая сложность, которая возникла - найти эту программу. Большинство сайтов на которых упоминается программа ссылаются на www.izone.ru, а ссылки с этого сайта приводят на http://attestatsoft.com/download/AtteStat.exe, с которого скачать программу невозможно, использование менеджера закачки тоже не помогло. Нашел только потому, что знал имя и фамилию разработчика.

2 Игорь: есть еще программа для расчета точного критерия Фишера от Владимира Беляева, программа бесплатная, весит 302 кб. Она, как мне кажется, лучше чем программа от Кхана.

В архиве программа от В.Беляева для расчета критерия Фишера (добавлена информация для восстановления). Скачано с http://soft.mail.ru.
Прикрепленные файлы
Прикрепленный файл  Fisher_TK.rar ( 327,96 килобайт ) Кол-во скачиваний: 858
 


Signature
Cogito ergo sum
Nemo omnia potest scire
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Green
сообщение 8.02.2010 - 22:09
Сообщение #6





Группа: Пользователи
Сообщений: 120
Регистрация: 27.08.2009
Пользователь №: 6284



>Я еще прикрепил пару задач (в файле1), взятых из методичек для ВУЗов

Посмотрела файл1. Там есть порядок в строках и столбцах.

в строках результаты, которые образуют порядковую шкалу от отличных до неуд. ( типа оценки от 5 до 2)
В столбцах - длительность 1 мес, 2, и т.д.

Прикрепленное изображение


На рис. посмотрите, это Вам надо? Если строить согласно табл.1 примера. Если строить согласно табл.2 примера, то строки и столбцы меняют название.

> и прошу, если есть возможность и время, описать алгоритм их решения
какого решения? цель какая?

Влияние месяца лечения на качество лечения?




Signature
Это не кованализ :)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 8.02.2010 - 23:56
Сообщение #7





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Как уже заметила Green, входы вашей таблицы сопряжённости упорядочены. А это значит, что использовать критерии типа хи-квадрат не вполне корректно. Почитайте пока мой пост #15 и смежные посты здесь http://forum.disser.ru/index.php?showtopic=1904 . Statistica не позволяет эффективно обсчитывать ни слабонасыщенные таблицы частот, ни учитывать упорядоченность входов и т.о. может нормально обсчитать только данные типа примера 5. Если интересно - опишу как. Но для решения Вашей задачи нужен StatXact. Пока скачайте, а потом я напишу что делать, она проработает 30 дней: http://www.cytel.com/Software/StatXact.aspx . Для закачки 30-дневной демо-версии (Demo Now) потребуется заполнить форму.
PS
Программа AtteStat лежит сейчас здесь: http://attestatsoft.narod.ru/download.htm и видимо из скромности её автор отослал Вас к арабскому продукту на сайт биометрики в Томск smile.gif

Сообщение отредактировал nokh - 9.02.2010 - 07:08
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Green
сообщение 9.02.2010 - 16:44
Сообщение #8





Группа: Пользователи
Сообщений: 120
Регистрация: 27.08.2009
Пользователь №: 6284



StatXact 8.0 -trial на 30 дней.
У них там есть StatXact 6.0 - free. Этого хватит.


Signature
Это не кованализ :)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pyrosmani
сообщение 11.02.2010 - 23:30
Сообщение #9





Группа: Пользователи
Сообщений: 94
Регистрация: 6.02.2010
Из: Клайпеда
Пользователь №: 10967



Спасибо Green и nokh!


Извините за долгое молчание, работал, не было возможности написать.
Спасибо за таблицу. Приблизительно понятно, что надо закодировать цифрами результаты лечения( отл., хор. и т.д) и сроки от начала лечения (1-2 мес, и т.д.). И расположить частоты наблюдаемые и ожидаемые в одном столбце, результаты лечения (5,4,3,2) в другом, сроки от начала лечения (1,2,3.4) в другом.


В связи с этим у меня возникли следующие вопросы:
1) вводятся ли в таблицу суммарные частоты, которые располагаются по краям таблицы- тут моя недоработка я не обозначил названия столбцов, в том числе итоговых в файле " как перенести...". Правильно ли я понял, в тех случаях когда не получено никаких результатов ( там где прочерк) надо ставить 0.

2) что значит "входы упорядочены"? объяните если можно.

Давайте, чтобы не было путаницы, будем разбирать только табл1 и 2, я прикрепил файлы и видоизменил их с учетом Вашего справедливого вопроса- речь идет о лечении стриктур (если нужно более подробно напишу в личку в чем суть работы). В 1-ой таблице приведены результаты бужирования стриктур в зависимости от времени, прошедшего с момента ожога, во 2 табл.-зависимость результатов лечения от степени рубцового сужения.
Соответственно надо проанализировать каким образом результаты лечения зависят от времени, прошедшего с момента ожога и от степени рубцового сужения.

Спасибо за подсказку насчет программы StatXact. Получилось скачать триальную 6 версию с сайта http://www.statcon.de/.
В 8 версии устранены ошибки, которые были в предыдущих версиях. Теперь я готов следовать вашим рекомендациям.

Пожалуйста, подскажите как правильно обработать данные приведенные в таблицах 1 и 2 и оценить полученные результаты.

В архиве файл Xls, в котором я попытался расположить данные из табл 1 (результаты лечения в зависимости от сроков от момента ожога)- подскажите пожалуйста правильно я это сделал. И как анализировать таблицы более 2х2 с частотами меньше 5 или равными 0.

Прикрепленные файлы
Прикрепленный файл  results.doc ( 43 килобайт ) Кол-во скачиваний: 609
Прикрепленный файл  табл_1.zip ( 7 килобайт ) Кол-во скачиваний: 531
 


Signature
Cogito ergo sum
Nemo omnia potest scire
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 12.02.2010 - 22:45
Сообщение #10





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Все категории делятся на номинальные (нельзя упорядочить) и упорядоченные (соответственно можно упорядочить smile.gif). Все ваши категории можно упорядочить - выстроить в каком-то направлении. А, скажем, различные нозологии или диагностические процедуры - нельзя, это - номинальные категории. Посмотрите еще тему, на которую я давал ссылку, там плав объяснял почему важно учитывать упорядоченность.
Общая схема анализа в присутствии упорядоченности будет такова:
1). Определиться насколько слабонасыщена таблица. Считается, что для критериев хи-квадрат (Chi-square) и G-критерия (отношение максимального правдоподобия - Likelihood ratio) минимальные ожидаемые не должны быть меньше 4, иначе эти критерии "плохо работают". Насколько плохо - зависит также от числа степеней свободы, поэтому лучше использовать более тонкие специализированные методы. Поставьте программу AtteStat ( http://attestatsoft.narod.ru/download.htm ), в Excel добавится её меню. Набейте таблицу абсолютных частот без краевых частот (сумм по строкам и рядам), т.е. для первой таблицы - 4 строки и 6 колонок. В модуле Кросстабуляция отметьте хи-квадрат, отношение правдоподобия (G-критерий) и обе диагностики - они подскажут можно ли использовать эти критерии (см. помощь). Если нельзя - нужно смотреть точными методами в StatXact (Non-Parametrics - Unordered RxC table - Chi-square и Likelihood ratio).
2). Посмотреть таблицу критерием типа хи-квадрат, лучше G-критерием. Этот критерий - полный аналог хи-квадрата и имеет теоретическое распределение хи-квадрат, однако более современный и хорошо обоснован теоретически в отличие от столетнего пирсоновского хи-квадрата. Поэтому везде где возможно его следует применять вместо хи-квадрата. Единственное исключение - если научный руководитель пожилой и встаёт на дыбы, т.к. его учили хи-квадрату, а от нового у него мозг взорвётся. Если тест окажется незначимым - не страшно, возможно просто не хватило мощности, т.к. число степеней свободы (degree of freedom = df) относительно велико (у Вас: df=(4-1)х(6-1)=15). Если значим - нужно разбираться за счёт чего, но здесь потребуется другой софт.
3). Проанализировать таблицу на тренд. В этом случае единицей анализа будет уже не ячейка таблицы (df=15), а один единственный тренд (df=1). Отсюда - большой выигрыш по мощности. Обязательно прочитайте сначала про это у Закса ( http://www.onlinedisk.ru/file/205482/ ), стр. 440. Также про критерий Вулфа и информационный критерий Кульбака (стр. 318-336 и стр. 444) - это и есть G-критерий. Аналог описанной проверки на тренд есть в StatXact. Нажмите в ней на вторую иконку (таблица) и подкорректируйте Setting: рядов - 4, колонок - 6, также нужно поставить обе галочки в Scores, т.к. у вас упорядочены и ряды и колонки. Получите таблицу, которую нужно заполнить. Веса упорядоченности можно выбрать просто 1,2,3 и.т.д., можно иначе. Далее Non-Parametrics - Double ordered RxC table. Проверьте обоими тестами, но Linear-by-linear assosiation - примерно то, что описано у Закса. Отрицательный знак статистики укажет на отрицательную связь, положительный - на положительную. Т.е. если вы закодировали оценки от 1 (неуд) до 4 (отл), а время начала процедуры - от 1 до 6, то отриц. статистически значимая связь укажет на то, что "чем больше время, тем ниже оценка".
4). По (2) и (3) можно сделать предварительные выводы и далее разбираться в тонкостях. В выходные покажу как это делать с помощью Statistica. Также почитайте пока у Ребровой про отношение шансов - понадобиться когда будем сворачивать исходную таблицу.

Сообщение отредактировал nokh - 13.02.2010 - 06:23
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pyrosmani
сообщение 14.02.2010 - 20:26
Сообщение #11





Группа: Пользователи
Сообщений: 94
Регистрация: 6.02.2010
Из: Клайпеда
Пользователь №: 10967



Цитата(nokh @ 12.02.2010 - 22:45) *
1). Определиться насколько слабонасыщена таблица. Считается, что для критериев хи-квадрат (Chi-square) и G-критерия (отношение максимального правдоподобия - Likelihood ratio) минимальные ожидаемые не должны быть меньше 4, иначе эти критерии "плохо работают". Насколько плохо - зависит также от числа степеней свободы, поэтому лучше использовать более тонкие специализированные методы.
.

Что касается минимальных ожидаемых сходную информацию дают и Реброва и Закс (большое спасибо за ссылку! сейчас изучаю). Моя ошибка состояла в том, что я полагал- значение наблюдаемых частот не должно быть меньше 5. Такие условия применения метода приводит В.М.Зайцев и соавт. в книге "Прикладная математическая статистика" изд-во, "Фолиант", СПтб-2003г, стр.256. Условие применимости по www.machinelearning.ru/wiki/index.php?title...сопряженности Eij<5 не более чем в 20% ячеек n>40 . При расчете в Excel ожидаемых частот у меня тоже по 1 табл. в ряде ячеек значения меньше 4, а то и меньше 1.

Цитата
Посмотреть таблицу критерием типа хи-квадрат, лучше G-критерием. Этот критерий - полный аналог хи-квадрата и имеет теоретическое распределение хи-квадрат, однако более современный и хорошо обоснован теоретически в отличие от столетнего пирсоновского хи-квадрата. Поэтому везде где возможно его следует применять вместо хи-квадрата. Единственное исключение - если научный руководитель пожилой и встаёт на дыбы, т.к. его учили хи-квадрату, а от нового у него мозг взорвётся. Если тест окажется незначимым - не страшно, возможно просто не хватило мощности, т.к. число степеней свободы (degree of freedom = df) относительно велико (у Вас: df=(4-1)х(6-1)=15). Если значим - нужно разбираться за счёт чего, но здесь потребуется другой софт.


Посмотрел обоими критериями, данные в файлах, сейчас попытаюсь посмотреть что предлагается в Заксе по ручному расчету критерия G. Кроме того, я решил если не получется проанализировать хи-квадрат, как того требуют условия, объединить сроки лечения в две группы: 1до 2 мес, и 3 и более мес (результаты тоже прикрепил в файлах - My Experim), тут у меня возникает закономерный вопрос, если по результатам расчетов р меньше 0,001 ( у меня в ряде случаев- 0,0001 и того меньше, как трактовать данные где р стремится к нулю (0,00001; 0,000001; 0,0000001) и что делать принимать нулевую гипотезу об отсутствии связи между результатом лечения и временем начала бужирования или отклонить ее. Кстати, по тому алгоритму который вы дали можно наверное сразу считать и строить таблицы в StatExact, в конечном итоге результаты по расчетам в нем и в Аттестате получаются одни и те же. Единственное, в чем пока не разобрался как в Атттестате задается величина р=0,05 или она по умолчанию в нем принята для расчетов и надо ли что-то менять в опции параметры указанных методов в Аттестате(файл - tab2 calc). Этот вопрос актуален и для тех, кто работает в Эксель. Я, например, считал в Эксель ожидаемые частоты. По крайней мере Реброва указывает, что расчет их должен обязательно предшествовать дальнейшим этапам статистич. обработки при вычислении хи-квадрат. Но к сожалению здесь, есть одна закавыка- необходимость введения формул ( но и это не так страшно), куда более сложно проводить трактовку результатов. Попытаюсь разобраться с результатами по G.

Цитата
Проанализировать таблицу на тренд. В этом случае единицей анализа будет уже не ячейка таблицы (df=15), а один единственный тренд (df=1). Отсюда - большой выигрыш по мощности. Обязательно прочитайте сначала про это у Закса ( http://www.onlinedisk.ru/file/205482/ ), стр. 440. Также про критерий Вулфа и информационный критерий Кульбака (стр. 318-336 и стр. 444) - это и есть G-критерий. Аналог описанной проверки на тренд есть в StatXact. Нажмите в ней на вторую иконку (таблица) и подкорректируйте Setting: рядов - 4, колонок - 6, также нужно поставить обе галочки в Scores, т.к. у вас упорядочены и ряды и колонки. Получите таблицу, которую нужно заполнить. Веса упорядоченности можно выбрать просто 1,2,3 и.т.д., можно иначе. Далее Non-Parametrics - Double ordered RxC table. Проверьте обоими тестами, но Linear-by-linear assosiation - примерно то, что описано у Закса. Отрицательный знак статистики укажет на отрицательную связь, положительный - на положительную. Т.е. если вы закодировали оценки от 1 (неуд) до 4 (отл), а время начала процедуры - от 1 до 6, то отриц. статистически значимая связь укажет на то, что "чем больше время, тем ниже оценка".


Оба теста выполнил, но затрудняюсь в трактовке результатов ( приложены в файлах по обеим таблицам), особенно что касается отрицательного и положительного знака статистик.



Прикрепленные файлы
Прикрепленный файл  tab1.rar ( 552,14 килобайт ) Кол-во скачиваний: 693
Прикрепленный файл  tab2.rar ( 338,22 килобайт ) Кол-во скачиваний: 603
Прикрепленный файл  tab___2_My_Experim.rar ( 211,24 килобайт ) Кол-во скачиваний: 510
Прикрепленный файл  _1_table_data_My_Experim.rar ( 259,41 килобайт ) Кол-во скачиваний: 523
Прикрепленный файл  tab1_Excel.rar ( 429,06 килобайт ) Кол-во скачиваний: 596
 


Signature
Cogito ergo sum
Nemo omnia potest scire
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Green
сообщение 14.02.2010 - 21:42
Сообщение #12





Группа: Пользователи
Сообщений: 120
Регистрация: 27.08.2009
Пользователь №: 6284



Pyrosmani,

1. StatXact - создает файл с расширением .cyd, Где фиксирует и данные и результаты. Имхо, было бы лучше его выкладывать.
2. Не у всех стоит Офис 2007 (расширения docx и xlsx). Если кто-то заинтересуется с скачает, то было бы наверное проще сохранять в формате doc и xls.

3. И еще вопрос такой: Скажите, если 1 пациент после 1 месяца имел удовлет. результат, а через 6 мес - отличный, он дважды включен в таблицу частот?

Сообщение отредактировал Green - 14.02.2010 - 21:50


Signature
Это не кованализ :)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 14.02.2010 - 23:11
Сообщение #13





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



1. По расчёту ожидаемых. Действительно, оба критерия нуждаются в предварительном расчёте ожидаемых - для дальнейших расчётов самих критериев. Но любое действие должно иметь цель. Какую цель Вы преследуете рассчитывая ожидаемые, причём даже более сложным путём, чем это можно сделать с калькулятором и листочком бумаги? Зачем вам эти цифры в Excel? Как используете затем эти данные? Если никак - то и не нужно их считать, доверьтесь программе. К слову, если таблица частот не двумерная как у Вас, а трёх- или более мерная (например, одновременно: время начала бужирования, пол пациента и оценка успешности исхода лечения), то расчёт ожидаемых частот по итерационному алгоритму Деминга-Стефана займёт у вас несколько часов (баловался как-то), а с проверкой - все несколько дней.
2. По ограничениям методов. Никаких ошибок Вы ещё не сделали. Меньше 4, меньше 5, 20% и т.д. - это всё вата. Это - простые решения для тех, кому нужно неглубоко и быстро. Я знаю ещё 2-3 рекомендации и что со всем этим делать? Диагностики, присутствующие в AtteStat позволяют обоснованно принять решение о (не)допустимости аппроксимации решения статистикой хи-квадрат. Если допустима - считаем, не обращая внимания на меньше 4, на ноли и т.д. в любом пакете или вручную. Если недопустима - считаем точными перестановочными (permutation) методами в пакете StatXact (или в SAS, считающем это по лицензии Cytel StatXact. Другие пакеты мне неизвестны, в R это кажется можно посчитать только для таблиц 2х2). Значение критерия получится одинаковым в любом случае, а вот значение Р будет разным: с использованием аппроксимации - менее точным. Точный расчёт P - наиболее правильное и точное решение для любой таблицы сопряжённости и здесь нет проблемы минимального ожидаемого, т.к. вероятности считаются напрямую, перебором всех вариантов. Если StatXact не сможет "переварить" таблицу сопряжённости точным методом (бывает нужно минут 20) - используйте ресэмплинг-метод Монте-Карло - хуже чем точное решение, но всяко лучше чем асимптотика. Потом укажете в материалах и методах (статьи, диссертации) что использовали в расчётах пакет StatXact и этого достаточно, кто в теме - поймут. С диссертационным советом сложнее - все могут быть не в теме и начать придираться к нулям - вы должны быть готовы аргументированно ответить. Объединение ячеек - выход, для тех, у кого нет StatXact, но во-первых такой подход предполагает огрубление исходных данных, что не есть хорошо, а во-вторых, StatXact у вас ведь уже есть:).
3. По оценке P. Поскольку в литературе есть неразбериха (смешиваются и переплетаются P-value в понимании Фишера и уровень значимости "альфа" в понимании Пирсона и Неймана) то придётся ответить, но почитайте и Закса и Реброву (стр. 64) по принципам проверки гипотез. P - непрямая мера оценки вероятности нулевой гипотезы и представляет собой вероятность наблюдать имеющиеся или ещё более экстремальные данные при условии справедливости нулевой гипотезы. Т.к. в статистическом оценивании "по техническим причинам" всегда проверяется нулевая гипотеза (нет различий, нет связей, нет зависимостей), то часто наша гипотеза доказывается методом от противного. Скажем мы хотим доказать, что существует связь между временем начала бужирования и оценкой результата. Мы выдвигаем нулевую гипотезу - такой связи нет - и проверяем её с помощью к/л статистического критерия с получением оценки Р. Если Р будет мало, скажем меньше 5% (P<0,05) мы говорим: "вероятность нулевой гипотезы ("связи нет") мала, поэтому мы её отклоним и примем альтернативную: "связь есть"". Типичное доказательство от противного. Т.е. в современном научном подходе мы не можем подтвердить свою гипотезу, мы можем только отклонить нулевую на выбранном уровне значимости и с натяжкой считать это доказательством. Пока мы её не отклонили - она остаётся в силе; в этом - одна из причин консерватизма научного метода. Если в к/л книге (есть такие) вы прочтёте, что P<0.05 на самом деле означает, что с вероятностью 95% верна ваша гипотеза - сдавайте её обратно в библиотеку или стирайте с винта, каламбур таков: ничему научному она не научит. 5% - не волшебное и не научное число, просто люди договорились считать малым то, что меньше или равно 5%. Такое граничное значение называется уровнем значимости. Иногда 5%-ный уровень значимости слишком строг, иногда слишком либерален. Если P<0,0000001, то такая нулевая гипотеза ещё менее правдоподобна, соответственно более правдоподобна альтернативная. Следовательно P=0.05 нигде не задаётся, ни в одном пакете или тесте; число 0,05 может понадобиться вам только для планирования объёмов выборок: понятно, что если вы хотите доказать наличие связи на 1%-ном уровне значимости понадобится больше наблюдений, чем для 5%-ного у.з.
4. Проверка на тренд. А как Вы закодировали веса для данных? Разве так как собирались (1-неуд, 4-отл.)? Вы их закодировали наоборот, т.е. чем больше балл, тем хуже оценка. Чтобы не путаться - перекодируйте их в соответствующем месте в StatXact в привычную для интерпретации шкалу и проинтерпретируйте.

Попробуйте опираясь на проведённые тесты самостоятельно сформулировать предварительные выводы - так как они будут звучать в публикации (диссертации) или можно более подробно. Потом подправим. Я имею в виду только первую таблицу, вторую потом проанализируете самостоятельно.

Сообщение отредактировал nokh - 15.02.2010 - 01:32
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pyrosmani
сообщение 15.02.2010 - 00:37
Сообщение #14





Группа: Пользователи
Сообщений: 94
Регистрация: 6.02.2010
Из: Клайпеда
Пользователь №: 10967



Цитата(Green @ 14.02.2010 - 21:42) *
Pyrosmani,
1. StatXact - создает файл с расширением .cyd, Где фиксирует и данные и результаты. Имхо, было бы лучше его выкладывать.


Не спорю, но есть несколько причин, в силу которых я не выложил файлы с этим расширением:
1) не все используют StatXact ( в силу разных причин), а я хотел чтобы как можно больше людей имело возможность ознакомиться с результатами без необходимости установки программы, которая является триальной (даже 6 версия, которую я скачал в сети поставляется с временым ключом на 30 дней); исходные данные можно скачать в моем предыдущем топике (табл. 1 и 2); 2) пожалуй главная- это было мое первое знакомство с программой, поэтому я не сделал должного упора на сохранении файлов .cyd, справедливости ради стоит заметить, что в архиве к табл.2 эти файлы приложены. Обязуюсь, в следующий раз, если и далее расчеты будут связаны с использованием данной программы, выкладывать и файлы этой программы, для специалистов.

Цитата
2. Не у всех стоит Офис 2007 (расширения docx и xlsx). Если кто-то заинтересуется с скачает, то было бы наверное проще сохранять в формате doc и xls.
Каюсь, грешен. Собственно из этой ситуации есть 2 выхода: 1) установить пакет совместимости между Офис 2003 и Офис 2007 -это на мой взгляд самое простое и наиболее продуктивное решение с перспективой на будущее, бесплатно скачать можно с сайта Майкрософт, после этого можно забыть о проблемах с открытием файлов 2007 Офиса; 2) скачать архив файлов Эксель, который я сконвертировал с учетом ваших пожеланий.

Цитата
3. И еще вопрос такой: Скажите, если 1 пациент после 1 месяца имел удовлет. результат, а через 6 мес - отличный, он дважды включен в таблицу частот?
Ни один пациент не был дважды включен в таблицу-в этом не было никакой нужды и это неправильно. Результат бужирования непосредственый оценивался на момент окончания лечения (я не привожу здесь критерии оценки результатов бужирования ). Чтобы вам было понятно бужирование проводится курсами, каждый курс может включать от 4-6 сеансов- в ходе которых проводится дилатация стриктуры с целью восстановления просвета органа. Длительность проведения курсового бужирования зависит от протяженности стриктуры, времени прошедшего от момента ожога до начала бужирования (со временем происходит рубцевание стриктуры и шансы разбужировать ее уменьшаются), степени ожога и ряда др. факторов ( в том числе от реактивности организма и личностных характеристик пациента- встречаются люди, которые после кратковременного положительного эффекта считают, что врачебная помощь им не нужна и прерывают курс лечения- со всеми вытекающими отсюда последствиями). Отдельно мы еще проанализировали отдаленные результаты бужирования- через 6 и более мес после его прекращения, для того, чтобы определиться в каком случае проведение бужирования бесперспективно в связи с высокой частотой рецидивов рубцового процесса, высоким риском развития осложнений и т.д. и в каких случаях следует отдавать предпочтение хирургической операции. Ряду пациентов провести бужирование было невозможно- в этом случае выполнялась пластика пораженного органа. Возможно у вас возникнет вопрос, почему в 1 таблице -152 пациента, а во второй -56. В 1 ой- пациенты с изолированными стриктурами, во второй- с сочетанными- это разные куски моей работы. Я выбрал их потому что, как мне показалось, гораздо интереснее рассматривать сложные случаи, которые в большинстве изданий по медицинской статистике не рассматриваются, чем те случаи, которые всегда рассматриваются (четырехпольные таблицы и т.д.) потому что их изложение не требует дополнительных выкладок, обоснований, не занимает большего объема в рамках одного издания и более просто для восприятия неспециалистами.

Прикрепленные файлы
Прикрепленный файл  XLS.rar ( 13,53 килобайт ) Кол-во скачиваний: 571
 


Signature
Cogito ergo sum
Nemo omnia potest scire
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pyrosmani
сообщение 15.02.2010 - 01:54
Сообщение #15





Группа: Пользователи
Сообщений: 94
Регистрация: 6.02.2010
Из: Клайпеда
Пользователь №: 10967



Цитата(nokh @ 14.02.2010 - 23:11) *
1. По расчёту ожидаемых. Действительно, оба критерия нуждаются в предварительном расчёте ожидаемых - для дальнейших расчётов самих критериев. Но любое действие должно иметь цель. Какую цель Вы преследуете рассчитывая ожидаемые, причём даже более сложным путём, чем это можно сделать с калькулятором и листочком бумаги? Зачем вам эти цифры в Excel? Как используете затем эти данные? Если никак - то и не нужно их считать, доверьтесь программе. К слову, если таблица частот не двумерная как у Вас, а трёх- или более мерная (например, одновременно: время начала бужирования, пол пациента и оценка успешности исхода лечения), то расчёт ожидаемых частот по итерационному алгоритму Деминга-Стефана займёт у вас несколько часов (баловался как-то), а с проверкой - все несколько дней.
. Я тоже, если честно побаловался- имею ввиду расчеты в Эксель (собственно я писал, что именно в Эксель начинал считать результаты), так получилось что первыми книгами по статистике были именно Реброва и уже упоминавшийся мною Зайцев, которые я приобрел еще в институте. В данном случае интерес к Excel был продиктован еще и разными ( по крайней мере так мне показалось) алгоритмами расчета в этом пакете которые изложены у Зайцева и в книге С.Н. Лапача "Статистические методы в медико-биологических исследованиях с использованием Excel" Киев, "Морион"- 2001г. Правда некоторые формулы, приведенные в последней книге и результаты указанные на рисунках разнятся с теми данными, которые приводят сами авторы и которые получаются если считать по Зайцеву. Поэтому и любопытство тоже. Кстати в отличие от Зайцева в Лапаче при расчете табличного значения хи-квадрат в формулу вводится значение р=0,05. Поэтому у меня и возник этот вопрос насчет Аттестата и др. программ.

Цитата
2. По ограничениям методов. Никаких ошибок Вы ещё не сделали. Меньше 4, меньше 5, 20% и т.д. - это всё вата. Это - простые решения для тех, кому нужно неглубоко и быстро. Я знаю ещё 2-3 рекомендации и что со всем этим делать? Диагностики, присутствующие в AtteStat позволяют обоснованно принять решение о (не)допустимости аппроксимации решения статистикой хи-квадрат. Если допустима - считаем, не обращая внимания на меньше 4, на ноли и т.д. в любом пакете или вручную. Если недопустима - считаем точными перестановочными (permutation) методами в пакете StatXact (или в SAS, считающем это по лицензии Cytel StatXact. Другие пакеты мне неизвестны, в R это кажется можно посчитать только для таблиц 2х2). Значение критерия получится одинаковым в любом случае, а вот значение Р будет разным: с использованием аппроксимации - менее точным. Точный расчёт P - наиболее правильное и точное решение для любой таблицы сопряжённости и здесь нет проблемы минимального ожидаемого, т.к. не используется аппроксимация. Укажете в материалах и методах (статьи, диссертации) что использовали в расчётах StatXact и этого достаточно, кто в теме - поймут. С диссертационным советом сложнее - все могут быть не в теме и начать придираться к нулям - вы должны быть готовы аргументированно ответить. Объединение ячеек - выход, для тех, у кого нет StatXact, но во-первых такой подход предполагает огрубление исходных данных, что не есть хорошо, а во-вторых, StatXact у вас ведь уже есть.


Вы правы насчет диссертационного совета и людей, которые не в теме к сожалению много. С этим я столкнулся, когда сдавал аннотацию и проходил этический комитет. К сожалению количество специалистов в такого рода комитетах много меньше, чем должностных лиц и представителей духовенства, которые в силу специфики своей повседневной деятельности не могут оценить перспективности проводимого исследования для дальнейшего развития медицины. Что касается вымарывания нулей, которое я не раз встречал, анализируя диссертационные работы как кандидатов, так и докторов наук. Тут, наверное, как правильно заметил Игорь, проблема в том, что не каждый готов разбираться со статистическими методами и зачастую предпочитают воспользоваться услугами специалиста и получить уже готовые результаты, отсюда и желание идти по пути наименьшего сопротивления, не оспаривая точку зрения дисс. советов, потому что нет возможности аргументированно доказать правильность полученных результатов. Кроме того, тут еще и какие-то требования ВАКа, наверняка, к представлению результатов исследования.
Огрубление данных,- здесь я тоже с Вами согласен, нивелирует многие факторы, которые влияют на результаты лечения.

Цитата
3. По оценке P. Поскольку в литературе есть неразбериха (смешиваются и переплетаются P-value в понимании Фишера и уровень значимости "альфа" в понимании Пирсона и Неймана) то придётся ответить, но почитайте и Закса и Реброву (стр. 64) по принципам проверки гипотез. P - непрямая мера оценки вероятности нулевой гипотезы и представляет собой вероятность наблюдать имеющиеся или ещё более экстремальные данные при условии справедливости нулевой гипотезы. Т.к. в статистическом оценивании всегда проверяется нулевая гипотеза (нет различий, нет связей, нет зависимостей), то часто наша гипотеза доказывается методом от противного. Скажем мы хотим доказать, что существует связь между временем начала бужирования и оценкой результата. Мы выдвигаем нулевую гипотезу - такой связи нет - и проверяем её с помощью к/л статистического критерия с получением оценки Р. Если Р будет мало, скажем меньше 5% (P<0,05) мы говорим: "вероятность нулевой гипотезы ("связи нет") мала, поэтому мы её отклоним и примем альтернативную: "связь есть"". Типичное доказательство от противного. Т.е. в современном научном подходе мы не можем подтвердить свою гипотезу, мы можем только отклонить нулевую. Пока мы её не отклонили - она остаётся в силе; в этом - одна из причин консерватизма научного метода. 5% - не волшебное число, просто люди договорились считать малым то, что меньше или равно 5%. Такое граничное значение называется уровнем значимости. Иногда 5%-ный уровень значимости слишком строг, иногда слишком либерален. Если P<0,0000001, то такая нулевая гипотеза ещё менее правдоподобна, соответственно более правдоподобна альтернативная. Следовательно P=0.05 нигде не задаётся, ни в одном пакете или тесте; число 0,05 может понадобиться вам только для планирования объёмов выборок: понятно, что если вы хотите доказать наличие связи на 1%-ном уровне значимости понадобится больше наблюдений, чем для 5%-ного у.з.


Спасибо за ценные замечания. Теперь все более понятно. Реброву и Закса почитаю еще раз. Проблема с оценкой значений р была связана с тем, что для закрепления той информации, которая приводится в литературе я решал примеры и сравнивал свои результаты с тем,что дают авторы. Возможно я не так понял из условий задач, что они принимают за нулевую гипотезу- отсюда неправильная трактовка результатов (пересмотрю еще раз).

Цитата
4. Проверка на тренд. А как Вы закодировали веса для данных? Разве так как собирались (1-неуд, 4-отл.)? Вы их закодировали наоборот, т.е. чем больше балл, тем хуже оценка. Чтобы не путаться - перекодируйте их в привычную для интерпретации шкалу и проинтерпретируйте. Попробуйте опираясь на проведённые тесты самостоятельно сформулировать предварительные выводы - так как они будут звучать в публикации (диссертации) или можно более подробно. Потом подправим. Я имею в виду только первую таблицу, вторую потом проанализируете самостоятельно.


Хорошо, учту Ваши замечания перекодирую данные (действительно закодировал так как предлагает программа, а не так как Вы мне до этого посоветовали) и сформулирую выводы и еще, наверное, надо как-то представить полученные данные, чтобы не было вопросов на дисс.совете.

Спасибо!



Прикрепленные файлы
Прикрепленный файл  Анализ_табл._сопряженности_в_Excel.rar ( 962,73 килобайт ) Кол-во скачиваний: 741
 


Signature
Cogito ergo sum
Nemo omnia potest scire
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

3 страниц V   1 2 3 >
Добавить ответ в эту темуОткрыть тему