Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Построение таблиц сопряженности с пакете Статистика 6.0
Pyrosmani
сообщение 7.02.2010 - 14:50
Сообщение #1





Группа: Пользователи
Сообщений: 94
Регистрация: 6.02.2010
Из: Клайпеда
Пользователь №: 10967



Уважаемые коллеги! Подскажите пожалуйста, как построить таблицы кросстабуляции в пакете Статистика 6.0. В Excel приходится вводить формулы, что несколько затрудняет работу. В большинстве литературных источников построения в Статистике 6.0 ограничиваются примером четырехпольной таблицы. Подскажите можно ли строить таблицы, в которых учитывается более 2 значений для каждого признака ( прим.1) в модуле Таблицы сопряженности и как это сделать. В книге Ребровой О.Ю. не рассматриваются примеры построения таблиц с числом строк и столбцов более 2 (без итоговых) при наличии известных значений наблюдаемых частот, и предлагается воспользоваться модулем Логлинейный анализ.
Как рассчитать хи-квадрат для случаев, когда частоты меньше 5 или равны 0(прим.2). И подскажите, как перенести наблюдаемые и ожидаемые частоты из Эксель(указываются на одном листе) в Статистику (файл2).

Я еще прикрепил пару задач (в файле1), взятых из методичек для ВУЗов и прошу, если есть возможность и время, описать алгоритм их решения и построения таблиц кросстабуляции в Статистика 6.0, чтобы понять как решать подобные задачи применительно к результатам моего исследования.
Прикрепленные файлы
Прикрепленный файл  Результаты_лечения.doc ( 163 килобайт ) Кол-во скачиваний: 1260
Прикрепленный файл  как_перенести_данные_из_Эксель_в_Статистику6.0_.doc ( 32 килобайт ) Кол-во скачиваний: 1136
 


Signature
Cogito ergo sum
Nemo omnia potest scire
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
nokh
сообщение 12.02.2010 - 22:45
Сообщение #2





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Все категории делятся на номинальные (нельзя упорядочить) и упорядоченные (соответственно можно упорядочить smile.gif). Все ваши категории можно упорядочить - выстроить в каком-то направлении. А, скажем, различные нозологии или диагностические процедуры - нельзя, это - номинальные категории. Посмотрите еще тему, на которую я давал ссылку, там плав объяснял почему важно учитывать упорядоченность.
Общая схема анализа в присутствии упорядоченности будет такова:
1). Определиться насколько слабонасыщена таблица. Считается, что для критериев хи-квадрат (Chi-square) и G-критерия (отношение максимального правдоподобия - Likelihood ratio) минимальные ожидаемые не должны быть меньше 4, иначе эти критерии "плохо работают". Насколько плохо - зависит также от числа степеней свободы, поэтому лучше использовать более тонкие специализированные методы. Поставьте программу AtteStat ( http://attestatsoft.narod.ru/download.htm ), в Excel добавится её меню. Набейте таблицу абсолютных частот без краевых частот (сумм по строкам и рядам), т.е. для первой таблицы - 4 строки и 6 колонок. В модуле Кросстабуляция отметьте хи-квадрат, отношение правдоподобия (G-критерий) и обе диагностики - они подскажут можно ли использовать эти критерии (см. помощь). Если нельзя - нужно смотреть точными методами в StatXact (Non-Parametrics - Unordered RxC table - Chi-square и Likelihood ratio).
2). Посмотреть таблицу критерием типа хи-квадрат, лучше G-критерием. Этот критерий - полный аналог хи-квадрата и имеет теоретическое распределение хи-квадрат, однако более современный и хорошо обоснован теоретически в отличие от столетнего пирсоновского хи-квадрата. Поэтому везде где возможно его следует применять вместо хи-квадрата. Единственное исключение - если научный руководитель пожилой и встаёт на дыбы, т.к. его учили хи-квадрату, а от нового у него мозг взорвётся. Если тест окажется незначимым - не страшно, возможно просто не хватило мощности, т.к. число степеней свободы (degree of freedom = df) относительно велико (у Вас: df=(4-1)х(6-1)=15). Если значим - нужно разбираться за счёт чего, но здесь потребуется другой софт.
3). Проанализировать таблицу на тренд. В этом случае единицей анализа будет уже не ячейка таблицы (df=15), а один единственный тренд (df=1). Отсюда - большой выигрыш по мощности. Обязательно прочитайте сначала про это у Закса ( http://www.onlinedisk.ru/file/205482/ ), стр. 440. Также про критерий Вулфа и информационный критерий Кульбака (стр. 318-336 и стр. 444) - это и есть G-критерий. Аналог описанной проверки на тренд есть в StatXact. Нажмите в ней на вторую иконку (таблица) и подкорректируйте Setting: рядов - 4, колонок - 6, также нужно поставить обе галочки в Scores, т.к. у вас упорядочены и ряды и колонки. Получите таблицу, которую нужно заполнить. Веса упорядоченности можно выбрать просто 1,2,3 и.т.д., можно иначе. Далее Non-Parametrics - Double ordered RxC table. Проверьте обоими тестами, но Linear-by-linear assosiation - примерно то, что описано у Закса. Отрицательный знак статистики укажет на отрицательную связь, положительный - на положительную. Т.е. если вы закодировали оценки от 1 (неуд) до 4 (отл), а время начала процедуры - от 1 до 6, то отриц. статистически значимая связь укажет на то, что "чем больше время, тем ниже оценка".
4). По (2) и (3) можно сделать предварительные выводы и далее разбираться в тонкостях. В выходные покажу как это делать с помощью Statistica. Также почитайте пока у Ребровой про отношение шансов - понадобиться когда будем сворачивать исходную таблицу.

Сообщение отредактировал nokh - 13.02.2010 - 06:23
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pyrosmani
сообщение 14.02.2010 - 20:26
Сообщение #3





Группа: Пользователи
Сообщений: 94
Регистрация: 6.02.2010
Из: Клайпеда
Пользователь №: 10967



Цитата(nokh @ 12.02.2010 - 22:45) *
1). Определиться насколько слабонасыщена таблица. Считается, что для критериев хи-квадрат (Chi-square) и G-критерия (отношение максимального правдоподобия - Likelihood ratio) минимальные ожидаемые не должны быть меньше 4, иначе эти критерии "плохо работают". Насколько плохо - зависит также от числа степеней свободы, поэтому лучше использовать более тонкие специализированные методы.
.

Что касается минимальных ожидаемых сходную информацию дают и Реброва и Закс (большое спасибо за ссылку! сейчас изучаю). Моя ошибка состояла в том, что я полагал- значение наблюдаемых частот не должно быть меньше 5. Такие условия применения метода приводит В.М.Зайцев и соавт. в книге "Прикладная математическая статистика" изд-во, "Фолиант", СПтб-2003г, стр.256. Условие применимости по www.machinelearning.ru/wiki/index.php?title...сопряженности Eij<5 не более чем в 20% ячеек n>40 . При расчете в Excel ожидаемых частот у меня тоже по 1 табл. в ряде ячеек значения меньше 4, а то и меньше 1.

Цитата
Посмотреть таблицу критерием типа хи-квадрат, лучше G-критерием. Этот критерий - полный аналог хи-квадрата и имеет теоретическое распределение хи-квадрат, однако более современный и хорошо обоснован теоретически в отличие от столетнего пирсоновского хи-квадрата. Поэтому везде где возможно его следует применять вместо хи-квадрата. Единственное исключение - если научный руководитель пожилой и встаёт на дыбы, т.к. его учили хи-квадрату, а от нового у него мозг взорвётся. Если тест окажется незначимым - не страшно, возможно просто не хватило мощности, т.к. число степеней свободы (degree of freedom = df) относительно велико (у Вас: df=(4-1)х(6-1)=15). Если значим - нужно разбираться за счёт чего, но здесь потребуется другой софт.


Посмотрел обоими критериями, данные в файлах, сейчас попытаюсь посмотреть что предлагается в Заксе по ручному расчету критерия G. Кроме того, я решил если не получется проанализировать хи-квадрат, как того требуют условия, объединить сроки лечения в две группы: 1до 2 мес, и 3 и более мес (результаты тоже прикрепил в файлах - My Experim), тут у меня возникает закономерный вопрос, если по результатам расчетов р меньше 0,001 ( у меня в ряде случаев- 0,0001 и того меньше, как трактовать данные где р стремится к нулю (0,00001; 0,000001; 0,0000001) и что делать принимать нулевую гипотезу об отсутствии связи между результатом лечения и временем начала бужирования или отклонить ее. Кстати, по тому алгоритму который вы дали можно наверное сразу считать и строить таблицы в StatExact, в конечном итоге результаты по расчетам в нем и в Аттестате получаются одни и те же. Единственное, в чем пока не разобрался как в Атттестате задается величина р=0,05 или она по умолчанию в нем принята для расчетов и надо ли что-то менять в опции параметры указанных методов в Аттестате(файл - tab2 calc). Этот вопрос актуален и для тех, кто работает в Эксель. Я, например, считал в Эксель ожидаемые частоты. По крайней мере Реброва указывает, что расчет их должен обязательно предшествовать дальнейшим этапам статистич. обработки при вычислении хи-квадрат. Но к сожалению здесь, есть одна закавыка- необходимость введения формул ( но и это не так страшно), куда более сложно проводить трактовку результатов. Попытаюсь разобраться с результатами по G.

Цитата
Проанализировать таблицу на тренд. В этом случае единицей анализа будет уже не ячейка таблицы (df=15), а один единственный тренд (df=1). Отсюда - большой выигрыш по мощности. Обязательно прочитайте сначала про это у Закса ( http://www.onlinedisk.ru/file/205482/ ), стр. 440. Также про критерий Вулфа и информационный критерий Кульбака (стр. 318-336 и стр. 444) - это и есть G-критерий. Аналог описанной проверки на тренд есть в StatXact. Нажмите в ней на вторую иконку (таблица) и подкорректируйте Setting: рядов - 4, колонок - 6, также нужно поставить обе галочки в Scores, т.к. у вас упорядочены и ряды и колонки. Получите таблицу, которую нужно заполнить. Веса упорядоченности можно выбрать просто 1,2,3 и.т.д., можно иначе. Далее Non-Parametrics - Double ordered RxC table. Проверьте обоими тестами, но Linear-by-linear assosiation - примерно то, что описано у Закса. Отрицательный знак статистики укажет на отрицательную связь, положительный - на положительную. Т.е. если вы закодировали оценки от 1 (неуд) до 4 (отл), а время начала процедуры - от 1 до 6, то отриц. статистически значимая связь укажет на то, что "чем больше время, тем ниже оценка".


Оба теста выполнил, но затрудняюсь в трактовке результатов ( приложены в файлах по обеим таблицам), особенно что касается отрицательного и положительного знака статистик.



Прикрепленные файлы
Прикрепленный файл  tab1.rar ( 552,14 килобайт ) Кол-во скачиваний: 741
Прикрепленный файл  tab2.rar ( 338,22 килобайт ) Кол-во скачиваний: 669
Прикрепленный файл  tab___2_My_Experim.rar ( 211,24 килобайт ) Кол-во скачиваний: 559
Прикрепленный файл  _1_table_data_My_Experim.rar ( 259,41 килобайт ) Кол-во скачиваний: 571
Прикрепленный файл  tab1_Excel.rar ( 429,06 килобайт ) Кол-во скачиваний: 651
 


Signature
Cogito ergo sum
Nemo omnia potest scire
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- Pyrosmani   Построение таблиц сопряженности с пакете Статистика 6.0   7.02.2010 - 14:50
- - DoctorStat   Цитата(Pyrosmani @ 7.02.2010 - 14:50...   7.02.2010 - 17:35
|- - Игорь   Цитата(DoctorStat @ 7.02.2010 - 17:3...   8.02.2010 - 09:07
- - nokh   >Pyrosmani Уточните пожалуйста что Вам нужно: (...   8.02.2010 - 00:43
- - Pyrosmani   Большое спасибо всем кто откликнулся! 2 nokh:...   8.02.2010 - 21:07
- - Green   >Я еще прикрепил пару задач (в файле1), взятых ...   8.02.2010 - 22:09
- - nokh   Как уже заметила Green, входы вашей таблицы сопряж...   8.02.2010 - 23:56
- - Green   StatXact 8.0 -trial на 30 дней. У них там есть Sta...   9.02.2010 - 16:44
- - Pyrosmani   Спасибо Green и nokh! Извините за долгое мо...   11.02.2010 - 23:30
- - nokh   Все категории делятся на номинальные (нельзя упоря...   12.02.2010 - 22:45
|- - Pyrosmani   Цитата(nokh @ 12.02.2010 - 22:45) 1)...   14.02.2010 - 20:26
|- - nokh   1. По расчёту ожидаемых. Действительно, оба критер...   14.02.2010 - 23:11
|- - Pyrosmani   Цитата(nokh @ 14.02.2010 - 23:11) 1....   15.02.2010 - 01:54
- - Green   Pyrosmani, 1. StatXact - создает файл с расширени...   14.02.2010 - 21:42
|- - Pyrosmani   Цитата(Green @ 14.02.2010 - 21:42) P...   15.02.2010 - 00:37
- - Green   Т.е. у вас была когорта пациентов с разными времен...   15.02.2010 - 11:52
- - Green   И еще, навскидку Рисунок понятен?   15.02.2010 - 16:47
- - Green   Напишу сейчас, потом времени не будет. Из этого р...   16.02.2010 - 11:32
|- - nokh   Цитата(Green @ 16.02.2010 - 13:32) Н...   17.02.2010 - 07:25
||- - Pyrosmani   Nokh благодарю за помощь, которую Вы мне оказывает...   18.02.2010 - 10:26
||- - nokh   ЦитатаЕще, если Вас не затруднит, укажите пожалуйс...   18.02.2010 - 22:53
||- - Pyrosmani   Цитата(nokh @ 18.02.2010 - 22:53) So...   19.02.2010 - 00:06
||- - nokh   1 ч 37 мин - ставил точку в "Exact" + ве...   19.02.2010 - 00:54
||- - Pyrosmani   Цитата(nokh @ 19.02.2010 - 00:54) 1 ...   19.02.2010 - 02:35
||- - Игорь   Цитата(Pyrosmani @ 19.02.2010 - 03:3...   19.02.2010 - 06:52
|- - Pyrosmani   Цитата(Green @ 16.02.2010 - 11:32) И...   18.02.2010 - 12:26
- - Green   Да, в данном случае я ошиблась, если это "Вре...   22.02.2010 - 21:47
|- - Pyrosmani   Цитата(Green @ 22.02.2010 - 21:47) Д...   22.02.2010 - 23:32
|- - nokh   Цитата(Green @ 22.02.2010 - 23:47) N...   23.02.2010 - 10:54
|- - Pyrosmani   Цитата(nokh @ 23.02.2010 - 10:54) ...   24.02.2010 - 04:20
- - Green   Pyrosmani, спасибо! У меня еще один небольшой...   23.02.2010 - 09:24
|- - Pyrosmani   Цитата(Green @ 23.02.2010 - 09:24) P...   24.02.2010 - 06:11
- - Pyrosmani   При обследовании 113 пациентов, которым ранее пров...   28.02.2010 - 06:47


Добавить ответ в эту темуОткрыть тему