Построение таблиц сопряженности с пакете Статистика 6.0

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

Построение таблиц сопряженности с пакете Статистика 6.0

Pyrosmani Просмотр профиля	7.02.2010 - 14:50 Сообщение #1
Группа: Пользователи Сообщений: 94 Регистрация: 6.02.2010 Из: Клайпеда Пользователь №: 10967	Уважаемые коллеги! Подскажите пожалуйста, как построить таблицы кросстабуляции в пакете Статистика 6.0. В Excel приходится вводить формулы, что несколько затрудняет работу. В большинстве литературных источников построения в Статистике 6.0 ограничиваются примером четырехпольной таблицы. Подскажите можно ли строить таблицы, в которых учитывается более 2 значений для каждого признака ( прим.1) в модуле Таблицы сопряженности и как это сделать. В книге Ребровой О.Ю. не рассматриваются примеры построения таблиц с числом строк и столбцов более 2 (без итоговых) при наличии известных значений наблюдаемых частот, и предлагается воспользоваться модулем Логлинейный анализ. Как рассчитать хи-квадрат для случаев, когда частоты меньше 5 или равны 0(прим.2). И подскажите, как перенести наблюдаемые и ожидаемые частоты из Эксель(указываются на одном листе) в Статистику (файл2). Я еще прикрепил пару задач (в файле1), взятых из методичек для ВУЗов и прошу, если есть возможность и время, описать алгоритм их решения и построения таблиц кросстабуляции в Статистика 6.0, чтобы понять как решать подобные задачи применительно к результатам моего исследования. Прикрепленные файлы Результаты_лечения.doc ( 163 килобайт ) Кол-во скачиваний: 1260 как_перенести_данные_из_Эксель_в_Статистику6.0_.doc ( 32 килобайт ) Кол-во скачиваний: 1136 Cogito ergo sum Nemo omnia potest scire

Ответов

nokh Просмотр профиля	12.02.2010 - 22:45 Сообщение #2
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Все категории делятся на номинальные (нельзя упорядочить) и упорядоченные (соответственно можно упорядочить ). Все ваши категории можно упорядочить - выстроить в каком-то направлении. А, скажем, различные нозологии или диагностические процедуры - нельзя, это - номинальные категории. Посмотрите еще тему, на которую я давал ссылку, там плав объяснял почему важно учитывать упорядоченность. Общая схема анализа в присутствии упорядоченности будет такова: 1). Определиться насколько слабонасыщена таблица. Считается, что для критериев хи-квадрат (Chi-square) и G-критерия (отношение максимального правдоподобия - Likelihood ratio) минимальные ожидаемые не должны быть меньше 4, иначе эти критерии "плохо работают". Насколько плохо - зависит также от числа степеней свободы, поэтому лучше использовать более тонкие специализированные методы. Поставьте программу AtteStat ( http://attestatsoft.narod.ru/download.htm ), в Excel добавится её меню. Набейте таблицу абсолютных частот без краевых частот (сумм по строкам и рядам), т.е. для первой таблицы - 4 строки и 6 колонок. В модуле Кросстабуляция отметьте хи-квадрат, отношение правдоподобия (G-критерий) и обе диагностики - они подскажут можно ли использовать эти критерии (см. помощь). Если нельзя - нужно смотреть точными методами в StatXact (Non-Parametrics - Unordered RxC table - Chi-square и Likelihood ratio). 2). Посмотреть таблицу критерием типа хи-квадрат, лучше G-критерием. Этот критерий - полный аналог хи-квадрата и имеет теоретическое распределение хи-квадрат, однако более современный и хорошо обоснован теоретически в отличие от столетнего пирсоновского хи-квадрата. Поэтому везде где возможно его следует применять вместо хи-квадрата. Единственное исключение - если научный руководитель пожилой и встаёт на дыбы, т.к. его учили хи-квадрату, а от нового у него мозг взорвётся. Если тест окажется незначимым - не страшно, возможно просто не хватило мощности, т.к. число степеней свободы (degree of freedom = df) относительно велико (у Вас: df=(4-1)х(6-1)=15). Если значим - нужно разбираться за счёт чего, но здесь потребуется другой софт. 3). Проанализировать таблицу на тренд. В этом случае единицей анализа будет уже не ячейка таблицы (df=15), а один единственный тренд (df=1). Отсюда - большой выигрыш по мощности. Обязательно прочитайте сначала про это у Закса ( http://www.onlinedisk.ru/file/205482/ ), стр. 440. Также про критерий Вулфа и информационный критерий Кульбака (стр. 318-336 и стр. 444) - это и есть G-критерий. Аналог описанной проверки на тренд есть в StatXact. Нажмите в ней на вторую иконку (таблица) и подкорректируйте Setting: рядов - 4, колонок - 6, также нужно поставить обе галочки в Scores, т.к. у вас упорядочены и ряды и колонки. Получите таблицу, которую нужно заполнить. Веса упорядоченности можно выбрать просто 1,2,3 и.т.д., можно иначе. Далее Non-Parametrics - Double ordered RxC table. Проверьте обоими тестами, но Linear-by-linear assosiation - примерно то, что описано у Закса. Отрицательный знак статистики укажет на отрицательную связь, положительный - на положительную. Т.е. если вы закодировали оценки от 1 (неуд) до 4 (отл), а время начала процедуры - от 1 до 6, то отриц. статистически значимая связь укажет на то, что "чем больше время, тем ниже оценка". 4). По (2) и (3) можно сделать предварительные выводы и далее разбираться в тонкостях. В выходные покажу как это делать с помощью Statistica. Также почитайте пока у Ребровой про отношение шансов - понадобиться когда будем сворачивать исходную таблицу. Сообщение отредактировал nokh - 13.02.2010 - 06:23

Pyrosmani Просмотр профиля	14.02.2010 - 20:26 Сообщение #3
Группа: Пользователи Сообщений: 94 Регистрация: 6.02.2010 Из: Клайпеда Пользователь №: 10967	Цитата(nokh @ 12.02.2010 - 22:45) 1). Определиться насколько слабонасыщена таблица. Считается, что для критериев хи-квадрат (Chi-square) и G-критерия (отношение максимального правдоподобия - Likelihood ratio) минимальные ожидаемые не должны быть меньше 4, иначе эти критерии "плохо работают". Насколько плохо - зависит также от числа степеней свободы, поэтому лучше использовать более тонкие специализированные методы. . Что касается минимальных ожидаемых сходную информацию дают и Реброва и Закс (большое спасибо за ссылку! сейчас изучаю). Моя ошибка состояла в том, что я полагал- значение наблюдаемых частот не должно быть меньше 5. Такие условия применения метода приводит В.М.Зайцев и соавт. в книге "Прикладная математическая статистика" изд-во, "Фолиант", СПтб-2003г, стр.256. Условие применимости по www.machinelearning.ru/wiki/index.php?title...сопряженности Eij<5 не более чем в 20% ячеек n>40 . При расчете в Excel ожидаемых частот у меня тоже по 1 табл. в ряде ячеек значения меньше 4, а то и меньше 1. Цитата Посмотреть таблицу критерием типа хи-квадрат, лучше G-критерием. Этот критерий - полный аналог хи-квадрата и имеет теоретическое распределение хи-квадрат, однако более современный и хорошо обоснован теоретически в отличие от столетнего пирсоновского хи-квадрата. Поэтому везде где возможно его следует применять вместо хи-квадрата. Единственное исключение - если научный руководитель пожилой и встаёт на дыбы, т.к. его учили хи-квадрату, а от нового у него мозг взорвётся. Если тест окажется незначимым - не страшно, возможно просто не хватило мощности, т.к. число степеней свободы (degree of freedom = df) относительно велико (у Вас: df=(4-1)х(6-1)=15). Если значим - нужно разбираться за счёт чего, но здесь потребуется другой софт. Посмотрел обоими критериями, данные в файлах, сейчас попытаюсь посмотреть что предлагается в Заксе по ручному расчету критерия G. Кроме того, я решил если не получется проанализировать хи-квадрат, как того требуют условия, объединить сроки лечения в две группы: 1до 2 мес, и 3 и более мес (результаты тоже прикрепил в файлах - My Experim), тут у меня возникает закономерный вопрос, если по результатам расчетов р меньше 0,001 ( у меня в ряде случаев- 0,0001 и того меньше, как трактовать данные где р стремится к нулю (0,00001; 0,000001; 0,0000001) и что делать принимать нулевую гипотезу об отсутствии связи между результатом лечения и временем начала бужирования или отклонить ее. Кстати, по тому алгоритму который вы дали можно наверное сразу считать и строить таблицы в StatExact, в конечном итоге результаты по расчетам в нем и в Аттестате получаются одни и те же. Единственное, в чем пока не разобрался как в Атттестате задается величина р=0,05 или она по умолчанию в нем принята для расчетов и надо ли что-то менять в опции параметры указанных методов в Аттестате(файл - tab2 calc). Этот вопрос актуален и для тех, кто работает в Эксель. Я, например, считал в Эксель ожидаемые частоты. По крайней мере Реброва указывает, что расчет их должен обязательно предшествовать дальнейшим этапам статистич. обработки при вычислении хи-квадрат. Но к сожалению здесь, есть одна закавыка- необходимость введения формул ( но и это не так страшно), куда более сложно проводить трактовку результатов. Попытаюсь разобраться с результатами по G. Цитата Проанализировать таблицу на тренд. В этом случае единицей анализа будет уже не ячейка таблицы (df=15), а один единственный тренд (df=1). Отсюда - большой выигрыш по мощности. Обязательно прочитайте сначала про это у Закса ( http://www.onlinedisk.ru/file/205482/ ), стр. 440. Также про критерий Вулфа и информационный критерий Кульбака (стр. 318-336 и стр. 444) - это и есть G-критерий. Аналог описанной проверки на тренд есть в StatXact. Нажмите в ней на вторую иконку (таблица) и подкорректируйте Setting: рядов - 4, колонок - 6, также нужно поставить обе галочки в Scores, т.к. у вас упорядочены и ряды и колонки. Получите таблицу, которую нужно заполнить. Веса упорядоченности можно выбрать просто 1,2,3 и.т.д., можно иначе. Далее Non-Parametrics - Double ordered RxC table. Проверьте обоими тестами, но Linear-by-linear assosiation - примерно то, что описано у Закса. Отрицательный знак статистики укажет на отрицательную связь, положительный - на положительную. Т.е. если вы закодировали оценки от 1 (неуд) до 4 (отл), а время начала процедуры - от 1 до 6, то отриц. статистически значимая связь укажет на то, что "чем больше время, тем ниже оценка". Оба теста выполнил, но затрудняюсь в трактовке результатов ( приложены в файлах по обеим таблицам), особенно что касается отрицательного и положительного знака статистик. Прикрепленные файлы tab1.rar ( 552,14 килобайт ) Кол-во скачиваний: 741 tab2.rar ( 338,22 килобайт ) Кол-во скачиваний: 669 tab___2_My_Experim.rar ( 211,24 килобайт ) Кол-во скачиваний: 559 _1_table_data_My_Experim.rar ( 259,41 килобайт ) Кол-во скачиваний: 571 tab1_Excel.rar ( 429,06 килобайт ) Кол-во скачиваний: 651 Cogito ergo sum Nemo omnia potest scire

Сообщений в этой теме

Pyrosmani Построение таблиц сопряженности с пакете Статистика 6.0 7.02.2010 - 14:50

DoctorStat Цитата(Pyrosmani @ 7.02.2010 - 14:50... 7.02.2010 - 17:35

Игорь Цитата(DoctorStat @ 7.02.2010 - 17:3... 8.02.2010 - 09:07

nokh >Pyrosmani Уточните пожалуйста что Вам нужно: (... 8.02.2010 - 00:43

Pyrosmani Большое спасибо всем кто откликнулся! 2 nokh:... 8.02.2010 - 21:07

Green >Я еще прикрепил пару задач (в файле1), взятых ... 8.02.2010 - 22:09

nokh Как уже заметила Green, входы вашей таблицы сопряж... 8.02.2010 - 23:56

Green StatXact 8.0 -trial на 30 дней. У них там есть Sta... 9.02.2010 - 16:44

Pyrosmani Спасибо Green и nokh! Извините за долгое мо... 11.02.2010 - 23:30

nokh Все категории делятся на номинальные (нельзя упоря... 12.02.2010 - 22:45

Pyrosmani Цитата(nokh @ 12.02.2010 - 22:45) 1)... 14.02.2010 - 20:26

nokh 1. По расчёту ожидаемых. Действительно, оба критер... 14.02.2010 - 23:11

Pyrosmani Цитата(nokh @ 14.02.2010 - 23:11) 1.... 15.02.2010 - 01:54

Green Pyrosmani, 1. StatXact - создает файл с расширени... 14.02.2010 - 21:42

Pyrosmani Цитата(Green @ 14.02.2010 - 21:42) P... 15.02.2010 - 00:37

Green Т.е. у вас была когорта пациентов с разными времен... 15.02.2010 - 11:52

Green И еще, навскидку Рисунок понятен? 15.02.2010 - 16:47

Green Напишу сейчас, потом времени не будет. Из этого р... 16.02.2010 - 11:32

nokh Цитата(Green @ 16.02.2010 - 13:32) Н... 17.02.2010 - 07:25

Pyrosmani Nokh благодарю за помощь, которую Вы мне оказывает... 18.02.2010 - 10:26

nokh ЦитатаЕще, если Вас не затруднит, укажите пожалуйс... 18.02.2010 - 22:53

Pyrosmani Цитата(nokh @ 18.02.2010 - 22:53) So... 19.02.2010 - 00:06

nokh 1 ч 37 мин - ставил точку в "Exact" + ве... 19.02.2010 - 00:54

Pyrosmani Цитата(nokh @ 19.02.2010 - 00:54) 1 ... 19.02.2010 - 02:35

Игорь Цитата(Pyrosmani @ 19.02.2010 - 03:3... 19.02.2010 - 06:52

Pyrosmani Цитата(Green @ 16.02.2010 - 11:32) И... 18.02.2010 - 12:26

Green Да, в данном случае я ошиблась, если это "Вре... 22.02.2010 - 21:47

Pyrosmani Цитата(Green @ 22.02.2010 - 21:47) Д... 22.02.2010 - 23:32

nokh Цитата(Green @ 22.02.2010 - 23:47) N... 23.02.2010 - 10:54

Pyrosmani Цитата(nokh @ 23.02.2010 - 10:54) ... 24.02.2010 - 04:20

Green Pyrosmani, спасибо! У меня еще один небольшой... 23.02.2010 - 09:24

Pyrosmani Цитата(Green @ 23.02.2010 - 09:24) P... 24.02.2010 - 06:11

Pyrosmani При обследовании 113 пациентов, которым ранее пров... 28.02.2010 - 06:47

« Предыдущая тема · Медицинская статистика · Следующая тема »

Режим отображения: Переключить на: Стандартный · Переключить на: Линейный · Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум