Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Построение таблиц сопряженности с пакете Статистика 6.0
Pyrosmani
сообщение 7.02.2010 - 14:50
Сообщение #1





Группа: Пользователи
Сообщений: 94
Регистрация: 6.02.2010
Из: Клайпеда
Пользователь №: 10967



Уважаемые коллеги! Подскажите пожалуйста, как построить таблицы кросстабуляции в пакете Статистика 6.0. В Excel приходится вводить формулы, что несколько затрудняет работу. В большинстве литературных источников построения в Статистике 6.0 ограничиваются примером четырехпольной таблицы. Подскажите можно ли строить таблицы, в которых учитывается более 2 значений для каждого признака ( прим.1) в модуле Таблицы сопряженности и как это сделать. В книге Ребровой О.Ю. не рассматриваются примеры построения таблиц с числом строк и столбцов более 2 (без итоговых) при наличии известных значений наблюдаемых частот, и предлагается воспользоваться модулем Логлинейный анализ.
Как рассчитать хи-квадрат для случаев, когда частоты меньше 5 или равны 0(прим.2). И подскажите, как перенести наблюдаемые и ожидаемые частоты из Эксель(указываются на одном листе) в Статистику (файл2).

Я еще прикрепил пару задач (в файле1), взятых из методичек для ВУЗов и прошу, если есть возможность и время, описать алгоритм их решения и построения таблиц кросстабуляции в Статистика 6.0, чтобы понять как решать подобные задачи применительно к результатам моего исследования.
Прикрепленные файлы
Прикрепленный файл  Результаты_лечения.doc ( 163 килобайт ) Кол-во скачиваний: 1261
Прикрепленный файл  как_перенести_данные_из_Эксель_в_Статистику6.0_.doc ( 32 килобайт ) Кол-во скачиваний: 1137
 


Signature
Cogito ergo sum
Nemo omnia potest scire
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
Green
сообщение 16.02.2010 - 11:32
Сообщение #2





Группа: Пользователи
Сообщений: 120
Регистрация: 27.08.2009
Пользователь №: 6284



Напишу сейчас, потом времени не будет.

Из этого рисунка неумолимо следует следующее:
1. Вы напрасно делали 4 уровня состояния, достаточно двух ( хорошо/плохо).
2. Никаких линейных трендов тут не будет.

==
Основные Ваши ошибки:
1. Шкала времени - количественная, Вы ее разбили на участки причем непропорциональные.( Т.е. уже исказили линейность)
2. Изучением событий и их появлением во времени занимается эпид. статистика, специальные методы, где считается, что события происходят по закону Пуассона во времени. Никакой линейности у Пуассона нет и не было никогда.
Таблицы частот обычно строятся для когорты, в которой все наблюдения закончены (Ваш случай). Изучается частоты, связанные с воздействием разных факторов, но не времени!. ( Ваша вторая таблица)
Когда всупает такой показатель, как время - используются таблицы дожития, Каплан-Майер и проч.
3. Попытка использовать стат.методы, не валидные для этих данных, к успеху не приведут.

Хорошие новости: Никто не мешает получить результаты типа
1. Объединив отл. и хор. в хороших, уд. и неуд. в плохих
Вероятность получить хор. результат при лечении до года... составляет 0.6645, ДИ(0.5835, 0.7389).
2. Лечение эффективно первые четыре месяца, отношение шансов 2.1892 ДИ (1.4605, 3.2911)
Все эти показатели не привязаны ко времени, частоты имеют биноминальное распределение.
3. Если хотите изучать наблюдения во времени, вам придется знакомится с survival analysis.

Рекомендация - не бойтесь статистики, это не использование сложных мат. методов, а в первую очередь, собственной головы и понимания своих данных. 60-70% -осознание данных и выбор адекватных методов, 5-10 % подготовка данных, 5-10% освоение стат. пакетов, 10% - оформление результата.

Впрочем, Вам решать smile.gif
Ваша вторая таблица может быть проанализирована, как предлагал nokh.

nokh, мои извинения.

Сообщение отредактировал Green - 16.02.2010 - 11:36


Signature
Это не кованализ :)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 17.02.2010 - 07:25
Сообщение #3





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Green @ 16.02.2010 - 13:32) *
Напишу сейчас, потом времени не будет.

Из этого рисунка неумолимо следует следующее:
1. Вы напрасно делали 4 уровня состояния, достаточно двух ( хорошо/плохо).
2. Никаких линейных трендов тут не будет.

==
Основные Ваши ошибки:
1. Шкала времени - количественная, Вы ее разбили на участки причем непропорциональные.( Т.е. уже исказили линейность)
2. Изучением событий и их появлением во времени занимается эпид. статистика, специальные методы, где считается, что события происходят по закону Пуассона во времени. Никакой линейности у Пуассона нет и не было никогда.
Таблицы частот обычно строятся для когорты, в которой все наблюдения закончены (Ваш случай). Изучается частоты, связанные с воздействием разных факторов, но не времени!. ( Ваша вторая таблица)
Когда всупает такой показатель, как время - используются таблицы дожития, Каплан-Майер и проч.
3. Попытка использовать стат.методы, не валидные для этих данных, к успеху не приведут.

...

nokh, мои извинения.


Мне извинения не нужны, Вы не в состоянии обидеть меня своей некомпетентностью. Извиняйтесь перед Pyrosmani - ведь это его Вы безответственно вводите в заблуждение, учите жизни и попрекаете какими-то ошибками (кстати, не первый раз на этом форуме), не имея на то морального права.




Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pyrosmani
сообщение 18.02.2010 - 10:26
Сообщение #4





Группа: Пользователи
Сообщений: 94
Регистрация: 6.02.2010
Из: Клайпеда
Пользователь №: 10967



Nokh благодарю за помощь, которую Вы мне оказываете! Распечатал и еще несколько раз прочел ваши выкладки по оценке р и методике проведения анализа, следуя вашим рекомендациям еще раз прочел по этому вопросу Закса и Реброву- все встало на свои места.
Теперь что касается выводов по 1 таблице- перекодировал как Вы и рекомендовали результаты (4 отл, 3 -хор. и т.д.) и заново выполнил расчет требуемых критериев с помощью AtteStat и StatExact. результаты в файле.

Выводы будут звучать так (если что-то неправильно, подкорректируйте пожалуйста):

Зависимость результатов лечения от времени, прошедшего с момента ожога до начала бужирования, проанализирована с использованием показателей непараметрической статистики: G2 (отношение максимального правдоподобия), диагностик Хабермана и Симонова-Цая, Lynear-By-Linear Association test (как перевести поточнее и есть ли какие-либо эквиваленты этому названию в отечественной литературе?). При этом выявлена статистически значимая отрицательная связь между временем, прошедшим от момента ожога до начала бужирования и результатами лечения (p<<0,001).

Указываю так значение р, потому что Реброва пишет на стр. 67 "Значение р принято указывать в тексте статей с точностью до 3 десятичных знаков, и только в случае если р меньше 0,001 в формате р<0,001 , т.е. в формате указания лишь интервала значений". Аналогичную форму представления результатов при р много меньше 0,001 находим у Закса на стр.442 (спасибо за Закса еще раз).
Еще, если Вас не затруднит, укажите пожалуйста пару современных источников, в которых Джи-тест указан в качестве предпочтительного для анализа таблиц сопряженности (боюсь, если сошлюсь только на Закса, будут проблемы; язык источников значения не имеет).

У меня возникло несколько вопросов: 1) что означают символы GE и LE в окошке Tail программы StatExact при расчете показателей; 2) правильно ли я понял, если возможны проблемы с аппроксимацией как у меня в 1 таблице- все равно можно считать, какая из диагностик Хабермана или Симонова более точная, или они характеризуют с разных сторон одно и тоже явление и мой вопрос не корректен; 3) как можно объяснить что тест Джонкхира-Терпстра в обоих случаях показывает положительные значения статистик, а Linear-By-Lynear при перекодировании по указанному выше методу (4-отл. и т.д) меняет знак с положительного на отрицательный.

Спасибо!

Сообщение отредактировал Pyrosmani - 18.02.2010 - 10:28


Signature
Cogito ergo sum
Nemo omnia potest scire
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 18.02.2010 - 22:53
Сообщение #5





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата
Еще, если Вас не затруднит, укажите пожалуйста пару современных источников, в которых Джи-тест указан в качестве предпочтительного для анализа таблиц сопряженности (боюсь, если сошлюсь только на Закса, будут проблемы; язык источников значения не имеет).

Sokal R.R., Rohlf F.J. Biometry: the principles and practice of statistics in biological research. N-Y: Freeman & Co, 1995. 850 p. В принципе столь авторитетного источника достаточно одного (см. рядом топик Игоря \"Лучшие книги по биометрии\"). Но посмотрю еще у Agresti, тоже должно быть, но не знаю в столь ли жесткой форме рекомендация.
Цитата
3) как можно объяснить что тест Джонкхира-Терпстра в обоих случаях показывает положительные значения статистик, а Linear-By-Lynear при перекодировании по указанному выше методу (4-отл. и т.д) меняет знак с положительного на отрицательный.

С критерием Джонкхира-Терпстры не работал, не знаю пока как он считает. Но на этом форуме он обсуждался. Где-то выше писал о 20 мин расчётов в StatXact точным методом. В этот раз Linear-By-Lynear ass. она считала 1 час 37 минут (!). Это на AMD Athlon 64 4000+ ("честных" - 2,61 ГГц).
Цитата
Что касается непропорциональности временных интервалов- это конечно моя недоработка и скорее всего я ее исправлю ( будут группы 1-2 мес, 3-4 мес, 5-6 мес, 7 и более мес).

Это не недоработка, а фантазии отдельных участников форума. Анализ таблиц сопряжённости не налагает никаких ограничений на структуру упорядоченности категорий. Хоть 1, 2-1000 и более 1000. Главное чтобы за этим стоял какой-то смысл: например, особенности смены клинической картины заболевания или избавление от ненасыщенности таблицы путём объединения соседних категорий. Ваш способ разбивки первой таблицы представляется как раз удачным. Не нужно ничего менять.

Пока всё. Я хочу описать и выложить здесь алгоритм анализа таблиц сопряжённости r x c на примере ваших данных - тема нужная, учитывая что топик посмотрела уже 1000 человек. Думаю в течение праздников. Постараюсь ответить там на другие Ваши вопросы. Там будет и кусочек по пакету Statistica, но только кусочек - использование модуля логлинейного анализа и анализ остатков. Графики я строю в другом пакете, поэтому поразбирайтесь со Statistica сами, думаю лучше всего подойдёт трёхмерная столбчатая диаграмма типа рисунка ниже. Кстати по ней хорошо видно наличие двух кластеров объектов, которые и натянули отрицательную связь между оценкой и временем.

Сообщение отредактировал nokh - 18.02.2010 - 23:26
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pyrosmani
сообщение 19.02.2010 - 00:06
Сообщение #6





Группа: Пользователи
Сообщений: 94
Регистрация: 6.02.2010
Из: Клайпеда
Пользователь №: 10967



Цитата(nokh @ 18.02.2010 - 22:53) *
Sokal R.R., Rohlf F.J. Biometry: the principles and practice of statistics in biological research. N-Y: Freeman & Co, 1995. 850 p. В принципе столь авторитетного источника достаточно одного (см. рядом топик Игоря \"Лучшие книги по биометрии\"). Но посмотрю еще у Agresti, тоже должно быть, но не знаю в столь ли жесткой форме рекомендация.


Спасибо за ссылку!

Цитата
С критерием Джонкхира-Терпстры не работал, не знаю пока как он считает. Но на этом форуме он обсуждался. Где-то выше писал о 20 мин расчётов в StatXact точным методом. В этот раз Linear-By-Lynear ass. она считала 1 час 37 минут (!). Это на AMD Athlon 64 4000+ ("честных" - 2,61 ГГц).


А что вы считали? Или может я не то посчитал (по крайней мере по времени у меня это не заняло 1 ч37 мин, поэтому начал сомневаться то ли я считал -хотя вроде следовал тому алгоритму, который описан Вами). Посмотрите пожалуйста скрины, которые я выложил в предыдущем топике. У меня это заняло минут 5 на стареньком Ровере 1999 года выпуска с 256 мегабайтами памяти, Пентиум 3. Вы ничего не написали по поводу выводов- правильно ли они сформулированы. Еще хотел уточнить правильно ли я понял выражение 3,02е-006 значит 3,02х10 в минус 6 степени.


Цитата
Пока всё. Я хочу описать и выложить здесь алгоритм анализа таблиц сопряжённости r x c на примере ваших данных - тема нужная, учитывая что топик посмотрела уже 1000 человек. Думаю в течение праздников. Постараюсь ответить там на другие Ваши вопросы. Там будет и кусочек по пакету Statistica, но только кусочек - использование модуля логлинейного анализа и анализ остатков. Графики я строю в другом пакете, поэтому поразбирайтесь со Statistica сами, думаю лучше всего подойдёт трёхмерная столбчатая диаграмма типа рисунка ниже. Кстати по ней хорошо видно наличие двух кластеров объектов, которые и натянули отрицательную связь между оценкой и временем.


Идея хорошая. У меня была идея создать силами специалистов в рамках этого форума электронное пособие по статистике для медиков хотя бы объединив и отредактировав топики по разным вопросам статистического анализа - было бы гораздо удобнее, чем просматривать все посты по теме- но это на усмотрение администрации и модераторов форума.

Что касается диаграммы - правильнее время до начала бужирования, в мес, почему я уже писал чуть выше Green.


Signature
Cogito ergo sum
Nemo omnia potest scire
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- Pyrosmani   Построение таблиц сопряженности с пакете Статистика 6.0   7.02.2010 - 14:50
- - DoctorStat   Цитата(Pyrosmani @ 7.02.2010 - 14:50...   7.02.2010 - 17:35
|- - Игорь   Цитата(DoctorStat @ 7.02.2010 - 17:3...   8.02.2010 - 09:07
- - nokh   >Pyrosmani Уточните пожалуйста что Вам нужно: (...   8.02.2010 - 00:43
- - Pyrosmani   Большое спасибо всем кто откликнулся! 2 nokh:...   8.02.2010 - 21:07
- - Green   >Я еще прикрепил пару задач (в файле1), взятых ...   8.02.2010 - 22:09
- - nokh   Как уже заметила Green, входы вашей таблицы сопряж...   8.02.2010 - 23:56
- - Green   StatXact 8.0 -trial на 30 дней. У них там есть Sta...   9.02.2010 - 16:44
- - Pyrosmani   Спасибо Green и nokh! Извините за долгое мо...   11.02.2010 - 23:30
- - nokh   Все категории делятся на номинальные (нельзя упоря...   12.02.2010 - 22:45
|- - Pyrosmani   Цитата(nokh @ 12.02.2010 - 22:45) 1)...   14.02.2010 - 20:26
|- - nokh   1. По расчёту ожидаемых. Действительно, оба критер...   14.02.2010 - 23:11
|- - Pyrosmani   Цитата(nokh @ 14.02.2010 - 23:11) 1....   15.02.2010 - 01:54
- - Green   Pyrosmani, 1. StatXact - создает файл с расширени...   14.02.2010 - 21:42
|- - Pyrosmani   Цитата(Green @ 14.02.2010 - 21:42) P...   15.02.2010 - 00:37
- - Green   Т.е. у вас была когорта пациентов с разными времен...   15.02.2010 - 11:52
- - Green   И еще, навскидку Рисунок понятен?   15.02.2010 - 16:47
- - Green   Напишу сейчас, потом времени не будет. Из этого р...   16.02.2010 - 11:32
|- - nokh   Цитата(Green @ 16.02.2010 - 13:32) Н...   17.02.2010 - 07:25
||- - Pyrosmani   Nokh благодарю за помощь, которую Вы мне оказывает...   18.02.2010 - 10:26
||- - nokh   ЦитатаЕще, если Вас не затруднит, укажите пожалуйс...   18.02.2010 - 22:53
||- - Pyrosmani   Цитата(nokh @ 18.02.2010 - 22:53) So...   19.02.2010 - 00:06
||- - nokh   1 ч 37 мин - ставил точку в "Exact" + ве...   19.02.2010 - 00:54
||- - Pyrosmani   Цитата(nokh @ 19.02.2010 - 00:54) 1 ...   19.02.2010 - 02:35
||- - Игорь   Цитата(Pyrosmani @ 19.02.2010 - 03:3...   19.02.2010 - 06:52
|- - Pyrosmani   Цитата(Green @ 16.02.2010 - 11:32) И...   18.02.2010 - 12:26
- - Green   Да, в данном случае я ошиблась, если это "Вре...   22.02.2010 - 21:47
|- - Pyrosmani   Цитата(Green @ 22.02.2010 - 21:47) Д...   22.02.2010 - 23:32
|- - nokh   Цитата(Green @ 22.02.2010 - 23:47) N...   23.02.2010 - 10:54
|- - Pyrosmani   Цитата(nokh @ 23.02.2010 - 10:54) ...   24.02.2010 - 04:20
- - Green   Pyrosmani, спасибо! У меня еще один небольшой...   23.02.2010 - 09:24
|- - Pyrosmani   Цитата(Green @ 23.02.2010 - 09:24) P...   24.02.2010 - 06:11
- - Pyrosmani   При обследовании 113 пациентов, которым ранее пров...   28.02.2010 - 06:47


Добавить ответ в эту темуОткрыть тему