Здравствуйте, гость ( Вход | Регистрация )
7.02.2010 - 14:50
Сообщение
#1
|
|
![]() Группа: Пользователи Сообщений: 94 Регистрация: 6.02.2010 Из: Клайпеда Пользователь №: 10967 |
Уважаемые коллеги! Подскажите пожалуйста, как построить таблицы кросстабуляции в пакете Статистика 6.0. В Excel приходится вводить формулы, что несколько затрудняет работу. В большинстве литературных источников построения в Статистике 6.0 ограничиваются примером четырехпольной таблицы. Подскажите можно ли строить таблицы, в которых учитывается более 2 значений для каждого признака ( прим.1) в модуле Таблицы сопряженности и как это сделать. В книге Ребровой О.Ю. не рассматриваются примеры построения таблиц с числом строк и столбцов более 2 (без итоговых) при наличии известных значений наблюдаемых частот, и предлагается воспользоваться модулем Логлинейный анализ.
Как рассчитать хи-квадрат для случаев, когда частоты меньше 5 или равны 0(прим.2). И подскажите, как перенести наблюдаемые и ожидаемые частоты из Эксель(указываются на одном листе) в Статистику (файл2). Я еще прикрепил пару задач (в файле1), взятых из методичек для ВУЗов и прошу, если есть возможность и время, описать алгоритм их решения и построения таблиц кросстабуляции в Статистика 6.0, чтобы понять как решать подобные задачи применительно к результатам моего исследования.
Прикрепленные файлы
Результаты_лечения.doc ( 163 килобайт )
Кол-во скачиваний: 1261
как_перенести_данные_из_Эксель_в_Статистику6.0_.doc ( 32 килобайт )
Кол-во скачиваний: 1137![]() Cogito ergo sum
Nemo omnia potest scire |
|
|
![]() |
![]() |
![]() |
16.02.2010 - 11:32
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284 |
Напишу сейчас, потом времени не будет.
Из этого рисунка неумолимо следует следующее: 1. Вы напрасно делали 4 уровня состояния, достаточно двух ( хорошо/плохо). 2. Никаких линейных трендов тут не будет. == Основные Ваши ошибки: 1. Шкала времени - количественная, Вы ее разбили на участки причем непропорциональные.( Т.е. уже исказили линейность) 2. Изучением событий и их появлением во времени занимается эпид. статистика, специальные методы, где считается, что события происходят по закону Пуассона во времени. Никакой линейности у Пуассона нет и не было никогда. Таблицы частот обычно строятся для когорты, в которой все наблюдения закончены (Ваш случай). Изучается частоты, связанные с воздействием разных факторов, но не времени!. ( Ваша вторая таблица) Когда всупает такой показатель, как время - используются таблицы дожития, Каплан-Майер и проч. 3. Попытка использовать стат.методы, не валидные для этих данных, к успеху не приведут. Хорошие новости: Никто не мешает получить результаты типа 1. Объединив отл. и хор. в хороших, уд. и неуд. в плохих Вероятность получить хор. результат при лечении до года... составляет 0.6645, ДИ(0.5835, 0.7389). 2. Лечение эффективно первые четыре месяца, отношение шансов 2.1892 ДИ (1.4605, 3.2911) Все эти показатели не привязаны ко времени, частоты имеют биноминальное распределение. 3. Если хотите изучать наблюдения во времени, вам придется знакомится с survival analysis. Рекомендация - не бойтесь статистики, это не использование сложных мат. методов, а в первую очередь, собственной головы и понимания своих данных. 60-70% -осознание данных и выбор адекватных методов, 5-10 % подготовка данных, 5-10% освоение стат. пакетов, 10% - оформление результата. Впрочем, Вам решать Ваша вторая таблица может быть проанализирована, как предлагал nokh. nokh, мои извинения. Сообщение отредактировал Green - 16.02.2010 - 11:36 ![]() Это не кованализ :)
|
|
|
![]() |
![]() |
17.02.2010 - 07:25
Сообщение
#3
|
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Напишу сейчас, потом времени не будет. Из этого рисунка неумолимо следует следующее: 1. Вы напрасно делали 4 уровня состояния, достаточно двух ( хорошо/плохо). 2. Никаких линейных трендов тут не будет. == Основные Ваши ошибки: 1. Шкала времени - количественная, Вы ее разбили на участки причем непропорциональные.( Т.е. уже исказили линейность) 2. Изучением событий и их появлением во времени занимается эпид. статистика, специальные методы, где считается, что события происходят по закону Пуассона во времени. Никакой линейности у Пуассона нет и не было никогда. Таблицы частот обычно строятся для когорты, в которой все наблюдения закончены (Ваш случай). Изучается частоты, связанные с воздействием разных факторов, но не времени!. ( Ваша вторая таблица) Когда всупает такой показатель, как время - используются таблицы дожития, Каплан-Майер и проч. 3. Попытка использовать стат.методы, не валидные для этих данных, к успеху не приведут. ... nokh, мои извинения. Мне извинения не нужны, Вы не в состоянии обидеть меня своей некомпетентностью. Извиняйтесь перед Pyrosmani - ведь это его Вы безответственно вводите в заблуждение, учите жизни и попрекаете какими-то ошибками (кстати, не первый раз на этом форуме), не имея на то морального права. |
|
|
![]() |
![]() |
18.02.2010 - 10:26
Сообщение
#4
|
|
![]() Группа: Пользователи Сообщений: 94 Регистрация: 6.02.2010 Из: Клайпеда Пользователь №: 10967 |
Nokh благодарю за помощь, которую Вы мне оказываете! Распечатал и еще несколько раз прочел ваши выкладки по оценке р и методике проведения анализа, следуя вашим рекомендациям еще раз прочел по этому вопросу Закса и Реброву- все встало на свои места.
Теперь что касается выводов по 1 таблице- перекодировал как Вы и рекомендовали результаты (4 отл, 3 -хор. и т.д.) и заново выполнил расчет требуемых критериев с помощью AtteStat и StatExact. результаты в файле. Выводы будут звучать так (если что-то неправильно, подкорректируйте пожалуйста): Зависимость результатов лечения от времени, прошедшего с момента ожога до начала бужирования, проанализирована с использованием показателей непараметрической статистики: G2 (отношение максимального правдоподобия), диагностик Хабермана и Симонова-Цая, Lynear-By-Linear Association test (как перевести поточнее и есть ли какие-либо эквиваленты этому названию в отечественной литературе?). При этом выявлена статистически значимая отрицательная связь между временем, прошедшим от момента ожога до начала бужирования и результатами лечения (p<<0,001). Указываю так значение р, потому что Реброва пишет на стр. 67 "Значение р принято указывать в тексте статей с точностью до 3 десятичных знаков, и только в случае если р меньше 0,001 в формате р<0,001 , т.е. в формате указания лишь интервала значений". Аналогичную форму представления результатов при р много меньше 0,001 находим у Закса на стр.442 (спасибо за Закса еще раз). Еще, если Вас не затруднит, укажите пожалуйста пару современных источников, в которых Джи-тест указан в качестве предпочтительного для анализа таблиц сопряженности (боюсь, если сошлюсь только на Закса, будут проблемы; язык источников значения не имеет). У меня возникло несколько вопросов: 1) что означают символы GE и LE в окошке Tail программы StatExact при расчете показателей; 2) правильно ли я понял, если возможны проблемы с аппроксимацией как у меня в 1 таблице- все равно можно считать, какая из диагностик Хабермана или Симонова более точная, или они характеризуют с разных сторон одно и тоже явление и мой вопрос не корректен; 3) как можно объяснить что тест Джонкхира-Терпстра в обоих случаях показывает положительные значения статистик, а Linear-By-Lynear при перекодировании по указанному выше методу (4-отл. и т.д) меняет знак с положительного на отрицательный. Спасибо! Сообщение отредактировал Pyrosmani - 18.02.2010 - 10:28 ![]() Cogito ergo sum
Nemo omnia potest scire |
|
|
![]() |
![]() |
18.02.2010 - 22:53
Сообщение
#5
|
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Цитата Еще, если Вас не затруднит, укажите пожалуйста пару современных источников, в которых Джи-тест указан в качестве предпочтительного для анализа таблиц сопряженности (боюсь, если сошлюсь только на Закса, будут проблемы; язык источников значения не имеет). Sokal R.R., Rohlf F.J. Biometry: the principles and practice of statistics in biological research. N-Y: Freeman & Co, 1995. 850 p. В принципе столь авторитетного источника достаточно одного (см. рядом топик Игоря \"Лучшие книги по биометрии\"). Но посмотрю еще у Agresti, тоже должно быть, но не знаю в столь ли жесткой форме рекомендация. Цитата 3) как можно объяснить что тест Джонкхира-Терпстра в обоих случаях показывает положительные значения статистик, а Linear-By-Lynear при перекодировании по указанному выше методу (4-отл. и т.д) меняет знак с положительного на отрицательный. С критерием Джонкхира-Терпстры не работал, не знаю пока как он считает. Но на этом форуме он обсуждался. Где-то выше писал о 20 мин расчётов в StatXact точным методом. В этот раз Linear-By-Lynear ass. она считала 1 час 37 минут (!). Это на AMD Athlon 64 4000+ ("честных" - 2,61 ГГц). Цитата Что касается непропорциональности временных интервалов- это конечно моя недоработка и скорее всего я ее исправлю ( будут группы 1-2 мес, 3-4 мес, 5-6 мес, 7 и более мес). Это не недоработка, а фантазии отдельных участников форума. Анализ таблиц сопряжённости не налагает никаких ограничений на структуру упорядоченности категорий. Хоть 1, 2-1000 и более 1000. Главное чтобы за этим стоял какой-то смысл: например, особенности смены клинической картины заболевания или избавление от ненасыщенности таблицы путём объединения соседних категорий. Ваш способ разбивки первой таблицы представляется как раз удачным. Не нужно ничего менять. Пока всё. Я хочу описать и выложить здесь алгоритм анализа таблиц сопряжённости r x c на примере ваших данных - тема нужная, учитывая что топик посмотрела уже 1000 человек. Думаю в течение праздников. Постараюсь ответить там на другие Ваши вопросы. Там будет и кусочек по пакету Statistica, но только кусочек - использование модуля логлинейного анализа и анализ остатков. Графики я строю в другом пакете, поэтому поразбирайтесь со Statistica сами, думаю лучше всего подойдёт трёхмерная столбчатая диаграмма типа рисунка ниже. Кстати по ней хорошо видно наличие двух кластеров объектов, которые и натянули отрицательную связь между оценкой и временем. Сообщение отредактировал nokh - 18.02.2010 - 23:26 |
|
|
![]() |
![]() |
19.02.2010 - 00:06
Сообщение
#6
|
|
![]() Группа: Пользователи Сообщений: 94 Регистрация: 6.02.2010 Из: Клайпеда Пользователь №: 10967 |
Sokal R.R., Rohlf F.J. Biometry: the principles and practice of statistics in biological research. N-Y: Freeman & Co, 1995. 850 p. В принципе столь авторитетного источника достаточно одного (см. рядом топик Игоря \"Лучшие книги по биометрии\"). Но посмотрю еще у Agresti, тоже должно быть, но не знаю в столь ли жесткой форме рекомендация. Спасибо за ссылку! Цитата С критерием Джонкхира-Терпстры не работал, не знаю пока как он считает. Но на этом форуме он обсуждался. Где-то выше писал о 20 мин расчётов в StatXact точным методом. В этот раз Linear-By-Lynear ass. она считала 1 час 37 минут (!). Это на AMD Athlon 64 4000+ ("честных" - 2,61 ГГц). А что вы считали? Или может я не то посчитал (по крайней мере по времени у меня это не заняло 1 ч37 мин, поэтому начал сомневаться то ли я считал -хотя вроде следовал тому алгоритму, который описан Вами). Посмотрите пожалуйста скрины, которые я выложил в предыдущем топике. У меня это заняло минут 5 на стареньком Ровере 1999 года выпуска с 256 мегабайтами памяти, Пентиум 3. Вы ничего не написали по поводу выводов- правильно ли они сформулированы. Еще хотел уточнить правильно ли я понял выражение 3,02е-006 значит 3,02х10 в минус 6 степени. Цитата Пока всё. Я хочу описать и выложить здесь алгоритм анализа таблиц сопряжённости r x c на примере ваших данных - тема нужная, учитывая что топик посмотрела уже 1000 человек. Думаю в течение праздников. Постараюсь ответить там на другие Ваши вопросы. Там будет и кусочек по пакету Statistica, но только кусочек - использование модуля логлинейного анализа и анализ остатков. Графики я строю в другом пакете, поэтому поразбирайтесь со Statistica сами, думаю лучше всего подойдёт трёхмерная столбчатая диаграмма типа рисунка ниже. Кстати по ней хорошо видно наличие двух кластеров объектов, которые и натянули отрицательную связь между оценкой и временем. Идея хорошая. У меня была идея создать силами специалистов в рамках этого форума электронное пособие по статистике для медиков хотя бы объединив и отредактировав топики по разным вопросам статистического анализа - было бы гораздо удобнее, чем просматривать все посты по теме- но это на усмотрение администрации и модераторов форума. Что касается диаграммы - правильнее время до начала бужирования, в мес, почему я уже писал чуть выше Green. ![]() Cogito ergo sum
Nemo omnia potest scire |
|
|
![]() |
![]() |
19.02.2010 - 00:54
Сообщение
#7
|
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
1 ч 37 мин - ставил точку в "Exact" + веса для времени закодировал иначе. Но это не принципиально, всё равно P<0,001. Просто забавно.
3,02е-006 значит 3,02х10 в минус 6 степени Электронное пособие по материалам форума - титанический труд, требующий массы времени, оплаты и высокой квалификации составителя для отделения зёрен от плевел. Последнее проблематично даже теоретически, учитывая сам формат форума. И корифеи могут ошибаться и недопонимать, и у новичков могут быть здравые интересные идеи, и признанные авторитеты в силу возраста могут непредсказуемо утрачивать адекватность, а заинтересованные личности могут использовать те или иные темы исключительно для пиара. И.т.п. Всё это так или иначе встречается на этом форуме. Как в этом разобраться? Проще с нуля пособие написать. Остальное - потом. |
|
|
![]() |
![]() |
19.02.2010 - 02:35
Сообщение
#8
|
|
![]() Группа: Пользователи Сообщений: 94 Регистрация: 6.02.2010 Из: Клайпеда Пользователь №: 10967 |
1 ч 37 мин - ставил точку в "Exact" + веса для времени закодировал иначе. Но это не принципиально, всё равно P<0,001. Просто забавно. 3,02е-006 значит 3,02х10 в минус 6 степени Электронное пособие по материалам форума - титанический труд, требующий массы времени, оплаты и высокой квалификации составителя для отделения зёрен от плевел. Последнее проблематично даже теоретически, учитывая сам формат форума. И корифеи могут ошибаться и недопонимать, и у новичков могут быть здравые интересные идеи, и признанные авторитеты в силу возраста могут непредсказуемо утрачивать адекватность, а заинтересованные личности могут использовать те или иные темы исключительно для пиара. И.т.п. Всё это так или иначе встречается на этом форуме. Как в этом разобраться? Проще с нуля пособие написать. Остальное - потом. Действительно, как я не догадался поставить точку в Exact, Вы же указывали, что считать точными методами будет долго по времени и что в крайнем случае можно использовать тест Монте-Карло, который как Вы писали хуже чем точные методы, но лучше чем асимптотика. Как только поставил точку- комп призадумался и счетчик времени неумолимо начал отсчитывать минуты, а потом программа выдала Error: Insufficient memory to solve the problem, Either increase the memory limit or try Monte Carlo.. Будет время выгружу лишние процессы и и посчитаю на стац.компе. Монте_Карло в принципе дал тот же статистически значимый рез-т и отриц.связь как при асимптотич. исслед. А график Вы в каком пакете строили и подойдет ли он для новичка? ![]() Cogito ergo sum
Nemo omnia potest scire |
|
|
![]() |
![]() |
19.02.2010 - 06:52
Сообщение
#9
|
|
![]() Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040 |
... что считать точными методами будет долго по времени и что в крайнем случае можно использовать тест Монте-Карло ... Это небольшое заблуждение, что, раз затруднительно посчитать точными методами, поможет Монте-Карло. Например, в одном из примеров, показанных в данной теме, оценка потребного числа таблиц дает около 770 млн. Это столько надо сгенерировать для Монте-Карло, чтобы получить адекватный вывод. Монте-Карло - это тоже "долго по времени". Если диагностики показывают, что асимптотика допустима, использование асимптотики показано в данном случае (например, по хи-квадрат результат p = 1*10-7, точный метод или Монте-Карло дадут, скажем, p = 1*10-8 - явно не стоит полутора часов работы). ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
|
![]() |
![]() |
Pyrosmani Построение таблиц сопряженности с пакете Статистика 6.0 7.02.2010 - 14:50
DoctorStat Цитата(Pyrosmani @ 7.02.2010 - 14:50... 7.02.2010 - 17:35
Игорь Цитата(DoctorStat @ 7.02.2010 - 17:3... 8.02.2010 - 09:07
nokh >Pyrosmani
Уточните пожалуйста что Вам нужно: (... 8.02.2010 - 00:43
Pyrosmani Большое спасибо всем кто откликнулся!
2 nokh:... 8.02.2010 - 21:07
Green >Я еще прикрепил пару задач (в файле1), взятых ... 8.02.2010 - 22:09
nokh Как уже заметила Green, входы вашей таблицы сопряж... 8.02.2010 - 23:56
Green StatXact 8.0 -trial на 30 дней.
У них там есть Sta... 9.02.2010 - 16:44
Pyrosmani Спасибо Green и nokh!
Извините за долгое мо... 11.02.2010 - 23:30
nokh Все категории делятся на номинальные (нельзя упоря... 12.02.2010 - 22:45
Pyrosmani Цитата(nokh @ 12.02.2010 - 22:45) 1)... 14.02.2010 - 20:26
nokh 1. По расчёту ожидаемых. Действительно, оба критер... 14.02.2010 - 23:11
Pyrosmani Цитата(nokh @ 14.02.2010 - 23:11) 1.... 15.02.2010 - 01:54
Green Pyrosmani,
1. StatXact - создает файл с расширени... 14.02.2010 - 21:42
Pyrosmani Цитата(Green @ 14.02.2010 - 21:42) P... 15.02.2010 - 00:37
Green Т.е. у вас была когорта пациентов с разными времен... 15.02.2010 - 11:52
Green И еще, навскидку
Рисунок понятен? 15.02.2010 - 16:47
Pyrosmani Цитата(Green @ 16.02.2010 - 11:32) И... 18.02.2010 - 12:26
Green Да, в данном случае я ошиблась, если это "Вре... 22.02.2010 - 21:47
Pyrosmani Цитата(Green @ 22.02.2010 - 21:47) Д... 22.02.2010 - 23:32
nokh Цитата(Green @ 22.02.2010 - 23:47) N... 23.02.2010 - 10:54
Pyrosmani Цитата(nokh @ 23.02.2010 - 10:54) ... 24.02.2010 - 04:20
Green Pyrosmani, спасибо!
У меня еще один небольшой... 23.02.2010 - 09:24
Pyrosmani Цитата(Green @ 23.02.2010 - 09:24) P... 24.02.2010 - 06:11
Pyrosmani При обследовании 113 пациентов, которым ранее пров... 28.02.2010 - 06:47![]() ![]() |