Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

3 страниц V  < 1 2 3 >  
Добавить ответ в эту темуОткрыть тему
> Какой статистический метод применить?
DrgLena
сообщение 25.04.2008 - 23:47
Сообщение #16





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Для второй группы животных гистограмма выглядит так, как на картинке. Если увеличить число наблюдений, повторить число этих же наблюдений, форма распределения не изменится, но оценка нормальности по двум приведеным тестам изменится. Это что похоже на нормальное распределение? Среднее арифметическое его может характеризовать?
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 26.04.2008 - 00:02
Сообщение #17





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Гистограмма та же, распределение по двум тестам отличается от нормального. На основании чего вы считаете, что АД нормально распределено у популяции собак ? У меня есть выборочные данные по АД здоровых и больных людей, мне их генерировать не нужно, и я по ним не могу сказать, что они пришли из нормального распределения
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 26.04.2008 - 11:29
Сообщение #18





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(DrgLena @ 26.04.2008 - 01:02) *
Гистограмма та же, распределение по двум тестам отличается от нормального. На основании чего вы считаете, что АД нормально распределено у популяции собак ? У меня есть выборочные данные по АД здоровых и больных людей, мне их генерировать не нужно, и я по ним не могу сказать, что они пришли из нормального распределения

Вы когда-нибудь пробовали брать случайные выборки из сгенерированного нормального распределения? А вот попробуйте, получите точно такие же картинки и тогда поймете, почему нельзя проверять тип распределения на выборке. Это, вообще-то, вводный курс статистики, основы. Например, присоединенная картинка - это случайная выборка размером 6 (как и в примере выше) из нормальной популяции со средним 200 и стандратным отклонением 20. Ну как, выглядит эта выборка как нормальная? Следуя Вашей логике, если увеличить размер выборки, то форма останется такой же. А популяция, из которой она пришла нормальная. Поэтому Ваше предположение ошибочно.
Так что если у Вас есть выборочные данные, причем это небольшая группа, то по ним ничего о распределении популяции сказать нельзя. Собственно поэтому и стандартное описание медико-биологических данных начинается с описания распределения параметра в популяции.
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 26.04.2008 - 12:56
Сообщение #19





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



У меня, возможно недостаточные знания в области статистики, поэтому я считаю, что на выборке из 6 собак нельзя сделать вывод о нормальном распределении АД в популяции, и поэтому условия корректного применения критерия стьюдента не выполнены. Одним из необходимых условий корректного применения критерия Стьюдента является нормальное распределения показателя в обеих группах (т.е. обе из нормального). Часто, по моим собственным данным у больных до лечения нормального распределения нет, после лечения есть. В таком случае, по вашему мнению, критерий стьюдента для связанных выборок применить можно? n=169. Есть гистограммы ( я с них и начинаю любой анализ).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 26.04.2008 - 14:18
Сообщение #20





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



На выборке из 6 наблюдений нельзя сделать вывод о том, что распределение данных в популяции нормальное или какое-то иное. Аналогично и нельзя исключить нормальность распределения. Основой корректного прменения критерия Стьюдента является нормальное распределение показателя в ПОПУЛЯЦИИ (как-то никто не замечает этого слова, по косой, что-ли читают?), а не в ВЫБОРКЕ. Кстати в другой ветке некоторое время назад я уже приводил данные по вероятности признания распределения нормальным/не нормальным в зависимости от априорной вероятности нормального распределения. Соответственно, утверждение, что "одним из необходимых условий корректного применения критерия Стьюдента является нормальное распределения показателя в обеих группах" является ошибочным. Грубо говоря, если при помощи теста на "нормальность" Вы получаете р=0,04, т.е. в случае нормального распределения такая форма выборки получилась бы в 4% случаев и у Вас есть данные, что в популяции распределение нормальное, то этот тест никоим образом не меняет Вашего отношения к распределению данных в популяции (4% довольно высокая вероятность - 4 из 100 выборок).
Вы должны знать распределение показателя в популяции прежде, чем выбирается метод статистического исследования. Если выборка достаточно большая (например, тысячи), то на ней можно оценить нормальность распределения. Именно поэтому я выше писал, что прежде, чем проводить какие-либо исследования надо знать, как распределен параметр в популяции. Крупные популяционные исследования показывают, что уровень АД в популяции распределен по нормальному закону, соответственно, если выборка из популяции, то можно использовать критерий Стьюдента). С другой стороны, если это взяты лица с САД>160 мм рт.ст, то правило нормальности, очевидно выполняться не будет (это будет кусок распределения). Тогда надо на основании тех же популяционных исследований смотреть, какое распределение среди лиц, у кого АД более 160. И попробовать вначале нормализовать эти данные (например, для ТГ в популяции нет нормальности, но распределение логнормальное, аналогичным образом нормализуются и большинство гормональных параметров). Собственно, одна из задач анализа литературы и раздела "Эпидемиология и распространенность" как раз определить параметры измеряемых показателей.
Что касается до/после лечения, то характеристики распределения до и после нас вообще не интересуют, а интересует распределение разностей до/после. Чисто теоретически распределение разностей должно быть нормальным (поскольку колебания должны быть случайными). Если оно не нормальное, это означает, что в группе кроме случайной ошибки действует еще какой-то источник вариабельности (например, пациенты по-разному реагируют на препарат). При том количестве наблюдений, которое Вы приводите, проверка типа распределения уже будет возможной, однако, повторюсь, если проверка (лучше QQ или NP графиком, гистограммы сильно зависят от размеров классов) показывает выраженные отклонения от нормальности следует разобраться в их причине и только если причин найти не удается и мы уверены в том, что это - не нормальное распределение следует использовать непараметрику.
Теперь два слова, почему непараметрика не должна использоваться по умолчанию как метод обработки данных. Представьте себе два эксперимента. В первом следующие данные были получены:
Группа 1: 8,9,10,11,12
Группа 2: 98,99,100,101,102
Второй вариант
Группа 1: 93,94,95,96,97
Группа 2: 98,99,100,101,102
Поскольку непараметрика использует только ранги, то с точки зрения непараметрического анализа вероятность того, что группы пришли из одной популяции одинаковая в обоих описанных случаях. Это выражается и в результатах анализа
t-тест: р<0.0001 (во втором случае р=0,001)
Тест Мэнна-Уитни: р=0.0335 (в обоих случаях)
Есть разница в том, что при использовании параметрики вероятность приходя этих групп из одной популяции менее 0,01%, а во втором 3,3%? Иными словами, даже если мы сомневались в действии вмешательства мы должны будем признать его действующим при первом типе анализа, но не сможем сделать этого в случае использования непараметрики.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 26.04.2008 - 15:11
Сообщение #21





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Я и не против критерия Стьюдента, тем более, что в этом году исполняется 100 лет, как мы им пользуемся. Удобно средние описывать, эффект в проценках выражать, но все же в медицине редко встречается нормальное распределение, генеральную дисперсию изучаемых показателей никто реально не знает. Статистическому анализу стали уделять значительно больше внимания, чем прежде, однако, все еще, каждый сам себе доктор.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
MuxaL
сообщение 27.04.2008 - 19:02
Сообщение #22





Группа: Пользователи
Сообщений: 8
Регистрация: 28.03.2008
Пользователь №: 4919



Огромное спасибо за ответы!

Сегодня, бродя по инету, нашел упоминание о критерии Стьюдента для малых выборок, но никак не смог найти минимальное количество в выборке. Не владеете ли этой информацией?

Цитата(DrgLena @ 25.04.2008 - 21:49) *
Оценка различий, исходя из характера данных, может быть проведена с использованием непараметрического рангового критерия Манна-Уитни. Если требуется, то можно привести таблицу со значением суммы рангов в каждой группе, значение U, и р?уровень.
По вашим данным различия статистически значимы (U=0,0;р=0,004). Для описания приводят значение медиан, верхнего и нижнего квартилей.
Median Minimum Maximum Lower Upper
Var1 155,0 130,0 165,0 150,0 160,0
Var2 200,0 195,0 210,0 195,0 205,0

Т.е. в работе по тексту нужно писать таким вот образом как (U=0,0;р=0,004). А верхний и нижний квартели не указываются, а фигурируют только в графиках?

Т.е. у меня есть еще другие критерии (морфологические: плотность клеточчного инфильтрата, ширина зон деструкции и т.д. зоны кишечного анастомоза) для сравнения, в которых n=60 и выше. Независимые выборки. Проводя тест Колмагорова на нормальность у меня в ряде случаев SPSS выдает ненорамльное распределение, а в большинстве - нормальное. Например, на 7 сутки показатели плотности инфильтрата распределены в первой группе нормально, во второй в те же сроки ненормально - считать нужно с применением непараметрики? Т.е. при сравнении двух групп, если в одной из них ненормальное распределение, считать нцужно непараметрикой?


И еще пара вопросов: достаточно ли провести тест Колмагорова-Смирнова в программе SPSS для определения нормальности распределения (значения выше 0,05 - нормальное распределение)? Графиками пользоваться пока не умею:-)

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 27.04.2008 - 19:49
Сообщение #23





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(DrgLena @ 26.04.2008 - 16:11) *
Удобно средние описывать, эффект в проценках выражать, но все же в медицине редко встречается нормальное распределение.

А это кто сказал? Если люди берут 10 человек и на них проверяют распределение, то это еще ничего не говорит о том, как часто встречается нормальное распределение в медицине. На самом деле если Вы возьмете крупные популяционные исследования (Фремингем, MRFIT, российскую часть LRC и MONICA), то удивитесь как много параметров "напоминают" нормальное распределение. Многие "не нормальные" параметры нормализуются. Нежелание наших "ученых" читать литературу не может являться причиной для указания на отсутствие данных. Кстати, оттуда же можно взять и данные по стандартным отклонениям в генеральной совокупности. Так что, как говорил кот Матроскин "деньги-то (данные -СП) у нас есть..."
Правда, борцы за статистическую чистоту могут указать, что на самом деле эти распределения не являются нормальным. Это особый класс распределений (смешанные), которые возникают от наличия в популяции двух популяционных групп с близкими средними, но разными дисперсиями. За счет этого появляются утяжеленные "хвосты". К сожалению, ни один из используемых статистических методов (включая так любимую всеми непараметрику) не способен адекватно работать на смешанных распределениях. Для нее нужны другие методы, которые используют не средние и медианы, а винзоризированные средние (или обрезанные средние, хотя тут и медиана может оказаться полезной). Анализ винзоризированных и обрезанных средних чаще всего делается bootstrap'ом стандартных методов (преимущественно варианта t-критерия), полностью методику кроме S-plus/R крупные статистические пакеты не поддерживают. Желающие могут ознакомиться с прекрасной книгой Wilcox "Applying Contemporary Statistical Methods" которая содержит многочисленные расчетные примеры. Поэтому если кто-то захочет сказать, что t-критерий не стоит использовать в его первозданном виде, а надо использовать bootstrap вариант и ввести винзоризирвоанные средние и соответствующие поправки в оценку стандартной ошибки, то я соглашусь. А вот если мне говорят, что надо использовать Мэнна-Уитни, поскольку у меня только 10 наблюдений и я более ничего про популяцию не знаю, скажу, что МУ такой же неприемлимый, как и любой другой. А тот факт, что профессор Попкин написал, что надо использовать МУ (списав с проф. Кнопкина, который, сослался на работу Топкина, в свою очередь списал с сокращенного перевода работы проф. Ассова) не в коей мере не может являться истиной просто потому, что много раз одно и то же безосновательное утверждение повторилось.

Цитата(MuxaL)
Сегодня, бродя по инету, нашел упоминание о критерии Стьюдента для малых выборок, но никак не смог найти минимальное количество в выборке

Распределение Стьюдента начинается со степени свободы 1 (т.е. 2 наблюдения), но реально я не видел приложений, использующих n менее 4 (в промышленной статистике, где группы крайне гомогенны).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 28.04.2008 - 12:26
Сообщение #24





Группа: Пользователи
Сообщений: 1142
Регистрация: 10.04.2007
Пользователь №: 4040



Все показанные выше в виде гистограмм страсти от того, что число классов распределения должно соответствовать численности выборки. Это тема отдельной ветки форума. Кому интересно - пусть создаст. Обсудим.

Подробный обзор классических методов см. в книге "Новицкий П.В., Зограф И.А. Оценка погрешностей результатов измерений. - Л.: Энергоатомиздат, 1985".

Здесь только отмечу, что сейчас практикуется два подхода к вычислению числа классов:
1. Так называемые классы равной вероятности.
2. Некоторым образом оптимальное число классов, верно передающее исходное распределение.

По первому подходу см. работы М.С. Никулина, В.Г. Воинова, Н.Е. Пя.

По второму подходу см., к примеру, работу "Shimazaki H., Shinomoto S. A method for selecting the bin size of a time histogram // Neural Computation, 2007, vol. 19, no. 6, pp. 1503-1527". Бесплатно доступна по ссылке http://www.ton.scphys.kyoto-u.ac.jp/~hidea...zaki_neco07.pdf


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 30.04.2008 - 23:30
Сообщение #25





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Цитата(плав @ 27.04.2008 - 19:49) *
Поэтому если кто-то захочет сказать, что t-критерий не стоит использовать в его первозданном виде, а надо использовать bootstrap вариант и ввести винзоризирвоанные средние и соответствующие поправки в оценку стандартной ошибки, то я соглашусь.

А я не соглашусь, особенно, если n=5, да еще после предлагаемой вами вензоризации или обрезания. Поскольку причиной отклонения от закона нормального распределения часто является именно болезнь. Поэтому меня как раз и интересуют крайние значения в выборке больных, как минимальные, так и максимальные. Именно они определяют тяжесть состояния и прогноз лечения. Я не стремлюсь нормализовать ряд, чтобы критерий стьюдента хорошо себя чувствовал. Знания распределения показателя в популяции появляются из соответствующих исследований, но это не относится к показателям автора поста о "плотности клеточного инфильтрата, ширине зон деструкции и т.д." , которые получены из экспериментальной научной работы, возможно, впервые проведенной для конкретной патологии. Поэтому, я бы хотела знать не их усредненное значение после причесывания, а описание медианы и квартилей.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 1.05.2008 - 00:12
Сообщение #26





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Цитата(плав @ 26.04.2008 - 14:18) *
t-тест: р<0.0001 (во втором случае р=0,001)
Тест Мэнна-Уитни: р=0.0335 (в обоих случаях)
Есть разница в том, что при использовании параметрики вероятность приходя этих групп из одной популяции менее 0,01%, а во втором 3,3%?


С такой оценкой теста Манна-Уитни я тоже не согласна, р=0,009 для обеих выборок.
Ну Орлов, может и не кумир, меня давно изгнал со своего форума, однако, много полезного выложил бесплатно, но в книге всеми уважаемого М. Дж. Кендалла и А. Стьюарта
"Статистические выводы и связи" приводится детальное сравнение крит. Вилкоксона (ему первому принадлежит идея М-У) и
Стьюдента. Цитата оттуда "...Критерий Вилкоксона имеет очень хорошие качества по сравнению с критерием Стьюдента ..." Кенделл - это все же не Попкин - Кнопкин - Топкин.
По мощности М-У в некоторых случаях не уступает Стьюденту ,а его ассимптотическая относительная эффективность сохраняется с большой точностью для объемов выборок от 4 до 40 (Кенделл, с. 667).

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
MuxaL
сообщение 4.05.2008 - 16:53
Сообщение #27





Группа: Пользователи
Сообщений: 8
Регистрация: 28.03.2008
Пользователь №: 4919



Цитата(DrgLena @ 30.04.2008 - 23:30) *
..... Поэтому, я бы хотела знать не их усредненное значение после причесывания, а описание медианы и квартилей.


Вычисление этих данных (медиана и т.д.) делается автоматичсеки в программах типа статистики. Однако как это отразить в САМОМ тексте? Указанный вариант (U=0,0; p...) прост и ближе к сердцу:-) А как отразить в текссте медианы и квартели? Так (медиана 1, и далее перчисление квартелей)?

Еще возник вопрос: в книге Ребровой О.Ю Статистический анализ медицинских данных сказано что, запись среднего в виде М+/-m не рекомендуется. Встатет вопрос, а что такое m. У Ребровой - это среднеквадритчное отклонение. причем записывать результаты нужно так: M(s), где s и есть это отклонение. В других диссерах и книгах m - это стандартная ошибка средней.

Что нужно брать, какой показатель, из статистической программы и вписывать после знака плюс-минус при записи средней?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 4.05.2008 - 17:46
Сообщение #28





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



1.Если вы решили, что будете использовать непараметрические методы анализа данных, то тогда приводите медиану и квартили для обеих групп, их можно дать в таблице, я ранее приводила данные для ваших двух групп. А описание простое. У половины больных первой группы значение показателя ниже 155,0 (медиана), у другой половины - выше 150,0. У 25% показатель менее 150,0, и у 25% более 160,0. А в интервале значений между верхним и нижним квартилями - половина больных. Почитайте Реброву, вам станет понятней и графическое представление.
1. Если все же вы будете использовать параметрику, то приводите среднее значение и разброс в виде среднеквадратического откллонения (SD) (рекомендации единых правил оформления биомедицинских журналов).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 5.05.2008 - 19:19
Сообщение #29





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(DrgLena @ 1.05.2008 - 01:12) *
С такой оценкой теста Манна-Уитни я тоже не согласна, р=0,009 для обеих выборок.
Ну Орлов, может и не кумир, меня давно изгнал со своего форума, однако, много полезного выложил бесплатно, но в книге всеми уважаемого М. Дж. Кендалла и А. Стьюарта
"Статистические выводы и связи" приводится детальное сравнение крит. Вилкоксона (ему первому принадлежит идея М-У) и
Стьюдента. Цитата оттуда "...Критерий Вилкоксона имеет очень хорошие качества по сравнению с критерием Стьюдента ..." Кенделл - это все же не Попкин - Кнопкин - Топкин.
По мощности М-У в некоторых случаях не уступает Стьюденту ,а его ассимптотическая относительная эффективность сохраняется с большой точностью для объемов выборок от 4 до 40 (Кенделл, с. 667).

1) ОК, получили иное значение: МУ р=0,9% (правда, похоже на односторонний...), а t-критерий 0.1% Разница есть? (Обратите внимание в своей же цитате на "в некоторых случаях не уступает" (т.е. в ряде - уступает) и нигде - про то, что он мощнее (потому, что он не мощнее)).
Ну не бывает чудес, не-бы-ва-ет. Если Вы игнорируете часть информации, за это надо платить. Любая непараметрика - игнорирование информации, поскольку шкала измерения - ординальная, а не интервальная. Любые цитаты хороши, когда есть понимание механизма и теоретических основ используемого метода. Кстати все исследования МУ в середине прошлого века делались с использованием данных из нормальной популяции или стандартных видов распределения (прямоугольного, например). Смешанные распределения не исследовались, а когда их стали анализировать выяснилось, что непараметрика - не панацея.
2) Что касается отклонения от нормального распределения в результате болезни, то Вы, надеюсь, понимаете, что используя непараметрику Вы вообще игнорируете значения, т.е. если у Вас две группы 1,2,3,4 и 1,2,3,20 и вот 20 - это больной, то используя непараметрику Вы его вообще не замечаете. Иными словами, при анализе Вас как раз не интересует, почему появились отклонения. Вы-то как раз и стремитесь нормализовать ряд путем игнорирования части полученных данных. Использование непараметрики без объяснения следует расшифровывать так "факты не укладывались в мою концепцию анализа, тем хуже для фактов".
3) "экспериментальная работа" в которой не сделан нормальный анализ распределения является плохой работой. Любой эксперимент должен быть спланирован. Особенно в медицины (GCP и соответствующие приказы МЗСР РФ). Так вот, перед проведением клинического испытания надо расчитать размер выборки. А сделать это не зная, какая у Вас популяция невозможно. Так что, простите, но пример неудачный.
Если же речь идет об исследовательском (разведывательном) анализе данных, то тут вообще другой подход и другие размеры выборки...

Ведь на самом деле если кто-то не согласен с тем, что его данные распределены нормально - пожалуйста. Надо только сказать КАК они распределены, по какому закону.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 6.05.2008 - 00:06
Сообщение #30





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Находясь на вершине статистического Олимпа, легко рассуждать о необходимости "понимания механизма и теоретических основ используемых статистических методов". Предлагаю спуститься к реальным задачам, с которыми несчастные диссертанты (имея 5 собак) обращаются на этот форум. Вопросы, в основном, не по эпидемиологическим исследованиям и не о клинических испытаниях, такие работы, как правило, выполняются не одним диссертантом. При таких исследованиях данных предостаточно, и для параметрики ? праздник!
Но чаще?.Речь идет именно «об исследовательском (разведывательном) анализе данных», поэтому и должен быть, как вы пишете, «вообще другой подход и другие размеры выборки...». Именно с этим я вполне согласна.
Непараметрику тоже не глупые люди разработали, причем давным - давно, и рост популярности этого вида анализа, по вашей терминологии ? мода на непараметрику, объясняется не тем, что критерий стьюдента перестал устраивать, а тем, что в реальных условиях нашей науки очень трудно добыть достаточный массив данных, чтобы ответить на вопрос «КАК они распределены, по какому закону». Эти вопросы интересны специалистам, но мало интересуют пользователя (врача- аспиранта), ученый совет или ВАК. Диссертант должен обосновать применение конкретного метода статистического анализа и правильно трактовать его результат. Вне дискуссии остался важный вопрос, имеющий отношение к обсуждаемой проблеме - репрезентативность выборки. Что говорят классики?

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

3 страниц V  < 1 2 3 >
Добавить ответ в эту темуОткрыть тему