Maria30
14.04.2008 - 13:02
Podska*ite, po*aluista, kakoi statisti4eskii metod lu4she primenit v moem slu4ae? Ja issleduju vosdeistvie dvuh veshestv na kletki pod*eludo4noi *elezy. Odin preparat(1) vysyvaet apoptosis(gibel kletok), drugoi preparat(2) podavljaet apoptosis. Polu4aetsja tablica
1opyt 2opyt 3opyt
control X X X
Preparat 1 koncentracija 1 X X X
Preparat 1 koncentracija 2 X X X
Preparat 1 koncentracija 3 X X X
Preparat 1 koncentracija 4
1opyt 2opyt 3opyt
Control + preparat2 X X X
Preparat 1 koncentracija 1+ preparat2 X X X
Preparat 1 koncentracija 2+ preparat2 X X X
Preparat 1 koncentracija 3+ preparat2 X X X
Preparat 1 koncentracija 4+ preparat2 X X X
Preparat 2 neizmennaja koncentracija
Neobhodimo sravnit control i preparat 1 koncentr.1........4, a zatem preparat 1konc.1 i preparat 1 konc.1+ prepar.2 i t.d.
Mo*no li v moem slu4ae primenit parnyi Student´s t-test?
Izvinjajus za latinskie bukvy:-(
Уж по-английски лучше, что ли. Понятнее было бы.
Цитата(Maria30 @ 14.04.2008 - 13:02)

Izvinjajus za latinskie bukvy:-(
Вот ссылка для Вас
http://www.adelaida.net/hieroglyph/. Бесплатно.
Цитата(Maria30 @ 14.04.2008 - 14:02)

Podska*ite, po*aluista, kakoi statisti4eskii metod lu4she primenit v moem slu4ae? Ja issleduju vosdeistvie dvuh veshestv na kletki pod*eludo4noi *elezy. Odin preparat(1) vysyvaet apoptosis(gibel kletok), drugoi preparat(2) podavljaet apoptosis. Polu4aetsja tablica
1opyt 2opyt 3opyt
control X X X
Preparat 1 koncentracija 1 X X X
Preparat 1 koncentracija 2 X X X
Preparat 1 koncentracija 3 X X X
Preparat 1 koncentracija 4
1opyt 2opyt 3opyt
Control + preparat2 X X X
Preparat 1 koncentracija 1+ preparat2 X X X
Preparat 1 koncentracija 2+ preparat2 X X X
Preparat 1 koncentracija 3+ preparat2 X X X
Preparat 1 koncentracija 4+ preparat2 X X X
Preparat 2 neizmennaja koncentracija
Neobhodimo sravnit control i preparat 1 koncentr.1........4, a zatem preparat 1konc.1 i preparat 1 konc.1+ prepar.2 i t.d.
Mo*no li v moem slu4ae primenit parnyi Student´s t-test?
Izvinjajus za latinskie bukvy:-(
Student'a нельзя использовать - много сравнений - у Вас классическая задача для дисперсионного анализа (точнее, учитывая линейный тренд концентраций, даже GLM)
If you can't read Cyrillic symbols - this is a ANOVA - analyzed experiment, Student's t-test is unapplicable becuase of multiple comparisons.
Maria30
15.04.2008 - 11:50
Thank you very much:-) The problem is that I have 4-5 experiments to work with. In the literature they describe that ANOVA is not god for small samples ( <12). "With very small samples, it may be impossible for the P value to ever be less than 0.05, no matter how the values differ" Should I stil try the ANOVA?
DrgLena
15.04.2008 - 12:23
Действительно, по 3 измерения в каждой группе - это принято в биологии.
1. В контроле 3 изменения и их среднее дают базовое содержание клеток.
2. 4 концентрации препарата вызывающие апоптоз дают 4 средних для этих концентраций и разность каждой, относительно контроля, даст связь степени апоптоза в зависимости от концентраци. Эту разность можно выразитьв % от контроля.
3. И, наконец, получите разницу с участием препарата 2, подавляющего апоптоз, выразите ее также в %. Графически представьте результат.
Других мыслей нет, разве, что доверительные интервалы посчитать р казностям.
Цитата(Maria30 @ 15.04.2008 - 12:50)

Thank you very much:-) The problem is that I have 4-5 experiments to work with. In the literature they describe that ANOVA is not god for small samples ( <12). "With very small samples, it may be impossible for the P value to ever be less than 0.05, no matter how the values differ" Should I stil try the ANOVA?
Well, so far asyou are working with relatively homogenoeous groups it should not be the problem. The strength of ANOVA is that it estimates standard error based on all objects in the sample not just the two groups like in the pairwise comparison (t-test). Basically for two groups F is squared t, so that you will not lose power and t is the most powerful unbiased test (of course if we suspect underlying normal distribution). But again in the experimental setting the hypothesis of normality is much more plausible than in quasi-experimental works medicine relies mostly on. Basically experimental design in agriculture that started the whole frequentist statistics was dealing with plans with no repetitions at all and it is still very much so in clinical trials (Phase I especially - at least a few repetitions).
To sum up, I do believe that the ANOVA is most powerful analysis you can do (if there is quantitative outcome indicator). If you will calculate number of dead cells to the number of cells total then more general models like Poisson regression or GEE (general estimable equations) will be needed.
DrgLena
15.04.2008 - 19:32
Группирующая переменная имеет 9 градаций, в каждой группе 3 измерения.
Будут ли справедливы ваши рекомендации в случае совпадения результата подсчета клеток при трех повторностях, ведь тогда дисперсии не будет.
Не понял, где не будет дисперсии. Общая дисперсия рассчитывается через сумму квадратов отклонений от общего среднего всех 27 (9*3) наблюдений, дисперсия фактора с 9 уровнями как сумма квадратов разностей внутри каждого уровня. Соответственно, дисперсия будет больше нуля. Если же речь идет о гипотетическом случае, что на всех 9 уровнях все три наблюдения являются равными, то тогда ошибки в измерениях нет (дисперсии нет) и, если мы имеем дело с достаточно гомогенной популяцией (а иначе быть не может), то каждый уровень имеет уникальные, неварьирующие значения и, соответственно, необходимости в статистической обработке нет.
DrgLena
15.04.2008 - 23:45
Я имела ввиду, что если на каждом из 9 уровней все три наблюдения дают одинаковый результат, то дисперсии (внутригрупповой) не будет, и как тогда проанализировать данные? А какая вообще нормальность может быть при трех измерениях на каждом уровне?
Подскажите пожалуйста, какой метод применить, стоит ли вообще применять статобсчет и как представить полученный материал в работе.
Имеется 2 группы сравнения в каждой по 6 измерений. Выборки независимы. работа экспериментальная (собаки), количество измерений увеличить не имеется возможности.
Группа 1
150 мм.рт.ст
130
155
160
165
155
Группа 2
200
210
205
200
195
195
Вопросы:
1: чтобы представить результат в виде М+/-m (где M средняя арифметическая, m - ощибка средней арифметической) достаточно ли такого количества измерений?
2: можно ли данные группы статистически сравнить?
3. Если можно 2, то какой метод применить? В программе SPSS при проведении теста колмогорова-смирнова показывается нормальное распределение. Однако, учитывая малую выборку, тут стоит, на мой взгляд, стоит применить непараметрический тест для независимых выборок Манна-Уитни.
4. Если использовать непараметрический критерий Манна-Уитни, как представить данные в работе? (для Т-теста указывается значение Т и р, например, вот так: t=2,7, p<0,01). А как для Манна -Уитни?
DrgLena
25.04.2008 - 21:49
Оценка различий, исходя из характера данных, может быть проведена с использованием непараметрического рангового критерия Манна-Уитни. Если требуется, то можно привести таблицу со значением суммы рангов в каждой группе, значение U, и р?уровень.
По вашим данным различия статистически значимы (U=0,0;р=0,004). Для описания приводят значение медиан, верхнего и нижнего квартилей.
Median Minimum Maximum Lower Upper
Var1 155,0 130,0 165,0 150,0 160,0
Var2 200,0 195,0 210,0 195,0 205,0
Цитата(DrgLena @ 16.04.2008 - 00:45)

Я имела ввиду, что если на каждом из 9 уровней все три наблюдения дают одинаковый результат, то дисперсии (внутригрупповой) не будет, и как тогда проанализировать данные? А какая вообще нормальность может быть при трех измерениях на каждом уровне?
Ну вот, опять! Какая разница сколько наблюдений в выборке, если они пришли из нормально распределенной популяции? Нас не интересует распределение в выборке, а только в популяции!
А какова вероятность, что все три наблюдения на всех 9 уровнях дадут одинаковый результат? (на самом деле очень маленькая) Причем если игнорировать эту вероятность, то можно сказать, что любые статистические методы не должны работать, ибо возможно, что при пяти наблюдениях на 9 уровнях они все будут равны, и при 10, и при 100. Именно отсутсвие такой возможности (низкая вероятность) и дает возможность нам для статистического анализа, поскольку данные разбросаны.
Цитата(MuxaL @ 25.04.2008 - 17:51)

Подскажите пожалуйста, какой метод применить, стоит ли вообще применять статобсчет и как представить полученный материал в работе.
Имеется 2 группы сравнения в каждой по 6 измерений. Выборки независимы. работа экспериментальная (собаки), количество измерений увеличить не имеется возможности.
Группа 1
150 мм.рт.ст
130
155
160
165
155
Группа 2
200
210
205
200
195
195
Вопросы:
1: чтобы представить результат в виде М+/-m (где M средняя арифметическая, m - ощибка средней арифметической) достаточно ли такого количества измерений?
2: можно ли данные группы статистически сравнить?
3. Если можно 2, то какой метод применить? В программе SPSS при проведении теста колмогорова-смирнова показывается нормальное распределение. Однако, учитывая малую выборку, тут стоит, на мой взгляд, стоит применить непараметрический тест для независимых выборок Манна-Уитни.
4. Если использовать непараметрический критерий Манна-Уитни, как представить данные в работе? (для Т-теста указывается значение Т и р, например, вот так: t=2,7, p<0,01). А как для Манна -Уитни?
Артериальное давление распределено по нормальному закону, поэтому использование непараметрики в данном случае не обосновано. Другое дело, что при малом количестве наблюдений оценка стандартного отклонения является не точной. Оптимальный вариант будет взять из публикаций по собакам данные по стандартным отклонениям для АД и использовать при расчете t-критерия. Если не будет найдено, то можно использовать выборочное значение стандартного отклонения и опять-таки t-критерий. А затем можно спокойно писать M+|-m.
DrgLena
25.04.2008 - 22:59
Профессор Орлов, конечно злой (его дискуссия с Леоновым, вернее монолог), но в данном случае я согласна с ним, а не с уважаемым плавом, он считает, что, если выборка меньше 30 наблюдений, нет смысла проверять нормальность распределения, и следует использовать непараметрические критерии.
Цитата(DrgLena @ 25.04.2008 - 23:59)

Профессор Орлов, конечно злой (его дискуссия с Леоновым, вернее монолог), но в данном случае я согласна с ним, а не с уважаемым плавом, он считает, что, если выборка меньше 30 наблюдений, нет смысла проверять нормальность распределения, и следует использовать непараметрические критерии.
А может лучше все-таки взять книгу по математической статистике (например Юла или Фишера) и почитать, как разрабатывались тесты? Мы делаем предположение о распределении случайной величины в популяции и на основании этого пытаемся оценить вероятность получения данной выборки или найденных параметров выборки. Опишите, пожалуйста, допущения и процедуру вывода для тестов Мэнна-Уитни в сравнении с t-тестом, кой-чего станет понятно сразу же.
Насчет 30 наблюдений - это стабильность стандартного отклонения и к нормальности распределения отношения не имеет. И если уж есть умные люди, которые ограничили 30 наблюдениями проверку нормальности, не подскажете, почему таблицы t-критерия идут для значительно меньших размеров выборки?
Непараметрика менее мощная, чем параметрика, поэтому ее использование должно быть обосновано.
И вообще-то совет - сомневаетесь - возьмите компьютер и запрограммируйте нормальное распределение и возьмите из него выборки вот такого размера и сравните их t-критерием и непараметрикой. Возьмите выборку более 30 и менее 30 наблюдений и сравните параметры. Мнение профессора Орлова более ценно потому, что он профессор или потому, что оно больше "нравится" (сейчас все "продвинутые" используют непараметрику, потому, что это "круто", а t-тест - не "круто" и с t-тестом "в натуре" диссертация и статья выглядят не так продвинуто)?
DrgLena
25.04.2008 - 23:47
Для второй группы животных гистограмма выглядит так, как на картинке. Если увеличить число наблюдений, повторить число этих же наблюдений, форма распределения не изменится, но оценка нормальности по двум приведеным тестам изменится. Это что похоже на нормальное распределение? Среднее арифметическое его может характеризовать?
DrgLena
26.04.2008 - 00:02
Гистограмма та же, распределение по двум тестам отличается от нормального. На основании чего вы считаете, что АД нормально распределено у популяции собак ? У меня есть выборочные данные по АД здоровых и больных людей, мне их генерировать не нужно, и я по ним не могу сказать, что они пришли из нормального распределения
Цитата(DrgLena @ 26.04.2008 - 01:02)

Гистограмма та же, распределение по двум тестам отличается от нормального. На основании чего вы считаете, что АД нормально распределено у популяции собак ? У меня есть выборочные данные по АД здоровых и больных людей, мне их генерировать не нужно, и я по ним не могу сказать, что они пришли из нормального распределения
Вы когда-нибудь пробовали брать случайные выборки из сгенерированного нормального распределения? А вот попробуйте, получите точно такие же картинки и тогда поймете, почему нельзя проверять тип распределения на выборке. Это, вообще-то, вводный курс статистики, основы. Например, присоединенная картинка - это случайная выборка размером 6 (как и в примере выше) из нормальной популяции со средним 200 и стандратным отклонением 20. Ну как, выглядит эта выборка как нормальная? Следуя Вашей логике, если увеличить размер выборки, то форма останется такой же. А популяция, из которой она пришла нормальная. Поэтому Ваше предположение ошибочно.
Так что если у Вас есть выборочные данные, причем это небольшая группа, то по ним ничего о распределении популяции сказать нельзя. Собственно поэтому и стандартное описание медико-биологических данных начинается с описания распределения параметра в популяции.
DrgLena
26.04.2008 - 12:56
У меня, возможно недостаточные знания в области статистики, поэтому я считаю, что на выборке из 6 собак нельзя сделать вывод о нормальном распределении АД в популяции, и поэтому условия корректного применения критерия стьюдента не выполнены. Одним из необходимых условий корректного применения критерия Стьюдента является нормальное распределения показателя в обеих группах (т.е. обе из нормального). Часто, по моим собственным данным у больных до лечения нормального распределения нет, после лечения есть. В таком случае, по вашему мнению, критерий стьюдента для связанных выборок применить можно? n=169. Есть гистограммы ( я с них и начинаю любой анализ).
На выборке из 6 наблюдений нельзя сделать вывод о том, что распределение данных в популяции нормальное или какое-то иное. Аналогично и нельзя исключить нормальность распределения. Основой корректного прменения критерия Стьюдента является нормальное распределение показателя в ПОПУЛЯЦИИ (как-то никто не замечает этого слова, по косой, что-ли читают?), а не в ВЫБОРКЕ. Кстати в другой ветке некоторое время назад я уже приводил данные по вероятности признания распределения нормальным/не нормальным в зависимости от априорной вероятности нормального распределения. Соответственно, утверждение, что "одним из необходимых условий корректного применения критерия Стьюдента является нормальное распределения показателя в обеих группах" является ошибочным. Грубо говоря, если при помощи теста на "нормальность" Вы получаете р=0,04, т.е. в случае нормального распределения такая форма выборки получилась бы в 4% случаев и у Вас есть данные, что в популяции распределение нормальное, то этот тест никоим образом не меняет Вашего отношения к распределению данных в популяции (4% довольно высокая вероятность - 4 из 100 выборок).
Вы должны знать распределение показателя в популяции прежде, чем выбирается метод статистического исследования. Если выборка достаточно большая (например, тысячи), то на ней можно оценить нормальность распределения. Именно поэтому я выше писал, что прежде, чем проводить какие-либо исследования надо знать, как распределен параметр в популяции. Крупные популяционные исследования показывают, что уровень АД в популяции распределен по нормальному закону, соответственно, если выборка из популяции, то можно использовать критерий Стьюдента). С другой стороны, если это взяты лица с САД>160 мм рт.ст, то правило нормальности, очевидно выполняться не будет (это будет кусок распределения). Тогда надо на основании тех же популяционных исследований смотреть, какое распределение среди лиц, у кого АД более 160. И попробовать вначале нормализовать эти данные (например, для ТГ в популяции нет нормальности, но распределение логнормальное, аналогичным образом нормализуются и большинство гормональных параметров). Собственно, одна из задач анализа литературы и раздела "Эпидемиология и распространенность" как раз определить параметры измеряемых показателей.
Что касается до/после лечения, то характеристики распределения до и после нас вообще не интересуют, а интересует распределение разностей до/после. Чисто теоретически распределение разностей должно быть нормальным (поскольку колебания должны быть случайными). Если оно не нормальное, это означает, что в группе кроме случайной ошибки действует еще какой-то источник вариабельности (например, пациенты по-разному реагируют на препарат). При том количестве наблюдений, которое Вы приводите, проверка типа распределения уже будет возможной, однако, повторюсь, если проверка (лучше QQ или NP графиком, гистограммы сильно зависят от размеров классов) показывает выраженные отклонения от нормальности следует разобраться в их причине и только если причин найти не удается и мы уверены в том, что это - не нормальное распределение следует использовать непараметрику.
Теперь два слова, почему непараметрика не должна использоваться по умолчанию как метод обработки данных. Представьте себе два эксперимента. В первом следующие данные были получены:
Группа 1: 8,9,10,11,12
Группа 2: 98,99,100,101,102
Второй вариант
Группа 1: 93,94,95,96,97
Группа 2: 98,99,100,101,102
Поскольку непараметрика использует только ранги, то с точки зрения непараметрического анализа вероятность того, что группы пришли из одной популяции одинаковая в обоих описанных случаях. Это выражается и в результатах анализа
t-тест: р<0.0001 (во втором случае р=0,001)
Тест Мэнна-Уитни: р=0.0335 (в обоих случаях)
Есть разница в том, что при использовании параметрики вероятность приходя этих групп из одной популяции менее 0,01%, а во втором 3,3%? Иными словами, даже если мы сомневались в действии вмешательства мы должны будем признать его действующим при первом типе анализа, но не сможем сделать этого в случае использования непараметрики.
DrgLena
26.04.2008 - 15:11
Я и не против критерия Стьюдента, тем более, что в этом году исполняется 100 лет, как мы им пользуемся. Удобно средние описывать, эффект в проценках выражать, но все же в медицине редко встречается нормальное распределение, генеральную дисперсию изучаемых показателей никто реально не знает. Статистическому анализу стали уделять значительно больше внимания, чем прежде, однако, все еще, каждый сам себе доктор.
Огромное спасибо за ответы!
Сегодня, бродя по инету, нашел упоминание о критерии Стьюдента для малых выборок, но никак не смог найти минимальное количество в выборке. Не владеете ли этой информацией?
Цитата(DrgLena @ 25.04.2008 - 21:49)

Оценка различий, исходя из характера данных, может быть проведена с использованием непараметрического рангового критерия Манна-Уитни. Если требуется, то можно привести таблицу со значением суммы рангов в каждой группе, значение U, и р?уровень.
По вашим данным различия статистически значимы (U=0,0;р=0,004). Для описания приводят значение медиан, верхнего и нижнего квартилей.
Median Minimum Maximum Lower Upper
Var1 155,0 130,0 165,0 150,0 160,0
Var2 200,0 195,0 210,0 195,0 205,0
Т.е. в работе по тексту нужно писать таким вот образом как (U=0,0;р=0,004). А верхний и нижний квартели не указываются, а фигурируют только в графиках?
Т.е. у меня есть еще другие критерии (морфологические: плотность клеточчного инфильтрата, ширина зон деструкции и т.д. зоны кишечного анастомоза) для сравнения, в которых n=60 и выше. Независимые выборки. Проводя тест Колмагорова на нормальность у меня в ряде случаев SPSS выдает ненорамльное распределение, а в большинстве - нормальное. Например, на 7 сутки показатели плотности инфильтрата распределены в первой группе нормально, во второй в те же сроки ненормально - считать нужно с применением непараметрики? Т.е. при сравнении двух групп, если в одной из них ненормальное распределение, считать нцужно непараметрикой?
И еще пара вопросов: достаточно ли провести тест Колмагорова-Смирнова в программе SPSS для определения нормальности распределения (значения выше 0,05 - нормальное распределение)? Графиками пользоваться пока не умею:-)
Цитата(DrgLena @ 26.04.2008 - 16:11)

Удобно средние описывать, эффект в проценках выражать, но все же в медицине редко встречается нормальное распределение.
А это кто сказал? Если люди берут 10 человек и на них проверяют распределение, то это еще ничего не говорит о том, как часто встречается нормальное распределение в медицине. На самом деле если Вы возьмете крупные популяционные исследования (Фремингем, MRFIT, российскую часть LRC и MONICA), то удивитесь как много параметров "напоминают" нормальное распределение. Многие "не нормальные" параметры нормализуются. Нежелание наших "ученых" читать литературу не может являться причиной для указания на отсутствие данных. Кстати, оттуда же можно взять и данные по стандартным отклонениям в генеральной совокупности. Так что, как говорил кот Матроскин "деньги-то (данные -СП) у нас есть..."
Правда, борцы за статистическую чистоту могут указать, что на самом деле эти распределения не являются нормальным. Это особый класс распределений (смешанные), которые возникают от наличия в популяции двух популяционных групп с близкими средними, но разными дисперсиями. За счет этого появляются утяжеленные "хвосты". К сожалению, ни один из используемых статистических методов (включая так любимую всеми непараметрику) не способен адекватно работать на смешанных распределениях. Для нее нужны другие методы, которые используют не средние и медианы, а винзоризированные средние (или обрезанные средние, хотя тут и медиана может оказаться полезной). Анализ винзоризированных и обрезанных средних чаще всего делается bootstrap'ом стандартных методов (преимущественно варианта t-критерия), полностью методику кроме S-plus/R крупные статистические пакеты не поддерживают. Желающие могут ознакомиться с прекрасной книгой Wilcox "Applying Contemporary Statistical Methods" которая содержит многочисленные расчетные примеры. Поэтому если кто-то захочет сказать, что t-критерий не стоит использовать в его первозданном виде, а надо использовать bootstrap вариант и ввести винзоризирвоанные средние и соответствующие поправки в оценку стандартной ошибки, то я соглашусь. А вот если мне говорят, что надо использовать Мэнна-Уитни, поскольку у меня только 10 наблюдений и я более ничего про популяцию не знаю, скажу, что МУ такой же неприемлимый, как и любой другой. А тот факт, что профессор Попкин написал, что надо использовать МУ (списав с проф. Кнопкина, который, сослался на работу Топкина, в свою очередь списал с сокращенного перевода работы проф. Ассова) не в коей мере не может являться истиной просто потому, что много раз одно и то же безосновательное утверждение повторилось.
Цитата(MuxaL)
Сегодня, бродя по инету, нашел упоминание о критерии Стьюдента для малых выборок, но никак не смог найти минимальное количество в выборке
Распределение Стьюдента начинается со степени свободы 1 (т.е. 2 наблюдения), но реально я не видел приложений, использующих n менее 4 (в промышленной статистике, где группы крайне гомогенны).
Все показанные выше в виде гистограмм страсти от того, что число классов распределения должно соответствовать численности выборки. Это тема отдельной ветки форума. Кому интересно - пусть создаст. Обсудим.
Подробный обзор классических методов см. в книге "Новицкий П.В., Зограф И.А. Оценка погрешностей результатов измерений. - Л.: Энергоатомиздат, 1985".
Здесь только отмечу, что сейчас практикуется два подхода к вычислению числа классов:
1. Так называемые классы равной вероятности.
2. Некоторым образом оптимальное число классов, верно передающее исходное распределение.
По первому подходу см. работы М.С. Никулина, В.Г. Воинова, Н.Е. Пя.
По второму подходу см., к примеру, работу "Shimazaki H., Shinomoto S. A method for selecting the bin size of a time histogram // Neural Computation, 2007, vol. 19, no. 6, pp. 1503-1527". Бесплатно доступна по ссылке
http://www.ton.scphys.kyoto-u.ac.jp/~hidea...zaki_neco07.pdf
DrgLena
30.04.2008 - 23:30
Цитата(плав @ 27.04.2008 - 19:49)

Поэтому если кто-то захочет сказать, что t-критерий не стоит использовать в его первозданном виде, а надо использовать bootstrap вариант и ввести винзоризирвоанные средние и соответствующие поправки в оценку стандартной ошибки, то я соглашусь.
А я не соглашусь, особенно, если n=5, да еще после предлагаемой вами вензоризации или обрезания. Поскольку причиной отклонения от закона нормального распределения часто является именно
болезнь. Поэтому меня как раз и интересуют крайние значения в выборке больных, как минимальные, так и максимальные. Именно они определяют тяжесть состояния и прогноз лечения. Я не стремлюсь нормализовать ряд, чтобы критерий стьюдента хорошо себя чувствовал. Знания распределения показателя в популяции появляются из соответствующих исследований, но это не относится к показателям автора поста о "плотности клеточного инфильтрата, ширине зон деструкции и т.д." , которые получены из экспериментальной научной работы, возможно, впервые проведенной для конкретной патологии. Поэтому, я бы хотела знать не их усредненное значение после причесывания, а описание медианы и квартилей.
DrgLena
1.05.2008 - 00:12
Цитата(плав @ 26.04.2008 - 14:18)

t-тест: р<0.0001 (во втором случае р=0,001)
Тест Мэнна-Уитни: р=0.0335 (в обоих случаях)
Есть разница в том, что при использовании параметрики вероятность приходя этих групп из одной популяции менее 0,01%, а во втором 3,3%?
С такой оценкой теста Манна-Уитни я тоже не согласна, р=0,009 для обеих выборок.
Ну Орлов, может и не кумир, меня давно изгнал со своего форума, однако, много полезного выложил бесплатно, но в книге
всеми уважаемого М. Дж. Кендалла и А. Стьюарта
"Статистические выводы и связи" приводится детальное сравнение крит. Вилкоксона (ему первому принадлежит идея М-У) и
Стьюдента. Цитата оттуда "...Критерий Вилкоксона имеет очень хорошие качества по сравнению с критерием Стьюдента ..." Кенделл - это все же не Попкин - Кнопкин - Топкин.
По мощности М-У в некоторых случаях не уступает Стьюденту ,а его ассимптотическая относительная эффективность сохраняется с большой точностью для объемов выборок от 4 до 40 (Кенделл, с. 667).
Цитата(DrgLena @ 30.04.2008 - 23:30)

..... Поэтому, я бы хотела знать не их усредненное значение после причесывания, а описание медианы и квартилей.
Вычисление этих данных (медиана и т.д.) делается автоматичсеки в программах типа статистики. Однако как это отразить в САМОМ тексте? Указанный вариант (U=0,0; p...) прост и ближе к сердцу:-) А как отразить в текссте медианы и квартели? Так (медиана 1, и далее перчисление квартелей)?
Еще возник вопрос: в книге Ребровой О.Ю Статистический анализ медицинских данных сказано что, запись среднего в виде М+/-m не рекомендуется. Встатет вопрос, а что такое m. У Ребровой - это среднеквадритчное отклонение. причем записывать результаты нужно так: M(s), где s и есть это отклонение. В других диссерах и книгах m - это стандартная ошибка средней.
Что нужно брать, какой показатель, из статистической программы и вписывать после знака плюс-минус при записи средней?
DrgLena
4.05.2008 - 17:46
1.Если вы решили, что будете использовать непараметрические методы анализа данных, то тогда приводите медиану и квартили для обеих групп, их можно дать в таблице, я ранее приводила данные для ваших двух групп. А описание простое. У половины больных первой группы значение показателя ниже 155,0 (медиана), у другой половины - выше 150,0. У 25% показатель менее 150,0, и у 25% более 160,0. А в интервале значений между верхним и нижним квартилями - половина больных. Почитайте Реброву, вам станет понятней и графическое представление.
1. Если все же вы будете использовать параметрику, то приводите среднее значение и разброс в виде среднеквадратического откллонения (SD) (рекомендации единых правил оформления биомедицинских журналов).
Цитата(DrgLena @ 1.05.2008 - 01:12)

С такой оценкой теста Манна-Уитни я тоже не согласна, р=0,009 для обеих выборок.
Ну Орлов, может и не кумир, меня давно изгнал со своего форума, однако, много полезного выложил бесплатно, но в книге всеми уважаемого М. Дж. Кендалла и А. Стьюарта
"Статистические выводы и связи" приводится детальное сравнение крит. Вилкоксона (ему первому принадлежит идея М-У) и
Стьюдента. Цитата оттуда "...Критерий Вилкоксона имеет очень хорошие качества по сравнению с критерием Стьюдента ..." Кенделл - это все же не Попкин - Кнопкин - Топкин.
По мощности М-У в некоторых случаях не уступает Стьюденту ,а его ассимптотическая относительная эффективность сохраняется с большой точностью для объемов выборок от 4 до 40 (Кенделл, с. 667).
1) ОК, получили иное значение: МУ р=0,9% (правда, похоже на односторонний...), а t-критерий 0.1% Разница есть? (Обратите внимание в своей же цитате на "в некоторых случаях не уступает" (т.е. в ряде - уступает) и нигде - про то, что он мощнее (потому, что он не мощнее)).
Ну не бывает чудес, не-бы-ва-ет. Если Вы игнорируете часть информации, за это надо платить. Любая непараметрика - игнорирование информации, поскольку шкала измерения - ординальная, а не интервальная. Любые цитаты хороши, когда есть понимание механизма и теоретических основ используемого метода. Кстати все исследования МУ в середине прошлого века делались с использованием данных из нормальной популяции или стандартных видов распределения (прямоугольного, например). Смешанные распределения не исследовались, а когда их стали анализировать выяснилось, что непараметрика - не панацея.
2) Что касается отклонения от нормального распределения в результате
болезни, то Вы, надеюсь, понимаете, что используя непараметрику Вы вообще игнорируете значения, т.е. если у Вас две группы 1,2,3,4 и 1,2,3,20 и вот 20 - это больной, то используя непараметрику Вы его вообще не замечаете. Иными словами, при анализе Вас как раз
не интересует, почему появились отклонения. Вы-то как раз и стремитесь нормализовать ряд путем игнорирования части полученных данных. Использование непараметрики без объяснения следует расшифровывать так "факты не укладывались в мою концепцию анализа, тем хуже для фактов".
3) "экспериментальная работа" в которой не сделан нормальный анализ распределения является плохой работой. Любой эксперимент должен быть спланирован. Особенно в медицины (GCP и соответствующие приказы МЗСР РФ). Так вот, перед проведением клинического испытания надо расчитать размер выборки. А сделать это не зная, какая у Вас популяция невозможно. Так что, простите, но пример неудачный.
Если же речь идет об исследовательском (разведывательном) анализе данных, то тут вообще другой подход и другие размеры выборки...
Ведь на самом деле если кто-то не согласен с тем, что его данные распределены нормально - пожалуйста. Надо только сказать КАК они распределены, по какому закону.
DrgLena
6.05.2008 - 00:06
Находясь на вершине статистического Олимпа, легко рассуждать о необходимости "понимания механизма и теоретических основ используемых статистических методов". Предлагаю спуститься к реальным задачам, с которыми несчастные диссертанты (имея 5 собак) обращаются на этот форум. Вопросы, в основном, не по эпидемиологическим исследованиям и не о клинических испытаниях, такие работы, как правило, выполняются не одним диссертантом. При таких исследованиях данных предостаточно, и для параметрики ? праздник!
Но чаще?.Речь идет именно «об исследовательском (разведывательном) анализе данных», поэтому и должен быть, как вы пишете, «вообще другой подход и другие размеры выборки...». Именно с этим я вполне согласна.
Непараметрику тоже не глупые люди разработали, причем давным - давно, и рост популярности этого вида анализа, по вашей терминологии ? мода на непараметрику, объясняется не тем, что критерий стьюдента перестал устраивать, а тем, что в реальных условиях нашей науки очень трудно добыть достаточный массив данных, чтобы ответить на вопрос «КАК они распределены, по какому закону». Эти вопросы интересны специалистам, но мало интересуют пользователя (врача- аспиранта), ученый совет или ВАК. Диссертант должен обосновать применение конкретного метода статистического анализа и правильно трактовать его результат. Вне дискуссии остался важный вопрос, имеющий отношение к обсуждаемой проблеме - репрезентативность выборки. Что говорят классики?
Цитата(DrgLena @ 6.05.2008 - 01:06)

Непараметрику тоже не глупые люди разработали, причем давным - давно, и рост популярности этого вида анализа, по вашей терминологии ? мода на непараметрику, объясняется не тем, что критерий стьюдента перестал устраивать, а тем, что в реальных условиях нашей науки очень трудно добыть достаточный массив данных, чтобы ответить на вопрос «КАК они распределены, по какому закону». Эти вопросы интересны специалистам, но мало интересуют пользователя (врача- аспиранта), ученый совет или ВАК. Диссертант должен обосновать применение конкретного метода статистического анализа и правильно трактовать его результат. Вне дискуссии остался важный вопрос, имеющий отношение к обсуждаемой проблеме - репрезентативность выборки. Что говорят классики?
Популярность методов непараметрики связана не с их свойствами, а с наукообразностью, которую они придают отвратительно выполненным исследованиям. К концу 1980х годов критерий Стьюдента и хи2 усвоили все и читатя статьи/диссертации начинали интересоваться содержанием работы. Видя в тексте ссылки на методы Мэнна-Уитни, Тепстера, Тьюки и т.п. читатели думали "ой, какой умный диссертант, раз он знает все это, наверное, и остальные выводы у него правильные". Непараметрика используется в качестве дымовой завесы (разрабатывали-то умные люди, но вот пользователи их работы не читают, применимость метода не анализируют).
На самом деле тут предмета спора нет, поскольку если между группами будут различия, то в 90% случаев они будут вне зависимости от используемого метода. Реально проблемы возникают около барьера достоверности (0,05), но на самом деле р=0,049 и р=0,051 идеологически не различаются...
Тот факт, что в наших условиях "трудно добыть достаточный массив данных" является бедой российской медицинской науки и причиной ее отставания. Правда, замечу, что существует достаточно много научных групп, которые делают нормальные научные исследования, с нормальными выборками и нормальной обработкой.
Что же касается "обосновать применение конкретного метода статистического анализа и правильно трактовать его результат" то как раз тут-то проблемы и начинаются.
Если, например, мне кто-то говорит, что он решил использовать МУ, я могу спросить, а почему он решил отбросить значительный объем информации, содержащийся в его данных и относится к уровню, например, ХС как к ранговой шкале? Если в ответ прозвучит, что это потому, что он не знает, как ХС в реальности распределен, то вопрос будет, а как он тогда планировал научную работу. Почему взял столько людей? Если в ответ будет "ну, у нас было столько пациентов", то тогда человек делает исследовательский анализ данных, соответственно классическая статистика выводов у него не применима и выводы диссертации не обоснованы.
В реальности спор о преимуществе непараметрики перед параметрикой напоминает спор о преимуществе УЗИ перед МРТ, причем одна сторона утверждает, что надо применять УЗИ всегда, потому, что оно проще проводится...(а все попытки свести вопрос к обсуждению того, а что хотите смотреть методами? натыкается на указание, что "диссертанты разницу УЗИ и МРТ не понимают, но диссертацию в области диагностики сделать хотят". Посмотрел бы я на Совет, которому бы что-то подобное диссертант заявил. А вот со статистикой так можно!).
Что же касается репрезентативности, то тут вообще все просто. Все методы статистической обработки базируются на предположении о том, что изучаемые объекты являются случайной выборкой из гомогенной исходной популяции, т.е. репрезентативной выборкой. Нет репрезентативности, нет ничего - статистическая обработка не помогает при отсутствии репрезентативности.
Цитата(DrgLena @ 4.05.2008 - 17:46)

1.Если вы решили, что будете использовать непараметрические методы анализа данных, то тогда приводите медиану и квартили для обеих групп, их можно дать в таблице, я ранее приводила данные для ваших двух групп. А описание простое. У половины больных первой группы значение показателя ниже 155,0 (медиана), у другой половины - выше 150,0. У 25% показатель менее 150,0, и у 25% более 160,0. А в интервале значений между верхним и нижним квартилями - половина больных. Почитайте Реброву, вам станет понятней и графическое представление.
1. Если все же вы будете использовать параметрику, то приводите среднее значение и разброс в виде среднеквадратического откллонения (SD) (рекомендации единых правил оформления биомедицинских журналов).
Спасибо за совет, тогда подскажите плиз еще вот тут (технический аспект):
При обсчете в SPSS появляюется табличка со средней и стандартными ошибками.
Там есть графы Mean (Средняя)=M; St.deviation и St. error mean - какую из них брать в виде m. правильно ли я использую стандартную ошибку средней ( St. error mean)?
DrgLena
8.05.2008 - 16:38
Вы должны были использовать дисперсионный анализ для повторных изменений, тогда можно оценить различия между группами на каждый срок наблюдения с учетом множественных сравнений, например используя критерий Ньюмана - Кейлса. В качестве меры разброса в таблице можно указать либо среднеквадратическое отклонение (SD), либо ошибку средней (SE). Графически удобно представлять 95% доверительный интервал.
Все, понял, спасибо!
А что, дисперсионный анализ необходим, когда у меня независимые выборки и на каждый срок эксперимента новое животное и исследоваание однократное? (т.е. 1 срок -1 измерение)
DrgLena
8.05.2008 - 19:54
Нет, конечно. Я думала, что это динамика показателя у одних и тех же объектов.
Цитата(MuxaL @ 8.05.2008 - 19:54)

Все, понял, спасибо!
А что, дисперсионный анализ необходим, когда у меня независимые выборки и на каждый срок эксперимента новое животное и исследоваание однократное? (т.е. 1 срок -1 измерение)
Поскольку у Вас разные животные, то это будет дисперсионный анализ без повторных измерений, но двухфакторный (один фактор - время (т.е. сутки с момента начала эксперимента и группа (основнач/контроль)). Анализ должен быть именно дисперсионным, поскольку у Вас много групп и проблема множественных сравнений в данном случае будет очень серьезной (да и мощность повысится).