Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Разница между средними значениями

Автор: Света K 26.10.2017 - 11:46

Подскажите, пожалуйста, как правильно написать о разнице в приросте побегов если вначале они были 82,4 +- 3,34 см, а после воздействия определенным фактором стали 91,4 +- 4,14 см. Других данных нет. Просто сказать, что длина побегов увеличилась на 9 см (91,4-82,4)? Или нужно еще сложить ошибки и разделить на два и привести эту ошибку? Или как?

Автор: nokh 26.10.2017 - 16:54

Цитата(Света K @ 26.10.2017 - 13:46) *
Подскажите, пожалуйста, как правильно написать о разнице в приросте побегов если вначале они были 82,4 +- 3,34 см, а после воздействия определенным фактором стали 91,4 +- 4,14 см. Других данных нет. Просто сказать, что длина побегов увеличилась на 9 см (91,4-82,4)? Или нужно еще сложить ошибки и разделить на два и привести эту ошибку? Или как?

1. Прирост побегов, как и другие показатели, зависящие от времени, имеет асимметричное распределение. Следовательно, все эти плюс-минус не имеют ничего общего с реальностью: чисто виртуальные показатели. В приличные журналы данные вида "среднее +/- станд. ошибка" не принимают. Уровень проведённой статобработки - низкий, образца максимум 1980-х годов.

2. Если научный руководитель - динозавр, и требует именно древних методов, то рассчитать такую же виртуальную ошибку разности средних можно. Но только, конечно, не усреднением, а по специальной формуле. Для этого понадобятся значения дисперсий s2 в обеих выборках. Их можете рассчитать из значений стандартной ошибки и объёма выборок (формулу найдёте в любом учебнике).
Стандартная ошибка разности будет равна se (разности средних)=Корень (s21/n1 + s22/n2)
Погуглите на предмет стандартной ошибки разности, чтобы найти что-то для ссылки.

3. Но правильнее рассчитать доверительные интервалы (ДИ) и привести 1) средние с 95% ДИ и 2) разность средних с 95% ДИ. ДИ лучше считать бутстрепом ввиду отличия распределения от нормального. Если есть 2 колонки исходных данных, то в пакете PAST делается за 2-3 клика. Кстати, что значит "Других данных нет", куда делись оригинальные данные? Если у вас нет исходных данных, значит у вас нет данных, т.к. приведённые числа - это не данные, а результат не вполне корректной обработки данных.

Автор: Света K 27.10.2017 - 16:16

Цитата(nokh @ 26.10.2017 - 16:54) *
нет исходных данных

Во-первых спасибо за разъяснения. Во-вторых, данные (исходные) конечно есть, но мне не совсем понятно - есть только две конечные цифры - начальная длина (среднее из 4 измерений) и после действия фактора. Имеется в виду, что никаких промежуточных данных нет. Стоит ли тут при таких данных вообще говорить о каком-то изменении размеров? Кстати, Вы правы, используются методы именно 80-х годов. Но многие считают, что вряд ли подобные методы могут измениться.

Автор: nokh 27.10.2017 - 19:08

Цитата(Света K @ 27.10.2017 - 18:16) *
Во-первых спасибо за разъяснения. Во-вторых, данные (исходные) конечно есть, но мне не совсем понятно - есть только две конечные цифры - начальная длина (среднее из 4 измерений) и после действия фактора. Имеется в виду, что никаких промежуточных данных нет. Стоит ли тут при таких данных вообще говорить о каком-то изменении размеров? Кстати, Вы правы, используются методы именно 80-х годов. Но многие считают, что вряд ли подобные методы могут измениться.

Раз у вас есть исходные данные, значит цифр у вас не 2 (начальная и конечная средние), а больше. Вот с этими самыми исходными цифрами (индивидуальными промерами) и нужно работать чтобы рассчитать 95% ДИ прироста и статистическую значимость влияния фактора (ваши динозавры назовут её "достоверностью"), раз был ещё какой-то фактор. Кстати этот фактор всё запутал, опишите свой материал и эксперимент и тогда решим как его грамотно обсчитать и представить (ну это если такое нужно, если не нужно - см. формулу стандартной ошибки разности в предыдущем сообщении).

PS. А методы и подходы устаревают. Хи-квадрат Пирсона устарел, точный метод Фишера устарел, классический t-критерий Стьюдента тоже не рекомендуют использовать на практике, точные ДИ Клоппера-Пирсона не точны, двумерного нормального распределения (для корреляции Пирсона) в природе не сыскать и т.д. Многие известные методы получаются в качестве частных решений современных статистических моделей... Посмотрите насколько сильно компьютеры изменили мир с 1980-х: наивно думать что в научной методологии и статистике они ничего не изменили (это я про бутстреп и т.п.). Подходы устаревают морально, т.е. не потому, что были неправильные, а потому что взамен было предложено что-то лучше.

Автор: leo_biostat 31.10.2017 - 10:17

Цитата(nokh @ 27.10.2017 - 19:08) *
Раз у вас есть исходные данные, значит цифр у вас не 2 (начальная и конечная средние), а больше. Вот с этими самыми исходными цифрами (индивидуальными промерами) и нужно работать чтобы рассчитать 95% ДИ прироста и статистическую значимость влияния фактора (ваши динозавры назовут её "достоверностью"), раз был ещё какой-то фактор. Кстати этот фактор всё запутал, опишите свой материал и эксперимент и тогда решим как его грамотно обсчитать и представить (ну это если такое нужно, если не нужно - см. формулу стандартной ошибки разности в предыдущем сообщении).

PS. А методы и подходы устаревают. Хи-квадрат Пирсона устарел, точный метод Фишера устарел, классический t-критерий Стьюдента тоже не рекомендуют использовать на практике, точные ДИ Клоппера-Пирсона не точны, двумерного нормального распределения (для корреляции Пирсона) в природе не сыскать и т.д. Многие известные методы получаются в качестве частных решений современных статистических моделей... Посмотрите насколько сильно компьютеры изменили мир с 1980-х: наивно думать что в научной методологии и статистике они ничего не изменили (это я про бутстреп и т.п.). Подходы устаревают морально, т.е. не потому, что были неправильные, а потому что взамен было предложено что-то лучше.



Полностью поддерживаю мнение nokh. Действительно, большинство участников форума, задающих свои вопросы и просьбы о помощи по статистике, не описывают достаточно подробно свои базы данных, и цели своих исследований. И часто эти вопросы по достаточно элементарным основным понятиям статистики. Это, естественно, признак недостаточных знаний по статистике. Что вполне нормально, т.к. медиков практически не обучают статистическому анализу. Поскольку для практикующих врачей эти методы не нужны. А нужны они лишь медикам-исследователям, учёным. Поэтому им нужно на форуме не только описывать свои вопросы, но и вкладывать базы данных в приложения. А ещё желательно кроме вопроса вписывать и свой ник в https://www.skype.com/ru/. Поскольку специалистам по статистике гораздо проще и продуктивнее просто обговорить с ними их проблемы и оказать им реальную помощь. Считаю, что уровень формулируемых вопросов и просьб отражает не только уровень знаний этих форумчан, но и важность и актуальность для них желаемых результатов анализа. Поэтому для лучшего понимания возможностей и актуальности упоминаемого анализа своих баз данных, им нужно читать книги по статистике и применению разных методов анализа. Для этого рекомендую авторам вопросов активно пользоваться сайтами, с которых можно очень много скачивать книг по статистике. В частности, рекомендую следующие адреса:

http://mirknig.su/
http://www.twirpx.com/
http://www.free-book.info/knigi.php?biblioteka=20
https://www.razym.ru/naukaobraz/matem/
http://maintracker.org/forum/viewforum.php?f=2028
http://sernam.ru/
http://bookfi.net/
http://www.newlibrary.ru/genre/nauka/matematika/teorija_verojatnosti/
http://www.read.in.ua/cat/r13/
http://bukvy.net/books/nauka_ucheba/
http://www.alleng.ru/edu/math9.htm
http://mexalib.com/?id=20
https://book-fb2.ru/education/
http://avorut.ucoz.ru/load/teorija_verojatnostej_i_matematicheskaja_statistika/35
http://litvik.ru/2/13/uchebniki_manuals/4263-da-net-ili-mozhet-byt.html
http://eek.diary.ru/p47642323.htm
http://www.ph4s.ru/books_mat.html
http://lib.chistopol.ru/?sub_id=32
http://www.koob.ru/search/?q=%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0&cx=005981379277374831887%3A0jyriruaxh4&cof=FORID%3A9
http://eqworld.ipmnet.ru/ru/library/mathematics/probability.htm
http://www.math.ru/lib/
http://www.aup.ru/books/i016.htm
http://www.zipsites.ru/
http://allreferats.narod.ru/mat.htm
http://scintific.narod.ru/literature.htm
http://sci-lib.com/full.php
http://www.plib.ru/library/subcategory/127.html
http://ilib.mccme.ru/
http://www.molbiol.ru/
http://www.booksmed.com/


Желаю успеха в научных исследованиях!

Автор: Света K 3.11.2017 - 15:40

Цитата(nokh @ 27.10.2017 - 20:08) *
опишите свой материал и эксперимент и тогда решим

После воздействия неким фактором (А) измерили длину 4 побегов в опыте и контроле.
Без действия:
75,2
78,3
88,9
87,0

После:
80,1
90,5
95,9
99,2

Как правильно написать (и вначале посчитать), что их длина увеличилась?
Судя по Вашему пункту 2, наверное, так: действие "А" эффективно, в результате длина увеличилась на 9 +- 5,3 см. (корень(44/4+69/4)=5,3)

А как по пункту 3? (В наличии только Excel 2003-2007 и калькулятор). Разные PAST недоступны, да и где их брать?

Цитата(nokh @ 27.10.2017 - 20:08) *
Хи-квадрат Пирсона устарел

А как же сравнивать принадлежность или нет наблюдаемой выборки некоторому теоретическому рапределению?

Цитата(leo_biostat @ 31.10.2017 - 11:17) *
естественно, признак недостаточных знаний по статистике. Что вполне нормально

Вы правы, но так и будет, поскольку обычным людям (т.е. не-статистикам) чаще всего некогда разбираться в деталях стат-анализа, им нужны четкие конкретные алгоритмы, причем с примерами решений и с примерами выводов, а очень часто на конкретные вопросы в лучшем случае дают какие-то ссылки, а в худшем - просто рекомендуют "погуглить".
Если хотите изменения ситуации - организовывайте создание _практической_ базы знаний "вопрос-ответ" - с примерами, пояснениями и выводами.

Я, конечно, кое-что почитаю из Ваших ссылок (если среди них есть ссылки на конкретные алгоритмы, а не вообще), спасибо, но... См. выше.

Автор: 100$ 4.11.2017 - 00:47

Цитата(Света K @ 3.11.2017 - 15:40) *
Как правильно написать (и вначале посчитать), что их длина увеличилась?
Судя по Вашему пункту 2, наверное, так: действие "А" эффективно, в результате длина увеличилась на 9 +- 5,3 см. (корень(44/4+69/4)=5,3)

А как по пункту 3? (В наличии только Excel 2003-2007 и калькулятор). Разные PAST недоступны, да и где их брать?


Тут все до смешного просто: для получения доверительных интервалов (н-р, 95%-ных) надо стандартную ошибку разности средних умножить либо на соответствующую квантиль распределения Стьюдента (в параметрическом варианте решения задачи), либо на соответствующую квантиль стандартного нормального распределения ( в непараметрической постановке). 95%-ная квантиль для стандартного нормального распределения равна =НОРМСТОБР(,975)=1,959964. Окончательно получим: 9+-1,96*5,3, т.е. 95%-ный ДИ разности средних = [-1.3828;19.5328]. Поскольку ДИ включает 0, делаем вывод, что данная разница средних статистически незначима. Имеющийся объем выборок просто не позволяет ее уловить. Вот и весь алгоритм. Как грится, спасибо за внимание.

Автор: p2004r 4.11.2017 - 13:10

Цитата(Света K @ 3.11.2017 - 15:40) *
После воздействия неким фактором (А) измерили длину 4 побегов в опыте и контроле.
Без действия:
75,2
78,3
88,9
87,0

После:
80,1
90,5
95,9
99,2

Как правильно написать (и вначале посчитать), что их длина увеличилась?
Судя по Вашему пункту 2, наверное, так: действие "А" эффективно, в результате длина увеличилась на 9 +- 5,3 см. (корень(44/4+69/4)=5,3)

А как по пункту 3? (В наличии только Excel 2003-2007 и калькулятор). Разные PAST недоступны, да и где их брать?


А как же сравнивать принадлежность или нет наблюдаемой выборки некоторому теоретическому рапределению?


Вы правы, но так и будет, поскольку обычным людям (т.е. не-статистикам) чаще всего некогда разбираться в деталях стат-анализа, им нужны четкие конкретные алгоритмы, причем с примерами решений и с примерами выводов, а очень часто на конкретные вопросы в лучшем случае дают какие-то ссылки, а в худшем - просто рекомендуют "погуглить".
Если хотите изменения ситуации - организовывайте создание _практической_ базы знаний "вопрос-ответ" - с примерами, пояснениями и выводами.

Я, конечно, кое-что почитаю из Ваших ссылок (если среди них есть ссылки на конкретные алгоритмы, а не вообще), спасибо, но... См. выше.


Расчет очень прост

Код
> df.data
    V1 V2
1 75.2  a
2 78.3  a
3 88.9  a
4 87.0  a
5 80.1  b
6 90.5  b
7 95.9  b
8 99.2  b

> quantile(replicate(10000, {x <- sample(df.data$V1, replace=T); mean(x[1:4])-mean(x[4:8])}), probs=c(0.025,0.975))
     2.5%     97.5%
-9.210125  9.405000

> quantile(replicate(10000, {x <- sample(df.data$V1, replace=T); mean(x[1:4])-mean(x[4:8])}), probs=c(0.05,0.95))
      5%      95%
-7.68500  7.79025

> mean(df.data$V1[df.data$V2=="a"])-mean(df.data$V1[df.data$V2=="b"])
[1] -9.075


Разница средних групп не выходит за пределы доверительного интервала для этой разницы посчитанного рандомизацией при уровне когда мы считаем за достоверное событие имеющее вероятность ошибки принятия решения первого рода 5%.. Если выберем достаточным уверенность 9 случаев из 10, то можете считать доказанным влияние. (правда неплохо было бы посмотреть и уровень ошибок второго рода).

PS Ученый это не "обычный человек- не статистик", не знать для него математику в объеме необходимом для доказательства гипотез которые он выдвигает о своих данных, равносильно признанию в неумении читать и писать... Ну а что пусть писцы пишут, а заодно и правильные слова с понятиями придумывают.

Автор: nokh 4.11.2017 - 18:03

Цитата(Света K @ 3.11.2017 - 17:40) *
После воздействия неким фактором (А) измерили длину 4 побегов в опыте и контроле.
Без действия:
75,2
78,3
88,9
87,0

После:
80,1
90,5
95,9
99,2

Как правильно написать (и вначале посчитать), что их длина увеличилась?
Судя по Вашему пункту 2, наверное, так: действие "А" эффективно, в результате длина увеличилась на 9 +- 5,3 см. (корень(44/4+69/4)=5,3)

А как по пункту 3? (В наличии только Excel 2003-2007 и калькулятор). Разные PAST недоступны, да и где их брать?


1. Скачать PAST и G*Power
https://folk.uio.no/ohammer/past/
http://www.gpower.hhu.de/en.html

2. В PAST набить данные, выделить. Путь: Univariate - Summary statistics. Выписать: средние, станд. отклонения. Для средних (см. строку Mean) получить 95% ДИ бутстрепом (лучше BCa).

3. Univariate - Two-sample tests (F, t, ?). См. 95% ДИ разности.
Параметрический по t-распределению содержит ноль и близок к тому, что 100$ рассчитал вам вручную по z-распределению.
ДИ бутстрепом не содержит ноля, т.е. в таком варианте различия статистически значимы на 5%-ном уровне (P<0,05). Что тут за бутстреп, какие они бывают и чем отличаются в худшую сторону от процентильного, рассчитанного вам p2004r - см. в мануале и литературе.

4. В G*Power вносим средние и стандартные отклонения. Считаем мощность (power) исследования = 0,3. Ставим себе и научному руководителю двойку за планирование исследования. Относимся к результатам как результатам пилотного исследования и рассчитываем в G*Power необходимые объёмы выборок (Type...: Sample size calculation...) для альфа=0,05 и бета=0,20, т.е. мощности = 0,8 (самостоятельно).

PS По поводу "обычных людей". Обычные люди работают на заводах, в офисах, магазинах и т.п. Они не измеряют длину побегов и не тусуются на статистических форумах. Процитирую сам себя (пособие скоро должно выйти):
"Я - биолог (я – врач), а не статистик". Такая не всегда верная установка тиражируется в некоторых медицинских, педагогических и даже научных коллективах, а потому встречается не так уж редко. Она справедлива до тех пор, пока человек не приступает к выполнению научной квалификационной работы. Статистический анализ данных является неотъемлемой частью современной научной методологии. Поэтому, если человек работает над школьным научным проектом, дипломной работой бакалавра, магистерской, кандидатской или докторской диссертацией, он должен предъявить соответствующие данному квалификационному уровню умения грамотно получать данные и выделять из них наиболее существенные закономерности с использованием статистических методов. Поэтому, пока Вы занимаетесь научной работой, Вы – статистик.

 

Автор: Света K 7.11.2017 - 15:23

Цитата(100$ @ 4.11.2017 - 01:47) *
95%-ная квантиль для стандартного нормального распределения равна =НОРМСТОБР(,975)=

Расчет и выводы понятны, спасибо, не ясно только, что за число (,975)?

Цитата(p2004r @ 4.11.2017 - 14:10) *
[code]> df.data
V1 V2

Здесь ничего не понятно, кроме того, что это не Excel.


Цитата(nokh @ 4.11.2017 - 19:03) *
2. В PAST набить данные, выделить. Путь: Univariate - Summary statistics. Выписать: средние, станд. отклонения. Для средних (см. строку Mean) получить 95% ДИ бутстрепом (лучше BCa).

Понятно, спасибо, хотя Путь PAST 2.17 и не совсем такой. Правильно так: Statistics - Univariate - галочка Bootstrap (N=9999). Действительно быстро и удобно.

Цитата(nokh @ 4.11.2017 - 19:03) *
3. Univariate - Two-sample tests (F, t, ?). См. 95% ДИ разности. ...
ДИ бутстрепом не содержит ноля, т.е. в таком варианте различия статистически значимы

Правильнее так: Statistics - F and T tests (two samples). А вот дальше - различия "статистически значимы" и все снова непонятно.

Цитата(nokh @ 4.11.2017 - 19:03) *
4. В G*Power вносим средние и стандартные отклонения. Считаем мощность (power) исследования = 0,3.

Здесь даже непонятно куда и что вносить...

Цитата(nokh @ 4.11.2017 - 19:03) *
выделять из них наиболее существенные закономерности с использованием статистических методов


Ну да, ну да. В идеале. А в реальности - ни согласия по поводу самих методов, ни четких алгоритмов и примеров, ни доступных объяснений. Так, мельком, по ходу, как будто все изначально все знают. Особенно ценны "существенные закономерности" когда одни и те же данные можно интерпретировать и так, и в обратную сторону. Недаром еще Гексли сказал, что математика, статистика как жернова - любую засыпку смелет...

Автор: comisora 7.11.2017 - 16:56

2Света К

Цитата
Расчет и выводы понятны, спасибо, не ясно только, что за число (,975)?

https://en.wikipedia.org/wiki/1.96.
Цитата
Здесь ничего не понятно, кроме того, что это не Excel.

https://cran.r-project.org/doc/contrib/Shipunov-rbook.pdf. Она для широкого круга.
Цитата
Здесь даже непонятно куда и что вносить...

Мануал к Gpower находится там же, где его можно скачать.

Автор: nokh 7.11.2017 - 20:32

Цитата(Света K @ 7.11.2017 - 17:23) *
Понятно, спасибо, хотя Путь PAST 2.17 и не совсем такой. Правильно так: Statistics - Univariate - галочка Bootstrap (N=9999). Действительно быстро и удобно.
...
Ну да, ну да. В идеале. А в реальности - ни согласия по поводу самих методов, ни четких алгоритмов и примеров, ни доступных объяснений. Так, мельком, по ходу, как будто все изначально все знают. Особенно ценны "существенные закономерности" когда одни и те же данные можно интерпретировать и так, и в обратную сторону. Недаром еще Гексли сказал, что математика, статистика как жернова - любую засыпку смелет...

У меня указан верный путь, т.е. все написано ПРАВИЛЬНО. А если вы умудрились скачать по моей ссылке древнюю версию вместо 3.16 - это ваши проблемы. У вас снижен порог самокритики: я бы трижды проверил почему люди пишут одно, а уменя получается иначе. Вас же это ни капельки не смутило - типа советуете тут мне неправильно. Плохое качество для науки в сочетании с нежеланием разбираться в деталях.

Если не стремиться к идеалам, то ни человеку наука не нужна, ни человек науке. Впрочем как и в любом деле...

Автор: Света K 8.11.2017 - 11:56

Цитата(comisora @ 7.11.2017 - 16:56) *
Мануал к Gpower находится там же

Спасибо, есть такой.

Цитата(nokh @ 4.11.2017 - 18:03) *
4. В G*Power вносим средние и стандартные отклонения. Считаем мощность (power) исследования = 0,3.

Данные ввести удалось, а как интерпретировать полученные графики и полученные результаты? Объясните, пожалуйста.

Цитата(nokh @ 7.11.2017 - 20:32) *
... это ваши проблемы

Вот это и есть основная беда: я - прав, все остальные - нет (не о Вас конкретно). А то, что Вы не указали версию, а их на сайте несколько, Вас абсолютно не смутило. То, что у Вас просит помощи человек, к-рый вероятнее всего впервые слышит об этой программе - Вас тоже ни капельки не смутило. "Это ваши проблемы", правы только Вы. Плохое качество для науки в сочетании с нежеланием разбираться в деталях.

Автор: p2004r 8.11.2017 - 13:14

Цитата(Света K @ 8.11.2017 - 11:56) *
Спасибо,


... я еще разок вам всем в лицо плюну sad.gif

Дальше "Света" не читайте.

PS

Зачем вы господа хорошие кормите очередного тролля? Это же очевидно что такие заявления надо тереть в момент их появления.... ну в крайнем случае давать ссылку на википедию.

Тролль (обычно на нашем форуме это недоучившийся птушник программист подавшийся в датасаенс) всегда маскируется под "неосведомленного пользователя", который "чисто по глупости" делает "случайные" провокационные заявления. Часто действует из каких то конкурентных соображений. Цель в любом случае простая --- "нагадить в люфте"ТМ.

Поверьте нет больше попаболиТМ для этого же.ребенка если его труды будут просто стерты со страниц форума. smile.gif. Это все варианты мотивов такой "беззащитной овечки" достойно обесценивает в 0.

Автор: p2004r 8.11.2017 - 18:16

Цитата(nokh @ 4.11.2017 - 18:03) *
1
PS По поводу "обычных людей". Обычные люди работают на заводах, в офисах, магазинах и т.п. Они не измеряют длину побегов и не тусуются на статистических форумах. Процитирую сам себя (пособие скоро должно выйти):
"Я - биолог (я ? врач), а не статистик". Такая не всегда верная установка тиражируется в некоторых медицинских, педагогических и даже научных коллективах, а потому встречается не так уж редко. Она справедлива до тех пор, пока человек не приступает к выполнению научной квалификационной работы. Статистический анализ данных является неотъемлемой частью современной научной методологии. Поэтому, если человек работает над школьным научным проектом, дипломной работой бакалавра, магистерской, кандидатской или докторской диссертацией, он должен предъявить соответствующие данному квалификационному уровню умения грамотно получать данные и выделять из них наиболее существенные закономерности с использованием статистических методов. Поэтому, пока Вы занимаетесь научной работой, Вы ? статистик.


Только что увидел вот такое smile.gif



 

Автор: Диагностик 21.11.2017 - 02:07

Цитата(Света K @ 3.11.2017 - 20:40) *
После воздействия неким фактором (А) измерили длину 4 побегов в опыте и контроле.
Без действия:
75,2
78,3
88,9
87,0

После:
80,1
90,5
95,9
99,2

Как правильно написать (и вначале посчитать), что их длина увеличилась?

Здесь уместно применить U-критерий Манна-Уитни.
https://ru.wikipedia.org/wiki/U-%D0%BA%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9_%D0%9C%D0%B0%D0%BD%D0%BD%D0%B0_%E2%80%94_%D0%A3%D0%B8%D1%82%D0%BD%D0%B8


Автор: Света K 21.11.2017 - 18:49

Цитата(Диагностик @ 21.11.2017 - 02:07) *
Здесь уместно применить U-критерий Манна-Уитни.

Спасибо, но не совсем понятно почему U-критерий. Получается U=2, а для Alpha .05 и n1=n2=4 табличное U=0, а для Alpha .01 табличного U вообще нет.
Наше 2>0 т.е. делаем вывод, что различия в приросте несущественны? Как правильно должен быть сформулирован этот вывод? (Хотя кто-то раньше посчитал, что по Довер.Инт. различия в одном случае были, но это не так уж важно если U-критерий более уместен.) Или мои расчеты неправильные, можете проверить? А t-критерий тут применим?

Ранги общие:
75,2 1
78,3 2
80,1 3
87,0 4
88,9 5
90,5 6
95,9 7
99,2 8

Ранги по выборкам:
75,2 1
78,3 2
87,0 4
88,9 5
Сумма рангов=12

80,1 3
90,5 6
95,9 7
99,2 8
Сумма рангов=24

U=(4*4)+(4*(4+1)/2)-24=2

Автор: Диагностик 22.11.2017 - 14:00

Цитата(Света K @ 21.11.2017 - 23:49) *
Получается U=2, а для Alpha .05 и n1=n2=4 табличное U=0, а для Alpha .01 табличного U вообще нет.
Наше 2>0 т.е. делаем вывод, что различия в приросте несущественны? Как правильно должен быть сформулирован этот вывод?


Я посмотрел по таблице Uкр=1. У Вас 2. Вывод - гипотеза о том, что эти две выборки принадлежат к разным распределениям не подтверждается. Эффекта обработки не выявлено, статистически значимой разницы между средними значениями не обнаружено.

Автор: nokh 22.11.2017 - 16:31

Цитата(Диагностик @ 22.11.2017 - 16:00) *
Я посмотрел по таблице Uкр=1. У Вас 2. Вывод - гипотеза о том, что эти две выборки принадлежат к разным распределениям не подтверждается. Эффекта обработки не выявлено, статистически значимой разницы между средними значениями не обнаружено.

Вы бы ещё критерий знаков использовали и всех обучили этому. Кстати, Диагностик, а разве U-критерий проверяет гипотезу о равестве средних? Для дальнейшего роста и улучшения качества диагностики нужно ответить на этот вопрос.
PS Ответ о "равенстве медиан" тоже неверный...

Автор: Диагностик 22.11.2017 - 17:00

Цитата(nokh @ 22.11.2017 - 21:31) *
а разве U-критерий проверяет гипотезу о равестве средних?


Смотри [Закс Л., с.270-281].
Ранговый критерий Манна и Уитни [Mann, Whitney, 1947] основан на критерии Уилкоксона для независимых выборок. Он является непараметрическим аналогом t-критерия для сравнения двух средних значений непрерывных распределений.

Автор: Света K 22.11.2017 - 17:37

Цитата(Диагностик @ 22.11.2017 - 14:00) *
Я посмотрел по таблице Uкр=1. У Вас 2.

Спасибо за объяснение, но в той таблице, что у меня U кр=0, а не 1 для n=4. Можете дать свою таблицу U кр или объяснить, почему 1? И вообще, я вижу, что почему-то есть _разные_ таблицы U кр...

Автор: Диагностик 23.11.2017 - 02:17

Цитата(Света K @ 22.11.2017 - 22:37) *
Можете дать свою таблицу U кр

Название: Статистическое оценивание
Автор: Закс Л.
Издательство: Статистика
Год издания: 1976
табл.63 на стр. 273

Автор: passant 23.11.2017 - 12:57

Попробую поиграть в Нострадамуса. :laugh.gif:
Предполагаю, что Света К в качестве источника таблицы использовала книгу Кобзаря (или - производные от нее), а Диагностик - книгу Закса (последнее- впрочем, очевидно smile.gif ) . Беда в том, что Кобзарь (впрочем, как и до него Гублер) в своей таблице не указывает, что приведенные у него значения АЛЬФА - двусторонние. Закс же в заголовке таблице четко говорит, например "Критические значения для одностороннего критерия при АЛЬФА=0.05, или для двустороннего критерия при АЛЬФА=0.1". Так что определитесь, какую именно гипотезу вы проверяете и выводы (значения таблиц) совпадут.
Теперь что до того, что определяет Критерий WMW.
Цитированный выше Закс четко пишет:
"критерий Уилкоксона, Манна и Уитни проверяет нуль-гипотезу: две независимые выборки принадлежат одной и той же генеральной совокупности, их функции распределения вероятностей равны: F1(x) = F2 (х). Эта гипотеза включает также равенство положений в частности равенство значений медиан и равенство средних значений".
Обратите внимание - критерий проверяет НЕ равенство медиан или равенство средних. В первую очередь он проверяет равенство функций распределений. Грубо говоря - взяты ли выборки из одной и той же генеральной совокупности (и тогда действительно, их средние и/или медианы МОГУТ оказаться равными), или из разных. В случае, если выборки взяты из разных совокупностей проверка равенства их средних и медиан вообще утрачивает смысл. (Ну предствьте, одна совокупность подчинена нормальному закону распределения, а другая - равномерному. Парадокс - при этом их среднее и медиана вполне могут совпадать!).
Т.е. тест проверяет принадлежность одной и той-же совокупности. Все остальное - вторично.

Автор: 100$ 23.11.2017 - 13:47

Поскольку объемы выборок микроскопические, вместо лихорадочного листания древних манускриптов невозбранно проверить нулевую гипотезу о том, что элементы первой выборки (распределенные как Х) стохастически больше элементов второй выборки (распределенной как Y). т.е. H0:P(X>Y)=1/2 рандомизационным критерием с вычислением точной двусторонней вероятности.
Суть критерия проста, как мычание: суммируем данные в двух выборках по отдельности и Получаем суммы S1 и S2. Определяем Sэмпирич=min(S1;S2). Для данного примера Sэмпирич=329.4, и это значение получено по первой выборке объема 4. Далее на множестве всех индексов элементов объединенной выборки (таковых 8) генерируем 70 уникальных сочетаний из 8 по 4. Для каждого индекса из этих 70 сочетаний "вытягиваем" из объединенной выборки соответствующие значения элементов (т.е. для последовательности индексов 1-2-3-6 формируем первую выборку {75,2; 78,3; 88,9; 90,5}, для которой Sрандом=332.9. Количество n случаев Sрандом>=Sэмпирич запоминаем, и - вуаля! - pvalue=n/70.
Файл с расчетами прикрепляю на всякий случай: он сойдет для проверки двух выборок объемом 4 наблюдения. К слову сказать, им же можно рассчитать точную вероятность и для Манна-Уитни: стоит только заменить "сырые" данные их рангами и нажать оранжевую кнопку на рабочем листе.

 Рандомизационный_критерий.rar ( 19,16 килобайт ) : 275
 

Автор: Света K 23.11.2017 - 16:09

Действительно, оказалось, что моя таблица У кр для двустороннего критерия, если взять таблицу для одностороннего, то и правда U кр=1 и все совпадает.
Что касается комментария 100$, то моих знаний здесь пока недостаточно, кроме того появилась новая задача, а еще и Excel на попытку открыть приложенный файл постоянно ругается "Активное содержимое заблокировано", так что оставлю это узким специалистам.

Автор: nokh 23.11.2017 - 22:07

Цитата(Диагностик @ 22.11.2017 - 19:00) *
Смотри [Закс Л., с.270-281].
Ранговый критерий Манна и Уитни [Mann, Whitney, 1947] основан на критерии Уилкоксона для независимых выборок. Он является непараметрическим аналогом t-критерия для сравнения двух средних значений непрерывных распределений.

Вопрос был о том, какую гипотезу проверяет критерий. Заметьте, не о том: (1) на чём основан критерий, (2) для каких выборок применяется, (3) аналогом чего он является, (4) для чего используется. У вас 4 ответа, но не на тот вопрос. Это сродни неверной диагностике: похоже, но не то.
passant сбил мой воинственный настрой задать вам последовательно все 3 технических вопроса и 1 риторический, который я хотел задать. Поэтому выложу всё кучей.

1). Во-первых, критерий УМУ, как уже было сказано, не проверяет гипотезу о различии средних. Соответственно вывод о том, что "Эффекта обработки не выявлено, статистически значимой разницы между средними значениями не обнаружено" является некорректным.

2). Ветка форума в формулировке топикстартера называется "Разница между средними значениями, Описать разницу". Критерий УМУ не позволяет вычислить разницу между средними значениями даже чисто технически, т.к. является ранговым критерием. А уж как описать разницу в терминах УМУ ума не приложу.

3). Почти всегда непараметрические критерии являются менее мощными по сравнению с параметрическими. Это логично, т.к. раз используется меньше информации, то её нехватку нужно чем-то компенсировать. Обычно - увеличением объёма выброк. Поэтому очевидно, что в условиях мизерных выборок нужно брать самое мощное, что только есть - параметрику. Ну или использовать самые современные подходы типа ресэмплинга, которыми сейчас поверяют и параметрику, и непараметрику. Вы же предлагаете использовать для малых выборок менее мощный УМУ, вероятно прочитав эту глупость в русскоязычной википедии. Т.о. даже корректный вывод о принадлежности выборок к разным совокупностям может не быть правильным, т.к. для обнаружения истиных различий просто не хватает мощности (хотя, как уже писал выше, её и так не хватает, причём всем, начиная с научного руководителя).

Т.о. технически критерий УМУ не уместен по трём причинам. И всё было бы ничего, если бы вы ответили в ветку первым: уровень и опыт у всех разный, а чтобы ресурс жил нужно чтобы кто-то отвечал на зачастую примитивные и потворяющиеся вопросы новичков. И ничего страшного, если совет не самый лучший - кто-нибудь поправит если что... Но вы пришли уже после того, как были предложены и доверительные интервалы, и ресэмплинг, и его вариант в конкретной программе: типа считайте УМУ. Т.е. вы не согласны с предложенными до вас подходами и уверены что предлагаете лучший варант? Тогда напишите чем он лучше, и мы подискутируем. Иначе вы просто вводите топикстартера в заблуждение, а консультантов в ветке провоцируете на агрессию по отношению к вам.

Автор: Диагностик 25.11.2017 - 07:30

Цитата(nokh @ 24.11.2017 - 03:07) *
Но вы пришли уже после того, как были предложены и доверительные интервалы, и ресэмплинг, и его вариант в конкретной программе: типа считайте УМУ. Т.е. вы не согласны с предложенными до вас подходами и уверены что предлагаете лучший варант? Тогда напишите чем он лучше, и мы подискутируем.

Как правило при проверке гипотез не достаточно одного или двух критериев. Если по меньшей мере использовано три и все показали одинаковый результат, это уже существенно. Не знаю лучше он или хуже, но он имеет право быть использованным по следующим причинам:
-Применим для любых распределений (среди предложенных предполагалось использовать нормальное);
-Работает с малыми выборками, в пределах имеющихся у ТС (среди предложенных требовались гораздо значительные объёмы);

Автор: Диагностик 25.11.2017 - 07:32

Цитата(nokh @ 24.11.2017 - 03:07) *
2). Ветка форума в формулировке топикстартера называется "Разница между средними значениями, Описать разницу". Критерий УМУ не позволяет вычислить разницу между средними значениями даже чисто технически, т.к. является ранговым критерием. А уж как описать разницу в терминах УМУ ума не приложу.


Дальнейшее развитие темы показало что предложенный мною критерий это как раз то, что требуется ТС.

Автор: 100$ 25.11.2017 - 14:20

Цитата(Диагностик @ 25.11.2017 - 07:30) *
... по следующим причинам:
-Применим для любых распределений (среди предложенных предполагалось использовать нормальное);
-Работает с малыми выборками, в пределах имеющихся у ТС (среди предложенных требовались гораздо значительные объёмы);


Цитата
(среди предложенных предполагалось использовать нормальное)


Это где ж такое предлагалось?

Цитата
среди предложенных требовались гораздо значительные объёмы


Это где ж такое требовалось?

Автор: Света K 29.11.2017 - 09:29

Цитата(nokh)
уже после того, как были предложены и доверительные интервалы, и ресэмплинг, и его вариант в конкретной программе: типа считайте УМУ

Не надо ссориться по пустякам, т.к. в конечном варианте отчета привела и ДИ и УМУ. Все прошло хорошо, никто замечаний не сделал, что У-критерий тут не уместен. А ведь члены Совета все со степенями. Так что мир всем.

Автор: 100$ 29.11.2017 - 11:51

Цитата(Света K @ 29.11.2017 - 09:29) *
Не надо ссориться по пустякам, т.к. в конечном варианте отчета привела и ДИ и УМУ. Все прошло хорошо, никто замечаний не сделал, что У-критерий тут не уместен. А ведь члены Совета все со степенями. Так что мир всем.


Странная связка: ДИ для раницы средних + У-М-У, который к среднему (как к статистической сущности) вообще отношения не имеет. Тем паче, что кроме У-М-У существует еще 100500+ непараметрических критериев на ту же тему. Похоже, в этой истории и Совет и соискатель достойны друг друга.

Света К, я с вас горжусь!

Автор: Диагностик 2.12.2017 - 13:13

Цитата(Света K @ 29.11.2017 - 14:29) *
в конечном варианте отчета привела и ДИ и УМУ. Все прошло хорошо, никто замечаний не сделал, что У-критерий тут не уместен.

В конечном итоге Вам удалось доказать, что статистически значимой разницы в средних значениях двух несвязанных выборках не обнаружено?

Автор: Диагностик 3.12.2017 - 09:13

Цитата(100$ @ 29.11.2017 - 16:51) *
кроме У-М-У существует еще 100500+ непараметрических критериев на ту же тему.

Назовите хотя бы ещё один, второй.

Автор: passant 3.12.2017 - 13:34

Цитата(Диагностик @ 3.12.2017 - 09:13) *
Назовите хотя бы ещё один, второй.

Кобзар А.И."Прикладная математическая статистика". Глава 4.2. "Непараметрические (свободные от распределения) критерии однородности статистических данных " ------- Штук 30 или 40 критериев на указанную тему.
Холлендер М. "Непараметрические методы статистики" -- Целая книга на эту тему с подробным анализом, когда какой метод лучше применять и почему.
Гублер Е.В. "Применение непараметрических критериев статистики в медико-биологических исследованиях" --- Тут конечно методов поменьше, зато адаптировано специально для медиков.

Автор: 100$ 3.12.2017 - 15:30

Цитата(Диагностик @ 3.12.2017 - 09:13) *
Назовите хотя бы ещё один, второй.


1. "Срезал"(с)В.М.Шукшин
2. "Простите, но это слишком толсто"(с)p2004r

Автор: Диагностик 3.12.2017 - 18:04

Цитата(passant @ 3.12.2017 - 18:34) *
Гублер Е.В. "Применение непараметрических критериев статистики в медико-биологических исследованиях"

Спасибо, посмотрел. Там, кроме предложенного называется ещё один - Q-критерий Розенбаума, но он для решения задачи ТС не годится из-за объёма выборок.
Остальное посмотрю позже.

Автор: Света K 14.12.2017 - 00:09

Цитата(Диагностик @ 2.12.2017 - 14:13) *
Вам удалось доказать, что статистически значимой разницы в средних значениях двух несвязанных выборках не обнаружено?

Да, хотя особо доказывать не надо было - просто озвучила данные, что и так, и по другому методу говорить здесь о существенной разнице нельзя, а увеличение в пределах ошибки. Послушали, утвердили.
PS Извиняюсь за запоздалый ответ, но надо было делать другой опыт, а еще и статью в журнал готовить... А теперь нужно и новые данные как-то обрабатывать...

Автор: ИНО 21.06.2022 - 20:06

Поскольку 100$ натолкнул меня на эту тему, напишу пусть и запоздало, свое видение проблемы. Понятно, что ТС это уже без надобности, но может кто еще натолкнется.

Формулировка задачи неверная. Ответить на вопрос "был ли прирост" можно, руководствуясь сугубо знаниями по физиологии растений: если побеги вегетировали и при этом в первый день эксперимента не подохли, то прирост должен был быть. Именно на этот вопрос с помощью статистического анализа пытались ответить все предыдущие ораторы. Думается, сей очевидный ответ в реальности никому нужен не был. А нужен был ответ на другой вопрос: является ли прирост под действием фактора А больше (или меньше), чем под действием фактора Б либо в контрольной группе (о существовании которой ТС скромно умолчала)? Только при такой формулировке исследование приобретает биологический смысл.

И да, если уж считать какие-то критерии с целью констатации самого фактора наличия прироста, то думается, это один из редких в биологии случаев, когда уместна односторонняя альтернатива. Потому как крайне маловероятно, что за время эксперимента побеги могли не удлиняться, а укорачиваться.

И еще: в данной задаче куда разумнее было бы выбрать метод связанных выборок, то есть мерить разность между "после" и "до" на одних и тех же побегах. Если конечно, сама методика измерений не подразумевает безвозвратное изъятие, но я с трудом такую могу представить.

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)