Доверительный интервал средней и правило трех сигм (стандартных отклонений)

Доверительный интервал средней и правило трех сигм (стандартных отклонений)

olex0101 Просмотр профиля	9.03.2016 - 10:32 Сообщение #1
Группа: Пользователи Сообщений: 3 Регистрация: 9.03.2016 Пользователь №: 28049	Часто путают сущность ДИ для средних величин (это, как правило, дают разные калькуляторы и статистические программы) и ДИ, который рассчитывается по правилу трех сигм (или трех стандартных отклонений - S). Пожалуйста, объясните популярно, в чем разница. Как назвать ДИ, рассчитанный по правилу трех сигм? Его надо определять вручную или есть для этого калькуляторы? Буду очень благодарен!

ogurtsov Просмотр профиля	9.03.2016 - 19:49 Сообщение #2
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760	По правилу трех сигм никакой ДИ не рассчитывается. Биостатистика и язык R

olex0101 Просмотр профиля	10.03.2016 - 09:33 Сообщение #3
Группа: Пользователи Сообщений: 3 Регистрация: 9.03.2016 Пользователь №: 28049	Цитата(ogurtsov @ 9.03.2016 - 19:49) По правилу трех сигм никакой ДИ не рассчитывается. А как тогда назвать показатель, который рассчитывается по этому правилу? Крайние точки вариационного ряда?

nokh Просмотр профиля	10.03.2016 - 11:40 Сообщение #4
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(olex0101 @ 9.03.2016 - 12:32) Часто путают сущность ДИ для средних величин (это, как правило, дают разные калькуляторы и статистические программы) и ДИ, который рассчитывается по правилу трех сигм (или трех стандартных отклонений - S). Пожалуйста, объясните популярно, в чем разница. Как назвать ДИ, рассчитанный по правилу трех сигм? Его надо определять вручную или есть для этого калькуляторы? Буду очень благодарен! Его можно назвать "интервалом шести сигм", или "диапазоном шести сигм". Такой стандарт и философия используются в промышленной статистике, но не в биостатистике. Поэтому, если ваши данные - биологические, коллеги вас не поймут. В биологии и медицине принято приводить доверительный интервал (ДИ), в подавляющем большинстве случаев - 95% ДИ (похоже только фармакологи предпочитают более либеральный 90% ДИ, но это скорее от лукавого, поскольку как раз им-то бы и следовало построже). В отличие от интервала +/- 3 сигмы такой ДИ: 1) Ближе к +/- 2 сигмы. 2) Зависит от объёма выборки. 3) Может быть рассчитан для любого распределения, а не только в предположении нормального или известного (для неизвестного может быть получен складным ножом или бутстрепом).

Диагностик Просмотр профиля	10.03.2016 - 15:16 Сообщение #5
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146	Цитата(olex0101 @ 10.03.2016 - 14:33) А как тогда назвать показатель, который рассчитывается по этому правилу? Крайние точки вариационного ряда? Толерантный интервал. А доверительный, он для не случайных значений.

olex0101 Просмотр профиля	11.03.2016 - 11:45 Сообщение #6
Группа: Пользователи Сообщений: 3 Регистрация: 9.03.2016 Пользователь №: 28049	Цитата(nokh @ 10.03.2016 - 12:40) Его можно назвать "интервалом шести сигм", или "диапазоном шести сигм". Такой стандарт и философия используются в промышленной статистике, но не в биостатистике. Поэтому, если ваши данные - биологические, коллеги вас не поймут. В биологии и медицине принято приводить доверительный интервал (ДИ), в подавляющем большинстве случаев - 95% ДИ (похоже только фармакологи предпочитают более либеральный 90% ДИ, но это скорее от лукавого, поскольку как раз им-то бы и следовало построже). В отличие от интервала +/- 3 сигмы такой ДИ: 1) Ближе к +/- 2 сигмы. 2) Зависит от объёма выборки. 3) Может быть рассчитан для любого распределения, а не только в предположении нормального или известного (для неизвестного может быть получен складным ножом или бутстрепом). Вот такой пример из одной работы: Исследования выполнены на первокурсниках одного из университетов, возраст которых, по данным автора, 17-18 лет. Далее приводится средний их возраст M+/-m 18,20+/- 1,1 года (средняя +/-стандартная ошибка средней), n = 120. Насколько правдоподобны приведенные данные? Как это проверить? Расчеты показывают, что в этом случае S (стандартное отклонение) = 12,05, 95% ДИ для средней = 16,02 - 20,38, по правилу 3-х сигм при нормальном распределении 95% членов вариационного ряда должны попасть в интервал от -5,9 до 42,3. Правильным ли будет вывод о неправдоподобности приведенных в работе данных о возрасте обследованных?

ogurtsov Просмотр профиля	11.03.2016 - 20:32 Сообщение #7
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760	Цитата(olex0101 @ 11.03.2016 - 12:45) Вот такой пример из одной работы: Исследования выполнены на первокурсниках одного из университетов, возраст которых, по данным автора, 17-18 лет. Далее приводится средний их возраст M+/-m 18,20+/- 1,1 года (средняя +/-стандартная ошибка средней) Получить среднее 18,2 из значений 17 и 18 - так же правдоподобно, как сложить из букв "А", "П", "Ж" и "О" слово СЧАСТЬЕ. Биостатистика и язык R

p2004r

13.03.2016 - 23:38

Сообщение #8

Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699

Цитата(olex0101 @ 11.03.2016 - 11:45)

Вот такой пример из одной работы: Исследования выполнены на первокурсниках одного из университетов, возраст которых, по данным автора, 17-18 лет. Далее приводится средний их возраст M+/-m 18,20+/- 1,1 года (средняя +/-стандартная ошибка средней), n = 120. Насколько правдоподобны приведенные данные? Как это проверить? Расчеты показывают, что в этом случае S (стандартное отклонение) = 12,05, 95% ДИ для средней = 16,02 - 20,38, по правилу 3-х сигм при нормальном распределении 95% членов вариационного ряда должны попасть в интервал от -5,9 до 42,3. Правильным ли будет вывод о неправдоподобности приведенных в работе данных о возрасте обследованных?

Рождения соответствуют равномерному распределению. Два года --- поскольку это реальное поколение школьников. Есть не пошедшие учиться в школу родившиеся в декабре например, слишком молодые.

Код

> quantile(replicate(100000, mean(sample(c(18+((11:12)/12), 17+((1:10)/12)), 120, replace=T))), probs=c(0.025, 0.5, 0.975))
2.5% 50% 97.5%
17.60347 17.70694 17.81806
> quantile(replicate(100000, sd(sample(c(18+((11:12)/12), 17+((1:10)/12)), 120, replace=T))), probs=c(0.025, 0.5, 0.975))
2.5% 50% 97.5%
0.5092436 0.6012375 0.6762434

Эскизы прикрепленных изображений

http://r-statistics.livejournal.com/

Ответить с цитированием данного сообщения

nokh Просмотр профиля	14.03.2016 - 11:10 Сообщение #9
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(olex0101 @ 11.03.2016 - 13:45) Вот такой пример из одной работы: Исследования выполнены на первокурсниках одного из университетов, возраст которых, по данным автора, 17-18 лет. Далее приводится средний их возраст M+/-m 18,20+/- 1,1 года (средняя +/-стандартная ошибка средней), n = 120. Насколько правдоподобны приведенные данные? Как это проверить? Расчеты показывают, что в этом случае S (стандартное отклонение) = 12,05, 95% ДИ для средней = 16,02 - 20,38, по правилу 3-х сигм при нормальном распределении 95% членов вариационного ряда должны попасть в интервал от -5,9 до 42,3. Правильным ли будет вывод о неправдоподобности приведенных в работе данных о возрасте обследованных? У меня так же получилось. К ответам выше можно добавить, что даже если чел. попутал станд. ошибку со станд. отклонением (бывает нередко) всё равно ерунда выходит, ну и, конечно, среднее такое не получить в указанном диапазоне. Получается, что в данных как минимум две ошибки: 1) В диапазоне 17-18 или в среднем, 2) в станд. ошибке.

p2004r Просмотр профиля	14.03.2016 - 12:31 Сообщение #10
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(nokh @ 14.03.2016 - 11:10) У меня так же получилось. К ответам выше можно добавить, что даже если чел. попутал станд. ошибку со станд. отклонением (бывает нередко) всё равно ерунда выходит, ну и, конечно, среднее такое не получить в указанном диапазоне. Получается, что в данных как минимум две ошибки: 1) В диапазоне 17-18 или в среднем, 2) в станд. ошибке. Да, скорее всего есть 1-2 29ти летних студента, которые сильно в результате отклонили среднее и среднеквадратическое. Код > my.f<-function(x)(18.2-quantile(mean(c(rep(x[1],x[2]), s)), probs=c(0.5)))^2 + (1.1-quantile(sd(c(rep(x[1],x[1]), s)), probs=c(0.5)))^2 > optim(c(23,5), my.f) $par [1] 20.41329 28.77820 $value [1] 3.123124e-06 $counts function gradient 61 NA $convergence [1] 0 $message NULL > quantile(replicate(100000, mean(c(rep(20.41,28), sample(c(18+((11:12)/12), 17+((1:10)/12)), 120, replace=T)))), probs=c(0.025, 0.5, 0.975)) 2.5% 50% 97.5% 18.13500 18.21833 18.30955 > quantile(replicate(100000, sd(c(rep(20.41,28), sample(c(18+((11:12)/12), 17+((1:10)/12)), 120, replace=T)))), probs=c(0.025, 0.5, 0.975)) 2.5% 50% 97.5% 1.170157 1.191596 1.211992 Например вот так Сообщение отредактировал p2004r - 14.03.2016 - 14:18 http://r-statistics.livejournal.com/

Apatic Просмотр профиля	24.05.2016 - 00:37 Сообщение #11
Группа: Пользователи Сообщений: 1 Регистрация: 24.05.2016 Пользователь №: 28299	Цитата(nokh @ 14.03.2016 - 11:10) У меня так же получилось. К ответам выше можно добавить, что даже если чел. попутал станд. ошибку со станд. отклонением (бывает нередко) всё равно ерунда выходит, ну и, конечно, среднее такое не получить в указанном диапазоне. Получается, что в данных как минимум две ошибки: 1) В диапазоне 17-18 или в среднем, 2) в станд. ошибке. Я дико извиняюсь за некропостинг, но решил вставить свои 5 копеек. ИМХО тут надо учитывать, что, как правило, считается, что люди в возрасте 18 лет, это в том числе и люди, которым 18,5 лет, и даже те, кому 18 лет и 11 месяцев. Поэтому получить значение 18,2 - проще простого (просто большинству уже было хорошо за 18). В данном случае автору, приводящему данные надо было как-то иначе указывать возраст, чтобы не было путаницы. Или хотя бы добавить "полных лет".

« Предыдущая тема · Медицинская статистика · Следующая тема »