Доверительный интервал средней и правило трех сигм (стандартных отклонений) |
Здравствуйте, гость ( Вход | Регистрация )
Доверительный интервал средней и правило трех сигм (стандартных отклонений) |
9.03.2016 - 10:32
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 9.03.2016 Пользователь №: 28049 |
Часто путают сущность ДИ для средних величин (это, как правило, дают разные калькуляторы и статистические программы) и ДИ, который рассчитывается по правилу трех сигм (или трех стандартных отклонений - S). Пожалуйста, объясните популярно, в чем разница. Как назвать ДИ, рассчитанный по правилу трех сигм? Его надо определять вручную или есть для этого калькуляторы? Буду очень благодарен!
|
|
9.03.2016 - 19:49
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760 |
По правилу трех сигм никакой ДИ не рассчитывается.
|
|
10.03.2016 - 09:33
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 9.03.2016 Пользователь №: 28049 |
|
|
10.03.2016 - 11:40
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Часто путают сущность ДИ для средних величин (это, как правило, дают разные калькуляторы и статистические программы) и ДИ, который рассчитывается по правилу трех сигм (или трех стандартных отклонений - S). Пожалуйста, объясните популярно, в чем разница. Как назвать ДИ, рассчитанный по правилу трех сигм? Его надо определять вручную или есть для этого калькуляторы? Буду очень благодарен! Его можно назвать "интервалом шести сигм", или "диапазоном шести сигм". Такой стандарт и философия используются в промышленной статистике, но не в биостатистике. Поэтому, если ваши данные - биологические, коллеги вас не поймут. В биологии и медицине принято приводить доверительный интервал (ДИ), в подавляющем большинстве случаев - 95% ДИ (похоже только фармакологи предпочитают более либеральный 90% ДИ, но это скорее от лукавого, поскольку как раз им-то бы и следовало построже). В отличие от интервала +/- 3 сигмы такой ДИ: 1) Ближе к +/- 2 сигмы. 2) Зависит от объёма выборки. 3) Может быть рассчитан для любого распределения, а не только в предположении нормального или известного (для неизвестного может быть получен складным ножом или бутстрепом). |
|
10.03.2016 - 15:16
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
|
|
11.03.2016 - 11:45
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 9.03.2016 Пользователь №: 28049 |
Его можно назвать "интервалом шести сигм", или "диапазоном шести сигм". Такой стандарт и философия используются в промышленной статистике, но не в биостатистике. Поэтому, если ваши данные - биологические, коллеги вас не поймут. В биологии и медицине принято приводить доверительный интервал (ДИ), в подавляющем большинстве случаев - 95% ДИ (похоже только фармакологи предпочитают более либеральный 90% ДИ, но это скорее от лукавого, поскольку как раз им-то бы и следовало построже). В отличие от интервала +/- 3 сигмы такой ДИ: 1) Ближе к +/- 2 сигмы. 2) Зависит от объёма выборки. 3) Может быть рассчитан для любого распределения, а не только в предположении нормального или известного (для неизвестного может быть получен складным ножом или бутстрепом). Вот такой пример из одной работы: Исследования выполнены на первокурсниках одного из университетов, возраст которых, по данным автора, 17-18 лет. Далее приводится средний их возраст M+/-m 18,20+/- 1,1 года (средняя +/-стандартная ошибка средней), n = 120. Насколько правдоподобны приведенные данные? Как это проверить? Расчеты показывают, что в этом случае S (стандартное отклонение) = 12,05, 95% ДИ для средней = 16,02 - 20,38, по правилу 3-х сигм при нормальном распределении 95% членов вариационного ряда должны попасть в интервал от -5,9 до 42,3. Правильным ли будет вывод о неправдоподобности приведенных в работе данных о возрасте обследованных? |
|
11.03.2016 - 20:32
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760 |
Вот такой пример из одной работы: Исследования выполнены на первокурсниках одного из университетов, возраст которых, по данным автора, 17-18 лет. Далее приводится средний их возраст M+/-m 18,20+/- 1,1 года (средняя +/-стандартная ошибка средней) Получить среднее 18,2 из значений 17 и 18 - так же правдоподобно, как сложить из букв "А", "П", "Ж" и "О" слово СЧАСТЬЕ. |
|
13.03.2016 - 23:38
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Вот такой пример из одной работы: Исследования выполнены на первокурсниках одного из университетов, возраст которых, по данным автора, 17-18 лет. Далее приводится средний их возраст M+/-m 18,20+/- 1,1 года (средняя +/-стандартная ошибка средней), n = 120. Насколько правдоподобны приведенные данные? Как это проверить? Расчеты показывают, что в этом случае S (стандартное отклонение) = 12,05, 95% ДИ для средней = 16,02 - 20,38, по правилу 3-х сигм при нормальном распределении 95% членов вариационного ряда должны попасть в интервал от -5,9 до 42,3. Правильным ли будет вывод о неправдоподобности приведенных в работе данных о возрасте обследованных? Рождения соответствуют равномерному распределению. Два года --- поскольку это реальное поколение школьников. Есть не пошедшие учиться в школу родившиеся в декабре например, слишком молодые. Код > quantile(replicate(100000, mean(sample(c(18+((11:12)/12), 17+((1:10)/12)), 120, replace=T))), probs=c(0.025, 0.5, 0.975)) 2.5% 50% 97.5% 17.60347 17.70694 17.81806 > quantile(replicate(100000, sd(sample(c(18+((11:12)/12), 17+((1:10)/12)), 120, replace=T))), probs=c(0.025, 0.5, 0.975)) 2.5% 50% 97.5% 0.5092436 0.6012375 0.6762434 |
|
14.03.2016 - 11:10
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Вот такой пример из одной работы: Исследования выполнены на первокурсниках одного из университетов, возраст которых, по данным автора, 17-18 лет. Далее приводится средний их возраст M+/-m 18,20+/- 1,1 года (средняя +/-стандартная ошибка средней), n = 120. Насколько правдоподобны приведенные данные? Как это проверить? Расчеты показывают, что в этом случае S (стандартное отклонение) = 12,05, 95% ДИ для средней = 16,02 - 20,38, по правилу 3-х сигм при нормальном распределении 95% членов вариационного ряда должны попасть в интервал от -5,9 до 42,3. Правильным ли будет вывод о неправдоподобности приведенных в работе данных о возрасте обследованных? У меня так же получилось. К ответам выше можно добавить, что даже если чел. попутал станд. ошибку со станд. отклонением (бывает нередко) всё равно ерунда выходит, ну и, конечно, среднее такое не получить в указанном диапазоне. Получается, что в данных как минимум две ошибки: 1) В диапазоне 17-18 или в среднем, 2) в станд. ошибке. |
|
14.03.2016 - 12:31
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
У меня так же получилось. К ответам выше можно добавить, что даже если чел. попутал станд. ошибку со станд. отклонением (бывает нередко) всё равно ерунда выходит, ну и, конечно, среднее такое не получить в указанном диапазоне. Получается, что в данных как минимум две ошибки: 1) В диапазоне 17-18 или в среднем, 2) в станд. ошибке. Да, скорее всего есть 1-2 29ти летних студента, которые сильно в результате отклонили среднее и среднеквадратическое. Код > my.f<-function(x)(18.2-quantile(mean(c(rep(x[1],x[2]), s)), probs=c(0.5)))^2 + (1.1-quantile(sd(c(rep(x[1],x[1]), s)), probs=c(0.5)))^2 > optim(c(23,5), my.f) $par [1] 20.41329 28.77820 $value [1] 3.123124e-06 $counts function gradient 61 NA $convergence [1] 0 $message NULL > quantile(replicate(100000, mean(c(rep(20.41,28), sample(c(18+((11:12)/12), 17+((1:10)/12)), 120, replace=T)))), probs=c(0.025, 0.5, 0.975)) 2.5% 50% 97.5% 18.13500 18.21833 18.30955 > quantile(replicate(100000, sd(c(rep(20.41,28), sample(c(18+((11:12)/12), 17+((1:10)/12)), 120, replace=T)))), probs=c(0.025, 0.5, 0.975)) 2.5% 50% 97.5% 1.170157 1.191596 1.211992 Например вот так Сообщение отредактировал p2004r - 14.03.2016 - 14:18 |
|
24.05.2016 - 00:37
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 1 Регистрация: 24.05.2016 Пользователь №: 28299 |
У меня так же получилось. К ответам выше можно добавить, что даже если чел. попутал станд. ошибку со станд. отклонением (бывает нередко) всё равно ерунда выходит, ну и, конечно, среднее такое не получить в указанном диапазоне. Получается, что в данных как минимум две ошибки: 1) В диапазоне 17-18 или в среднем, 2) в станд. ошибке. Я дико извиняюсь за некропостинг, но решил вставить свои 5 копеек. ИМХО тут надо учитывать, что, как правило, считается, что люди в возрасте 18 лет, это в том числе и люди, которым 18,5 лет, и даже те, кому 18 лет и 11 месяцев. Поэтому получить значение 18,2 - проще простого (просто большинству уже было хорошо за 18). В данном случае автору, приводящему данные надо было как-то иначе указывать возраст, чтобы не было путаницы. Или хотя бы добавить "полных лет". |
|