Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Доверительный интервал средней и правило трех сигм (стандартных отклонений)
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
olex0101
Часто путают сущность ДИ для средних величин (это, как правило, дают разные калькуляторы и статистические программы) и ДИ, который рассчитывается по правилу трех сигм (или трех стандартных отклонений - S). Пожалуйста, объясните популярно, в чем разница. Как назвать ДИ, рассчитанный по правилу трех сигм? Его надо определять вручную или есть для этого калькуляторы? Буду очень благодарен!
ogurtsov
По правилу трех сигм никакой ДИ не рассчитывается.
olex0101
Цитата(ogurtsov @ 9.03.2016 - 19:49) *
По правилу трех сигм никакой ДИ не рассчитывается.

А как тогда назвать показатель, который рассчитывается по этому правилу? Крайние точки вариационного ряда?
nokh
Цитата(olex0101 @ 9.03.2016 - 12:32) *
Часто путают сущность ДИ для средних величин (это, как правило, дают разные калькуляторы и статистические программы) и ДИ, который рассчитывается по правилу трех сигм (или трех стандартных отклонений - S). Пожалуйста, объясните популярно, в чем разница. Как назвать ДИ, рассчитанный по правилу трех сигм? Его надо определять вручную или есть для этого калькуляторы? Буду очень благодарен!

Его можно назвать "интервалом шести сигм", или "диапазоном шести сигм". Такой стандарт и философия используются в промышленной статистике, но не в биостатистике. Поэтому, если ваши данные - биологические, коллеги вас не поймут. В биологии и медицине принято приводить доверительный интервал (ДИ), в подавляющем большинстве случаев - 95% ДИ (похоже только фармакологи предпочитают более либеральный 90% ДИ, но это скорее от лукавого, поскольку как раз им-то бы и следовало построже). В отличие от интервала +/- 3 сигмы такой ДИ:
1) Ближе к +/- 2 сигмы.
2) Зависит от объёма выборки.
3) Может быть рассчитан для любого распределения, а не только в предположении нормального или известного (для неизвестного может быть получен складным ножом или бутстрепом).
Диагностик
Цитата(olex0101 @ 10.03.2016 - 14:33) *
А как тогда назвать показатель, который рассчитывается по этому правилу? Крайние точки вариационного ряда?

Толерантный интервал. А доверительный, он для не случайных значений.
olex0101
Цитата(nokh @ 10.03.2016 - 12:40) *
Его можно назвать "интервалом шести сигм", или "диапазоном шести сигм". Такой стандарт и философия используются в промышленной статистике, но не в биостатистике. Поэтому, если ваши данные - биологические, коллеги вас не поймут. В биологии и медицине принято приводить доверительный интервал (ДИ), в подавляющем большинстве случаев - 95% ДИ (похоже только фармакологи предпочитают более либеральный 90% ДИ, но это скорее от лукавого, поскольку как раз им-то бы и следовало построже). В отличие от интервала +/- 3 сигмы такой ДИ:
1) Ближе к +/- 2 сигмы.
2) Зависит от объёма выборки.
3) Может быть рассчитан для любого распределения, а не только в предположении нормального или известного (для неизвестного может быть получен складным ножом или бутстрепом).

Вот такой пример из одной работы: Исследования выполнены на первокурсниках одного из университетов, возраст которых, по данным автора, 17-18 лет. Далее приводится средний их возраст M+/-m 18,20+/- 1,1 года (средняя +/-стандартная ошибка средней), n = 120. Насколько правдоподобны приведенные данные? Как это проверить? Расчеты показывают, что в этом случае S (стандартное отклонение) = 12,05, 95% ДИ для средней = 16,02 - 20,38, по правилу 3-х сигм при нормальном распределении 95% членов вариационного ряда должны попасть в интервал от -5,9 до 42,3. Правильным ли будет вывод о неправдоподобности приведенных в работе данных о возрасте обследованных?
ogurtsov
Цитата(olex0101 @ 11.03.2016 - 12:45) *
Вот такой пример из одной работы: Исследования выполнены на первокурсниках одного из университетов, возраст которых, по данным автора, 17-18 лет. Далее приводится средний их возраст M+/-m 18,20+/- 1,1 года (средняя +/-стандартная ошибка средней)


Получить среднее 18,2 из значений 17 и 18 - так же правдоподобно, как сложить из букв "А", "П", "Ж" и "О" слово СЧАСТЬЕ.
p2004r
Цитата(olex0101 @ 11.03.2016 - 11:45) *
Вот такой пример из одной работы: Исследования выполнены на первокурсниках одного из университетов, возраст которых, по данным автора, 17-18 лет. Далее приводится средний их возраст M+/-m 18,20+/- 1,1 года (средняя +/-стандартная ошибка средней), n = 120. Насколько правдоподобны приведенные данные? Как это проверить? Расчеты показывают, что в этом случае S (стандартное отклонение) = 12,05, 95% ДИ для средней = 16,02 - 20,38, по правилу 3-х сигм при нормальном распределении 95% членов вариационного ряда должны попасть в интервал от -5,9 до 42,3. Правильным ли будет вывод о неправдоподобности приведенных в работе данных о возрасте обследованных?


Рождения соответствуют равномерному распределению. Два года --- поскольку это реальное поколение школьников. Есть не пошедшие учиться в школу родившиеся в декабре например, слишком молодые.

Код
> quantile(replicate(100000, mean(sample(c(18+((11:12)/12), 17+((1:10)/12)), 120, replace=T))), probs=c(0.025, 0.5, 0.975))
    2.5%      50%    97.5%
17.60347 17.70694 17.81806
> quantile(replicate(100000, sd(sample(c(18+((11:12)/12), 17+((1:10)/12)), 120, replace=T))), probs=c(0.025, 0.5, 0.975))
     2.5%       50%     97.5%
0.5092436 0.6012375 0.6762434


nokh
Цитата(olex0101 @ 11.03.2016 - 13:45) *
Вот такой пример из одной работы: Исследования выполнены на первокурсниках одного из университетов, возраст которых, по данным автора, 17-18 лет. Далее приводится средний их возраст M+/-m 18,20+/- 1,1 года (средняя +/-стандартная ошибка средней), n = 120. Насколько правдоподобны приведенные данные? Как это проверить? Расчеты показывают, что в этом случае S (стандартное отклонение) = 12,05, 95% ДИ для средней = 16,02 - 20,38, по правилу 3-х сигм при нормальном распределении 95% членов вариационного ряда должны попасть в интервал от -5,9 до 42,3. Правильным ли будет вывод о неправдоподобности приведенных в работе данных о возрасте обследованных?

У меня так же получилось. К ответам выше можно добавить, что даже если чел. попутал станд. ошибку со станд. отклонением (бывает нередко) всё равно ерунда выходит, ну и, конечно, среднее такое не получить в указанном диапазоне. Получается, что в данных как минимум две ошибки: 1) В диапазоне 17-18 или в среднем, 2) в станд. ошибке.
p2004r
Цитата(nokh @ 14.03.2016 - 11:10) *
У меня так же получилось. К ответам выше можно добавить, что даже если чел. попутал станд. ошибку со станд. отклонением (бывает нередко) всё равно ерунда выходит, ну и, конечно, среднее такое не получить в указанном диапазоне. Получается, что в данных как минимум две ошибки: 1) В диапазоне 17-18 или в среднем, 2) в станд. ошибке.


Да, скорее всего есть 1-2 29ти летних студента, которые сильно в результате отклонили среднее и среднеквадратическое.

Код
> my.f<-function(x)(18.2-quantile(mean(c(rep(x[1],x[2]), s)), probs=c(0.5)))^2 + (1.1-quantile(sd(c(rep(x[1],x[1]), s)), probs=c(0.5)))^2
> optim(c(23,5), my.f)
$par
[1] 20.41329 28.77820

$value
[1] 3.123124e-06

$counts
function gradient
      61       NA

$convergence
[1] 0

$message
NULL

> quantile(replicate(100000, mean(c(rep(20.41,28), sample(c(18+((11:12)/12), 17+((1:10)/12)), 120, replace=T)))), probs=c(0.025, 0.5, 0.975))
    2.5%      50%    97.5%
18.13500 18.21833 18.30955
> quantile(replicate(100000, sd(c(rep(20.41,28), sample(c(18+((11:12)/12), 17+((1:10)/12)), 120, replace=T)))), probs=c(0.025, 0.5, 0.975))
    2.5%      50%    97.5%
1.170157 1.191596 1.211992


Например вот так
Apatic
Цитата(nokh @ 14.03.2016 - 11:10) *
У меня так же получилось. К ответам выше можно добавить, что даже если чел. попутал станд. ошибку со станд. отклонением (бывает нередко) всё равно ерунда выходит, ну и, конечно, среднее такое не получить в указанном диапазоне. Получается, что в данных как минимум две ошибки: 1) В диапазоне 17-18 или в среднем, 2) в станд. ошибке.


Я дико извиняюсь за некропостинг, но решил вставить свои 5 копеек.

ИМХО тут надо учитывать, что, как правило, считается, что люди в возрасте 18 лет, это в том числе и люди, которым 18,5 лет, и даже те, кому 18 лет и 11 месяцев.
Поэтому получить значение 18,2 - проще простого (просто большинству уже было хорошо за 18). В данном случае автору, приводящему данные надо было как-то иначе указывать возраст, чтобы не было путаницы. Или хотя бы добавить "полных лет".
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.