Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Доверительный интервал средней и правило трех сигм (стандартных отклонений)
olex0101
сообщение 9.03.2016 - 10:32
Сообщение #1





Группа: Пользователи
Сообщений: 3
Регистрация: 9.03.2016
Пользователь №: 28049



Часто путают сущность ДИ для средних величин (это, как правило, дают разные калькуляторы и статистические программы) и ДИ, который рассчитывается по правилу трех сигм (или трех стандартных отклонений - S). Пожалуйста, объясните популярно, в чем разница. Как назвать ДИ, рассчитанный по правилу трех сигм? Его надо определять вручную или есть для этого калькуляторы? Буду очень благодарен!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ogurtsov
сообщение 9.03.2016 - 19:49
Сообщение #2





Группа: Пользователи
Сообщений: 127
Регистрация: 15.12.2015
Пользователь №: 27760



По правилу трех сигм никакой ДИ не рассчитывается.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
olex0101
сообщение 10.03.2016 - 09:33
Сообщение #3





Группа: Пользователи
Сообщений: 3
Регистрация: 9.03.2016
Пользователь №: 28049



Цитата(ogurtsov @ 9.03.2016 - 19:49) *
По правилу трех сигм никакой ДИ не рассчитывается.

А как тогда назвать показатель, который рассчитывается по этому правилу? Крайние точки вариационного ряда?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 10.03.2016 - 11:40
Сообщение #4





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(olex0101 @ 9.03.2016 - 12:32) *
Часто путают сущность ДИ для средних величин (это, как правило, дают разные калькуляторы и статистические программы) и ДИ, который рассчитывается по правилу трех сигм (или трех стандартных отклонений - S). Пожалуйста, объясните популярно, в чем разница. Как назвать ДИ, рассчитанный по правилу трех сигм? Его надо определять вручную или есть для этого калькуляторы? Буду очень благодарен!

Его можно назвать "интервалом шести сигм", или "диапазоном шести сигм". Такой стандарт и философия используются в промышленной статистике, но не в биостатистике. Поэтому, если ваши данные - биологические, коллеги вас не поймут. В биологии и медицине принято приводить доверительный интервал (ДИ), в подавляющем большинстве случаев - 95% ДИ (похоже только фармакологи предпочитают более либеральный 90% ДИ, но это скорее от лукавого, поскольку как раз им-то бы и следовало построже). В отличие от интервала +/- 3 сигмы такой ДИ:
1) Ближе к +/- 2 сигмы.
2) Зависит от объёма выборки.
3) Может быть рассчитан для любого распределения, а не только в предположении нормального или известного (для неизвестного может быть получен складным ножом или бутстрепом).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 10.03.2016 - 15:16
Сообщение #5





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Цитата(olex0101 @ 10.03.2016 - 14:33) *
А как тогда назвать показатель, который рассчитывается по этому правилу? Крайние точки вариационного ряда?

Толерантный интервал. А доверительный, он для не случайных значений.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
olex0101
сообщение 11.03.2016 - 11:45
Сообщение #6





Группа: Пользователи
Сообщений: 3
Регистрация: 9.03.2016
Пользователь №: 28049



Цитата(nokh @ 10.03.2016 - 12:40) *
Его можно назвать "интервалом шести сигм", или "диапазоном шести сигм". Такой стандарт и философия используются в промышленной статистике, но не в биостатистике. Поэтому, если ваши данные - биологические, коллеги вас не поймут. В биологии и медицине принято приводить доверительный интервал (ДИ), в подавляющем большинстве случаев - 95% ДИ (похоже только фармакологи предпочитают более либеральный 90% ДИ, но это скорее от лукавого, поскольку как раз им-то бы и следовало построже). В отличие от интервала +/- 3 сигмы такой ДИ:
1) Ближе к +/- 2 сигмы.
2) Зависит от объёма выборки.
3) Может быть рассчитан для любого распределения, а не только в предположении нормального или известного (для неизвестного может быть получен складным ножом или бутстрепом).

Вот такой пример из одной работы: Исследования выполнены на первокурсниках одного из университетов, возраст которых, по данным автора, 17-18 лет. Далее приводится средний их возраст M+/-m 18,20+/- 1,1 года (средняя +/-стандартная ошибка средней), n = 120. Насколько правдоподобны приведенные данные? Как это проверить? Расчеты показывают, что в этом случае S (стандартное отклонение) = 12,05, 95% ДИ для средней = 16,02 - 20,38, по правилу 3-х сигм при нормальном распределении 95% членов вариационного ряда должны попасть в интервал от -5,9 до 42,3. Правильным ли будет вывод о неправдоподобности приведенных в работе данных о возрасте обследованных?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ogurtsov
сообщение 11.03.2016 - 20:32
Сообщение #7





Группа: Пользователи
Сообщений: 127
Регистрация: 15.12.2015
Пользователь №: 27760



Цитата(olex0101 @ 11.03.2016 - 12:45) *
Вот такой пример из одной работы: Исследования выполнены на первокурсниках одного из университетов, возраст которых, по данным автора, 17-18 лет. Далее приводится средний их возраст M+/-m 18,20+/- 1,1 года (средняя +/-стандартная ошибка средней)


Получить среднее 18,2 из значений 17 и 18 - так же правдоподобно, как сложить из букв "А", "П", "Ж" и "О" слово СЧАСТЬЕ.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 13.03.2016 - 23:38
Сообщение #8





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(olex0101 @ 11.03.2016 - 11:45) *
Вот такой пример из одной работы: Исследования выполнены на первокурсниках одного из университетов, возраст которых, по данным автора, 17-18 лет. Далее приводится средний их возраст M+/-m 18,20+/- 1,1 года (средняя +/-стандартная ошибка средней), n = 120. Насколько правдоподобны приведенные данные? Как это проверить? Расчеты показывают, что в этом случае S (стандартное отклонение) = 12,05, 95% ДИ для средней = 16,02 - 20,38, по правилу 3-х сигм при нормальном распределении 95% членов вариационного ряда должны попасть в интервал от -5,9 до 42,3. Правильным ли будет вывод о неправдоподобности приведенных в работе данных о возрасте обследованных?


Рождения соответствуют равномерному распределению. Два года --- поскольку это реальное поколение школьников. Есть не пошедшие учиться в школу родившиеся в декабре например, слишком молодые.

Код
> quantile(replicate(100000, mean(sample(c(18+((11:12)/12), 17+((1:10)/12)), 120, replace=T))), probs=c(0.025, 0.5, 0.975))
    2.5%      50%    97.5%
17.60347 17.70694 17.81806
> quantile(replicate(100000, sd(sample(c(18+((11:12)/12), 17+((1:10)/12)), 120, replace=T))), probs=c(0.025, 0.5, 0.975))
     2.5%       50%     97.5%
0.5092436 0.6012375 0.6762434



Эскизы прикрепленных изображений
Прикрепленное изображение
 


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 14.03.2016 - 11:10
Сообщение #9





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(olex0101 @ 11.03.2016 - 13:45) *
Вот такой пример из одной работы: Исследования выполнены на первокурсниках одного из университетов, возраст которых, по данным автора, 17-18 лет. Далее приводится средний их возраст M+/-m 18,20+/- 1,1 года (средняя +/-стандартная ошибка средней), n = 120. Насколько правдоподобны приведенные данные? Как это проверить? Расчеты показывают, что в этом случае S (стандартное отклонение) = 12,05, 95% ДИ для средней = 16,02 - 20,38, по правилу 3-х сигм при нормальном распределении 95% членов вариационного ряда должны попасть в интервал от -5,9 до 42,3. Правильным ли будет вывод о неправдоподобности приведенных в работе данных о возрасте обследованных?

У меня так же получилось. К ответам выше можно добавить, что даже если чел. попутал станд. ошибку со станд. отклонением (бывает нередко) всё равно ерунда выходит, ну и, конечно, среднее такое не получить в указанном диапазоне. Получается, что в данных как минимум две ошибки: 1) В диапазоне 17-18 или в среднем, 2) в станд. ошибке.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 14.03.2016 - 12:31
Сообщение #10





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(nokh @ 14.03.2016 - 11:10) *
У меня так же получилось. К ответам выше можно добавить, что даже если чел. попутал станд. ошибку со станд. отклонением (бывает нередко) всё равно ерунда выходит, ну и, конечно, среднее такое не получить в указанном диапазоне. Получается, что в данных как минимум две ошибки: 1) В диапазоне 17-18 или в среднем, 2) в станд. ошибке.


Да, скорее всего есть 1-2 29ти летних студента, которые сильно в результате отклонили среднее и среднеквадратическое.

Код
> my.f<-function(x)(18.2-quantile(mean(c(rep(x[1],x[2]), s)), probs=c(0.5)))^2 + (1.1-quantile(sd(c(rep(x[1],x[1]), s)), probs=c(0.5)))^2
> optim(c(23,5), my.f)
$par
[1] 20.41329 28.77820

$value
[1] 3.123124e-06

$counts
function gradient
      61       NA

$convergence
[1] 0

$message
NULL

> quantile(replicate(100000, mean(c(rep(20.41,28), sample(c(18+((11:12)/12), 17+((1:10)/12)), 120, replace=T)))), probs=c(0.025, 0.5, 0.975))
    2.5%      50%    97.5%
18.13500 18.21833 18.30955
> quantile(replicate(100000, sd(c(rep(20.41,28), sample(c(18+((11:12)/12), 17+((1:10)/12)), 120, replace=T)))), probs=c(0.025, 0.5, 0.975))
    2.5%      50%    97.5%
1.170157 1.191596 1.211992


Например вот так

Сообщение отредактировал p2004r - 14.03.2016 - 14:18


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Apatic
сообщение 24.05.2016 - 00:37
Сообщение #11





Группа: Пользователи
Сообщений: 1
Регистрация: 24.05.2016
Пользователь №: 28299



Цитата(nokh @ 14.03.2016 - 11:10) *
У меня так же получилось. К ответам выше можно добавить, что даже если чел. попутал станд. ошибку со станд. отклонением (бывает нередко) всё равно ерунда выходит, ну и, конечно, среднее такое не получить в указанном диапазоне. Получается, что в данных как минимум две ошибки: 1) В диапазоне 17-18 или в среднем, 2) в станд. ошибке.


Я дико извиняюсь за некропостинг, но решил вставить свои 5 копеек.

ИМХО тут надо учитывать, что, как правило, считается, что люди в возрасте 18 лет, это в том числе и люди, которым 18,5 лет, и даже те, кому 18 лет и 11 месяцев.
Поэтому получить значение 18,2 - проще простого (просто большинству уже было хорошо за 18). В данном случае автору, приводящему данные надо было как-то иначе указывать возраст, чтобы не было путаницы. Или хотя бы добавить "полных лет".
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему