Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Описание совокупности
Robotnik
сообщение 2.05.2020 - 23:12
Сообщение #1





Группа: Пользователи
Сообщений: 9
Регистрация: 20.09.2016
Пользователь №: 28664



Доброго времени суток, уважаемые участники форума!
Ситуация следующая: у меня есть выборочная совокупность из 400 наблюдений. Я захотел её описать и высказать суждение о генеральной совокупности. Для этого я определил, подчиняется ли массив данных закону нормального распределения: оказалось, что нет: d = 0,2106; p = 0,0001. Затем, чтобы определить среднее значение я высчитал медиану: Me = 4 и доверительный интервал к ней с помощью программы "Довинт": 95% ДИ [3;4].
Скажите, могу ли я сделать вывод о том, что в генеральной совокупности частота изучаемого признака варьирует от 3 до 4 (с вероятностью в 95%, естественно)?
Я это спрашиваю по той причине, потому что при дополнительном высчитывании моды, был получен следующий цифровой показатель: Мо = 2. Т.е. получается, что в выборке наиболее частым является значение "2", а в генеральной совокупности: от "3" до "4". Нет ли здесь противоречия? Или я неверно что-то посчитал (скорее всего это)?
И ещё: при дополнительном расчёте интерквартильного размаха я получил следующее значение: Q1 = 2, Q3 = 7, IQR = 5. Т.е. размах больше медианы. Опять моя ошибка?
Заранее благодарю за ответы и прошу прощение за беспокойство.

Сообщение отредактировал Robotnik - 2.05.2020 - 23:42
Прикрепленные файлы
Прикрепленный файл  Данные.xlsx ( 10,52 килобайт ) Кол-во скачиваний: 332
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 3.05.2020 - 00:48
Сообщение #2





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Цитата(Robotnik @ 3.05.2020 - 04:12) *
Ситуация следующая: у меня есть выборочная совокупность из 400 наблюдений. Я захотел её описать и высказать суждение о генеральной совокупности.

А объём ГС какой?
Цитата(Robotnik @ 3.05.2020 - 04:12) *
Затем, чтобы определить среднее значение я высчитал медиану: Me = 4 и доверительный интервал к ней с помощью программы "Довинт": 95% ДИ [3;4].

А почему не сразу среднее? У вас почему-то медиана оказалась на границе ДИ.
Цитата(Robotnik @ 3.05.2020 - 04:12) *
Скажите, могу ли я сделать вывод о том, что в генеральной совокупности частота изучаемого признака варьирует от 3 до 4 (с вероятностью в 95%, естественно)?

А причём здесь частота? Генеральную медиану накрывает ДИ.
Цитата(Robotnik @ 3.05.2020 - 04:12) *
при дополнительном высчитывании моды, был получен следующий цифровой показатель: Мо = 2. Т.е. получается, что в выборке наиболее частым является значение "2", а в генеральной совокупности: от "3" до "4". Нет ли здесь противоречия?

Нет, в первом случае это мода, а во втором ДИ для медианы.
Цитата(Robotnik @ 3.05.2020 - 04:12) *
И ещё: при дополнительном расчёте интерквартильного размаха я получил следующее значение: Q1 = 2, Q3 = 7, IQR = 5. Т.е. размах больше медианы. Опять моя ошибка?

Нет ошибки. Почему размах не может быть меньше медианы?
Ваше выборочное распределение скорее всего принадлежит к классу экспоненциальных. Не подскажите природу порождения данных?

Сообщение отредактировал Диагностик - 3.05.2020 - 00:48
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Robotnik
сообщение 3.05.2020 - 01:48
Сообщение #3





Группа: Пользователи
Сообщений: 9
Регистрация: 20.09.2016
Пользователь №: 28664



Цитата(Диагностик)
А объём ГС какой?

Так, генеральная совокупность неизвестна. Я набрал 400 наблюдений и хотел бы, на основании их анализа, высказаться о генеральной совокупности.
Цитата(Диагностик)
А почему не сразу среднее? У вас почему-то медиана оказалась на границе ДИ.

Вы имели ввиду среднее арифметическое? Если его, то я не высчитывал, потому что распределение было ненормальным.
Цитата(Диагностик)
А причём здесь частота? Генеральную медиану накрывает ДИ.

Извините, может быть некорректно выразился. Поясню по поводу данных: я - судебный медик и исследую, в частности, количество повреждений у пострадавших при определённых обстоятельствах внешнего физического насилия. Так вот, все 400 наблюдений - это 400 случаев, где у человека были обнаружены повреждения в определённом количестве. Так вот я и хотел, путём расчёта медианы и её 95%-ого ДИ высказаться примерно так, что "в генеральной совокупности, с 95-%-ой вероятностью, у пострадавших от такого-то физического насилия обнаруживается от 3 до 4 повреждений". Но это сырой вывод ещё, но чтобы суть была понятна, я его привёл.
Цитата(Диагностик)
Нет, в первом случае это мода, а во втором ДИ для медианы.

Т.е., я правильно понимаю, что противоречия здесь нет? Можно утверждать, что в генеральной совокупности у пострадавших обнаруживается от 3 до 4 повреждений (с 95-% вероятностью, конечно)? Просто поймите, я считал и считаю, что при анализе выборки, в частности, при расчёте всяких ДИ, можно сделать вывод не столько о выборке, сколько вообще о тенденции, т.е. генеральной совокупности (не могу же я всех пострадавших в РФ или во всём мире изучить). Может я здесь в корне ошибаюсь. Если да, то сообщите мне, чтобы я уже понял окончательно.
Цитата(Диагностик)
Нет ошибки. Почему размах не может быть меньше медианы?

Да нет, когда размах меньше медианы - это как-то понятно, по крайней мере для меня. А вот, когда больше - осознать не могу. Ведь размах - это мера разброса среднего, в частности медианы. Так как мера разброса может быть больше средней? Получается так: Me = 4; IQR = 5. Т.е., получается, что в диапазоне размаха могут быть даже отрицательные значения? А как они могут быть, если я изучаю повреждения, минимальное число которых составляет "1" (если повреждений "0", то такие случаи и не попадали в исследование).
Цитата(Диагностик)
Ваше выборочное распределение скорее всего принадлежит к классу экспоненциальных. Не подскажите природу порождения данных?

Эм, природу? Если я правильно Вас понял, то что из себя представляют мои данные я рассказал выше.
Ещё прошу прощение за мою глупость. Я не профессиональный статистик, поэтому могу ошибаться в терминах или их интерпретациях.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 3.05.2020 - 02:32
Сообщение #4





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Цитата(Robotnik @ 3.05.2020 - 06:48) *
исследую, в частности, количество повреждений у пострадавших при определённых обстоятельствах внешнего физического насилия. Так вот, все 400 наблюдений - это 400 случаев, где у человека были обнаружены повреждения в определённом количестве.

Таким образом случайная величина дискретная и подгонять следует дискретное распределение. Скорее всего это окажется усечённое биномиальное распределение. А что за случай с 43 повреждениями?
Цитата(Robotnik @ 3.05.2020 - 06:48) *
Вы имели ввиду среднее арифметическое? Если его, то я не высчитывал, потому что распределение было ненормальным.
Ну и что? Среднее арифметическое или математическое ожидание можно находить для любого распределения.
Например в вашем случае оно равно 5,41. Мода=2, тогда выборочная вероятность нанесения повреждения =2/400=0,17. Это параметр биномиального распределения.
Цитата(Robotnik @ 3.05.2020 - 06:48) *
Да нет, когда размах меньше медианы - это как-то понятно, по крайней мере для меня. А вот, когда больше - осознать не могу. Ведь размах - это мера разброса среднего, в частности медианы. Так как мера разброса может быть больше средней? Получается так: Me = 4; IQR = 5.

Я ошибся, размах может быть и больше медианы. Во-первых, размах который вы нашли это мера разброса не медианы, а самой случайной величины. Во-вторых нужно брать полуразмах.

Сообщение отредактировал Диагностик - 3.05.2020 - 02:33
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 3.05.2020 - 08:25
Сообщение #5





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Прежде чем что-то считать полезно посмотреть распределение признака на гистограмме. В вашем случае - обязательно, т.к. объём выборки хороший. Я это к тому, что причин отклонения от нормальности может быть масса.

Ну например, распределение может быть скошенным асимметричным (часто положительная асимметрия). Тогда медиана и квартили пойдут, но вот среднее и ДИ уже нет или только после преобразований и с бутстрепом желательно. Хотя я вообще не вижу практической пользы от интервальной оценки медианы кроме как для сведения данных в каком-нибудь мета-анализе, межквартильный размах полезнее.

Или выборка может быть представлена смесью распределений, тогда и медиана ни о чём толком не скажет, т.к. она вообще может попасть в щель между распределениями. Тогда нужно выявлять источники гетерогенности и разделять сметсь распределений, с каждой подвыборкой потом работать отдельно. Короче, начните с графиков.

Сообщение отредактировал nokh - 3.05.2020 - 08:26
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 3.05.2020 - 13:22
Сообщение #6





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Рисуйте зависимость вероятности для измерения оказаться меньше заданного значения от величины этого значения с доверительным интервалом 95% (по идее это полностью описывает распределение выборочное и пределы оценки для распределения генсовокупности). В полулогарифмических лучше выглядит для вашей выборки вот так.

PS

Можно в виде кучи боксплотов изобразить (для каждого числа повреждений отдельный ящик на общем графике), но очень уж плотный получается тогда график.
Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
 


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Robotnik
сообщение 3.05.2020 - 19:08
Сообщение #7





Группа: Пользователи
Сообщений: 9
Регистрация: 20.09.2016
Пользователь №: 28664



А что за случай с 43 повреждениями?
Ну вот такой случай. Это не ошибка, я сам все наблюдения анализировал и перепроверял потом. Но я так понимаю, что это статистический выброс, поэтому он не влияет на общую картину.

Благодарю всех за ответы! Буду думать и, если что, спрошу ещё.

Только можно ещё сразу сейчас кое-что прояснить для себя:
1). Я построил гистограмму и распределение было сильно смещено влево: наиболее часто встречались наблюдения, где повреждение было одно или два (n = 69 и n = 68, соответственно). При этом я имею медиану, равную 4 и её 95%-ый интервал от трёх до четырёх. Объясните мне, глупому, разве здесь нет противоречия? Согласно медиане и её интервалу в генеральной совокупности встречаются преимущественно случаи, в которых повреждения варьируют от 3 до 4, а если посмотреть на гистограмму, то больше наблюдений, где повреждений от одного до двух максимум.
2). Как интерпретировать межквартильный размах? Вот у меня он равен 5 (Q3-Q1 или 7 - 2 = 5). Это что значит? Эту меру разброса можно как-то переносить на генеральную совокупность? И почему вы писали, что размах предпочтительнее в моём случае?

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 3.05.2020 - 23:01
Сообщение #8





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Цитата(Robotnik @ 4.05.2020 - 00:08) *
При этом я имею медиану, равную 4 и её 95%-ый интервал от трёх до четырёх.

Не может такого быть.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 4.05.2020 - 14:52
Сообщение #9





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(Robotnik @ 3.05.2020 - 19:08) *
А что за случай с 43 повреждениями?
Ну вот такой случай. Это не ошибка, я сам все наблюдения анализировал и перепроверял потом. Но я так понимаю, что это статистический выброс, поэтому он не влияет на общую картину.

Благодарю всех за ответы! Буду думать и, если что, спрошу ещё.

Только можно ещё сразу сейчас кое-что прояснить для себя:
1). Я построил гистограмму и распределение было сильно смещено влево: наиболее часто встречались наблюдения, где повреждение было одно или два (n = 69 и n = 68, соответственно). При этом я имею медиану, равную 4 и её 95%-ый интервал от трёх до четырёх. Объясните мне, глупому, разве здесь нет противоречия? Согласно медиане и её интервалу в генеральной совокупности встречаются преимущественно случаи, в которых повреждения варьируют от 3 до 4, а если посмотреть на гистограмму, то больше наблюдений, где повреждений от одного до двух максимум.
2). Как интерпретировать межквартильный размах? Вот у меня он равен 5 (Q3-Q1 или 7 - 2 = 5). Это что значит? Эту меру разброса можно как-то переносить на генеральную совокупность? И почему вы писали, что размах предпочтительнее в моём случае?



а "9" это какое то "сакральное" число в практике судебной?


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Robotnik
сообщение 4.05.2020 - 15:11
Сообщение #10





Группа: Пользователи
Сообщений: 9
Регистрация: 20.09.2016
Пользователь №: 28664



Цитата(Диагностик)
Не может такого быть.

Я посчитал в Excel и специальной программе для расчёта интервалов для медианы. Если такого не может быть, значит проблема во мне и моих навыках пользования программами. Прошу прощение.
Цитата(p2004r)
а "9" это какое то "сакральное" число в практике судебной?

"9"? Что за "9"? Я нигде не упоминал его. Да и нет никакого "сакрального" числа. Вы о чём?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 4.05.2020 - 15:50
Сообщение #11





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



/жуя попкорн/

Robotnik,

в вашем случае не нужно:

а) проверять заведомо дискретное распределение на нормальность;
б) пытаться его центрировать с помощью выборочной медианы и ДИ к ней;
в) считать выбросами все то, что вам не понравилось или не вписывается в буколическую картину мира.

Нужно:

исходя из вероятностно-статистической модели порождения данных (полиномиальное распределение) просто определить эмпирическую вероятность наблюдения
1 повреждения p(1)=68/400=,17
2 повреждений p(2)=69/400=,1725
3 повреждений p(3)= ?, etc.

Результат оформить в виде соответствующей гистограммы.

И считать, что мир устроен именно так.

И вся любовь.

Сообщение отредактировал 100$ - 4.05.2020 - 15:55
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Robotnik
сообщение 4.05.2020 - 18:29
Сообщение #12





Группа: Пользователи
Сообщений: 9
Регистрация: 20.09.2016
Пользователь №: 28664



Спасибо огромное за пояснения! Искренне завидую людям, которые понимают математику)
Пойду работать.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 5.05.2020 - 12:14
Сообщение #13





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Цитата(Диагностик @ 3.05.2020 - 07:32) *
Таким образом случайная величина дискретная и подгонять следует дискретное распределение. Скорее всего это окажется усечённое биномиальное распределение.

Попробовал, не оказалось. Распределение Пуассона тоже не подошло.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 6.05.2020 - 10:58
Сообщение #14





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(Robotnik @ 4.05.2020 - 15:11) *
"9"? Что за "9"? Я нигде не упоминал его. Да и нет никакого "сакрального" числа. Вы о чём?



Вы _просто_ ответить способны? 9 значимо выбивается из "великого полиноминольного математического распределения"ТМ. Имеет ли значение "9 повреждений" для (например) "оценки тыжести преступления"?


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 6.05.2020 - 21:48
Сообщение #15





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(100$ @ 4.05.2020 - 17:50) *
...
Robotnik,
в вашем случае не нужно:
...

Согласен с 100$ во всём.
Если для статьи или хорошего доклада я бы указал ещё на такой гистограмме 95% ДИ для частот инцидентов с 1, 2, 3 и т.д. повреждениями.
То, что никакое распределение не подходит - логично, т.к. здесь - смесь нескольких распределений. Это хорошо видно по гистограмме с наложением плотности распределений - их как минимум 3: возможно от 1 до 7, 7-15 и свыше 15. С этой информацией дальше тоже можно работать, например попытаться разделить смесь этих распределений (см. приложенный рисунок) и поискать в доступной информации об инцидентах критерии (факторы), которые могут определять наблюдаемую гетерогенность. Ну для примера предположим различные орудия; т.е. если бы я взялся за топор, то даже в состоянии аффекта вряд ли рубанул врага 15 раз, но вот если гвоздём... может и 43 не предел... Думаю, что вы как спец в этом разберётесь в причинах.

PS. Учитывая особенности вашего окружения, лучше всё-таки иметь и среднее с ДИ, и медиану с квартилями. А то спросит полковник "сколько в среднем?" а вы ему про частоты...

Сообщение отредактировал nokh - 6.05.2020 - 21:56
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему