Описание совокупности |
Здравствуйте, гость ( Вход | Регистрация )
Описание совокупности |
2.05.2020 - 23:12
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 20.09.2016 Пользователь №: 28664 |
Доброго времени суток, уважаемые участники форума!
Ситуация следующая: у меня есть выборочная совокупность из 400 наблюдений. Я захотел её описать и высказать суждение о генеральной совокупности. Для этого я определил, подчиняется ли массив данных закону нормального распределения: оказалось, что нет: d = 0,2106; p = 0,0001. Затем, чтобы определить среднее значение я высчитал медиану: Me = 4 и доверительный интервал к ней с помощью программы "Довинт": 95% ДИ [3;4]. Скажите, могу ли я сделать вывод о том, что в генеральной совокупности частота изучаемого признака варьирует от 3 до 4 (с вероятностью в 95%, естественно)? Я это спрашиваю по той причине, потому что при дополнительном высчитывании моды, был получен следующий цифровой показатель: Мо = 2. Т.е. получается, что в выборке наиболее частым является значение "2", а в генеральной совокупности: от "3" до "4". Нет ли здесь противоречия? Или я неверно что-то посчитал (скорее всего это)? И ещё: при дополнительном расчёте интерквартильного размаха я получил следующее значение: Q1 = 2, Q3 = 7, IQR = 5. Т.е. размах больше медианы. Опять моя ошибка? Заранее благодарю за ответы и прошу прощение за беспокойство. Сообщение отредактировал Robotnik - 2.05.2020 - 23:42
Прикрепленные файлы
|
|
3.05.2020 - 00:48
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
Ситуация следующая: у меня есть выборочная совокупность из 400 наблюдений. Я захотел её описать и высказать суждение о генеральной совокупности. А объём ГС какой? Затем, чтобы определить среднее значение я высчитал медиану: Me = 4 и доверительный интервал к ней с помощью программы "Довинт": 95% ДИ [3;4]. А почему не сразу среднее? У вас почему-то медиана оказалась на границе ДИ. Скажите, могу ли я сделать вывод о том, что в генеральной совокупности частота изучаемого признака варьирует от 3 до 4 (с вероятностью в 95%, естественно)? А причём здесь частота? Генеральную медиану накрывает ДИ. при дополнительном высчитывании моды, был получен следующий цифровой показатель: Мо = 2. Т.е. получается, что в выборке наиболее частым является значение "2", а в генеральной совокупности: от "3" до "4". Нет ли здесь противоречия? Нет, в первом случае это мода, а во втором ДИ для медианы. И ещё: при дополнительном расчёте интерквартильного размаха я получил следующее значение: Q1 = 2, Q3 = 7, IQR = 5. Т.е. размах больше медианы. Опять моя ошибка? Нет ошибки. Почему размах не может быть меньше медианы? Ваше выборочное распределение скорее всего принадлежит к классу экспоненциальных. Не подскажите природу порождения данных? Сообщение отредактировал Диагностик - 3.05.2020 - 00:48 |
|
3.05.2020 - 01:48
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 20.09.2016 Пользователь №: 28664 |
Цитата(Диагностик) А объём ГС какой? Так, генеральная совокупность неизвестна. Я набрал 400 наблюдений и хотел бы, на основании их анализа, высказаться о генеральной совокупности. Цитата(Диагностик) А почему не сразу среднее? У вас почему-то медиана оказалась на границе ДИ. Вы имели ввиду среднее арифметическое? Если его, то я не высчитывал, потому что распределение было ненормальным. Цитата(Диагностик) А причём здесь частота? Генеральную медиану накрывает ДИ. Извините, может быть некорректно выразился. Поясню по поводу данных: я - судебный медик и исследую, в частности, количество повреждений у пострадавших при определённых обстоятельствах внешнего физического насилия. Так вот, все 400 наблюдений - это 400 случаев, где у человека были обнаружены повреждения в определённом количестве. Так вот я и хотел, путём расчёта медианы и её 95%-ого ДИ высказаться примерно так, что "в генеральной совокупности, с 95-%-ой вероятностью, у пострадавших от такого-то физического насилия обнаруживается от 3 до 4 повреждений". Но это сырой вывод ещё, но чтобы суть была понятна, я его привёл. Цитата(Диагностик) Нет, в первом случае это мода, а во втором ДИ для медианы. Т.е., я правильно понимаю, что противоречия здесь нет? Можно утверждать, что в генеральной совокупности у пострадавших обнаруживается от 3 до 4 повреждений (с 95-% вероятностью, конечно)? Просто поймите, я считал и считаю, что при анализе выборки, в частности, при расчёте всяких ДИ, можно сделать вывод не столько о выборке, сколько вообще о тенденции, т.е. генеральной совокупности (не могу же я всех пострадавших в РФ или во всём мире изучить). Может я здесь в корне ошибаюсь. Если да, то сообщите мне, чтобы я уже понял окончательно. Цитата(Диагностик) Нет ошибки. Почему размах не может быть меньше медианы? Да нет, когда размах меньше медианы - это как-то понятно, по крайней мере для меня. А вот, когда больше - осознать не могу. Ведь размах - это мера разброса среднего, в частности медианы. Так как мера разброса может быть больше средней? Получается так: Me = 4; IQR = 5. Т.е., получается, что в диапазоне размаха могут быть даже отрицательные значения? А как они могут быть, если я изучаю повреждения, минимальное число которых составляет "1" (если повреждений "0", то такие случаи и не попадали в исследование). Цитата(Диагностик) Ваше выборочное распределение скорее всего принадлежит к классу экспоненциальных. Не подскажите природу порождения данных? Эм, природу? Если я правильно Вас понял, то что из себя представляют мои данные я рассказал выше. Ещё прошу прощение за мою глупость. Я не профессиональный статистик, поэтому могу ошибаться в терминах или их интерпретациях. |
|
3.05.2020 - 02:32
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
исследую, в частности, количество повреждений у пострадавших при определённых обстоятельствах внешнего физического насилия. Так вот, все 400 наблюдений - это 400 случаев, где у человека были обнаружены повреждения в определённом количестве. Таким образом случайная величина дискретная и подгонять следует дискретное распределение. Скорее всего это окажется усечённое биномиальное распределение. А что за случай с 43 повреждениями? Вы имели ввиду среднее арифметическое? Если его, то я не высчитывал, потому что распределение было ненормальным. Ну и что? Среднее арифметическое или математическое ожидание можно находить для любого распределения.Например в вашем случае оно равно 5,41. Мода=2, тогда выборочная вероятность нанесения повреждения =2/400=0,17. Это параметр биномиального распределения. Да нет, когда размах меньше медианы - это как-то понятно, по крайней мере для меня. А вот, когда больше - осознать не могу. Ведь размах - это мера разброса среднего, в частности медианы. Так как мера разброса может быть больше средней? Получается так: Me = 4; IQR = 5. Я ошибся, размах может быть и больше медианы. Во-первых, размах который вы нашли это мера разброса не медианы, а самой случайной величины. Во-вторых нужно брать полуразмах. Сообщение отредактировал Диагностик - 3.05.2020 - 02:33 |
|
3.05.2020 - 08:25
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Прежде чем что-то считать полезно посмотреть распределение признака на гистограмме. В вашем случае - обязательно, т.к. объём выборки хороший. Я это к тому, что причин отклонения от нормальности может быть масса.
Ну например, распределение может быть скошенным асимметричным (часто положительная асимметрия). Тогда медиана и квартили пойдут, но вот среднее и ДИ уже нет или только после преобразований и с бутстрепом желательно. Хотя я вообще не вижу практической пользы от интервальной оценки медианы кроме как для сведения данных в каком-нибудь мета-анализе, межквартильный размах полезнее. Или выборка может быть представлена смесью распределений, тогда и медиана ни о чём толком не скажет, т.к. она вообще может попасть в щель между распределениями. Тогда нужно выявлять источники гетерогенности и разделять сметсь распределений, с каждой подвыборкой потом работать отдельно. Короче, начните с графиков. Сообщение отредактировал nokh - 3.05.2020 - 08:26 |
|
3.05.2020 - 13:22
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Рисуйте зависимость вероятности для измерения оказаться меньше заданного значения от величины этого значения с доверительным интервалом 95% (по идее это полностью описывает распределение выборочное и пределы оценки для распределения генсовокупности). В полулогарифмических лучше выглядит для вашей выборки вот так.
PS Можно в виде кучи боксплотов изобразить (для каждого числа повреждений отдельный ящик на общем графике), но очень уж плотный получается тогда график. |
|
3.05.2020 - 19:08
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 20.09.2016 Пользователь №: 28664 |
А что за случай с 43 повреждениями?
Ну вот такой случай. Это не ошибка, я сам все наблюдения анализировал и перепроверял потом. Но я так понимаю, что это статистический выброс, поэтому он не влияет на общую картину. Благодарю всех за ответы! Буду думать и, если что, спрошу ещё. Только можно ещё сразу сейчас кое-что прояснить для себя: 1). Я построил гистограмму и распределение было сильно смещено влево: наиболее часто встречались наблюдения, где повреждение было одно или два (n = 69 и n = 68, соответственно). При этом я имею медиану, равную 4 и её 95%-ый интервал от трёх до четырёх. Объясните мне, глупому, разве здесь нет противоречия? Согласно медиане и её интервалу в генеральной совокупности встречаются преимущественно случаи, в которых повреждения варьируют от 3 до 4, а если посмотреть на гистограмму, то больше наблюдений, где повреждений от одного до двух максимум. 2). Как интерпретировать межквартильный размах? Вот у меня он равен 5 (Q3-Q1 или 7 - 2 = 5). Это что значит? Эту меру разброса можно как-то переносить на генеральную совокупность? И почему вы писали, что размах предпочтительнее в моём случае? |
|
3.05.2020 - 23:01
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
|
|
4.05.2020 - 14:52
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
А что за случай с 43 повреждениями? Ну вот такой случай. Это не ошибка, я сам все наблюдения анализировал и перепроверял потом. Но я так понимаю, что это статистический выброс, поэтому он не влияет на общую картину. Благодарю всех за ответы! Буду думать и, если что, спрошу ещё. Только можно ещё сразу сейчас кое-что прояснить для себя: 1). Я построил гистограмму и распределение было сильно смещено влево: наиболее часто встречались наблюдения, где повреждение было одно или два (n = 69 и n = 68, соответственно). При этом я имею медиану, равную 4 и её 95%-ый интервал от трёх до четырёх. Объясните мне, глупому, разве здесь нет противоречия? Согласно медиане и её интервалу в генеральной совокупности встречаются преимущественно случаи, в которых повреждения варьируют от 3 до 4, а если посмотреть на гистограмму, то больше наблюдений, где повреждений от одного до двух максимум. 2). Как интерпретировать межквартильный размах? Вот у меня он равен 5 (Q3-Q1 или 7 - 2 = 5). Это что значит? Эту меру разброса можно как-то переносить на генеральную совокупность? И почему вы писали, что размах предпочтительнее в моём случае? а "9" это какое то "сакральное" число в практике судебной? |
|
4.05.2020 - 15:11
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 20.09.2016 Пользователь №: 28664 |
Цитата(Диагностик) Не может такого быть. Я посчитал в Excel и специальной программе для расчёта интервалов для медианы. Если такого не может быть, значит проблема во мне и моих навыках пользования программами. Прошу прощение. Цитата(p2004r) а "9" это какое то "сакральное" число в практике судебной? "9"? Что за "9"? Я нигде не упоминал его. Да и нет никакого "сакрального" числа. Вы о чём? |
|
4.05.2020 - 15:50
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
/жуя попкорн/
Robotnik, в вашем случае не нужно: а) проверять заведомо дискретное распределение на нормальность; б) пытаться его центрировать с помощью выборочной медианы и ДИ к ней; в) считать выбросами все то, что вам не понравилось или не вписывается в буколическую картину мира. Нужно: исходя из вероятностно-статистической модели порождения данных (полиномиальное распределение) просто определить эмпирическую вероятность наблюдения 1 повреждения p(1)=68/400=,17 2 повреждений p(2)=69/400=,1725 3 повреждений p(3)= ?, etc. Результат оформить в виде соответствующей гистограммы. И считать, что мир устроен именно так. И вся любовь. Сообщение отредактировал 100$ - 4.05.2020 - 15:55 |
|
4.05.2020 - 18:29
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 20.09.2016 Пользователь №: 28664 |
Спасибо огромное за пояснения! Искренне завидую людям, которые понимают математику)
Пойду работать. |
|
5.05.2020 - 12:14
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
|
|
6.05.2020 - 10:58
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
"9"? Что за "9"? Я нигде не упоминал его. Да и нет никакого "сакрального" числа. Вы о чём? Вы _просто_ ответить способны? 9 значимо выбивается из "великого полиноминольного математического распределения"ТМ. Имеет ли значение "9 повреждений" для (например) "оценки тыжести преступления"? |
|
6.05.2020 - 21:48
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
... Robotnik, в вашем случае не нужно: ... Согласен с 100$ во всём. Если для статьи или хорошего доклада я бы указал ещё на такой гистограмме 95% ДИ для частот инцидентов с 1, 2, 3 и т.д. повреждениями. То, что никакое распределение не подходит - логично, т.к. здесь - смесь нескольких распределений. Это хорошо видно по гистограмме с наложением плотности распределений - их как минимум 3: возможно от 1 до 7, 7-15 и свыше 15. С этой информацией дальше тоже можно работать, например попытаться разделить смесь этих распределений (см. приложенный рисунок) и поискать в доступной информации об инцидентах критерии (факторы), которые могут определять наблюдаемую гетерогенность. Ну для примера предположим различные орудия; т.е. если бы я взялся за топор, то даже в состоянии аффекта вряд ли рубанул врага 15 раз, но вот если гвоздём... может и 43 не предел... Думаю, что вы как спец в этом разберётесь в причинах. PS. Учитывая особенности вашего окружения, лучше всё-таки иметь и среднее с ДИ, и медиану с квартилями. А то спросит полковник "сколько в среднем?" а вы ему про частоты... Сообщение отредактировал nokh - 6.05.2020 - 21:56 |
|