Теория статистического анализа данных в вопросах, Разбираем вопросы по теории методов статистического анализа данных |
Здравствуйте, гость ( Вход | Регистрация )
Теория статистического анализа данных в вопросах, Разбираем вопросы по теории методов статистического анализа данных |
30.11.2010 - 21:07
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 2 Регистрация: 29.11.2010 Пользователь №: 22968 |
Здравствуйте!
Есть странные вопросы, на которые мне не ответил преподаватель. Сославшись, что это классическая теория, нужно только запоминать. Вопросы: 1.Почему при расчете несмещенной дисперсии ее находят по формуле деля на (n-1). Откуда берется ?-1?. Прочитав про разные степени свободы, я так и не понял, почему так, а не просто на ?n?. Разница в результатах расчета смещенной и несмещенной дисперсии при малом количестве данных значительна. Почему так сделано, зачем? 2.На лекциях мы применяем таблицы Фишера и Стьюдента для проверки гипотез. После расчетов сравниваем с табличным значением и делаем выводы. Объясните мне, пожалуйста, что это за таблицы, как они появились, почему я сравниваю с какими-то цифрами, как их рассчитали? Расскажите как чайнику, так что бы бабушке было понятно. Очень нужно, скоро зачет, а преподаватель явно будет валить меня за мои вопросы. Student
|
|
1.12.2010 - 07:05
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
1.Почему при расчете несмещенной дисперсии ее находят по формуле деля на (n-1). Откуда берется ?-1?. Прочитав про разные степени свободы, я так и не понял, почему так, а не просто на ?n?. Разница в результатах расчета смещенной и несмещенной дисперсии при малом количестве данных значительна. Почему так сделано, зачем? Форум не поддерживает формулы (во всяком случае, это сложно), поэтому во вложении дается весь материал о дисперсии, в том числе вывод упомянутой формулы. 2.На лекциях мы применяем таблицы Фишера и Стьюдента для проверки гипотез. После расчетов сравниваем с табличным значением и делаем выводы. Объясните мне, пожалуйста, что это за таблицы, как они появились, почему я сравниваю с какими-то цифрами, как их рассчитали? Статистика любого критерия имеет свою функцию распределения (разрешимую, либо неразрешимую в квадратурах, либо вид ее может быть неизвестен). Таблицы как раз и есть эти самые функции. Вычисляются, соответственно, либо просто по формуле, либо одним из численных методов оптимизации, либо методом моделирования (Монте-Карло). Сообщение отредактировал Игорь - 25.12.2010 - 18:34
Прикрепленные файлы
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
1.12.2010 - 15:38
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 2 Регистрация: 29.11.2010 Пользователь №: 22968 |
.... чайник вскипел, а бабушка в больнице
Спасибо за ответ! Хотелось бы еще пообщаться может со временем до меня дойдет (до зачета). 1. С расчетом смещенной и несмещенной дисперсией еле понятно, в общем формула выводится. А можно так сказать, что несмещенная оценка дисперсии находится для экспериментальных данных, смещенная для идеальных, имеющих нормальное распределение? 2. С табличными значениями критериев Стьюдента и Фишера не понятно. Если я правильно рассуждаю, то у каждого есть свое распределение, т.е. функция распределения по которой рассчитаны таблицы для разного уровня р. Я не понимаю логики, почему нужно сравнивать: для отклонения гипотезы расчетное значение критерия должно быть больше табличного, что в этом случае происходит, в чем секрет? Student
|
|
1.12.2010 - 16:41
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
1. А можно так сказать, что несмещенная оценка дисперсии находится для экспериментальных данных, смещенная для идеальных, имеющих нормальное распределение? Истории из жизни. Вы приходите в магазин в овощной отдел купить 1 кг картошки. В ответ продавщица спрашивает: у нас в отделе есть двое весов: одни весы (несмещенные) показывают вес с точностью 50 грамм, а другие вчера упали на пол и сломались (смещенные) и показывают в среднем на 200 грамм больше. Вам на каких весах картошку взвешивать? (Подсказка для сообразительных: на тех весах, которые меньше врут)2. Я не понимаю логики, почему нужно сравнивать: для отклонения гипотезы расчетное значение критерия должно быть больше табличного...? Вечером Вы возвращались домой и увидели, как хулиганы напали на девушку с целью завладения ее сумочкой с деньгами. Защищая честь и достоинство представительницы слабого пола, Вы ввязались в драку и получили выстрел в голову из травматического пистолета. Чтобы зафиксировать этот факт в милицейском протоколе, Вы пришли в больницу для подтверждения гипотезы о нанесении травмы. Медсестра, осматривая синяк в области лица, сказала: "О, ваш синяк НЕДОСТАТОЧНО синий, чтобы подтвердить гипотезу о попадании пули в голову".
Сообщение отредактировал DoctorStat - 1.12.2010 - 16:42 Просто включи мозги => http://doctorstat.narod.ru
|
|
1.12.2010 - 17:46
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
А можно так сказать, что несмещенная оценка дисперсии находится для экспериментальных данных, смещенная для идеальных, имеющих нормальное распределение? Нет, так сказать нельзя. И в том, и в другом случае распределение нормальное. Разница в том, что смещенная оценка делается, если вам точно известно математическое ожидание выборки (т.е. вы его не вычисляете по выборке), а несмещенная оценка делается, если математическое ожидание выборки вы вычисляете по той же самой выборке. Можно еще сказать, что за недостаток информации о выборке (т.е. вы изначально не знаете математическое ожидание) вы платите увеличенной в n/(n-1) раз дисперсией. Впрочем, для большой выборки (большой численности n) это несущественно. 2. С табличными значениями критериев Стьюдента и Фишера не понятно. Если я правильно рассуждаю, то у каждого есть свое распределение, т.е. функция распределения по которой рассчитаны таблицы для разного уровня р. Я не понимаю логики, почему нужно сравнивать: для отклонения гипотезы расчетное значение критерия должно быть больше табличного, что в этом случае происходит, в чем секрет? Вы можете воспользоваться приложенными к посту материалами по проверке гипотез. В них указаны источники. Для начала нужно взять один из них, самый простой, где с помощью иллюстраций поясняются основные факты проверки гипотез. Без изучения литературы, основываясь только на материалах форума, усвоить материал будет трудно. Сообщение отредактировал Игорь - 1.12.2010 - 17:54
Прикрепленные файлы
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
23.12.2010 - 22:51
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 23.12.2010 Пользователь №: 23068 |
Здравствуйте, помогите, пожалуйста, разобраться.
Для обработки данных использую непараметрическую статистику (поскольку распределение отличное от нормального). Необходимо найти среднее значение для признака (содержание тяжелых металлов в продуктах питания). В Инете везде написано, что ср. арифметическое?ошибку среднего можно рассчитывать только в параметрической статистике, а в непараметрической ? исключительно моду или медиану. Но программа Statistica (версия 5.5) производит расчет ср. арифмет. и ошибки ср. в непараметрической статистике. Не могу понять: можно ли использовать эти значения? |
|
23.12.2010 - 23:55
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
|
|
24.12.2010 - 18:25
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 23.12.2010 Пользователь №: 23068 |
спасибо ))
|
|
25.12.2010 - 13:11
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Можно. Для того их программа и выдает Прекрасный совет, показывает, что отвечающий не осознает, что среднее арифметическое, а тем более стандартная ошибка базируются на предположении об определенном (нормальном) распределении данных или справедливости допущения распределения выборочных показателей по центральной предельной теореме. В обоих случаях необходимости в использовании непараметрической статистики нет (ввиду ее меньшей мощности). Если же используется непараметрическая статистика, это означает, что у нас ординальные данные и/или мы не можем полагаться на ЦПТ. Тогда указание стандартной ошибки становится бессмыслицей, демонстрирующей незнание базовой теории. Кстати, поскольку большинство по непараметрикой понимают ранговые тесты типа Вилкокосона, то как же можно, зная только ранги рассчитать среднее? А? Короткий ответ по теме - что бы не считали программы, теоретически правильной записью является медиана и межквартильное расстояние. |
|
25.12.2010 - 17:57
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 23.12.2010 Пользователь №: 23068 |
А кто даст гарантию, что в СанПиНе тоже медиана расчитана? Получается некорректно сравнивать мои данные с ПДК?
В общем, Плав, насколько я поняла, чтобы узнать сколько свинца содержится в среднем в трех морковках - среднее арифметическое нельзя использовать. То есть когда мы читаем на бутылке с минеральной водой содержание солей всяких - это там все медианы указаны? А вот свинец в крови человека (тоже не по нормальному закону распределение) - значит тоже нельзя ср. арифмет. А все расчитывают. Все поголовно. Как же так? |
|
25.12.2010 - 18:30
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
А вот свинец в крови человека (тоже не по нормальному закону распределение) - значит тоже нельзя ср. арифмет. А все расчитывают. Все поголовно. Как же так? Форум не поддерживает формулы (во всяком случае, это сложно), поэтому во вложении дается весь материал о среднем значении. Если взять любой справочник по статистическим распределениям, то можно убедиться, что для каждого стандартного типа распределения дается своя формула расчета среднего значения, выведенная по тому же принципу, что и в примере, данном во вложении. Если тип распределения статистических данных известен или установлен и совпадает с одним из известных типов, то среднее значение вычисляется по соответствующей формуле. И это не всегда сумма вариант, деленная на их количество. Если тип распределения неизвестен, используется непараметрическая оценка параметра положения, а именно - медиана. Если тип распределения не является нормальным, то использование среднего значения в виде суммы вариант, деленной на их количество, является ошибочным. При этом факт ошибки не оправдывается высоким статусом издания, в котором она приводится. Если же говорить о шкале измерения, отличающейся от количественной, то в силу того, что для данных шкал не определена операция деления, использование обсуждаемой формулы вычисления среднего вообще лишено смысла. Во втором из вложений некоторые соображения на счет порядковых данных приводятся. Т.е., в принципе среднее значение можно найти и для них, но начинать нужно с того, что мы понимаем под средним. Для бинарных данных также можно ввести свое определения среднего. Но это не будет определение: сложить варианты и поделить на их количество.
Прикрепленные файлы
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
25.12.2010 - 19:06
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 23.12.2010 Пользователь №: 23068 |
прийдется видимо продукты (и т.п.) пересчитывать (((
А вот биосубстраты, пожалуй, прийдется оставить; ведь если пересчитаю - то не смогу сравнить свои данные ни с одной статьей. |
|
25.12.2010 - 19:44
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
А вот свинец в крови человека (тоже не по нормальному закону распределение) - значит тоже нельзя ср. арифмет. А все расчитывают Не путайте божий дар с яичницей . В качестве характерного значения случайной величины используются математическое ожидание, медиана, мода. Среднее значение случ.величины из выборки, полученной в результате эксперимента, является всего лишь ОЦЕНКОЙ вышеуказанных характеристик. Само по себе среднее значение не описывает случ.величину.Просто включи мозги => http://doctorstat.narod.ru
|
|
25.12.2010 - 19:55
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 23.12.2010 Пользователь №: 23068 |
Вы такими словами пишете - я ничего не понимаю. Можете попроще писать?
Средняя вообще чтоли ничего на значит?! Раз уж я тут в форуме расписалась, задам еще вопросов - пересчитала по каждому продукту (морковь, капуста, картошка и т.п.) медиану, а теперь мне допустим средняя концентрация по овощами нужна - мне опять из этих медиан медиану считать (или какой-то еще более страшный показатель)? |
|
25.12.2010 - 20:05
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 23.12.2010 Пользователь №: 23068 |
С медианой расчеты получаются не корректные. Допустим - в 5ти образцах овощей содержание кадмия близкое к 0 (0,0005) или 0 (невыявлен), а 3х - превышает ПДК (0,3000). А медиана = 0 мг/кг. Разве это корректно?
|
|