Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

3 страниц V   1 2 3 >  
Добавить ответ в эту темуОткрыть тему
> Теория статистического анализа данных в вопросах, Разбираем вопросы по теории методов статистического анализа данных
Black Jack
сообщение 30.11.2010 - 21:07
Сообщение #1





Группа: Пользователи
Сообщений: 2
Регистрация: 29.11.2010
Пользователь №: 22968



Здравствуйте!
Есть странные вопросы, на которые мне не ответил преподаватель. Сославшись, что это классическая теория, нужно только запоминать.
Вопросы:
1.Почему при расчете несмещенной дисперсии ее находят по формуле деля на (n-1). Откуда берется ?-1?. Прочитав про разные степени свободы, я так и не понял, почему так, а не просто на ?n?. Разница в результатах расчета смещенной и несмещенной дисперсии при малом количестве данных значительна. Почему так сделано, зачем?
2.На лекциях мы применяем таблицы Фишера и Стьюдента для проверки гипотез. После расчетов сравниваем с табличным значением и делаем выводы. Объясните мне, пожалуйста, что это за таблицы, как они появились, почему я сравниваю с какими-то цифрами, как их рассчитали?

Расскажите как чайнику, так что бы бабушке было понятно. Очень нужно, скоро зачет, а преподаватель явно будет валить меня за мои вопросы.


Signature
Student
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 1.12.2010 - 07:05
Сообщение #2





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Black Jack @ 30.11.2010 - 22:07) *
1.Почему при расчете несмещенной дисперсии ее находят по формуле деля на (n-1). Откуда берется ?-1?. Прочитав про разные степени свободы, я так и не понял, почему так, а не просто на ?n?. Разница в результатах расчета смещенной и несмещенной дисперсии при малом количестве данных значительна. Почему так сделано, зачем?

Форум не поддерживает формулы (во всяком случае, это сложно), поэтому во вложении дается весь материал о дисперсии, в том числе вывод упомянутой формулы.
Цитата(Black Jack @ 30.11.2010 - 22:07) *
2.На лекциях мы применяем таблицы Фишера и Стьюдента для проверки гипотез. После расчетов сравниваем с табличным значением и делаем выводы. Объясните мне, пожалуйста, что это за таблицы, как они появились, почему я сравниваю с какими-то цифрами, как их рассчитали?

Статистика любого критерия имеет свою функцию распределения (разрешимую, либо неразрешимую в квадратурах, либо вид ее может быть неизвестен). Таблицы как раз и есть эти самые функции. Вычисляются, соответственно, либо просто по формуле, либо одним из численных методов оптимизации, либо методом моделирования (Монте-Карло).

Сообщение отредактировал Игорь - 25.12.2010 - 18:34
Прикрепленные файлы
Прикрепленный файл  Variance.doc ( 141,5 килобайт ) Кол-во скачиваний: 1547
 


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Black Jack
сообщение 1.12.2010 - 15:38
Сообщение #3





Группа: Пользователи
Сообщений: 2
Регистрация: 29.11.2010
Пользователь №: 22968



.... чайник вскипел, а бабушка в больнице eek.gif

Спасибо за ответ! Хотелось бы еще пообщаться может со временем до меня дойдет (до зачета).

1. С расчетом смещенной и несмещенной дисперсией еле понятно, в общем формула выводится.
А можно так сказать, что несмещенная оценка дисперсии находится для экспериментальных данных, смещенная для идеальных, имеющих нормальное распределение?

2. С табличными значениями критериев Стьюдента и Фишера не понятно. Если я правильно рассуждаю, то у каждого есть свое распределение, т.е. функция распределения по которой рассчитаны таблицы для разного уровня р. Я не понимаю логики, почему нужно сравнивать: для отклонения гипотезы расчетное значение критерия должно быть больше табличного, что в этом случае происходит, в чем секрет?


Signature
Student
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 1.12.2010 - 16:41
Сообщение #4





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Black Jack @ 1.12.2010 - 15:38) *
1. А можно так сказать, что несмещенная оценка дисперсии находится для экспериментальных данных, смещенная для идеальных, имеющих нормальное распределение?
Истории из жизни. Вы приходите в магазин в овощной отдел купить 1 кг картошки. В ответ продавщица спрашивает: у нас в отделе есть двое весов: одни весы (несмещенные) показывают вес с точностью 50 грамм, а другие вчера упали на пол и сломались (смещенные) и показывают в среднем на 200 грамм больше. Вам на каких весах картошку взвешивать? (Подсказка для сообразительных: на тех весах, которые меньше врут)
Цитата(Black Jack @ 1.12.2010 - 15:38) *
2. Я не понимаю логики, почему нужно сравнивать: для отклонения гипотезы расчетное значение критерия должно быть больше табличного...?
Вечером Вы возвращались домой и увидели, как хулиганы напали на девушку с целью завладения ее сумочкой с деньгами. Защищая честь и достоинство представительницы слабого пола, Вы ввязались в драку и получили выстрел в голову из травматического пистолета. Чтобы зафиксировать этот факт в милицейском протоколе, Вы пришли в больницу для подтверждения гипотезы о нанесении травмы. Медсестра, осматривая синяк в области лица, сказала: "О, ваш синяк НЕДОСТАТОЧНО синий, чтобы подтвердить гипотезу о попадании пули в голову".

Сообщение отредактировал DoctorStat - 1.12.2010 - 16:42


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 1.12.2010 - 17:46
Сообщение #5





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Black Jack @ 1.12.2010 - 16:38) *
А можно так сказать, что несмещенная оценка дисперсии находится для экспериментальных данных, смещенная для идеальных, имеющих нормальное распределение?

Нет, так сказать нельзя. И в том, и в другом случае распределение нормальное. Разница в том, что смещенная оценка делается, если вам точно известно математическое ожидание выборки (т.е. вы его не вычисляете по выборке), а несмещенная оценка делается, если математическое ожидание выборки вы вычисляете по той же самой выборке. Можно еще сказать, что за недостаток информации о выборке (т.е. вы изначально не знаете математическое ожидание) вы платите увеличенной в n/(n-1) раз дисперсией. Впрочем, для большой выборки (большой численности n) это несущественно.
Цитата(Black Jack @ 1.12.2010 - 16:38) *
2. С табличными значениями критериев Стьюдента и Фишера не понятно. Если я правильно рассуждаю, то у каждого есть свое распределение, т.е. функция распределения по которой рассчитаны таблицы для разного уровня р. Я не понимаю логики, почему нужно сравнивать: для отклонения гипотезы расчетное значение критерия должно быть больше табличного, что в этом случае происходит, в чем секрет?

Вы можете воспользоваться приложенными к посту материалами по проверке гипотез. В них указаны источники. Для начала нужно взять один из них, самый простой, где с помощью иллюстраций поясняются основные факты проверки гипотез. Без изучения литературы, основываясь только на материалах форума, усвоить материал будет трудно.

Сообщение отредактировал Игорь - 1.12.2010 - 17:54
Прикрепленные файлы
Прикрепленный файл  Статистическая_гипотеза.doc ( 226,5 килобайт ) Кол-во скачиваний: 693
 


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ancha
сообщение 23.12.2010 - 22:51
Сообщение #6





Группа: Пользователи
Сообщений: 13
Регистрация: 23.12.2010
Пользователь №: 23068



Здравствуйте, помогите, пожалуйста, разобраться.
Для обработки данных использую непараметрическую статистику (поскольку распределение отличное от нормального). Необходимо найти среднее значение для признака (содержание тяжелых металлов в продуктах питания). В Инете везде написано, что ср. арифметическое?ошибку среднего можно рассчитывать только в параметрической статистике, а в непараметрической ? исключительно моду или медиану. Но программа Statistica (версия 5.5) производит расчет ср. арифмет. и ошибки ср. в непараметрической статистике. Не могу понять: можно ли использовать эти значения?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 23.12.2010 - 23:55
Сообщение #7





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Ancha @ 23.12.2010 - 23:51) *
... Но программа Statistica (версия 5.5) производит расчет ср. арифмет. и ошибки ср. в непараметрической статистике. Не могу понять: можно ли использовать эти значения?


Можно. Для того их программа и выдает smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ancha
сообщение 24.12.2010 - 18:25
Сообщение #8





Группа: Пользователи
Сообщений: 13
Регистрация: 23.12.2010
Пользователь №: 23068



спасибо ))
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 25.12.2010 - 13:11
Сообщение #9





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(100$ @ 23.12.2010 - 23:55) *
Можно. Для того их программа и выдает smile.gif

Прекрасный совет, показывает, что отвечающий не осознает, что среднее арифметическое, а тем более стандартная ошибка базируются на предположении об определенном (нормальном) распределении данных или справедливости допущения распределения выборочных показателей по центральной предельной теореме. В обоих случаях необходимости в использовании непараметрической статистики нет (ввиду ее меньшей мощности). Если же используется непараметрическая статистика, это означает, что у нас ординальные данные и/или мы не можем полагаться на ЦПТ. Тогда указание стандартной ошибки становится бессмыслицей, демонстрирующей незнание базовой теории. Кстати, поскольку большинство по непараметрикой понимают ранговые тесты типа Вилкокосона, то как же можно, зная только ранги рассчитать среднее? А?
Короткий ответ по теме - что бы не считали программы, теоретически правильной записью является медиана и межквартильное расстояние.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ancha
сообщение 25.12.2010 - 17:57
Сообщение #10





Группа: Пользователи
Сообщений: 13
Регистрация: 23.12.2010
Пользователь №: 23068



А кто даст гарантию, что в СанПиНе тоже медиана расчитана? Получается некорректно сравнивать мои данные с ПДК?

В общем, Плав, насколько я поняла, чтобы узнать сколько свинца содержится в среднем в трех морковках - среднее арифметическое нельзя использовать.
То есть когда мы читаем на бутылке с минеральной водой содержание солей всяких - это там все медианы указаны?

А вот свинец в крови человека (тоже не по нормальному закону распределение) - значит тоже нельзя ср. арифмет. А все расчитывают. Все поголовно. Как же так?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 25.12.2010 - 18:30
Сообщение #11





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Ancha @ 25.12.2010 - 17:57) *
А вот свинец в крови человека (тоже не по нормальному закону распределение) - значит тоже нельзя ср. арифмет. А все расчитывают. Все поголовно. Как же так?

Форум не поддерживает формулы (во всяком случае, это сложно), поэтому во вложении дается весь материал о среднем значении.

Если взять любой справочник по статистическим распределениям, то можно убедиться, что для каждого стандартного типа распределения дается своя формула расчета среднего значения, выведенная по тому же принципу, что и в примере, данном во вложении. Если тип распределения статистических данных известен или установлен и совпадает с одним из известных типов, то среднее значение вычисляется по соответствующей формуле. И это не всегда сумма вариант, деленная на их количество.

Если тип распределения неизвестен, используется непараметрическая оценка параметра положения, а именно - медиана.

Если тип распределения не является нормальным, то использование среднего значения в виде суммы вариант, деленной на их количество, является ошибочным. При этом факт ошибки не оправдывается высоким статусом издания, в котором она приводится.

Если же говорить о шкале измерения, отличающейся от количественной, то в силу того, что для данных шкал не определена операция деления, использование обсуждаемой формулы вычисления среднего вообще лишено смысла. Во втором из вложений некоторые соображения на счет порядковых данных приводятся. Т.е., в принципе среднее значение можно найти и для них, но начинать нужно с того, что мы понимаем под средним.

Для бинарных данных также можно ввести свое определения среднего. Но это не будет определение: сложить варианты и поделить на их количество.
Прикрепленные файлы
Прикрепленный файл  Mean.doc ( 46 килобайт ) Кол-во скачиваний: 443
Прикрепленный файл  Mean_1.doc ( 42 килобайт ) Кол-во скачиваний: 435
 


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ancha
сообщение 25.12.2010 - 19:06
Сообщение #12





Группа: Пользователи
Сообщений: 13
Регистрация: 23.12.2010
Пользователь №: 23068



прийдется видимо продукты (и т.п.) пересчитывать (((

А вот биосубстраты, пожалуй, прийдется оставить; ведь если пересчитаю - то не смогу сравнить свои данные ни с одной статьей.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 25.12.2010 - 19:44
Сообщение #13





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Ancha @ 25.12.2010 - 17:57) *
А вот свинец в крови человека (тоже не по нормальному закону распределение) - значит тоже нельзя ср. арифмет. А все расчитывают
Не путайте божий дар с яичницей smile.gif. В качестве характерного значения случайной величины используются математическое ожидание, медиана, мода. Среднее значение случ.величины из выборки, полученной в результате эксперимента, является всего лишь ОЦЕНКОЙ вышеуказанных характеристик. Само по себе среднее значение не описывает случ.величину.


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ancha
сообщение 25.12.2010 - 19:55
Сообщение #14





Группа: Пользователи
Сообщений: 13
Регистрация: 23.12.2010
Пользователь №: 23068



Вы такими словами пишете - я ничего не понимаю. Можете попроще писать? smile.gif

Средняя вообще чтоли ничего на значит?!

Раз уж я тут в форуме расписалась, задам еще вопросов - пересчитала по каждому продукту (морковь, капуста, картошка и т.п.) медиану, а теперь мне допустим средняя концентрация по овощами нужна - мне опять из этих медиан медиану считать (или какой-то еще более страшный показатель)?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ancha
сообщение 25.12.2010 - 20:05
Сообщение #15





Группа: Пользователи
Сообщений: 13
Регистрация: 23.12.2010
Пользователь №: 23068



С медианой расчеты получаются не корректные. Допустим - в 5ти образцах овощей содержание кадмия близкое к 0 (0,0005) или 0 (невыявлен), а 3х - превышает ПДК (0,3000). А медиана = 0 мг/кг. Разве это корректно?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

3 страниц V   1 2 3 >
Добавить ответ в эту темуОткрыть тему