Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Нормальное распределение, интерпретация результатов
Ната
сообщение 28.05.2007 - 19:10
Сообщение #1





Группа: Пользователи
Сообщений: 32
Регистрация: 23.02.2007
Пользователь №: 3956



Всем привет! Кто может по-проще объяснить, как определить нормальность распределения? Например, получены вот такие результаты: средняя 1,02 ст. ошибка средней 2,5 сигма 8,7, число наблюдений 12 или средняя 3,2 ст. ошибка средней 0,9 сигма 1,3 число наблюдений 2 (маловато, но больше пока нет). Не рассчитываю пока критерий Стюдента, не могу "врубиться" в нормальность распределения, а может оно ассиметрично?


Signature
Туся
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 29.05.2007 - 06:03
Сообщение #2





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Если тип распределения некоторой случайной величины нам неизвестен, располагая случайной эмпирической выборкой (реализацией случайной величины), мы можем захотеть проверить, совпадает ли эмпирическая функция распределения случайной величины с некоторой заданной или вычисленной по выборочным параметрам теоретической функцией эмпирического распределения. При такой постановке говорят о проверке статистической гипотезы согласия.
Частным случаем данной задачи является установление нормальности распределения (соответствия эмпирической функции распределения непрерывной количественной случайной величины и нормальной функции распределения). Напомним слова Фишера: «Отклонения от нормальной формы распределения, если только они не представляются явными без всякой оценки, могут быть обнаружены только в случае большой выборки; при малых же выборках оказывается невозможным определение сколько-нибудь надежных статистических критериев для этих отклонений». На этом основании некоторыми авторами делаются выводы, что 1) для малых выборок проверить нормальность нельзя, 2) для большой выборки проверять нормальность не нужно - она и так нормальная и 3) вся параметрика смысла не имеет. Это глупость и заблуждения. Ибо: 1) к счастью, за полвека, прошедшие со времени данной публикации, были выполнены определенные исследования, 2) большая выборка может и не быть нормальной: возьмите 300 нулей и проверьте нормальность и 3) параметрические тесты могут быть устойчивы к определенным отклонениям от нормальности.
Проверка нормальности распределения может быть выполнена с помощью специальных статистических критериев, в зависимости от анализируемых характеристик эмпирической выборки. Современными авторами обычно выделяются критерии следующих типов. Типы тестов могут иметь различные наименования, более или менее верно отражающие их суть:
- критерии функций распределения (например, типа Колмогорова, типа Эппса-Палли),
- критерии, основанные на регрессии (например, Шапиро-Франсиа),
- критерии моментов, включая составные тесты,
- информационные критерии (например, Васичека),
- графические (глазомерные) методы.
Наиболее полный (на русском языке) обзор классических и современных методов дан в книге "Кобзарь А.И. Прикладная математическая статистика. Для инженеров и научных работников. - М.: ФИЗМАТЛИТ, 2006." Книга свежая, в магазинах и библиотеках должна быть.
Процедура проверки стандартная. Берутся варианты выборки, подставляются в формулу расчета статистики критерия (зависит от конкретного метода). Полученная статистика сравнивается с критическим значением и на ближайшем стандартном уровне значимости принимается или не принимается гипотеза о том, что проверяемый параметр выборки (функция распределения, эксцесс, коэффициент асимметрии - все же зависит от метода) соответствует нормальному распределению.
Отметим наличие множества нюансов и "подводных камней" в решении задачи проверки нормальности. Следует обратить особое внимание на т.н. сложность гипотезы.

Если зайдет речь о программном обеспечении, не напрягающем финансовые возможности пользователя, следует отметить бесплатную версию пакета STADIA. Ссылку на нее я давал в теме, посвященной программному обеспечению. О применении критериев согласия в данном пакете см. книгу
Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере. - М.: ИНФРА-М, 1999. Есть и более позднее издание. У меня, к сожалению, под рукой только упомянутый источник.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 29.05.2007 - 13:19
Сообщение #3





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Во втором случае проверка нормальности бессымсленна (2 наблюдения). В первом можно было бы, но я бы делать это не рекомендовал. Существует 5% вероятность того, что Вы признаете выборку ненормальной, если она на самом деле нормальна (т.е. каждую двадцатую) Если пользоваться иногда рекомендуемой границей 0,1 для признания выборки не нормальной Вы сделаете эту ошибку в 10% случаев (по результатам вычислительного эксперимента со взятием выборок = 12 из популяции нормально распределенных велечин имеем вероятность признания выборки ненормальной 5,3% при границе 0,05 и 9,7% при границе 0,1 для теста Шапиро-Вилкса). В том случае, если распределение не нормальное (я взял прямоугольное), то тест дает правильный ответ в 11% случаев при границе 0,05 и 22% при границе 0,1. Соответственно, если Вы не знаете характер распределения в популяции, и получаете, что он не нормальный в выборке, такая выборка будет из действительно не нормального распределения в 31% случаев при критерии 0,05 и 30,6% случаев при критерии 0,10. Если выборка признана нормальной, то это будет правдой в 52% случаев. Иными словами - что не делайте, разумного результата не будет (привет Фишеру). Соответственно, Ваше решение вряд ли зависит от результатов тестирования - какой тест Вы выберете, то и будет хорошо (можно взять сразу Вилкоксона, если хотите непараметрику, но я бы предпочел придерживаться Стьюдента). Единственно, что точно надо сделать - посмтореть наличие вылетающих наблюдений (резко отличающихся от всех остальных и форму распределения глазами. Я бы рекомендовал построить stem-and-leaf там уже все видно будет (и набирать материал...). Если же речь идет о сравнении групп n=12 и n=2, то единственная рекомендация - увеличить численность второй группы, на двух наблюдениях даже Стьюдент не вытянет (не говоря уж о Шапиро-Вилксе) - все хотят как минимум 3 наблюдения...
P.S. Если кого интересует, как были сделаны расчеты, могу привести код SAS, расчет посттестовых вероятностей сделан по теореме Байеса (с претестовой вероятностью нормального распределения 50%).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 29.05.2007 - 13:47
Сообщение #4





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Численность выборок у Вас, действительно, слишком уж мала. Когда увеличите вторую хотя бы до 5, для их сравнения можно воспользоваться критерием рандомизации компонент, специально прелагаемым для очень малых выборок. Он подробно описан в книге "Рунион Р. Справочник по непараметрической статистике. - М.: Финансы и статистика, 1982." Книга старая, но найти ее можно.

Дополнительно о т.н. "глазомерном" методе проверке нормальности. Он предполагает наложение и визуальное сравнение гистограммы, построенной по выборке, и плотности нормального распределения. Конечно, при численности 12 построить и проанализировать гистограмму затруднительно. Если удастся повысить численность, построить гистограмму можно в "Пакете анализа" Excel. Укажу один небольшой источник относительно чтения гистограмм. См. раздел 5.3. (с. 68 и далее) книги "Статистические методы повышения качества / Под ред. Х. Кумэ. - М.: Финансы и статистика, 1990."


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ната
сообщение 29.05.2007 - 15:36
Сообщение #5





Группа: Пользователи
Сообщений: 32
Регистрация: 23.02.2007
Пользователь №: 3956



Спасибо большое за советы, поищу эти книги, я объясню зачем мне понадобилась эта самая " нормальность": набрала 2 группы( исследуемая и контрольная), распределила по возрасту, минимальное количество исследуемых в возрастной группе 2, максимум-12, рассчитала выше перечисленные значения, сравнила,сделала вывод.Это я все проделала как часть дисерт.работы и сооответственно, решила написать статью, но, коллеги подсказали, что без критерия Стъюдента не печатать, т.к. не известно какие результаты будут в дальнейшем, а эти результаты могут быть случайнымии не достоверными. Если я правильно поняла, я могу применитьв данном случае критерий Стюдента и в статье просто указать, где различия не случайны.


Signature
Туся
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 31.05.2007 - 12:50
Сообщение #6





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Ничего не понятно frown.gif какое число лиц в исследуемой и контрольной группах? Если у Вас в исследуемой группе 2 человека, то никакой анализ и сравнения невозможен. Насчет того, что 5 человек поможет - если только популяция, из которой берется выборка крайне гомогенна (как батарейки на заводе) - иначе просто сделаете ошибку генерализации. Вообще при таком количестве наблюдений отсутствие различий, скорее всего ничего не говорит. Они могут появиться при немного большем количестве наблюдений. Поэтому я бы вообще это не упоминал, если все для чего делается сравнение - показать, что группы не отличаются по возрасту (или я что не так понял)
Кстати, не рекомендую пользоваться книгами по тестам рандомизации до 1993 года выпуска (там), поскольку в 1993 вышла монография Эфрона и Тибширани, которая сильно изменила отношение к рандомизационным тестам и стала требовать компьютерных симуляций (то, что в русском языке называется "методы с интенсивным использованием ЭВМ")
Не совсем понимаю, зачем при 10-15 наблюдениях Excel для построения гистограмм. Для визучальной оценки (симметричность, унимодальность и т.п.) вполней пойдет лист бумаги и умение строить график "ствол с листьями "stem-and leaf".
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 3.06.2007 - 16:45
Сообщение #7





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Не могу согласиться с советом по неиспользованию книг до 1993 года.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ната
сообщение 6.06.2007 - 21:39
Сообщение #8





Группа: Пользователи
Сообщений: 32
Регистрация: 23.02.2007
Пользователь №: 3956



Отвечаю:например, у меня в исследуемой группе(мужчины) 70 человек, контрольной-50, каждая разделена на возрастные группы, получается что в одной , например, возрастной группе 2 человека(21-30 лет), а в другой 10 (31-40 лет). По группам они разделены для удобства сравнения полученных показателей со стажем работы, опять же возрастом. Дааа, все это для меня пока не просто, буду разбираться дальше...


Signature
Туся
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 6.06.2007 - 22:11
Сообщение #9





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Ну так с этого и надо было начинать! НЕ НАДО делить на возрастные группы (т.е. превращать количественный показатель - "возраст" - в качественный - "возрастная группа").
Итак, Вам надо сравнить средние величины в двух группах (исследуемая и контрольная), но они не сбалансированы по возрасту, стажу работы на предприятии и т.п. В этом случае Вы используете ковариационный анализ (он же дисперсионный анализ с ковариантами, общая линейная модель и т.д.) В программе Statistica для этого используется MANCOVA, в SAS - PROC GLM, в S/R команда glm и т.д. Вы используете в качестве зависимой переменной ту, средние которой Вы сравниваете, а в качестве независимых - группу (закодированную, например 1 - воздействие, 0 - контроль), возраст, стаж и т.д.
В принципе, что делает этот вид анализа - он вначале проводит регресионный анализ связи, скажем возраста и вашего зависимого параметра. Рассчитывает уравнение регрессии и остатки (т.е. разность между предсказанным на основании возраста значением и наблюдаемым). Таким образом влияние возраста удаляется. Затем то же делается для другого показателя. В результате остается только та вариабельность, которая не связана с полом и возрастом. Вот она-то и используется для сравнения средних - Ваших 70 и 50 человек (почувствуйте разницу!). Можете почитать про ковариантный анализ внизу страницы тут http://www.pubhealth.spb.ru/SASDIST/SAS1-3.htm или найдите информацию по MANCOVA/GLM в статистической программе, которой Вы пользуетесь
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
jelena
сообщение 24.06.2007 - 16:13
Сообщение #10





Группа: Пользователи
Сообщений: 1
Регистрация: 24.06.2007
Пользователь №: 4181



Пожалуйста, можете еще пояснить - у меня собраны данные примерно 80 измерений - продолжительность отсутствия человека на работе, из этого примерно 50 измерений ясно, что будет отсутствовать в выходные, остальные - болезнь и подобное. Могу я эти данные обрабатывать несмотря на то, что часть заведома известна и неслучайна ??- то есть можно проверять нормальное разделение так, как описано выше. Могу просчитать данные для выборки - среднее значение, отклонение и под. ?
Заранее спасибо за совет
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Кобзарь
сообщение 30.06.2007 - 19:48
Сообщение #11





Группа: Пользователи
Сообщений: 2
Регистрация: 30.06.2007
Пользователь №: 4192



Цитата(Игорь @ 29.05.2007 - 07:03) [snapback]2925[/snapback]
Если тип распределения некоторой случайной величины нам неизвестен, располагая случайной эмпирической выборкой (реализацией случайной величины), мы можем захотеть проверить, совпадает ли эмпирическая функция распределения случайной величины с некоторой заданной или вычисленной по выборочным параметрам теоретической функцией эмпирического распределения. При такой постановке говорят о проверке статистической гипотезы согласия.
Если зайдет речь о программном обеспечении, не напрягающем финансовые возможности пользователя, следует отметить бесплатную версию пакета STADIA. Ссылку на нее я давал в теме, посвященной программному обеспечению. О применении критериев согласия в данном пакете см. книгу
Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере. - М.: ИНФРА-М, 1999. Есть и более позднее издание. У меня, к сожалению, под рукой только упомянутый источник.

Для Игоря.
В Ваших рассуждениях, впрочем как и головах статистиков, имеются неразрешимые противоречия. Главное- нормальных распределений не бывает, а при увеличении размера выборки все распределения в асимптотике становятся нормальными. Упование на непараметрику не уменьшает головную боль- непараметрические методы работают при больших выборках, в умереныых-они дают часто приличные сбои. Что делать- думать. Обработка результатов наблюдений-искусство. Задача матстатистики не дать ответы на все воросы, а, скорее, научиться организованно думать в поиске этих ответов. Цель обработки результатов наблюдений - дать в руки исследователя своеобразный бинокль, позволяющий рассмотреть в потоке данных ту информацию, которую вы ищите. Думаю не стоит уповать на простую консультацию в Интеренете, необходимо четко представлять себе природу обрабатываемых данных, цель обработки. Можно представить себе, в зависимости от результатов такого предварительного анализа, всякие комбинации поиска решения поставленной задачи. Однако, следует помнить, чем меньше данных, тем менее надежные будут выводы, однако не стоит отчаиваться, существует множество приемов повышения эффективности обработки данных. Этому меня научил многолетний опыт применения методов матстатиститки на практике, правда не медицинской, а в области оборонной техники. Этот опыт я и изложил в цитированной Вами книге.

Цитата(Ната @ 29.05.2007 - 16:36) [snapback]2931[/snapback]
Спасибо большое за советы, поищу эти книги, я объясню зачем мне понадобилась эта самая " нормальность": набрала 2 группы( исследуемая и контрольная), распределила по возрасту, минимальное количество исследуемых в возрастной группе 2, максимум-12, рассчитала выше перечисленные значения, сравнила,сделала вывод.Это я все проделала как часть дисерт.работы и сооответственно, решила написать статью, но, коллеги подсказали, что без критерия Стъюдента не печатать, т.к. не известно какие результаты будут в дальнейшем, а эти результаты могут быть случайнымии не достоверными. Если я правильно поняла, я могу применитьв данном случае критерий Стьюдента и в статье просто указать, где различия не случайны.

Для Наты
Я тот самый автор книги. Судя по вашей путанной постановке задачи, вам не просто разобраться в цели вашей обработки результатов. Интуитивно чувствую, что пахнет непараметрческим дисперсионным анализом в неравных выборках с пропущенными наблюдениями. Это довольное тонкое исследование. У меня в книге это есть. Если хотите более предметной консультации пришлите просто таблицу своих данных и сфоромулируйте - ответ на какой вопрос вы хотели бы получить в результате их математико-статистичечской обработки.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 13.07.2007 - 13:12
Сообщение #12





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Нормальных распределений не бывает? Где-то я это уже слышал. Тогда чему посвящен на самом деле параграф 3.2 цитируемой монографии? И какими становятся распределения в асимптотике? Тем, чего не может быть, потому что не может быть никогда. Посмотрите занятную статью http://ru.wikipedia.org/wiki/%D0%A1%D0%BE%...%B8%D0%B7%D0%BC. Особенно раздел, посвященный логическим ошибкам.

Кстати, в ряде тестов, описанных в упомянутой книге (см., например, 3.2.2.17), в формуле эмпирической характеристической функции почему-то i - это и индекс суммирования, и мнимая единица. Не дай бог, кто-то решит воспользоваться данной формулой.

Предлагаю усилить тезис - непрерывных распределений не бывает! Аргумент? Измерения всегда производятся с конечной точностью и в дискретные (пусть даже малые) интервалы времени. Следовательно, в анализе бывают только дискретные распределения (даже если по физике явления изучается непрерывный процесс, а нес читается количество шаров или гаек). Следовательно, нужно отменить не только параметрику, но и почти все методы прикладной статистики (оставить только точные перестановочные критерии). Это, конечно, шутка.

А на самом деле, представляется, на данном форуме нужно предлагать готовые рецепты решений проблем, поставленных соискателями, а не играть в софистику.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему