![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() ![]() |
![]() |
![]()
Сообщение
#16
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 ![]() |
Глубоко личный вопрос: зачем вы тиражируете чужие глупости? Вместо спасиба за (бесплатный) ликбез? Вас уже трижды в этой теме ткнули носом в ваши неточности. И это, похоже, только начало. Другие люди мне сказали спасибо, а вы нагрубили. Огромное спасиба за ликбез в отношениях на форуме.!!!! |
|
![]() |
![]() |
![]()
Сообщение
#17
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Student's test
Shapiro-Wilk's test Проблема проверки нормальности остается. Прилагаю выборку, не из семейства нормальных. Берите последователь по три значения и проверяйте нормальность - все время получите "нормальное". Так, где же нам нужна нормальновть - в генеральной совокупности или в каждой выборке, которую мы анализируем. В учебниках можно найти и тот и другой ответ на вопрос, так что же нам необходимо? Сообщение отредактировал DrgLena - 26.06.2013 - 20:19 |
|
![]() |
![]() |
![]()
Сообщение
#18
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Другие люди мне сказали спасибо, а вы нагрубили. Огромное спасиба за ликбез в отношениях на форуме.!!!! То есть если (скромный) я вежливо и добродушно, аки санитар в дурдоме, указал на некоторые неточности в ваших (драгоценных) советах, то это есть химически чистая грубость? Тогда еще один личный вопрос: как же так случилось, что ваши папа с мамой отпустили вас такого ранимого и впечатлительного одного в Интернет? Родители, чей малыш? P.S. Диалог из сериала "Крутой Уокер": Преступник: Это у нас в Техасе такая грубая полиция? Чак Норрис: Если ты мне соврал, то я вернусь, и тогда ты узнаешь, что такое грубость. Разговором навеяло. |
|
![]() |
![]() |
![]()
Сообщение
#19
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Вспоминается (здешняя) форумная баталия, где ряд вундеркиндов ухитрились определить нормальность набора из - horribile dictu! - 5 значений.
Прошло не так уж много времени, и вот появилось (новое) поколение виртуозов, способных констатитровать нормальность по (sic!) трем цифрам. И почему я не удивлен? |
|
![]() |
![]() |
![]()
Сообщение
#20
|
|||
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251 ![]() |
Интересная тема развивается
![]() 1. Я считаю, что проверять отклонение от нормальности распределения данных с помощью тестов на нормальность распределения при экстремально маленьких выборках не имеет особого смысла, поскольку эти тесты не обладают достаточной мощностью при таких размерах выборки, чтобы идентифицировать эти самые отклонения от нормальности. Так, например, тест Шапиро-Уилка не способен отличить распределение Гаусса, Пуассона, равномерное распределение при размере выборки в 6 наблюдений (что говорить про 3?): CODE shapiro.test(rnorm(6)) # нормальное распределение shapiro.test(rpois(6,4)) # Пуассона shapiro.test(runif(6,1,10)) # Равномерное shapiro.test(rexp(6,2)) # экспоненциальное shapiro.test(rlnorm(6)) # лог-нормальное Только лишь в последнем случае половина значений меньше 0,05. Существуют определенные расчеты, что минимальный размер выборки для теста Kolmogorov-Smirnov - 5 и более наблюдений, для Shapiro-Wilk - 7 и более, для D'Agnostino - 8 и более наблюдений. Если мы хотим узнать минимальный размер выборки для теста Шапиро-Уилка с определенной мощностью, можно написать следующее: CODE results <- sapply(5:50,function(i){ p.value <- replicate(100,{ y <- rexp(i,2) shapiro.test(y)$p.value }) pow <- sum(p.value < 0.05)/100 c(i,pow) }) и затем построить график: CODE plot(lowess(results[2,]~results[1,],f=1/6),type="l",col="red", main="Power simulation for exponential distribution", xlab="n", ylab="power" ) По графику можно определить, что для того, чтобы отличть экспоненциальное распределение от нормального с мощностью 80%, нужно около 20 наблюдений. 2. По-моему, определять нормальность распеделения с помощью тестов на нормальность распределения при больших выборках не имеет смысла, поскольку даже минимальные отклонения от идеального Гауссовского распределения будут приводить к статистически значимым отличиям. CODE x <- replicate(100,{ c( shapiro.test(rnorm(10)+c(1,0,2,0,1))$p.value, shapiro.test(rnorm(100)+c(1,0,2,0,1))$p.value, shapiro.test(rnorm(1000)+c(1,0,2,0,1))$p.value, shapiro.test(rnorm(5000)+c(1,0,2,0,1))$p.value ) } ) rownames(x)<-c("n10","n100","n1000","n5000") rowMeans(x<0.05) # пропорция значимых оклонений n10 n100 n1000 n5000 0.04 0.04 0.20 0.87 Вот р-значения: n10 n100 n1000 n5000 0.760 0.681 0.164 0.007 Из чего следует, что при n=5000, 87% - это вовсе не нормальное распределение, хотя по Q-Q графикам этого не скажешь. К тому же, при больших выборках тесты Стьюдента или ANOVA являются робастными к "ненормальности" данных. 3. Вся идея о нормальности распределения - это лишь математическая аппроксимация, но в реальном мире я не знаю ни одну величину, которая бы на 100% соответсвовала Гауссовскому распределению, но есть величины, которые "достаточно близко" распределены к нормальному. Однако, если мы зараннее знаем, что нет величин, которые бы на 100% соответствовали нормальному распределению, что особенного в том и какую информацию мы получим, если отклоним или не сможем отклонить нулевую гипотезу? 4. И самое главное. Существует очень распространенное заблуждение (особенно в отечественных изданиях) о том, какую информацию предоствляют тесты на нормальность распределения и какой ответ хочет получить исследователь. Тесты на нормальность распределения отвечают на следующий вопрос: "Существует ли достаточно доказательств относительно каких-либо отклонений от Гауссовского распределения?". При достаточно больших выборках ответ будет всегда да! Исследователи же ставят очень часто совершенно иной вопрос: "Мои данные достаточно отклоняются от нормального идеального распределения, чтобы запретить мне использовать тест, который подразумевает Гауссовское распределение?" Это очень похожая ошибка как при трактовке р-значений, а именно: H0|D & D|H0, где Н0 - нулевая гипотеза, D - данные. Исследователи хотят, чтобы тесты на нормальность распределения были неким судьей, который бы решал, в каких случаях использовать ANOVA, а в каких лучше отказаться от дисперсионного анализа и перейти к трансформациям данных, использованию ресамплинга, бутстрепа, непараметрических тестов и т.д. Но тесты на нормальность распределения не были созданы для этих целей. "При р-значении > 0,05 "остаемся" на ANOV'e, при р < 0,05 - идем в непараметрические" - это плохая практика! P.S. Сорри, что так много написал...соскучился за форумом ![]() Сообщение отредактировал TheThing - 26.06.2013 - 18:52 |
||
|
![]() |
![]() |
![]()
Сообщение
#21
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
откуда вообще уверенность что распределение унимодально?
следует поступать вот так как то http://konhis.livejournal.com/96405.html ![]() |
|
![]() |
![]() |
![]()
Сообщение
#22
|
|
Группа: Пользователи Сообщений: 68 Регистрация: 21.01.2012 Пользователь №: 23436 ![]() |
БОЛЬШОЕ СПАСИБО за подходы по ИСХОДНОМУ вопросу!!!
P.S. Тема проверки на нормальность совсем ДРУГАЯ тема. Здесь она возникла из-за максимального упрощённого примера, целью которого было проиллюстрировать вопрос (сам по себе пример, конечно, не представляет интереса). Сообщение отредактировал Liz - 26.06.2013 - 23:03 ![]() English is my hobby.
|
|
![]() |
![]() |
![]()
Сообщение
#23
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
|
|
![]() |
![]() |
![]()
Сообщение
#24
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
... 2. По-моему, определять нормальность распеделения с помощью тестов на нормальность распределения при больших выборках не имеет смысла, поскольку даже минимальные отклонения от идеального Гауссовского распределения будут приводить к статистически значимым отличиям. ... 3. Вся идея о нормальности распределения - это лишь математическая аппроксимация, но в реальном мире я не знаю ни одну величину, которая бы на 100% соответсвовала Гауссовскому распределению, но есть величины, которые "достаточно близко" распределены к нормальному. Однако, если мы зараннее знаем, что нет величин, которые бы на 100% соответствовали нормальному распределению, что особенного в том и какую информацию мы получим, если отклоним или не сможем отклонить нулевую гипотезу? ... Исследователи хотят, чтобы тесты на нормальность распределения были неким судьей, который бы решал, в каких случаях использовать ANOVA, а в каких лучше отказаться от дисперсионного анализа и перейти к трансформациям данных, использованию ресамплинга, бутстрепа, непараметрических тестов и т.д. Но тесты на нормальность распределения не были созданы для этих целей. "При р-значении > 0,05 "остаемся" на ANOV'e, при р < 0,05 - идем в непараметрические" - это плохая практика! Всё это так! Но как нам с этим жить?! ![]() ![]() PS. Прошу прощения за слезу, не сдержался... Сообщение отредактировал nokh - 27.06.2013 - 19:05 |
|
![]() |
![]() |
![]()
Сообщение
#25
|
|
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251 ![]() |
Всё это так! Но как нам с этим жить?! ![]() ![]() PS. Прошу прощения за слезу, не сдержался... Мне кажется, что студентам главное заложить прочный фундамент, а со временем, если они захотят углубиться в тот или иной вопрос и осознать, насколько в статистике все не однозначно и порой запутано, они сами поднимут литературу, посидят на хороших стат. форумах, осознают сложность вопроса и начнут придерживаться определенной точки зрения. А для начала - р < 0.05 - "поди туда", р > 0.05 - "поди обратно" - это нормальное начало, через которое многие прошли (я в том числе ![]() 1)вероятность, что полученные результаты чисто случайны, вероятность того, что нулевая гипотеза (H0) является истиной; 2)вероятность, что полученные результаты не случайны, вероятность того, что H0 является ложной гипотезой; 3)вероятность наблюдаемых результатов (или более экстремальных), если нулевая гипотеза верна; 4)вероятность того, что идентичные результаты будут получены если провести эксперимент во второй раз; 5)ничего из выше перечисленного. 80% студентов факультета прикладной статистики университета Sussex в Великобритании отвечают, что 1 вариант, когда правильным является конечно 3, мне даже страшно представить, какой процент будет у наших студентов (можем провести эксперимент ![]() А относительно врачей...те врачи, которые мне встречались, они вообще статистику не считают наукой..это так, некий способ получить р< 0.05 для своей диссертации, "вторая лженаука после религии" и т.д. Сложно с ними.. |
|
![]() |
![]() |
![]()
Сообщение
#26
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
...Поэтому я - за прочный фундамент. Ну вот как-то так и закладываем ![]() А относительно врачей...те врачи, которые мне встречались, они вообще статистику не считают наукой..это так, некий способ получить р< 0.05 для своей диссертации, "вторая лженаука после религии" и т.д. Сложно с ними.. На одном форуме был такой же он-лайн опрос, только в пункте 3 про экстремальные ничего не говорилось. Не помню: не то за 5 проголовал, не то вообще не стал участвовать. А у меня с врачами по-разному: от "о чём вообще разговор, ещё статистика мы в соавторы не брали!" до тех кто спустя несколько лет продолжает боготворить и чуть ли не молится. Но в целом, картина не такая безрадостная: много реально заинтересованных людей, причём которые, в отличие от меня, не просто хотят докопаться до ответа на вопрос, но ещё и внедрить результат. Может мне так везёт, потому что в условиях лени и дефицита времени берусь за сопровождение избирательно... |
|
![]() |
![]() |
![]()
Сообщение
#27
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Самое забавное во всей этой истории заключается в том, что з/платы "работяг" и "управленцев" не являются одинаково распределенными случайными величинами. Есть в статистике, понимаете ли, термин "процесс, порождающий данные" (Data Generating Process (DGP)). Так вот в данном случае здесь два разных DGP. Можно назвать это табелью о рангах, можно-штатным расписанием со своей тарифной сеткой или как-то еще. Во всяком случае з/плата управленца не случайно больше: она по жизни больше (по определению, если хотите). Так что данная задача вообще не должна решаться статистическими методами (по причине отстствия именно фактора случайности), и если кому-то очень надо статистически "доказать", что зарплата директора не случайно на три порядка выше таковой у уборщицы, то флаг ему в руки, как грится...
P.S. Проверять нормальность при проверке гипотезы о средней - шаманизм (по причине существования ЦПТ (или теоремы Ляпунова)). Сообщение отредактировал 100$ - 28.06.2013 - 12:57 |
|
![]() |
![]() |
![]()
Сообщение
#28
|
|
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251 ![]() |
Самое забавное во всей этой истории заключается в том, что з/платы "работяг" и "управленцев" не являются одинаково распределенными случайными величинами. Есть в статистике, понимаете ли, термин "процесс, порождающий данные" (Data Generating Process (DGP)). Так вот в данном случае здесь два разных DGP. Можно назвать это табелью о рангах, можно-штатным расписанием со своей тарифной сеткой или как-то еще. Во всяком случае з/плата управленца не случайно больше: она по жизни больше (по определению, если хотите). Так что данная задача вообще не должна решаться статистическими методами (по причине отстствия именно фактора случайности), и если кому-то очень надо статистически "доказать", что зарплата директора не случайно на три порядка выше таковой у уборщицы, то флаг ему в руки, как грится... P.S. Проверять нормальность при проверке гипотезы о средней - шаманизм (по причине существования ЦПТ (или теоремы Ляпунова)). Это действительно забавно ![]() А если взять какой-то другой пример, скажем, у нас есть 2 группы людей - практически здоровые и группа с инфарктом миокарда и нам интересно узнать, стат. значимо ли изменяется какой-то там показатель. Мы ведь по определению знаем, что этот показатель будет больше (скажем ЛДГ) в группе инфарктников, а факторы случайности здесь тоже получается отсутствуют? Мы ведь по определению знаем, что при патологии какой-либо показатель будет отклоняться от "нормы" в ту или иную сторону.. Или зачем проводят процедуру Каплан-Майера с целью доказать, что выживаемость с 1 стадией опухолевого процесса лучше чем с 4? Мы и так это все пракрасно знаем.. P.S. я работаю в гос. учреждении и уверен на 100%, что получаю меньше чем уборщица в какой-то коммерческой компании ![]() Сообщение отредактировал TheThing - 28.06.2013 - 13:33 |
|
![]() |
![]() |
![]()
Сообщение
#29
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Это действительно забавно ![]() А если взять какой-то другой пример, скажем, у нас есть 2 группы людей - практически здоровые и группа с инфарктом миокарда и нам интересно узнать, стат. значимо ли изменяется какой-то там показатель. Мы ведь по определению знаем, что этот показатель будет больше (скажем ЛДГ) в группе инфарктников, а факторы случайности здесь тоже получается отсутствуют? Мы ведь по определению знаем, что при патологии какой-либо показатель будет отклоняться от "нормы" в ту или иную сторону.. Или зачем проводят процедуру Каплан-Майера с целью доказать, что выживаемость с 1 стадией опухолевого процесса лучше чем с 4? Мы и так это все пракрасно знаем.. P.S. я работаю в гос. учреждении и уверен на 100%, что получаю меньше чем уборщица в какой-то коммерческой компании ![]() 1. Про зарплаты: вот если бы при трудоустройстве и директора, и уборщицы наугад вынимали бы из барабана бумажку со своей будущей зарплатой, то тогда бы фактор случайности наличествовал, и в природе существовала хотя бы одна фирма, где уборщица (весело напевая) моет пол за 300 тыс., а директор (проклиная судьбу) потеет за 25. Мы же имеем диапазон зарплат, устанавливаемых волевым решением человека: скажем диапазон зарплат уборщицы, инженера и т.д. 10-40 тыс., а топов - 300 тыс.-21 млн. Как вы думаете: случайно ли, что эти два множества не пересекаются? 2. Про инфаркты: в международном класификаторе болезней отсутствует понятие "случайный инфаркт". Поэтому, либо динамика показателя(-ей) такова, что дело неминуемо закончится инфарктом, либо в результате инфаркта показатель отклоняется от физиологически нормальной величины. В любом случае мы имеем дело с причиной и следствием. Если же таких причин много, то вот вам бытовая трактовка закона больших чисел (ЗБЧ): при одновременном действии множества случайных факторов результат не зависит от случая. Но самое забавное заключается в том, что статистика не дает ответа на вопрос о причинах и следствиях. Поясню: например в статистическом анализе временных рядов существует тема о совместном поведении случайных величин, генереруемых разными DGP, так называемая теория коинтеграции временных рядов. В этой теории краеугольным камнем является понятие причинности по Грейнджеру (Granger's causality). При этом настойчиво подчеркивается, что причинность по Грейнджеру не является причиной в философском понимании категорий "причина-следствие". Просто текущие значения одного временного ряда можно прогнозировать при помощи прошлых значений другого. 3.1 Про статистику в медицине: далеко не все имеет смысл усреднять , дабы не получить ту самую среднюю температуру по больнице. 3.2. Сама градация любой патологии (постадийная) отражает степень разрушенности организма. Это вам любой хирург скажет, просто разрезав пациента. Не отвлекая Каплана и Майера. Сообщение отредактировал 100$ - 28.06.2013 - 15:07 |
|
![]() |
![]() |
![]()
Сообщение
#30
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Но самое забавное заключается в том, что статистика не дает ответа на вопрос о причинах и следствиях. ну а что тогда показывает http://en.wikipedia.org/wiki/Partial_correlation на достаточно полной группе показателей? PS ну или когда восстанавливается структура в http://en.wikipedia.org/wiki/Bayesian_network ? Сообщение отредактировал p2004r - 28.06.2013 - 21:12 ![]() |
|
![]() |
![]() |
![]() ![]() |