Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Сравнение частот ОДНОГО и ТОГО ЖЕ распределения(?)
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Liz
Должность (категориальная величина) - Зарплата (количественная; руб):
вахтёр - 10 000
завхоз - 25 000
инженер - 20 000
директор - 300 000
Каким МЕТОДОМ показать, что зарплата директора отличается от других статзначимо?
p2004r
Цитата(Liz @ 24.06.2013 - 14:04) *
Должность (категориальная величина) - Зарплата (количественная; руб):
вахтёр - 10 000
завхоз - 25 000
инженер - 20 000
директор - 300 000
Каким МЕТОДОМ показать, что зарплата директора отличается от других статзначимо?


любым методом детектирующим "выпадающие" значения
DoctorStat
Цитата(Liz @ 24.06.2013 - 15:04) *
Каким МЕТОДОМ показать, что зарплата директора отличается от других статзначимо?
А зачем что-то показывать: зарплата директора в 300тыс.руб. и так не совпадает ни с одной другой зарплатой в списке! Другими словами в условии задачи явно прописан ответ на вопрос. Вот если бы вы привели случайные выборки директоров, инженеров и т.д. с индивидуальными зарплатами, тогда было бы правомерно воспользоваться статистикой, чтобы доказать отличие в зарплатах разных категорий работников.
Liz
<p2004r: любым методом детектирующим "выпадающие" значения>
Изобретательно! Не сразу даже догнала! Признательна... :)
anserovtv
Можно применять различные методы. хотя данных у вас совсем мало.
Самый простой одновыборочный t-критерий. Проверку нормальности можно не выполнять.Проверяется гипотеза о равенстве среднего значения (данные кроме зарплаты директора) наперед заданному числу - зарплате директора . Я посчитал , значимость равна 0,000. Нулевая гипотеза отвергается - средняя зарплата рядовых работников существенно отличается от 300.
anserovtv
Нормальность по критерию Шапиро-Уилкса также выполнятся - значимость 0,637 в пакете SPSS v 21.
DoctorStat
Цитата(anserovtv @ 25.06.2013 - 22:08) *
Можно применять различные методы. хотя данных у вас совсем мало.
Самый простой одновыборочный t-критерий. Проверку нормальности можно не выполнять.Проверяется гипотеза о равенстве среднего значения (данные кроме зарплаты директора) наперед заданному числу - зарплате директора . Я посчитал , значимость равна 0,000. Нулевая гипотеза отвергается - средняя зарплата рядовых работников существенно отличается от 300.
Т.е. Вы хотите сказать, что можно тестировать гипотезу равенства средних значений для нескольких выборок, каждая из которых состоит из одного человека?
anserovtv
Цитата(DoctorStat @ 25.06.2013 - 22:24) *
Т.е. Вы хотите сказать, что можно тестировать гипотезу равенства средних значений для нескольких выборок, каждая из которых состоит из одного человека?

Я ясно написал одновыборочный.
Можно применять и парный двухвыборочный т-критерий Вторая выборка состоит из одинаковых чисел 300.
Это можно сделать даже в Excel./Читайте книгу Р.Вадзинского стр 281 вверху.перед примером 9.10

Цитата(DoctorStat @ 25.06.2013 - 22:24) *
Т.е. Вы хотите сказать, что можно тестировать гипотезу равенства средних значений для нескольких выборок, каждая из которых состоит из одного человека?

Я ясно написал одновыборочный.
Можно применять и парный двухвыборочный т-критерий Вторая выборка состоит из одинаковых чисел 300.
Это можно сделать даже в Excel./Читайте книгу Р.Вадзинского стр 281 вверху.перед примером 9.10
nokh
t-критерий для сравнения единственного наблюдения с группой существует, описан у Сокала и Рольфа. Однако полагаю без предварительного преобразования данных он здесь не уместен, т.к. распределение зарплат подчиняется логномальному распределению, а не нормальному (что бы там ни показал Шапиро-Уилк на трёх цифрах).
Liz
<anserovtv: Проверяется гипотеза о равенстве среднего значения (данные кроме зарплаты директора) наперед заданному числу - зарплате директора>
Тогда, логичнее, мне кажется, след. образом.
Проверяется гипотеза о равенстве среднего значения (данные кроме зарплаты директора) среднему же значению другой выборки (=зарплата директора).
СПАСИБО за статистически грамотную (насколько могу судить) и КОНКРЕТНУЮ(!) процедуру.
Напоминание об условии работы критерия (т.е. нормальности), безусловно, само по себе важно!!!
---
<nokh: распределение зарплат не нормально>
Здесь важно по отдельности: нормальность распределения выборки1 ("зарплаты КРОМЕ ДИРЕКТОРА") и нормальность распр. выборки2 (зарплата директора). И, конечно, <данных совсем мало>. Это издержки искусственности примера.
anserovtv
Логичнее все-таки применять одновыборочный критерий.
Если бы нормальность не выполнялась, следовало бы применять непараметрический критерий Вилкоксона для двух связанных выборок, вторая - из чисел 300.Непараметрического аналога одновыборочного т-критерия нет.
Критерий Шапиро-Уилкса работает и для трех чисел.
100$
Цитата(anserovtv @ 26.06.2013 - 07:46) *
Критерий Шапиро-Уилкса ...


Мартин Уилк и Самуэль Стенли Уилкс - разные люди. Критерий нормальности - Шапиро-Уилка (Shapiro-Wilk,1965). Лямбда Уилкса - многомерный аналог F-критерия при дисперсионном анализе.
Успехов в изучении матчасти!
DrgLena
Цитата(anserovtv @ 26.06.2013 - 07:46) *
Логичнее все-таки применять одновыборочный критерий.

Совершенно согласна!

Тем более что в столь популяризированной программа statistica это легко сделать. Одновыборочный t критерий, сравнение с константой.
Но автор поста, считает, что логичнее, зарплату директора считать другой выборкой и ?демонстрировать статистическую грамотность? проверкой нормальности бедного директора smile.gif

Предположение о нормальности распределения данных в генеральной совокупности, из которой извлечены данные, не имеет смысла проверять на 3-х значениях, что и содержится в первом ответе anserovtv.

anserovtv
Цитата(100$ @ 26.06.2013 - 11:31) *
Мартин Уилк и Самуэль Стенли Уилкс - разные люди. Критерий нормальности - Шапиро-Уилка (Shapiro-Wilk,1965). Лямбда Уилкса - многомерный аналог F-критерия при дисперсионном анализе.
Успехов в изучении матчасти!

Видимо, это проблемы перевода. В пакете SPSS как у вас, хотя имеются и ошибки в переводе. Но учебнике по статистике члена-корреспондента доктора пс. наук Ленькова С.Н.
W test Shapiro-Wilks и переведено со ссылками на иностранные источники с "с". Тест применяется для выборок от 3 до 50.
Н.Е.Рубцова, С.Л. Леньков
Статистические методы в психологии. М.2005 . стр 65-67
Успехов и вам в изучении статистики!!!!
100$
Цитата(anserovtv @ 26.06.2013 - 11:44) *
Видимо, это проблемы перевода. В пакете SPSS как у вас, хотя имеются и ошибки в переводе. Но учебнике по статистике члена-корреспондента доктора пс. наук Ленькова С.Н.
W test Shapiro-Wilks и переведено со ссылками на иностранные источники с "с". Тест применяется для выборок от 3 до 50.
Н.Е.Рубцова, С.Л. Леньков
Статистические методы в психологии. М.2005 . стр 65-67
Успехов и вам в изучении статистики!!!!


Глубоко личный вопрос: зачем вы тиражируете чужие глупости? Вместо спасиба за (бесплатный) ликбез?
Вас уже трижды в этой теме ткнули носом в ваши неточности. И это, похоже, только начало.
anserovtv
Цитата(100$ @ 26.06.2013 - 13:15) *
Глубоко личный вопрос: зачем вы тиражируете чужие глупости? Вместо спасиба за (бесплатный) ликбез?
Вас уже трижды в этой теме ткнули носом в ваши неточности. И это, похоже, только начало.

Другие люди мне сказали спасибо, а вы нагрубили.
Огромное спасиба за ликбез в отношениях на форуме.!!!!
DrgLena
Student's test
Shapiro-Wilk's test

Проблема проверки нормальности остается. Прилагаю выборку, не из семейства нормальных. Берите последователь по три значения и проверяйте нормальность - все время получите "нормальное". Так, где же нам нужна нормальновть - в генеральной совокупности или в каждой выборке, которую мы анализируем. В учебниках можно найти и тот и другой ответ на вопрос, так что же нам необходимо?
100$
Цитата(anserovtv @ 26.06.2013 - 12:32) *
Другие люди мне сказали спасибо, а вы нагрубили.
Огромное спасиба за ликбез в отношениях на форуме.!!!!


То есть если (скромный) я вежливо и добродушно, аки санитар в дурдоме, указал на некоторые неточности в ваших (драгоценных) советах, то это есть химически чистая грубость?
Тогда еще один личный вопрос: как же так случилось, что ваши папа с мамой отпустили вас такого ранимого и впечатлительного одного в Интернет?
Родители, чей малыш?

P.S.
Диалог из сериала "Крутой Уокер":

Преступник: Это у нас в Техасе такая грубая полиция?
Чак Норрис: Если ты мне соврал, то я вернусь, и тогда ты узнаешь, что такое грубость.

Разговором навеяло.
100$
Вспоминается (здешняя) форумная баталия, где ряд вундеркиндов ухитрились определить нормальность набора из - horribile dictu! - 5 значений.
Прошло не так уж много времени, и вот появилось (новое) поколение виртуозов, способных констатитровать нормальность по (sic!) трем цифрам.
И почему я не удивлен?
TheThing
Интересная тема развивается smile.gif

1. Я считаю, что проверять отклонение от нормальности распределения данных с помощью тестов на нормальность распределения при экстремально маленьких выборках не имеет особого смысла, поскольку эти тесты не обладают достаточной мощностью при таких размерах выборки, чтобы идентифицировать эти самые отклонения от нормальности. Так, например, тест Шапиро-Уилка не способен отличить распределение Гаусса, Пуассона, равномерное распределение при размере выборки в 6 наблюдений (что говорить про 3?):

CODE
shapiro.test(rnorm(6)) # нормальное распределение
shapiro.test(rpois(6,4)) # Пуассона
shapiro.test(runif(6,1,10)) # Равномерное
shapiro.test(rexp(6,2)) # экспоненциальное
shapiro.test(rlnorm(6)) # лог-нормальное

Только лишь в последнем случае половина значений меньше 0,05. Существуют определенные расчеты, что минимальный размер выборки для теста Kolmogorov-Smirnov - 5 и более наблюдений, для Shapiro-Wilk - 7 и более, для D'Agnostino - 8 и более наблюдений. Если мы хотим узнать минимальный размер выборки для теста Шапиро-Уилка с определенной мощностью, можно написать следующее:
CODE
results <- sapply(5:50,function(i){
p.value <- replicate(100,{
y <- rexp(i,2)
shapiro.test(y)$p.value
})
pow <- sum(p.value < 0.05)/100
c(i,pow)
})

и затем построить график:
CODE
plot(lowess(results[2,]~results[1,],f=1/6),type="l",col="red",
main="Power simulation for exponential distribution",
xlab="n",
ylab="power"
)

Нажмите для просмотра прикрепленного файла

По графику можно определить, что для того, чтобы отличть экспоненциальное распределение от нормального с мощностью 80%, нужно около 20 наблюдений.

2. По-моему, определять нормальность распеделения с помощью тестов на нормальность распределения при больших выборках не имеет смысла, поскольку даже минимальные отклонения от идеального Гауссовского распределения будут приводить к статистически значимым отличиям.

CODE
x <- replicate(100,{
c(
shapiro.test(rnorm(10)+c(1,0,2,0,1))$p.value,
shapiro.test(rnorm(100)+c(1,0,2,0,1))$p.value,
shapiro.test(rnorm(1000)+c(1,0,2,0,1))$p.value,
shapiro.test(rnorm(5000)+c(1,0,2,0,1))$p.value
)
}
)
rownames(x)<-c("n10","n100","n1000","n5000")

rowMeans(x<0.05) # пропорция значимых оклонений
n10 n100 n1000 n5000
0.04 0.04 0.20 0.87

Вот р-значения:
n10 n100 n1000 n5000
0.760 0.681 0.164 0.007

Из чего следует, что при n=5000, 87% - это вовсе не нормальное распределение, хотя по Q-Q графикам этого не скажешь.
Нажмите для просмотра прикрепленного файла

К тому же, при больших выборках тесты Стьюдента или ANOVA являются робастными к "ненормальности" данных.

3. Вся идея о нормальности распределения - это лишь математическая аппроксимация, но в реальном мире я не знаю ни одну величину, которая бы на 100% соответсвовала Гауссовскому распределению, но есть величины, которые "достаточно близко" распределены к нормальному. Однако, если мы зараннее знаем, что нет величин, которые бы на 100% соответствовали нормальному распределению, что особенного в том и какую информацию мы получим, если отклоним или не сможем отклонить нулевую гипотезу?

4. И самое главное. Существует очень распространенное заблуждение (особенно в отечественных изданиях) о том, какую информацию предоствляют тесты на нормальность распределения и какой ответ хочет получить исследователь. Тесты на нормальность распределения отвечают на следующий вопрос: "Существует ли достаточно доказательств относительно каких-либо отклонений от Гауссовского распределения?". При достаточно больших выборках ответ будет всегда да! Исследователи же ставят очень часто совершенно иной вопрос: "Мои данные достаточно отклоняются от нормального идеального распределения, чтобы запретить мне использовать тест, который подразумевает Гауссовское распределение?" Это очень похожая ошибка как при трактовке р-значений, а именно: H0|D & D|H0, где Н0 - нулевая гипотеза, D - данные. Исследователи хотят, чтобы тесты на нормальность распределения были неким судьей, который бы решал, в каких случаях использовать ANOVA, а в каких лучше отказаться от дисперсионного анализа и перейти к трансформациям данных, использованию ресамплинга, бутстрепа, непараметрических тестов и т.д. Но тесты на нормальность распределения не были созданы для этих целей. "При р-значении > 0,05 "остаемся" на ANOV'e, при р < 0,05 - идем в непараметрические" - это плохая практика!

P.S. Сорри, что так много написал...соскучился за форумом rolleyes.gif
p2004r
откуда вообще уверенность что распределение унимодально?

следует поступать вот так как то http://konhis.livejournal.com/96405.html
Liz
БОЛЬШОЕ СПАСИБО за подходы по ИСХОДНОМУ вопросу!!!
P.S. Тема проверки на нормальность совсем ДРУГАЯ тема. Здесь она возникла из-за максимального упрощённого примера, целью которого было проиллюстрировать вопрос (сам по себе пример, конечно, не представляет интереса).
100$
Цитата(Liz @ 26.06.2013 - 23:02) *
БОЛЬШОЕ СПАСИБО за подходы по ИСХОДНОМУ вопросу!!!


Дык оно-то, конечно, всегда пожалуйста, вот только какое отношение частоты имеют к проверке гипотезы о средней или обнаружению выбросов?
nokh
Цитата(TheThing @ 26.06.2013 - 21:50) *
...
2. По-моему, определять нормальность распеделения с помощью тестов на нормальность распределения при больших выборках не имеет смысла, поскольку даже минимальные отклонения от идеального Гауссовского распределения будут приводить к статистически значимым отличиям.
...
3. Вся идея о нормальности распределения - это лишь математическая аппроксимация, но в реальном мире я не знаю ни одну величину, которая бы на 100% соответсвовала Гауссовскому распределению, но есть величины, которые "достаточно близко" распределены к нормальному. Однако, если мы зараннее знаем, что нет величин, которые бы на 100% соответствовали нормальному распределению, что особенного в том и какую информацию мы получим, если отклоним или не сможем отклонить нулевую гипотезу?
...
Исследователи хотят, чтобы тесты на нормальность распределения были неким судьей, который бы решал, в каких случаях использовать ANOVA, а в каких лучше отказаться от дисперсионного анализа и перейти к трансформациям данных, использованию ресамплинга, бутстрепа, непараметрических тестов и т.д. Но тесты на нормальность распределения не были созданы для этих целей. "При р-значении > 0,05 "остаемся" на ANOV'e, при р < 0,05 - идем в непараметрические" - это плохая практика!

Всё это так! Но как нам с этим жить?! weep.gif Как у пользователя статистики передо мной такого вопроса не стоит: я знаю какие плоды она в состоянии принести и использую этот инструмент как считаю нужным. Обнаружив, играя на своём поле, что-то интересное, и не имея возможности "брать" уникальностью материала и тонкостью дорогостоящих методов, я использую доступные средства и часто просто превентивно бью потенциальных оппонентов статистикой, проводя те идеи, к которым пришёл (обычно с её же помощью) b0x.gif . А вот преподавать некоторые вещи очень сложно! Как говорить студентам, что почти любые различия, связи и зависимости мы можем подтвердить статистически - вопрос лишь в объёме выборки? Что все наши самые точные утверждения ненадёжны, а надёжные - неточны? Или что технология, которой мы поверяем свои маленькие научные открытия - жуткий гибрид двух конкурирующих концепций, родившийся в муках непонимания статистики практиками? И если со своей позицией здесь я давно определился (мне по натуре всегда ближе индуктивный подход), то студентам даю рецепты именно в духе "если Р<0,05, то одно, если P>0,10 - то другое". А есть что-то лучше? Если мы докажем с высокой статистической значимостью увеличение медианы выживаемости онкобольных на 1 день, врачи не воспримут это всерьёз, противопоставив статистической значимости клиническую. А у нас при выборе того или иного метода нет подобного критерия, кроме как здравого смысла, который сложно формализовать.

PS. Прошу прощения за слезу, не сдержался...
TheThing
Цитата(nokh @ 27.06.2013 - 18:46) *
Всё это так! Но как нам с этим жить?! weep.gif Как у пользователя статистики передо мной такого вопроса не стоит: я знаю какие плоды она в состоянии принести и использую этот инструмент как считаю нужным. Обнаружив, играя на своём поле, что-то интересное, и не имея возможности "брать" уникальностью материала и тонкостью дорогостоящих методов, я использую доступные средства и часто просто превентивно бью потенциальных оппонентов статистикой, проводя те идеи, к которым пришёл (обычно с её же помощью) b0x.gif . А вот преподавать некоторые вещи очень сложно! Как говорить студентам, что почти любые различия, связи и зависимости мы можем подтвердить статистически - вопрос лишь в объёме выборки? Что все наши самые точные утверждения ненадёжны, а надёжные - неточны? Или что технология, которой мы поверяем свои маленькие научные открытия - жуткий гибрид двух конкурирующих концепций, родившийся в муках непонимания статистики практиками? И если со своей позицией здесь я давно определился (мне по натуре всегда ближе индуктивный подход), то студентам даю рецепты именно в духе "если Р<0,05, то одно, если P>0,10 - то другое". А есть что-то лучше? Если мы докажем с высокой статистической значимостью увеличение медианы выживаемости онкобольных на 1 день, врачи не воспримут это всерьёз, противопоставив статистической значимости клиническую. А у нас при выборе того или иного метода нет подобного критерия, кроме как здравого смысла, который сложно формализовать.

PS. Прошу прощения за слезу, не сдержался...


Мне кажется, что студентам главное заложить прочный фундамент, а со временем, если они захотят углубиться в тот или иной вопрос и осознать, насколько в статистике все не однозначно и порой запутано, они сами поднимут литературу, посидят на хороших стат. форумах, осознают сложность вопроса и начнут придерживаться определенной точки зрения. А для начала - р < 0.05 - "поди туда", р > 0.05 - "поди обратно" - это нормальное начало, через которое многие прошли (я в том числе smile.gif ). Но если у студентов спрашиваешь, как они бы определили р-значение:
1)вероятность, что полученные результаты чисто случайны, вероятность того, что нулевая гипотеза (H0) является истиной;
2)вероятность, что полученные результаты не случайны, вероятность того, что H0 является ложной гипотезой;
3)вероятность наблюдаемых результатов (или более экстремальных), если нулевая гипотеза верна;
4)вероятность того, что идентичные результаты будут получены если провести эксперимент во второй раз;
5)ничего из выше перечисленного.

80% студентов факультета прикладной статистики университета Sussex в Великобритании отвечают, что 1 вариант, когда правильным является конечно 3, мне даже страшно представить, какой процент будет у наших студентов (можем провести эксперимент smile.gif ). Потом они защищают дипломы, получают PhD, пишут книги, проводят стат. расчеты другим и, приблизительно в такой способ, распространяются многие заблуждения в области статистики. Поэтому я - за прочный фундамент.

А относительно врачей...те врачи, которые мне встречались, они вообще статистику не считают наукой..это так, некий способ получить р< 0.05 для своей диссертации, "вторая лженаука после религии" и т.д. Сложно с ними..
nokh
Цитата(TheThing @ 27.06.2013 - 22:51) *
...Поэтому я - за прочный фундамент.

Ну вот как-то так и закладываем smile.gif
Цитата(TheThing @ 27.06.2013 - 22:51) *
А относительно врачей...те врачи, которые мне встречались, они вообще статистику не считают наукой..это так, некий способ получить р< 0.05 для своей диссертации, "вторая лженаука после религии" и т.д. Сложно с ними..

На одном форуме был такой же он-лайн опрос, только в пункте 3 про экстремальные ничего не говорилось. Не помню: не то за 5 проголовал, не то вообще не стал участвовать.
А у меня с врачами по-разному: от "о чём вообще разговор, ещё статистика мы в соавторы не брали!" до тех кто спустя несколько лет продолжает боготворить и чуть ли не молится. Но в целом, картина не такая безрадостная: много реально заинтересованных людей, причём которые, в отличие от меня, не просто хотят докопаться до ответа на вопрос, но ещё и внедрить результат. Может мне так везёт, потому что в условиях лени и дефицита времени берусь за сопровождение избирательно...
100$
Самое забавное во всей этой истории заключается в том, что з/платы "работяг" и "управленцев" не являются одинаково распределенными случайными величинами. Есть в статистике, понимаете ли, термин "процесс, порождающий данные" (Data Generating Process (DGP)). Так вот в данном случае здесь два разных DGP. Можно назвать это табелью о рангах, можно-штатным расписанием со своей тарифной сеткой или как-то еще. Во всяком случае з/плата управленца не случайно больше: она по жизни больше (по определению, если хотите). Так что данная задача вообще не должна решаться статистическими методами (по причине отстствия именно фактора случайности), и если кому-то очень надо статистически "доказать", что зарплата директора не случайно на три порядка выше таковой у уборщицы, то флаг ему в руки, как грится...

P.S.
Проверять нормальность при проверке гипотезы о средней - шаманизм (по причине существования ЦПТ (или теоремы Ляпунова)).
TheThing
Цитата(100$ @ 28.06.2013 - 12:49) *
Самое забавное во всей этой истории заключается в том, что з/платы "работяг" и "управленцев" не являются одинаково распределенными случайными величинами. Есть в статистике, понимаете ли, термин "процесс, порождающий данные" (Data Generating Process (DGP)). Так вот в данном случае здесь два разных DGP. Можно назвать это табелью о рангах, можно-штатным расписанием со своей тарифной сеткой или как-то еще. Во всяком случае з/плата управленца не случайно больше: она по жизни больше (по определению, если хотите). Так что данная задача вообще не должна решаться статистическими методами (по причине отстствия именно фактора случайности), и если кому-то очень надо статистически "доказать", что зарплата директора не случайно на три порядка выше таковой у уборщицы, то флаг ему в руки, как грится...

P.S.
Проверять нормальность при проверке гипотезы о средней - шаманизм (по причине существования ЦПТ (или теоремы Ляпунова)).


Это действительно забавно smile.gif

А если взять какой-то другой пример, скажем, у нас есть 2 группы людей - практически здоровые и группа с инфарктом миокарда и нам интересно узнать, стат. значимо ли изменяется какой-то там показатель. Мы ведь по определению знаем, что этот показатель будет больше (скажем ЛДГ) в группе инфарктников, а факторы случайности здесь тоже получается отсутствуют? Мы ведь по определению знаем, что при патологии какой-либо показатель будет отклоняться от "нормы" в ту или иную сторону..
Или зачем проводят процедуру Каплан-Майера с целью доказать, что выживаемость с 1 стадией опухолевого процесса лучше чем с 4? Мы и так это все пракрасно знаем..

P.S. я работаю в гос. учреждении и уверен на 100%, что получаю меньше чем уборщица в какой-то коммерческой компании smile.gif Я не помню, в условии задачи есть фраза, что все зарплаты из одного учреждения ? Вдруг в выборку управленцев попали такие как я, а в группу уборщиц - супер-пупер уборщицы ? Вот фактор случайности намечается..хотя если посмотреть на зарплаты в задаче, то не намечается..а вообщем..
100$
Цитата(TheThing @ 28.06.2013 - 13:21) *
Это действительно забавно smile.gif

А если взять какой-то другой пример, скажем, у нас есть 2 группы людей - практически здоровые и группа с инфарктом миокарда и нам интересно узнать, стат. значимо ли изменяется какой-то там показатель. Мы ведь по определению знаем, что этот показатель будет больше (скажем ЛДГ) в группе инфарктников, а факторы случайности здесь тоже получается отсутствуют? Мы ведь по определению знаем, что при патологии какой-либо показатель будет отклоняться от "нормы" в ту или иную сторону..
Или зачем проводят процедуру Каплан-Майера с целью доказать, что выживаемость с 1 стадией опухолевого процесса лучше чем с 4? Мы и так это все пракрасно знаем..

P.S. я работаю в гос. учреждении и уверен на 100%, что получаю меньше чем уборщица в какой-то коммерческой компании smile.gif Я не помню, в условии задачи есть фраза, что все зарплаты из одного учреждения ? Вдруг в выборку управленцев попали такие как я, а в группу уборщиц - супер-пупер уборщицы ? Вот фактор случайности намечается..хотя если посмотреть на зарплаты в задаче, то не намечается..а вообщем..


1. Про зарплаты: вот если бы при трудоустройстве и директора, и уборщицы наугад вынимали бы из барабана бумажку со своей будущей зарплатой, то тогда бы фактор случайности наличествовал, и в природе существовала хотя бы одна фирма, где уборщица (весело напевая) моет пол за 300 тыс., а директор (проклиная судьбу) потеет за 25. Мы же имеем диапазон зарплат, устанавливаемых волевым решением человека: скажем диапазон зарплат уборщицы, инженера и т.д. 10-40 тыс., а топов - 300 тыс.-21 млн. Как вы думаете: случайно ли, что эти два множества не пересекаются?

2. Про инфаркты: в международном класификаторе болезней отсутствует понятие "случайный инфаркт". Поэтому, либо динамика показателя(-ей) такова, что дело неминуемо закончится инфарктом, либо в результате инфаркта показатель отклоняется от физиологически нормальной величины. В любом случае мы имеем дело с причиной и следствием. Если же таких причин много, то вот вам бытовая трактовка закона больших чисел (ЗБЧ): при одновременном действии множества случайных факторов результат не зависит от случая.

Но самое забавное заключается в том, что статистика не дает ответа на вопрос о причинах и следствиях. Поясню: например в статистическом анализе временных рядов существует тема о совместном поведении случайных величин, генереруемых разными DGP, так называемая теория коинтеграции временных рядов. В этой теории краеугольным камнем является понятие причинности по Грейнджеру (Granger's causality). При этом настойчиво подчеркивается, что причинность по Грейнджеру не является причиной в философском понимании категорий "причина-следствие". Просто текущие значения одного временного ряда можно прогнозировать при помощи прошлых значений другого.


3.1 Про статистику в медицине: далеко не все имеет смысл усреднять , дабы не получить ту самую среднюю температуру по больнице.
3.2. Сама градация любой патологии (постадийная) отражает степень разрушенности организма. Это вам любой хирург скажет, просто разрезав пациента. Не отвлекая Каплана и Майера.
p2004r
Цитата(100$ @ 28.06.2013 - 14:54) *
Но самое забавное заключается в том, что статистика не дает ответа на вопрос о причинах и следствиях.


ну а что тогда показывает http://en.wikipedia.org/wiki/Partial_correlation на достаточно полной группе показателей?

PS ну или когда восстанавливается структура в http://en.wikipedia.org/wiki/Bayesian_network ?
100$
Цитата(p2004r @ 28.06.2013 - 21:05) *
ну а что тогда показывает http://en.wikipedia.org/wiki/Partial_correlation на достаточно полной группе показателей?

PS ну или когда восстанавливается структура в http://en.wikipedia.org/wiki/Bayesian_network ?


Цепочка рассуждений проста, как мычание: философская связка "причина-следствие" характеризуется направленностью: причина предшествует следствию. Предшествование обусловлено однонаправленностью (т.н."стрелой") времени. Ни вероятность, ни время не определяются друг через друга: в колмогоровскую "тройку" время не входит, в определение вероятности не входит, так что вероятность функцией времени уж точно не является.

Соответственно корреляция (в т.ч. частная) двух с.в. просто по опредеоению ничего не говорит о том, какая из них причина, а какая-следствие.
Что же касается условной вероятности, то как говаривали старики римляне: "после того, не значит вследствие того".
p2004r
Цитата(100$ @ 29.06.2013 - 20:12) *
Соответственно корреляция (в т.ч. частная) двух с.в. просто по опредеоению ничего не говорит о том, какая из них причина, а какая-следствие.
Что же касается условной вероятности, то как говаривали старики римляне: "после того, не значит вследствие того".


1) итак возможность измерить истинную силу связи мы признаем, хорошо smile.gif

2) что касается направления --- не понимаю чем определение структуры байесовской сети, включающей в себя более менее полную группу переменных описывающих систему, не дает нам основание разрешить "после чего" действительно "вследствии его" smile.gif да вы агностик однако smile.gif
100$
Цитата
1) итак возможность измерить истинную силу связи мы признаем, хорошо smile.gif


Не понимаю природы вашей радости: я вроде бы не отрицал существования феномена стохастической связи (то бишь корреляции), однако корреляция-понятие симметричное (к перестановкам переменных инвариантное), в отличие от связки "причина-следствие". Кроме того, корреляция может быть ложной: http://en.wikipedia.org/wiki/Spurious_relationship

Цитата
2) что касается направления --- не понимаю чем определение структуры байесовской сети, включающей в себя более менее полную группу переменных описывающих систему, не дает нам основание разрешить "после чего" действительно "вследствии его" smile.gif да вы агностик однако smile.gif


Вижу, что не понимаете: теорема Байеса- это способ рассортировать (уже готовые) причины по вероятности их действия.

Н-р, если у вас не заводится машина (такое вот грустное событие-следствие), то еще до обращения к статистике (в т.ч. теореме Байеса, о существовании которой вы можете вообще не подозревать) вы сформируете перечень наиболее вероятных причин (на основе житейского опыта):
1. Отсутствует бензин
2. Сел аккумулятор
3. Накрылся стартер
4. Образовался нагар на свечах
5. Сдохла корова у соседа
6. Происки мировой закулисы
...
115. Взорвалась Фукусима
116. В далеком созвездии Тау Кита родилась сверхновая.

Именно поэтому работники автосервиса могут позволить себе зарабатывать деньги, не апеллируя к теореме Байеса и всему, что с ней связано.

А теперь запишите домашнее задание: погуглить насчет теоремы Байеса и доложить условие ее "работоспособности". Избегая обсуждения (скромного) меня.
Об успехах сообщайте. О неудачах-тоже.
До связи.
p2004r
1) ну конечно ложная корреляция тоже "не познаваема" smile.gif

2) эрго --- условная вероятность ничем не отличается от причинности как её понимает человек. или агностицизм так косит наши ряды? smile.gif

PS не надо распространять замшелые агностические представления. то что кто то когда то сказал по поводу парного коэффициента корреляции не заслуживает такого обобщения.

PPS а да, раз советы погуглить это традиция, --- погуглите про байесовские сети и методы восстановления их структуры
100$
Цитата
1) ну конечно ложная корреляция тоже "не познаваема" smile.gif


На подобные неорганизованные выкрики с места я не реагирую, но пока "Correlation does not imply causation is a phrase used in science and statistics to emphasize that a correlation between two variables does not necessarily imply that one causes the other."

Цитата
2) эрго --- условная вероятность ничем не отличается от причинности как её понимает человек.


Не надо вещать от лица человечества: оно в курсе, что формула Байеса-симметрична, и что условная вероятность не выходит за рамки частотного определения вероятности (по фон Мизесу).


Цитата
PS не надо распространять замшелые агностические представления. то что кто то когда то сказал по поводу парного коэффициента корреляции не заслуживает такого обобщения.


Это вы о чем?

Цитата
PPS а да, раз советы погуглить это традиция, --- погуглите про байесовские сети и методы восстановления их структуры


То есть за без малого две сотни моих сообщений единичная просьба -это традиция?
И потом, чего мне гуглить-вы же сами ссылку кидали.
TheThing
Цитата(100$ @ 1.07.2013 - 01:23) *
"Correlation does not imply causation is a phrase used in science and statistics to emphasize that a correlation between two variables does not necessarily imply that one causes the other."


Мне кажется, что основной акцент при переводе этого выражения стоит сделать на второй части предложения - корреляция НЕ ВСЕГДА (или НЕ ОБЯЗАТЕЛЬНО) означает причинно-следственную связь, она может означать, а может и не означать, мы просто этого не знаем. Слишком много научных открытий было бы "зарыто" и слишком много ошибок второго рода допущено, если бы мы категорически отрицали возможную причинно-следственную связь при коррелции. Например, компании по производству табака, нам радостно сообщают: "ну и что, что была установлена сильная позитивная связь между курением и риском развития рака легких? Курите на здоровье, корреляционная связь не означает причинную" smile.gif Она как может не означать, так может еще как означать..

Философско-математическая хорошая статья про корреляцию, частную корреляцию и причинно-следственные связи ( Нажмите для просмотра прикрепленного файла )

P.S. Мне сложно согласиться с Вами, что не существует методов статистики, которые бы открывали причинно-следственные связи..(я не про корреляцию)

100$
Цитата(TheThing @ 1.07.2013 - 02:48) *
Мне кажется, что основной акцент при переводе этого выражения стоит сделать на второй части предложения - корреляция НЕ ВСЕГДА (или НЕ ОБЯЗАТЕЛЬНО) означает причинно-следственную связь, она может означать, а может и не означать, мы просто этого не знаем. Слишком много научных открытий было бы "зарыто" и слишком много ошибок второго рода допущено, если бы мы категорически отрицали возможную причинно-следственную связь при коррелции. Например, компании по производству табака, нам радостно сообщают: "ну и что, что была установлена сильная позитивная связь между курением и риском развития рака легких? Курите на здоровье, корреляционная связь не означает причинную" smile.gif Она как может не означать, так может еще как означать..

Философско-математическая хорошая статья про корреляцию, частную корреляцию и причинно-следственные связи ( Нажмите для просмотра прикрепленного файла )

P.S. Мне сложно согласиться с Вами, что не существует методов статистики, которые бы открывали причинно-следственные связи..(я не про корреляцию)


TheThing, вы как всегда, рассудительны и мудры, поэтому прошу вас ответить на такую вот анкету:

Ветер дует потому что...
а) деревья качаются
б) наоборот
в) все ответы правильные
г) все ответы неправильные

и в качестве дружеского жеста сообщить, как вы это раскумекали без использования статистики и тестирования гипотез. Возможно, это будет интересно не только мне.

TheThing
Цитата(100$ @ 1.07.2013 - 11:13) *
TheThing, вы как всегда, рассудительны и мудры

Это вряд ли laugh.gif

Цитата
поэтому прошу вас ответить на такую вот анкету:
но я попробую..

a. Ветер дует потому, что качаются деревья.. Дерево может качаться по тем или иным причинам и создавать при этом определенное движение (потоки) воздуха, но это вряд ли можна назвать ветром, в том смысле, в котором я понимаю сущность ветра..
б. Деревья качаются, потому что дует ветер..Ну это явление я наблюдал чаще всего в жизни, но дерево может качаться не только потому, что дует ветер..а может качаться, когда ветра и вовсе нет (например, стоит дядя Вася возле дерева и пинает его..smile.gif )
в. этот вариант сомнителен
г. этот тоже..я бы сказал, все ответы имеют вероятностный ответ..

Но если набрать определенную выборку деревьев, измерить степень их качания, силу ветра, присутствие/отсутствие дядя Васи и многих других факторов + немного здравого рассудка - можно определить, какие факторы в наибольшей мере ассоциированы с качанием деревьев и что есть причиной, а что - следствием. Какие-то такие мои "кумеки".. laugh.gif

И даже если мы справимся с логическими "ловушками", в статистике также нас может подстерегать подобного рода вещи. Например:
Таблица частот людей, которые принимали препарат и достигли улучшения состояния и те, которые не достигли:
Нажмите для просмотра прикрепленного файла

Исходя из таблица, люди, которые принимали препарат в большем % достигли улучшения состояния и, как вывод, препарат работает.

Давайте посмотрим теперь на разбивку по полу (мужчины/женщины) во второй таблице:
Нажмите для просмотра прикрепленного файла
Видим, что у женщин общий % улучшения состояния уменьшился с приемом препарата. Ага, воскликнет исследователь, значит всему виной мужчины - вот за счет их и происходило значительное улучшение состояния от приема препарата. Но..и у мужчин состояние ухудшалось от приема препарата..Парадоксально, но это явление и известно под Парадоксом Симпсона (ссылка ) и таких парадоксов как в статистике так и в жизни очень много.

Поэтому, мне кажется, что именно комбинация здравого рассудка и статистических моделей может дать нам вероятностное объяснение / причинно-следственную связь того или иного события.
100$
Цитата
но я попробую..


Спасибо,TheThing, теперь к дальнейшему разговору будем допускать только тех, кто прошел этот тест. Остальных просим не беспокоиться. Шутка.

Однако.
Я рассуждаю следующим образом.
Было предложено назвать причину ветра. При этом предлагаемые варианты ответов имеют следующие особенности:
1. "Ветер дует, потому что деревья качаются"-противоречит наблюдаемому массиву информации (ветры дуют и над морями, и над пустынями, над ледовыми полями Арктики и Антарктики, где до ближайшего дерева путь неблизкий). Следовательно качание деревьев-не причина.
2. "Деревья качаются, потому что дует ветер". Это -вообще не ответ на вопрос о причине ветра. Это-нечто из другой оперы (той, что про деревья).
3. "Все ответы правильные"- пока нам не встретился ни один правильный ответ, этот пункт - неверен.
4. "Все ответы неправильные" - единственно возможный.

А вот что люди добрые пишут про ветер
Liz
Вариант г) тоже не является правильным ответом!
P.S. Другое дело, что тестируемый может прокомментировать тест: все ответы неправильные. :)
100$
Ба! Какие люди! Топикстартер собственной персоной! Ну, здрасьте, коли не шутите.


Цитата
Вариант г) тоже не является правильным ответом!


Так сообщите же нам его скорее! С нетерпением ждем новостей с переднего края науки!

Скажу вам по секрету: он вообще не является ответом на основной вопрос анкеты. Правда, что является ответом, а что нет - решает ее составитель. Одни варианты ответов могут относиться к основному вопросу, другие-к предыдущим вариантам. Вы мне еще попеняйте на отсутствие пункта "Затрудняюсь ответить". Только не забудьте, что мы обсуждаем созданную вами (судя по обилию Caps'а - в муках) тему, а не мой талант к составлению анкет.

Цитата
P.S. Другое дело, что тестируемый может прокомментировать тест: все ответы неправильные. smile.gif


В том-то и дело, что ничего он не может: анкета- закрытого типа.
p2004r
Вы милейший (тут раз пошли эпитеты значит надо соответствовать) когда ответите на вопрос прямой --- вы агностик?

То что вы тут впариваете общественности на каких то синтетических (а значит априори глупых) примерах означает что познать природу причинной связи невозможно. Это совершенно не согласуется с фактами.

Вам четко и ясно сказано --- на достаточной по объему и составу группе показателей (все ваши типа примеры остроты вокруг группы и (неудачно) пляшут кстати) причинность и сила связи полностью вскрывается. Почитайте наконец про методы восстановления структуры байесовской сети. И поверьте условные вероятности которые находит сеть куда то и к чему то сходятся при мало мальском объеме сети. И тем более они сходятся на реальных, а не высосаных из пальца данных. То что вы тычите в возможность ошибки при этом, так это даже не смешно. Вся прикладная статистика это сплошная возможность совершения ошибки. И если что то и нужно исследовать, то это вероятность сходимости решений о структуре байесовской сети.

Поймите вы не в мире математических абстракций живете, и ответ "вы находитесь на воздушном шаре" никому не нужен. А если вы родить другого ответа не способны, то и чека о зарплате вам не видать.
p2004r

вас ткнули носом в вашу же "промашку" при вашем формальном рассуждении над вами же приведенном примере. вы очень агрессивны и не логичны (по вашему же определению).
100$
Как там у Дюма: "Д'Артаньян был не так глуп, чтобы не заметить, что он-лишний". Раз уж вы в этой истории на роль Д'Артаньяна не тянете, не стоит ронять слюну, глядя на мою приятную беседу с дамой. Видишь же- мне не до тебя.
p2004r
Цитата(100$ @ 3.07.2013 - 16:19) *
Как там у Дюма: "Д'Артаньян был не так глуп, чтобы не заметить, что он-лишний". Раз уж вы в этой истории на роль Д'Артаньяна не тянете, не стоит ронять слюну, глядя на мою приятную беседу с дамой. Видишь же- мне не до тебя.


ну так попробуйте печатать на клавиатуре обоими руками.
Liz
<nokh: t-критерий для сравнения единственного наблюдения с группой существует, описан у Сокала и Рольфа>
Это книжка/и? Спасибо!
nokh
Цитата(Liz @ 4.07.2013 - 20:30) *
<nokh: t-критерий для сравнения единственного наблюдения с группой существует, описан у Сокала и Рольфа>
Это книжка/и? Спасибо!

http://yadi.sk/d/ZcbVVN2-6UqGE
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.