Версия для печати темы
Форум врачей-аспирантов _ Медицинская статистика _ Какие выборки считаются связанными
Автор: Stefa 2.12.2011 - 07:39
Всем добрый день! Столкнулась с проблемой и просто зациклилась на ней. Пример из книги В.Ю. Урбаха : две делянки пшеницы, одна опыт, вторая контроль, измерялась урожайность раз в год.
Год| 1947|1948|1949|1950|1951|1952|1953
Опыт|22.9|20.2|19.5|30.5|35.6|31.9|27.7
Контроль|19.4|16.2|16.9|29.3|31.4|28.5|26.6
Для сравнения урожайности применяется критерий Стьюдента для парных выборок. У меня аналогичная задача, но я не могу доказать, почему эти выборки следует считать парными. На все мои объяснения, что опыт и контроль связаны годом, и что нельзя сравнивать урожайность первой делянки за 1947 год и урожайность второй делянки, например, за 1953г., а необходимо рассматривать именно пары, мне рассказывают про пациентов до и после лечения, и что там да, связанные, а здесь никакой связи нет. Может быть я не права? А если права, то, как объяснить так, чтобы не у кого не возникало никаких сомнений. Помогите, пожалуйста! Заранее большое спасибо.
Автор: p2004r 2.12.2011 - 09:14
Цитата(Stefa @ 2.12.2011 - 07:39)
У меня аналогичная задача, но я не могу доказать, почему эти выборки следует считать парными.
Вы забыли сказать в чем заключается ваша задача.
Автор: Stefa 2.12.2011 - 10:29
Прошу прощения. У меня два города и показатели числа коек на 1000 населения в них за 5 лет:
Год|2006|2007|2008|2009|2010
Город 1|8.5|8.8|7.9|7.5|8.1
Город 2|10.6|12.4|10.9|10.6|7.7
Автор: p2004r 2.12.2011 - 14:01
Цитата(Stefa @ 2.12.2011 - 10:29)
Прошу прощения. У меня два города и показатели числа коек на 1000 населения в них за 5 лет:
Год|2006|2007|2008|2009|2010
Город 1|8.5|8.8|7.9|7.5|8.1
Город 2|10.6|12.4|10.9|10.6|7.7
1 по моему сравнение с вегетацией растений и зависимостью от года не очень корректно в данном случае
2 модель данных другая, там все в течении года появляется и убирается. в случае койкомест большая их часть переходит от года к году. (может надо каким то образом отображать движение койкомест (прибыло - убыло))?
3 ну поскольку "глобус выдан"
попробуем посмотреть на данные
Код
# считываем "как есть"
> read.table("data.txt",sep="|")
V1 V2 V3 V4 V5 V6
1 Год 2006.0 2007.0 2008.0 2009.0 2010.0
2 Город 1 8.5 8.8 7.9 7.5 8.1
3 Город 2 10.6 12.4 10.9 10.6 7.7
# преобразуем в "широкий" датафрейм
data<-as.data.frame(t(read.table("data.txt",sep="|")[,2:6]))
names(data)<-read.table("data.txt",sep="|")[,1]
> data
Год Город 1 Город 2
V2 2006 8.5 10.6
V3 2007 8.8 12.4
V4 2008 7.9 10.9
V5 2009 7.5 10.6
V6 2010 8.1 7.7
# преобразуем в "длинный" датафрейм
library(reshape)
> data.long<-melt(data=data,id.vars="Год", measure.vars=c("Город 1","Город 2"))
> data.long
Год variable value
1 2006 Город 1 8.5
2 2007 Город 1 8.8
3 2008 Город 1 7.9
4 2009 Город 1 7.5
5 2010 Город 1 8.1
6 2006 Город 2 10.6
7 2007 Город 2 12.4
8 2008 Город 2 10.9
9 2009 Город 2 10.6
10 2010 Город 2 7.7
# строим модель смешанных эффектов
library(lme4)
# полную
> model.ful <- lmer(value ~ 1 + (1|Год) + (1|variable), data=data.long)
> model.ful
Linear mixed model fit by REML
Formula: value ~ 1 + (1 | Год) + (1 | variable)
Data: data.long
AIC BIC logLik deviance REMLdev
41.91 43.12 -16.96 36 33.91
Random effects:
Groups Name Variance Std.Dev.
Год (Intercept) 0.3120 0.55857
variable (Intercept) 2.3455 1.53150
Residual 1.2685 1.12628
Number of obs: 10, groups: Год, 5; variable, 2
Fixed effects:
Estimate Std. Error t value
(Intercept) 9.300 1.167 7.969
# только год
> model.год <- lmer(value ~ 1 + (1|Год) , data=data.long)
> model.год
Linear mixed model fit by REML
Formula: value ~ 1 + (1 | Год)
Data: data.long
AIC BIC logLik deviance REMLdev
43.27 44.17 -18.63 37.79 37.27
Random effects:
Groups Name Variance Std.Dev.
Год (Intercept) 0.0000 0.0000
Residual 2.8489 1.6879
Number of obs: 10, groups: Год, 5
Fixed effects:
Estimate Std. Error t value
(Intercept) 9.3000 0.5337 17.42
#только город
> model.город <- lmer(value ~ 1 + (1|variable), data=data.long)
> model.город
Linear mixed model fit by REML
Formula: value ~ 1 + (1 | variable)
Data: data.long
AIC BIC logLik deviance REMLdev
40.07 40.98 -17.04 36.12 34.07
Random effects:
Groups Name Variance Std.Dev.
variable (Intercept) 2.2831 1.5110
Residual 1.5805 1.2572
Number of obs: 10, groups: variable, 2
Fixed effects:
Estimate Std. Error t value
(Intercept) 9.30 1.14 8.158
# отображаем все графически с доверительными интервалами
dotplot(ranef(model.ful, data=data.long, postVar = TRUE))$Год
dotplot(ranef(model.ful, data=data.long, postVar = TRUE))$variable
dotplot(ranef(model.год, data=data.long, postVar = TRUE))
dotplot(ranef(model.город, data=data.long, postVar = TRUE))
# ну и сами данные тоже отображаем графически
print(dotplot(reorder(Год, value) ~ value, data.long, groups = variable, ylab = "Год"))
судя по всему год не имеет достоверного вклада в модель (в качестве фактора дизайна эксперимента), отмечается слабая тенденция.
Книга (на простом английском языке) с описание методик анализа лежит здесь
http://lme4.r-forge.r-project.org/book/
отличия между моделями
Код
> anova(model.ful,model.город)
Data: data.long
Models:
model.город: value ~ 1 + (1 | variable)
model.ful: value ~ 1 + (1 | Год) + (1 | variable)
Df AIC BIC logLik Chisq Chi Df Pr(>Chisq)
model.город 3 42.116 43.024 -18.058
model.ful 4 44.004 45.215 -18.002 0.1121 1 0.7378
> anova(model.ful,model.год)
Data: data.long
Models:
model.год: value ~ 1 + (1 | Год)
model.ful: value ~ 1 + (1 | Год) + (1 | variable)
Df AIC BIC logLik Chisq Chi Df Pr(>Chisq)
model.год 3 43.794 44.702 -18.897
model.ful 4 44.004 45.215 -18.002 1.7903 1 0.1809
> anova(model.год,model.город)
Data: data.long
Models:
model.год: value ~ 1 + (1 | Год)
model.город: value ~ 1 + (1 | variable)
Df AIC BIC logLik Chisq Chi Df Pr(>Chisq)
model.год 3 43.794 44.702 -18.897
model.город 3 42.116 43.024 -18.058 1.6782 0 < 2.2e-16 ***
---
Signif. codes: 0 ?***? 0.001 ?**? 0.01 ?*? 0.05 ?.? 0.1 ? ? 1
>
Автор: p2004r 2.12.2011 - 14:26
Введем год в модель в качестве предиктора
Код
> model <- lmer(value ~ Год + (1|variable), data=data.long)
> model
Linear mixed model fit by REML
Formula: value ~ Год + (1 | variable)
Data: data.long
AIC BIC logLik deviance REMLdev
39.45 40.66 -15.72 32.28 31.45
Random effects:
Groups Name Variance Std.Dev.
variable (Intercept) 2.3721 1.5402
Residual 1.1342 1.0650
Number of obs: 10, groups: variable, 2
Fixed effects:
Estimate Std. Error t value
(Intercept) 983.1800 478.1898 2.056
Год -0.4850 0.2381 -2.037
Correlation of Fixed Effects:
(Intr)
Год -1.000
Предупреждения
1: 'abbreviate' использована с не-ASCII символами
2: 'abbreviate' использована с не-ASCII символами
> anova(model.ful,model)
Data: data.long
Models:
model.ful: value ~ 1 + (1 | Год) + (1 | variable)
model: value ~ Год + (1 | variable)
Df AIC BIC logLik Chisq Chi Df Pr(>Chisq)
model.ful 4 44.004 45.215 -18.002
model 4 40.284 41.494 -16.142 3.7201 0 < 2.2e-16 ***
---
Signif. codes: 0 ?***? 0.001 ?**? 0.01 ?*? 0.05 ?.? 0.1 ? ? 1
> dotplot(ranef(model, data=data.long, postVar = TRUE))
города достоверно отличаются, влияние переменной "год" существенно.
ну и отобразим графически эти простые модели
Код
print(xyplot(value ~ Год | variable, data.long, aspect = "xy",
panel = function(...) {
panel.xyplot(...)
panel.abline(lm(data.long$value[as.numeric(data.long$variable)==packet.number()] ~ data.long$Год[as.numeric(data.long$variable)==packet.number()]))
panel.abline(fixef(model),
col.line = "red",
lty = 1
)
panel.abline(fixef(model.ful),
col.line = "green",
lty = 2
)
} ))
Автор: 100$ 2.12.2011 - 15:03
Цитата(Stefa @ 2.12.2011 - 07:39)
Всем добрый день! Столкнулась с проблемой и просто зациклилась на ней. Пример из книги В.Ю. Урбаха : две делянки пшеницы, одна опыт, вторая контроль, измерялась урожайность раз в год.
Год| 1947|1948|1949|1950|1951|1952|1953
Опыт|22.9|20.2|19.5|30.5|35.6|31.9|27.7
Контроль|19.4|16.2|16.9|29.3|31.4|28.5|26.6
Для сравнения урожайности применяется критерий Стьюдента для парных выборок.
Stefa, скажите, а уважаемый Урбах описал вероятностно-статистическую модель порождения данных? Какая гипотеза проверяется?
Если не описал - выбросьте эту книгу не только из головы, но и из дома.
Автор: p2004r 2.12.2011 - 19:48
Цитата(Stefa @ 2.12.2011 - 07:39)
Год| 1947|1948|1949|1950|1951|1952|1953
Опыт|22.9|20.2|19.5|30.5|35.6|31.9|27.7
Контроль|19.4|16.2|16.9|29.3|31.4|28.5|26.6
Ну а для сельскохозяйственного опыта все в порядке, для дизайна эксперимента как раз значим год. А участок ничего не вносит.
Код
> data.s.long<-melt(data=data.s,id.vars="Год", measure.vars=c("Опыт","Контроль"))
> data.s.long
Год variable value
1 1947 Опыт 22.9
2 1948 Опыт 20.2
3 1949 Опыт 19.5
4 1950 Опыт 30.5
5 1951 Опыт 35.6
6 1947 Контроль 19.4
7 1948 Контроль 16.2
8 1949 Контроль 16.9
9 1950 Контроль 29.3
10 1951 Контроль 31.4
> model.s.ful <- lmer(value ~ 1 + (1|Год) + (1|variable), data=data.s.long)
> model.s.ful
Linear mixed model fit by REML
Formula: value ~ 1 + (1 | Год) + (1 | variable)
Data: data.s.long
AIC BIC logLik deviance REMLdev
56.32 57.54 -24.16 52.62 48.32
Random effects:
Groups Name Variance Std.Dev.
Год (Intercept) 49.693 7.04933
variable (Intercept) 4.654 2.15731
Residual 0.755 0.86891
Number of obs: 10, groups: Год, 5; variable, 2
Fixed effects:
Estimate Std. Error t value
(Intercept) 24.190 3.513 6.886
> model.s.год <- lmer(value ~ 1 + (1|Год) , data=data.s.long)
> model.s.год
Linear mixed model fit by REML
Formula: value ~ 1 + (1 | Год)
Data: data.s.long
AIC BIC logLik deviance REMLdev
60.71 61.62 -27.36 58.8 54.71
Random effects:
Groups Name Variance Std.Dev.
Год (Intercept) 47.366 6.8823
Residual 5.409 2.3257
Number of obs: 10, groups: Год, 5
Fixed effects:
Estimate Std. Error t value
(Intercept) 24.190 3.164 7.645
> model.s.опыт <- lmer(value ~ 1 + (1|variable), data=data.s.long)
> model.s.опыт
Linear mixed model fit by REML
Formula: value ~ 1 + (1 | variable)
Data: data.s.long
AIC BIC logLik deviance REMLdev
68.59 69.5 -31.3 65.94 62.59
Random effects:
Groups Name Variance Std.Dev.
variable (Intercept) 0.000 0.0000
Residual 47.512 6.8929
Number of obs: 10, groups: variable, 2
Fixed effects:
Estimate Std. Error t value
(Intercept) 24.19 2.18 11.1
Автор: nokh 3.12.2011 - 16:10
>100$. Вообще-то учебник Урбаха весьма неплох для своего времени и особенно - места. В нём есть почти уникальные штуки, которые по крупицам рассыпаны в другой литературе, а кое-чего в других книгах я просто не нашёл, хотя по идее быть должно. Также он содержит больше доживших до наших дней методов, чем его ровесники от Плохинского. Хотя именно по зависимым выборкам я тоже не согласен. См. ниже.
>Stefa. На картинке я привёл цитату из соответствующего места Урбаха (стр. 155). На мой взгляд здесь есть путаница двух понятий: истинной завимости групп и преобладающего источника изменчивости. Настоящие зависимые выборки - опыты на одних и тех же животных и опыты на делянках с одних и тех же полей в разные годы. В первой же части цитаты описывается ситуация, которая не подразумевает зависимого характером выборок: то, что для каких-то биологических признаков именно год, а не поле привносит большую изменчивость, которую нужно грамотно учесть, ещё не делает выборки зависимыми. Просто получается что год - более существенный для урожайности фактор, чем поле. Если мы будем сравнивать урожайность с разных полей для одного ряда лет, а поля будут разные - некорректно считать и учитывать только ошибку разности в соответвующих парах лет, т.к. остаётся неучтённой изменчивость самих полей. А значит - это не есть зависимые выборки. Зависимые были бы тогда, когда мы бы поделили несколько полей и на одной части удобряли, на другой - нет. Тогда можно было считать, что разность между значениями на одном поле отражает именно результат удобрения и в обобщающей разности была бы только один источник изменчивости - разная "реакция" полей на удобрение. Я не особо разбирался что сделал р2004r, но вашу задачу можно решить: (1) двухфакторным дисперсионным анализом с единственным наблюдением на ячейку комплекса (параметрический подход) или (2) анализом Фридмана или Квейд (непараметрический подход).
>p2004r. Если работать в классическом русле параметрикой, то это - двухфакторный дисперсионным анализом с единственным наблюдением на ячейку комплекса. Фактор "Город" - фиксированный, фактор "Год" - случайный. Взаимодействие факторов "Город х Год" неотделимо от ошибки анализа (т.к. в ячейках только по одной цифре) и само выступает в качестве статистики ошибки для главных эффектов. Ниже я прикрепил результаты этого анализа. Город значим, год - незначим. Год "вкладывает" в изменчивость койко-мест существенно меньше (лень считать компоненты дисперсии) и не является существенным.
Автор: 100$ 3.12.2011 - 17:59
> Nokh, коль скоро в посте #3 не содержится даже минимальных сведений о задаче, которую пытается решить решает автор, то Ваш совет в отношении непараметрики для явного новичка считаю чересчур громоздким. Что прикажете делать вопрошающему: срочно искать Кобзаря, у которого именно в критерии Квейд куча очепяток, или пособие Soliani, со всеми его косяками?. Пусть уж лучше сделает в Ёкселе ANOV'у. Без очков ясно, что это исследование из той же серии, когда по 5 морковкам пытаются сделать вывод о характере распределения.
Кроме того, мне не совсем понятно вот что: здесь мы имеем дело с (очевидно) независимыми выборками (2 города), а Фридман и Квейд работают со связанными выборками. Их-то на кой советуете?
И еще. Вводить год в модель в качестве регрессора в данном контексте-очевидная глупость. Время - признак, не имеющий градаций. Вот рассмотреть в качестве предиктора величину инвестиций в здравоохранение (по годам для каждого города) - другое дело. Тогда, возможно, станет понятно, почему в городе Б больше коек на 1000 населения, нежели в граде А.
Кстати, раз уж Урбах у Вас под рукой, что он пишет в смысле (возможного) ответа на мой вопрос из поста #6?
P.S. Не люблю ломать копья в отсутствие топик-стартера.
Автор: nokh 3.12.2011 - 18:27
Цитата(100$ @ 3.12.2011 - 19:59)
Кроме того, мне не совсем понятно вот что: здесь мы имеем дело с (очевидно) независимыми выборками (2 города), а Фридман и Квейд работают со связанными выборками. Их-то на кой советуете?
Совсем необязательно с зависимыми. Это - непараметрические аналоги двухфакторного дисперсионного анализа с рандомизированными блоками. Ссылки искать не хочется, но и википедии есть про пригодность для полноблочных экспериментальных планов. Хотя применяются и для зависимых выборок.
Цитата(100$ @ 3.12.2011 - 19:59)
Кстати, раз уж Урбах у Вас под рукой, что он пишет в смысле (возможного) ответа на мой вопрос из поста #6?
А ничего не пишет... Но книгу не выброшу!
:
Автор: 100$ 3.12.2011 - 19:17
Цитата(nokh @ 3.12.2011 - 18:27)
Совсем необязательно с зависимыми. Это - непараметрические аналоги двухфакторного дисперсионного анализа с рандомизированными блоками. Ссылки искать не хочется, но и википедии есть про пригодность для полноблочных экспериментальных планов. Хотя применяются и для зависимых выборок.
Надо же, как далеко продвинулась наука с тех пор, как я занимался ею в последний раз. Т.е. простенький критерий знаков (sign test) применяется для поиска различий в параметрах положения для двух зависимых выборок, а тест Фридмана, роспространяющий эту идею на случай большего количества выборок, каким-то непостижимым образом стал непараметрическим аналогом аж двухфакторного ANOVA?
P.S. Оригинал статьи Квейд 1979 года в Тырнете выложен. Но я смотрел только на формулы, желая подкорректировать Кобзарёвы опечатки. Придется читать полностью.
Автор: 100$ 3.12.2011 - 19:24
Цитата(nokh @ 3.12.2011 - 18:27)
А ничего не пишет...
Чудо-книга, автор которой пренебрегает такими вещами.
[quote] Но книгу не выброшу!
: [\quote]
Смайлик подобран неудачно
Автор: nokh 3.12.2011 - 19:38
Цитата(100$ @ 3.12.2011 - 21:17)
Надо же...И потом, сами посудите...
Мне полемика не интересна. Я, в отличие от Вас, не бросаю нервных фраз в направлении авторов книг, типикстартеров и участников форума, оставляя вопрос без ответа. Я зашёл и ответил на тот вопрос топикстартера, который за 7 постов так и остался без ответа. О качестве выбора смайликов - тоже не вам судить, т.к. мои смайлики отражают
мои эмоции, которые совсем необязательно должны казаться адекватными отдельным участникам форума, адекватность которых также может вызывать сомнения у других его участников.
Автор: 100$ 3.12.2011 - 20:10
Тогда предлагаю нам обоим посты 12 и 13 удалить собственноручно. Или пусть модераторы расстараются. Обещаю больше не экспериментировать с вашим самолюбием.
Автор: p2004r 4.12.2011 - 16:07
Цитата(100$ @ 3.12.2011 - 17:59)
И еще. Вводить год в модель в качестве регрессора в данном контексте-очевидная глупость. Время - признак, не имеющий градаций. Вот рассмотреть в качестве предиктора величину инвестиций в здравоохранение (по годам для каждого города) - другое дело. Тогда, возможно, станет понятно, почему в городе Б больше коек на 1000 населения, нежели в граде А.
Ну ну... "глупость" это лонгитудинальное наблюдение считать независимым от времени. И _никакой_ учтенный фактор "по годам" природу модели в части зависимости значения текущего года от предыдущего не изменит (да и сам скорее всего будет зависим от своих предыдущих по времени значений).
Автор: 100$ 4.12.2011 - 17:40
Цитата(p2004r @ 4.12.2011 - 16:07)
Ну ну... "глупость" это лонгитудинальное наблюдение считать независимым от времени. И _никакой_ учтенный фактор "по годам" природу модели в части зависимости значения текущего года от предыдущего не изменит (да и сам скорее всего будет зависим от своих предыдущих по времени значений).
Вообще-то все началось с вопроса о том, что такое связанные выборки. Может быть Stef'е надо всего лишь проверить однородность мат. ожиданий для двух городов, и она просто хочет узнать, каким критерием Стьюдента все это тестить применительно к своей задаче.
Не могли бы Вы в качестве небольшой любезности сообщить, что это за листинги вы повесили в постах 4, 5 и 7? Заранее спасибо за снисходительные комментарии.
Автор: p2004r 4.12.2011 - 18:08
Цитата(100$ @ 4.12.2011 - 17:40)
Не могли бы Вы в качестве небольшой любезности сообщить, что это за листинги вы повесили в постах 4, 5 и 7? Заранее спасибо за снисходительные комментарии.
1. Это листинги на языке R ( http://cran.r-project.org/ ). Этот язык собственно и разработали что бы не описывать алгоритм обработки данных на естественном языке (ввиду того что каждый понимает его по своему).
Моё личное наблюдение заключается в том, что описание своих идей и советов на таком искусственном языке позволяет из области пенисометрии сместить нить дискуссии в область собственно метрологии.
2. Вы принципиально не ходите по ссылкам? Раз наблюдение проводится лонгитудинально над двумя объектами, то и методика должна этот факт учитывать. Повторные измерения одних и тех же объектов позволяет учесть Mixed model.
Цитата
Книга (на простом английском языке) с описание методик анализа лежит здесь
http://lme4.r-forge.r-project.org/book/
В меру своих сил то, что изложено в книге я применил к данным этого обсуждения.
Автор: 100$ 4.12.2011 - 18:50
Цитата
1. Моё личное наблюдение заключается в том, что описание своих идей и советов на таком искусственном языке позволяет из области пенисометрии сместить нить дискуссии в область собственно метрологии.
Мое личное наблюдение заключается в следующем: 1. Хронологически Вы присоединились к беседе раньше меня. 2. Автор темы, судя по нику - женска полу. Так это Вы с ней собирались заняться пенисометрией? Извините, если (непреднамеренно) отвлек.
Цитата
2. Вы принципиально не ходите по ссылкам? Раз наблюдение проводится лонгитудинально над двумя объектами, то и методика должна этот факт учитывать. Повторные измерения одних и тех же объектов позволяет учесть Mixed model.
Не то, чтобы принципиально, просто пока мне не сообщили, что от меня хотят, незачем беспокоиться. Это могут быть и панельные данные, и многомерный временной ряд, и просто задачка на сравнение двух выборочных средних. Поживем - узнаем.
Автор: p2004r 4.12.2011 - 20:03
Цитата(100$ @ 4.12.2011 - 18:50)
Мое личное наблюдение заключается в следующем: 1. Хронологически Вы присоединились к беседе раньше меня. 2. Автор темы, судя по нику - женска полу. Так это Вы с ней собирались заняться пенисометрией? Извините, если (непреднамеренно) отвлек.
Вы сексист? Иначе не понятно почему Вы отказываете прекрасной половине человечества в амбициозности
Вообще наиболее амбициозные люди которые мне попадались были женщинами (моя выборка конечно не репрезентативна
). Более того скажу, если не являешься объектом упражнения в амбициозности таких женщин, так даже очень ничего такое поведение добавляет им шарма.
Что характерно мужчины с такой особенностью поведения как правило выглядят почему то смешно
.
PS А книжку бы почитали, с удовольствием услышал бы Ваше мнение о изложенном в ней методе.
Автор: Stefa 5.12.2011 - 05:44
Спасибо большое?действительно спасибо.
Буду сидеть читать, пытаться разобраться. На самом деле задача состоит в том, чтобы сказать больше всё-таки этих несчастных койко-мест в городе 2, чем в городе 1, или нет.
Притом такая задача у меня возникает постоянно, когда надо сравнивать показатели в динамике в двух городах, например болезненность населения, смертность, рождаемость и т.д. При этом часто данные показатели необходимо сравнить и внутри одного города по разным группам, например болезненность мужчин и женщин, уровень инвалидизации в разных возрастных группах и т.д.
Почему-то вся литература, которую я нашла, направлена на описание методов применительно к клиническим исследованиям - группа опыта, группа контроля. Если кто-то порекомендует книгу про анализ показателей здравоохранения в рамках города, региона и т.д. буду очень признательна. Я училась на информатика в сфере управления и у нас был только один курс статистики за всё время обучения, да и то на уровне что такое дисперсия и что такое среднее, а работать приходится как раз в сфере статистики и анализа (притом работа очень нравится). Читаю книги, но, к сожалению, почему-то не хватает ясности и четкости, что и когда надо делать и желательно с объяснением, почему это надо делать. С удовольствием прошла бы курсы по статистике и анализу, но в городе таковых нет, дистанционные курсы есть у Леонова, но цена этих курсов, к сожалению, для меня неподъемная.
Поэтому буду рада любой помощи: ссылкам на статьи, книги, курсы? еще раз спасибо всем большое.
Автор: 100$ 5.12.2011 - 11:18
Цитата(Stefa @ 5.12.2011 - 05:44)
Спасибо большое?действительно спасибо.
Буду сидеть читать, пытаться разобраться. На самом деле задача состоит в том, чтобы сказать больше всё-таки этих несчастных койко-мест в городе 2, чем в городе 1, или нет.
Притом такая задача у меня возникает постоянно, когда надо сравнивать показатели в динамике в двух городах, например болезненность населения, смертность, рождаемость и т.д.
Поэтому буду рада любой помощи: ссылкам на статьи, книги, курсы? еще раз спасибо всем большое.
Тогда можно поступить следующим образом (не желая усложнять Вам жизнь): два разных города - это две независимые выборки. Тестируете критерием Стьюдента для независимых выборок (или критерием Крамера-Уэлча в терминологии проф. Орлова).
Если сравнивать показатели койко-мест в динамике - то для двух этих временных рядов просто посчитайте цепные и базисные темпы роста (прироста) Не забудьте также средний темп роста (прироста) по формуле средней геометрической. И для одного из рядов (у которого средний темп окажется выше) посчитать т.н. коэффициент опережения.
Успехов!
Автор: p2004r 5.12.2011 - 11:59
Цитата(100$ @ 5.12.2011 - 11:18)
Тогда можно поступить следующим образом (не желая усложнять Вам жизнь): два разных города - это две независимые выборки. Тестируете критерием Стьюдента для независимых выборок (или критерием Крамера-Уэлча в терминологии проф. Орлова).
Код
> plot(density(data$"Город 1"))
> rug(data$"Город 1")
> plot(density(data$"Город 2"))
> rug(data$"Город 2")
А я бы не сравнивал это Стьюдентом.
Автор: 100$ 5.12.2011 - 12:34
Цитата(p2004r @ 5.12.2011 - 11:59)
А я бы не сравнивал это Стьюдентом.
Скажу Вам как родному: я бы тоже не стал. Поэтому и упомянул Крамера с Уэлчем.
Однако вопрос имею. Судя по данным, во втором городе значения явно выше, чем в первом. Интересно, почему при оценке плотности распределения (density) для второго города ширина окна (bandwidth=,0146) меньше, чем для первого (h=,292)? Можно ли в R задавать пользовательское значение этого параметра?
P.S. Подозреваю, что если оценить плотность для второго города с параметром h=0,5, то картинка будет, как на первом графике. Такая же одномодальная.
Автор: p2004r 5.12.2011 - 13:00
Цитата(100$ @ 5.12.2011 - 12:34)
Скажу Вам как родному: я бы тоже не стал. Поэтому и упомянул Крамера с Уэлчем.
Однако вопрос имею. Судя по данным, во втором городе значения явно выше, чем в первом. Интересно, почему при оценке плотности распределения (density) для второго города ширина окна (bandwidth=,0146) меньше, чем для первого (h=,292)? Можно ли в R задавать пользовательское значение этого параметра?
P.S. Подозреваю, что если оценить плотность для второго города с параметром h=0,5, то картинка будет, как на первом графике. Такая же одномодальная.
"Ты Зин на грубость нарываешься" (С) юбилей у Поэта однако
Ваши подозрения напрасны, вот картинка с одинаковым окном (вдобавок ядро сглаживания соответсвует самым современным воззрениям сглаживателей, Venables, W. N. and Ripley, B. D. (2002) "Modern Applie Statistics with S". New York: Springer.). Я точно не советую сравнивать это Стьюдентом, да и любым другим параметрическим критерием тоже.
Автор: 100$ 5.12.2011 - 13:53
Цитата(p2004r @ 5.12.2011 - 13:00)
"Ты Зин на грубость нарываешься" (С) юбилей у Поэта однако
Ваши подозрения напрасны, вот картинка с одинаковым окном (вдобавок ядро сглаживания соответсвует самым современным воззрениям сглаживателей, Venables, W. N. and Ripley, B. D. (2002) "Modern Applie Statistics with S". New York: Springer.). Я точно не советую сравнивать это Стьюдентом, да и любым другим параметрическим критерием тоже.
2004-й ну не в службу, а в дружбу, ответьте на заданные вопросы, а? А то Вы только на постскриптумы реагируете.
Автор: p2004r 5.12.2011 - 14:08
Цитата(100$ @ 5.12.2011 - 13:53)
2004-й ну не в службу, а в дружбу, ответьте на заданные вопросы, а? А то Вы только на постскриптумы реагируете.
1. какие вопросы? в заголовке рисунка полная строка которой построен график. параметр называется adjust= , на него умножается расчитанное по канону (заметьте что не от балды взятое, а вычисленное оптимальным образом) окно. задача не корректная и параметр регуляризации надо вычислять а не брать с потолка. и этим параметром обычно уменьшают вычисленное окно, что бы увидеть как "расползается" решение, а не увеличивают.
2. если вопросы топикстартера, то вот ищу (час уже убил) книгу по западному здравоохранению и принятой там статистике показателей клиники. но с современными гигантскими дисками это нереально
... помню читал, помню что не удалял.... но где она
думаю топикстартеру проще в поисковиках поискать литературу о медицинской статотчетности и какие показатели каноничны в этой области.
PS а смешанную модель для средних я в самом начале посчитал (даже в нескольких вариантах). там сразу видна разница между городами и доверительный интервал для уровней обеспеченности в городах.
Автор: 100$ 5.12.2011 - 15:57
Цитата(p2004r @ 5.12.2011 - 14:08)
1. какие вопросы?
Ну, разумеется, про ширину окна. При разговоре об оценках типа Розенблатта-Парзена вопросы бывают только про нее родимую , да форму ядра.
Я это вот к чему: самому приходилось заниматься этими вещами и оптимизировать ширину окна методами кросс-валидации на основе наименьших квадратов и наибольшего правдоподобия. Функция правдоподобя, н-р, очень даже запросто может быть многоэкстремальной. У меня в каком-то случае было 3 локальных пика и 1 глобальный. Любой оптимизационный алгоритм вполне может застрять в локальном экстремуме. Вот я и спросил про пользовательскую ширину окна. И доводы о том, что это, дескать, прога так насчитала, конечно, хороши, но в меру.
Так что, оценивая плотность по 5 наблюдениям, картинки можно получить самые забавные.
P.S. И еще. Ответы из серии "Так надо" я и сам давать умею. Пройденный этап. Просто от вас я жду большего.
Только не кипятитесь, как (холодный) самовар.
P.P.S. А девушку тут уже достаточно загрузили. Она с перепугу только "спасибо" и сумела сказать. Теперь уйдет от нас, и я останусь безутешным.
Короче всем спасибо, все свободны. Уходя, гасите свет.
Автор: p2004r 5.12.2011 - 18:50
Цитата(100$ @ 5.12.2011 - 15:57)
Короче всем спасибо, все свободны. Уходя, гасите свет.
Из десятка найденных в интернетах статей о показателе койко-обеспеченности на просторах СНГ я обнаружил --- никто никакими сравнениями не грузится вообще. Просто приводят цифры по годам и говорят "вот здесь больше, а здесь меньше".
А топикстартера с ну очень похожим вопросом уже как минимум один раз я видел. Думаю что "отпугнуть" не получится
Автор: Stefa 6.12.2011 - 03:58
Не получится К кому же мне еще обращаться за помощью. А спасибо было не "с перепугу", а от души. И всё же хотелось бы уточнить: при сравнении показателей в двух группах в динамике в случае нормального распределения (и равенства дисперсий ?) применяется двухфакторный дисперсионный анализ. В случае несоблюдения предпосылок применяется его непараметрический аналог - критерий Фридмана?
Автор: p2004r 6.12.2011 - 10:11
Цитата(Stefa @ 6.12.2011 - 03:58)
В случае несоблюдения предпосылок применяется его непараметрический аналог - критерий Фридмана?
Только он, как и Пейдж, для данных "измеренных в трех или более условиях на одной и той же выборке испытуемых."
В приведенных данных по моему два условия.
PS а сколько у Вас всего городов к сравнению между собой? Может их хотя бы десяток наберется?
Автор: Stefa 6.12.2011 - 12:02
Городов, к сожалению, только 2. А в данном случае меняющимся условием измерения не являются годы?
Автор: p2004r 6.12.2011 - 12:31
Цитата(Stefa @ 6.12.2011 - 12:02)
Городов, к сожалению, только 2. А в данном случае меняющимся условием измерения не являются годы?
да, в виде таблицы считают (пишут правда что Пейдж мощнее). зациклился что то на "длинном" представлении данных
Код
г1 г2 г3 г4 ....
город1
город2
Автор: comisora 20.12.2017 - 09:16
Коллеги добрый день.
Если хочется изучить заболеваемость в течение времени и влияния на неё километров дорог в разных регионах, целесообразно применять смешанную модель?
Заболеваемость~1+1/регион/дороги+1/год?
Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)