Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Какие выборки считаются связанными
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Stefa
Всем добрый день! Столкнулась с проблемой и просто зациклилась на ней. Пример из книги В.Ю. Урбаха : две делянки пшеницы, одна опыт, вторая контроль, измерялась урожайность раз в год.
Год| 1947|1948|1949|1950|1951|1952|1953
Опыт|22.9|20.2|19.5|30.5|35.6|31.9|27.7
Контроль|19.4|16.2|16.9|29.3|31.4|28.5|26.6
Для сравнения урожайности применяется критерий Стьюдента для парных выборок. У меня аналогичная задача, но я не могу доказать, почему эти выборки следует считать парными. На все мои объяснения, что опыт и контроль связаны годом, и что нельзя сравнивать урожайность первой делянки за 1947 год и урожайность второй делянки, например, за 1953г., а необходимо рассматривать именно пары, мне рассказывают про пациентов до и после лечения, и что там да, связанные, а здесь никакой связи нет. Может быть я не права? А если права, то, как объяснить так, чтобы не у кого не возникало никаких сомнений. Помогите, пожалуйста! Заранее большое спасибо.
p2004r
Цитата(Stefa @ 2.12.2011 - 07:39) *
У меня аналогичная задача, но я не могу доказать, почему эти выборки следует считать парными.


Вы забыли сказать в чем заключается ваша задача.
Stefa
Прошу прощения. У меня два города и показатели числа коек на 1000 населения в них за 5 лет:
Год|2006|2007|2008|2009|2010
Город 1|8.5|8.8|7.9|7.5|8.1
Город 2|10.6|12.4|10.9|10.6|7.7
p2004r
Цитата(Stefa @ 2.12.2011 - 10:29) *
Прошу прощения. У меня два города и показатели числа коек на 1000 населения в них за 5 лет:
Год|2006|2007|2008|2009|2010
Город 1|8.5|8.8|7.9|7.5|8.1
Город 2|10.6|12.4|10.9|10.6|7.7


1 по моему сравнение с вегетацией растений и зависимостью от года не очень корректно в данном случае

2 модель данных другая, там все в течении года появляется и убирается. в случае койкомест большая их часть переходит от года к году. (может надо каким то образом отображать движение койкомест (прибыло - убыло))?

3 ну поскольку "глобус выдан" smile.gif попробуем посмотреть на данные smile.gif

Код
# считываем "как есть"

> read.table("data.txt",sep="|")
       V1     V2     V3     V4     V5     V6
1     Год 2006.0 2007.0 2008.0 2009.0 2010.0
2 Город 1    8.5    8.8    7.9    7.5    8.1
3 Город 2   10.6   12.4   10.9   10.6    7.7


# преобразуем в "широкий" датафрейм

data<-as.data.frame(t(read.table("data.txt",sep="|")[,2:6]))
names(data)<-read.table("data.txt",sep="|")[,1]

> data
    Год Город 1 Город 2
V2 2006     8.5    10.6
V3 2007     8.8    12.4
V4 2008     7.9    10.9
V5 2009     7.5    10.6
V6 2010     8.1     7.7

# преобразуем в "длинный" датафрейм
library(reshape)

> data.long<-melt(data=data,id.vars="Год", measure.vars=c("Город 1","Город 2"))
> data.long
    Год variable value
1  2006  Город 1   8.5
2  2007  Город 1   8.8
3  2008  Город 1   7.9
4  2009  Город 1   7.5
5  2010  Город 1   8.1
6  2006  Город 2  10.6
7  2007  Город 2  12.4
8  2008  Город 2  10.9
9  2009  Город 2  10.6
10 2010  Город 2   7.7

# строим модель смешанных эффектов

library(lme4)

# полную

> model.ful <- lmer(value ~ 1 + (1|Год) + (1|variable), data=data.long)
> model.ful
Linear mixed model fit by REML
Formula: value ~ 1 + (1 | Год) + (1 | variable)
   Data: data.long
   AIC   BIC logLik deviance REMLdev
41.91 43.12 -16.96       36   33.91
Random effects:
Groups   Name        Variance Std.Dev.
Год      (Intercept) 0.3120   0.55857
variable (Intercept) 2.3455   1.53150
Residual             1.2685   1.12628
Number of obs: 10, groups: Год, 5; variable, 2

Fixed effects:
            Estimate Std. Error t value
(Intercept)    9.300      1.167   7.969

# только год

> model.год <- lmer(value ~ 1 + (1|Год) , data=data.long)
> model.год
Linear mixed model fit by REML
Formula: value ~ 1 + (1 | Год)
   Data: data.long
   AIC   BIC logLik deviance REMLdev
43.27 44.17 -18.63    37.79   37.27
Random effects:
Groups   Name        Variance Std.Dev.
Год      (Intercept) 0.0000   0.0000  
Residual             2.8489   1.6879  
Number of obs: 10, groups: Год, 5

Fixed effects:
            Estimate Std. Error t value
(Intercept)   9.3000     0.5337   17.42

#только город

> model.город <- lmer(value ~ 1 +  (1|variable), data=data.long)
> model.город
Linear mixed model fit by REML
Formula: value ~ 1 + (1 | variable)
   Data: data.long
   AIC   BIC logLik deviance REMLdev
40.07 40.98 -17.04    36.12   34.07
Random effects:
Groups   Name        Variance Std.Dev.
variable (Intercept) 2.2831   1.5110  
Residual             1.5805   1.2572  
Number of obs: 10, groups: variable, 2

Fixed effects:
            Estimate Std. Error t value
(Intercept)     9.30       1.14   8.158

# отображаем все графически с доверительными интервалами

dotplot(ranef(model.ful, data=data.long, postVar = TRUE))$Год
dotplot(ranef(model.ful, data=data.long, postVar = TRUE))$variable
dotplot(ranef(model.год, data=data.long, postVar = TRUE))
dotplot(ranef(model.город, data=data.long, postVar = TRUE))

# ну и сами данные тоже отображаем графически

print(dotplot(reorder(Год, value) ~ value, data.long, groups = variable, ylab = "Год"))


судя по всему год не имеет достоверного вклада в модель (в качестве фактора дизайна эксперимента), отмечается слабая тенденция.

Книга (на простом английском языке) с описание методик анализа лежит здесь
http://lme4.r-forge.r-project.org/book/

отличия между моделями

Код
> anova(model.ful,model.город)
Data: data.long
Models:
model.город: value ~ 1 + (1 | variable)
model.ful: value ~ 1 + (1 | Год) + (1 | variable)
            Df    AIC    BIC  logLik  Chisq Chi Df Pr(>Chisq)
model.город  3 42.116 43.024 -18.058                        
model.ful    4 44.004 45.215 -18.002 0.1121      1     0.7378
> anova(model.ful,model.год)
Data: data.long
Models:
model.год: value ~ 1 + (1 | Год)
model.ful: value ~ 1 + (1 | Год) + (1 | variable)
          Df    AIC    BIC  logLik  Chisq Chi Df Pr(>Chisq)
model.год  3 43.794 44.702 -18.897                        
model.ful  4 44.004 45.215 -18.002 1.7903      1     0.1809
> anova(model.год,model.город)
Data: data.long
Models:
model.год: value ~ 1 + (1 | Год)
model.город: value ~ 1 + (1 | variable)
            Df    AIC    BIC  logLik  Chisq Chi Df Pr(>Chisq)    
model.год    3 43.794 44.702 -18.897                            
model.город  3 42.116 43.024 -18.058 1.6782      0  < 2.2e-16 ***
---
Signif. codes:  0 ?***? 0.001 ?**? 0.01 ?*? 0.05 ?.? 0.1 ? ? 1
>
p2004r
Введем год в модель в качестве предиктора

Код
> model <- lmer(value ~ Год  + (1|variable), data=data.long)
> model
Linear mixed model fit by REML
Formula: value ~ Год + (1 | variable)
   Data: data.long
   AIC   BIC logLik deviance REMLdev
39.45 40.66 -15.72    32.28   31.45
Random effects:
Groups   Name        Variance Std.Dev.
variable (Intercept) 2.3721   1.5402  
Residual             1.1342   1.0650  
Number of obs: 10, groups: variable, 2

Fixed effects:
            Estimate Std. Error t value
(Intercept) 983.1800   478.1898   2.056
Год          -0.4850     0.2381  -2.037

Correlation of Fixed Effects:
    (Intr)
Год -1.000
Предупреждения
1: 'abbreviate' использована с не-ASCII символами
2: 'abbreviate' использована с не-ASCII символами
> anova(model.ful,model)
Data: data.long
Models:
model.ful: value ~ 1 + (1 | Год) + (1 | variable)
model: value ~ Год + (1 | variable)
          Df    AIC    BIC  logLik  Chisq Chi Df Pr(>Chisq)    
model.ful  4 44.004 45.215 -18.002                            
model      4 40.284 41.494 -16.142 3.7201      0  < 2.2e-16 ***
---
Signif. codes:  0 ?***? 0.001 ?**? 0.01 ?*? 0.05 ?.? 0.1 ? ? 1

> dotplot(ranef(model, data=data.long, postVar = TRUE))


города достоверно отличаются, влияние переменной "год" существенно.

ну и отобразим графически эти простые модели

Код
print(xyplot(value ~ Год | variable, data.long, aspect = "xy",
             panel = function(...) {
                 panel.xyplot(...)
                 panel.abline(lm(data.long$value[as.numeric(data.long$variable)==packet.number()] ~ data.long$Год[as.numeric(data.long$variable)==packet.number()]))
                 panel.abline(fixef(model),
                              col.line = "red",
                              lty = 1
                              )
                 panel.abline(fixef(model.ful),
                              col.line = "green",
                              lty = 2
                              )
             } ))
100$
Цитата(Stefa @ 2.12.2011 - 07:39) *
Всем добрый день! Столкнулась с проблемой и просто зациклилась на ней. Пример из книги В.Ю. Урбаха : две делянки пшеницы, одна опыт, вторая контроль, измерялась урожайность раз в год.
Год| 1947|1948|1949|1950|1951|1952|1953
Опыт|22.9|20.2|19.5|30.5|35.6|31.9|27.7
Контроль|19.4|16.2|16.9|29.3|31.4|28.5|26.6
Для сравнения урожайности применяется критерий Стьюдента для парных выборок.


Stefa, скажите, а уважаемый Урбах описал вероятностно-статистическую модель порождения данных? Какая гипотеза проверяется?
Если не описал - выбросьте эту книгу не только из головы, но и из дома.
p2004r
Цитата(Stefa @ 2.12.2011 - 07:39) *
Год| 1947|1948|1949|1950|1951|1952|1953
Опыт|22.9|20.2|19.5|30.5|35.6|31.9|27.7
Контроль|19.4|16.2|16.9|29.3|31.4|28.5|26.6


Ну а для сельскохозяйственного опыта все в порядке, для дизайна эксперимента как раз значим год. А участок ничего не вносит.

Код
> data.s.long<-melt(data=data.s,id.vars="Год", measure.vars=c("Опыт","Контроль"))
> data.s.long
    Год variable value
1  1947     Опыт  22.9
2  1948     Опыт  20.2
3  1949     Опыт  19.5
4  1950     Опыт  30.5
5  1951     Опыт  35.6
6  1947 Контроль  19.4
7  1948 Контроль  16.2
8  1949 Контроль  16.9
9  1950 Контроль  29.3
10 1951 Контроль  31.4
> model.s.ful <- lmer(value ~ 1 + (1|Год) + (1|variable), data=data.s.long)
> model.s.ful
Linear mixed model fit by REML
Formula: value ~ 1 + (1 | Год) + (1 | variable)
   Data: data.s.long
   AIC   BIC logLik deviance REMLdev
56.32 57.54 -24.16    52.62   48.32
Random effects:
Groups   Name        Variance Std.Dev.
Год      (Intercept) 49.693   7.04933
variable (Intercept)  4.654   2.15731
Residual              0.755   0.86891
Number of obs: 10, groups: Год, 5; variable, 2

Fixed effects:
            Estimate Std. Error t value
(Intercept)   24.190      3.513   6.886
> model.s.год <- lmer(value ~ 1 + (1|Год) , data=data.s.long)
> model.s.год
Linear mixed model fit by REML
Formula: value ~ 1 + (1 | Год)
   Data: data.s.long
   AIC   BIC logLik deviance REMLdev
60.71 61.62 -27.36     58.8   54.71
Random effects:
Groups   Name        Variance Std.Dev.
Год      (Intercept) 47.366   6.8823  
Residual              5.409   2.3257  
Number of obs: 10, groups: Год, 5

Fixed effects:
            Estimate Std. Error t value
(Intercept)   24.190      3.164   7.645
> model.s.опыт <- lmer(value ~ 1 + (1|variable), data=data.s.long)
> model.s.опыт
Linear mixed model fit by REML
Formula: value ~ 1 + (1 | variable)
   Data: data.s.long
   AIC  BIC logLik deviance REMLdev
68.59 69.5  -31.3    65.94   62.59
Random effects:
Groups   Name        Variance Std.Dev.
variable (Intercept)  0.000   0.0000  
Residual             47.512   6.8929  
Number of obs: 10, groups: variable, 2

Fixed effects:
            Estimate Std. Error t value
(Intercept)    24.19       2.18    11.1

nokh
>100$. Вообще-то учебник Урбаха весьма неплох для своего времени и особенно - места. В нём есть почти уникальные штуки, которые по крупицам рассыпаны в другой литературе, а кое-чего в других книгах я просто не нашёл, хотя по идее быть должно. Также он содержит больше доживших до наших дней методов, чем его ровесники от Плохинского. Хотя именно по зависимым выборкам я тоже не согласен. См. ниже.

>Stefa. На картинке я привёл цитату из соответствующего места Урбаха (стр. 155). На мой взгляд здесь есть путаница двух понятий: истинной завимости групп и преобладающего источника изменчивости. Настоящие зависимые выборки - опыты на одних и тех же животных и опыты на делянках с одних и тех же полей в разные годы. В первой же части цитаты описывается ситуация, которая не подразумевает зависимого характером выборок: то, что для каких-то биологических признаков именно год, а не поле привносит большую изменчивость, которую нужно грамотно учесть, ещё не делает выборки зависимыми. Просто получается что год - более существенный для урожайности фактор, чем поле. Если мы будем сравнивать урожайность с разных полей для одного ряда лет, а поля будут разные - некорректно считать и учитывать только ошибку разности в соответвующих парах лет, т.к. остаётся неучтённой изменчивость самих полей. А значит - это не есть зависимые выборки. Зависимые были бы тогда, когда мы бы поделили несколько полей и на одной части удобряли, на другой - нет. Тогда можно было считать, что разность между значениями на одном поле отражает именно результат удобрения и в обобщающей разности была бы только один источник изменчивости - разная "реакция" полей на удобрение. Я не особо разбирался что сделал р2004r, но вашу задачу можно решить: (1) двухфакторным дисперсионным анализом с единственным наблюдением на ячейку комплекса (параметрический подход) или (2) анализом Фридмана или Квейд (непараметрический подход).

>p2004r. Если работать в классическом русле параметрикой, то это - двухфакторный дисперсионным анализом с единственным наблюдением на ячейку комплекса. Фактор "Город" - фиксированный, фактор "Год" - случайный. Взаимодействие факторов "Город х Год" неотделимо от ошибки анализа (т.к. в ячейках только по одной цифре) и само выступает в качестве статистики ошибки для главных эффектов. Ниже я прикрепил результаты этого анализа. Город значим, год - незначим. Год "вкладывает" в изменчивость койко-мест существенно меньше (лень считать компоненты дисперсии) и не является существенным.
100$
> Nokh, коль скоро в посте #3 не содержится даже минимальных сведений о задаче, которую пытается решить решает автор, то Ваш совет в отношении непараметрики для явного новичка считаю чересчур громоздким. Что прикажете делать вопрошающему: срочно искать Кобзаря, у которого именно в критерии Квейд куча очепяток, или пособие Soliani, со всеми его косяками?. Пусть уж лучше сделает в Ёкселе ANOV'у. Без очков ясно, что это исследование из той же серии, когда по 5 морковкам пытаются сделать вывод о характере распределения.

Кроме того, мне не совсем понятно вот что: здесь мы имеем дело с (очевидно) независимыми выборками (2 города), а Фридман и Квейд работают со связанными выборками. Их-то на кой советуете?

И еще. Вводить год в модель в качестве регрессора в данном контексте-очевидная глупость. Время - признак, не имеющий градаций. Вот рассмотреть в качестве предиктора величину инвестиций в здравоохранение (по годам для каждого города) - другое дело. Тогда, возможно, станет понятно, почему в городе Б больше коек на 1000 населения, нежели в граде А.

Кстати, раз уж Урбах у Вас под рукой, что он пишет в смысле (возможного) ответа на мой вопрос из поста #6?

P.S. Не люблю ломать копья в отсутствие топик-стартера.
nokh
Цитата(100$ @ 3.12.2011 - 19:59) *
Кроме того, мне не совсем понятно вот что: здесь мы имеем дело с (очевидно) независимыми выборками (2 города), а Фридман и Квейд работают со связанными выборками. Их-то на кой советуете?

Совсем необязательно с зависимыми. Это - непараметрические аналоги двухфакторного дисперсионного анализа с рандомизированными блоками. Ссылки искать не хочется, но и википедии есть про пригодность для полноблочных экспериментальных планов. Хотя применяются и для зависимых выборок.
Цитата(100$ @ 3.12.2011 - 19:59) *
Кстати, раз уж Урбах у Вас под рукой, что он пишет в смысле (возможного) ответа на мой вопрос из поста #6?

А ничего не пишет... Но книгу не выброшу! laugh.gif :
100$
Цитата(nokh @ 3.12.2011 - 18:27) *
Совсем необязательно с зависимыми. Это - непараметрические аналоги двухфакторного дисперсионного анализа с рандомизированными блоками. Ссылки искать не хочется, но и википедии есть про пригодность для полноблочных экспериментальных планов. Хотя применяются и для зависимых выборок.


Надо же, как далеко продвинулась наука с тех пор, как я занимался ею в последний раз. Т.е. простенький критерий знаков (sign test) применяется для поиска различий в параметрах положения для двух зависимых выборок, а тест Фридмана, роспространяющий эту идею на случай большего количества выборок, каким-то непостижимым образом стал непараметрическим аналогом аж двухфакторного ANOVA?


P.S. Оригинал статьи Квейд 1979 года в Тырнете выложен. Но я смотрел только на формулы, желая подкорректировать Кобзарёвы опечатки. Придется читать полностью.
100$
Цитата(nokh @ 3.12.2011 - 18:27) *
А ничего не пишет...


Чудо-книга, автор которой пренебрегает такими вещами.

[quote] Но книгу не выброшу! laugh.gif : [\quote]

Смайлик подобран неудачно smile.gif
nokh
Цитата(100$ @ 3.12.2011 - 21:17) *
Надо же...И потом, сами посудите...

Мне полемика не интересна. Я, в отличие от Вас, не бросаю нервных фраз в направлении авторов книг, типикстартеров и участников форума, оставляя вопрос без ответа. Я зашёл и ответил на тот вопрос топикстартера, который за 7 постов так и остался без ответа. О качестве выбора смайликов - тоже не вам судить, т.к. мои смайлики отражают мои эмоции, которые совсем необязательно должны казаться адекватными отдельным участникам форума, адекватность которых также может вызывать сомнения у других его участников.
100$
Тогда предлагаю нам обоим посты 12 и 13 удалить собственноручно. Или пусть модераторы расстараются. Обещаю больше не экспериментировать с вашим самолюбием.
p2004r
Цитата(100$ @ 3.12.2011 - 17:59) *
И еще. Вводить год в модель в качестве регрессора в данном контексте-очевидная глупость. Время - признак, не имеющий градаций. Вот рассмотреть в качестве предиктора величину инвестиций в здравоохранение (по годам для каждого города) - другое дело. Тогда, возможно, станет понятно, почему в городе Б больше коек на 1000 населения, нежели в граде А.


Ну ну... "глупость" это лонгитудинальное наблюдение считать независимым от времени. И _никакой_ учтенный фактор "по годам" природу модели в части зависимости значения текущего года от предыдущего не изменит (да и сам скорее всего будет зависим от своих предыдущих по времени значений).
100$
Цитата(p2004r @ 4.12.2011 - 16:07) *
Ну ну... "глупость" это лонгитудинальное наблюдение считать независимым от времени. И _никакой_ учтенный фактор "по годам" природу модели в части зависимости значения текущего года от предыдущего не изменит (да и сам скорее всего будет зависим от своих предыдущих по времени значений).


Вообще-то все началось с вопроса о том, что такое связанные выборки. Может быть Stef'е надо всего лишь проверить однородность мат. ожиданий для двух городов, и она просто хочет узнать, каким критерием Стьюдента все это тестить применительно к своей задаче.

Не могли бы Вы в качестве небольшой любезности сообщить, что это за листинги вы повесили в постах 4, 5 и 7? Заранее спасибо за снисходительные комментарии.
p2004r
Цитата(100$ @ 4.12.2011 - 17:40) *
Не могли бы Вы в качестве небольшой любезности сообщить, что это за листинги вы повесили в постах 4, 5 и 7? Заранее спасибо за снисходительные комментарии.


1. Это листинги на языке R ( http://cran.r-project.org/ ). Этот язык собственно и разработали что бы не описывать алгоритм обработки данных на естественном языке (ввиду того что каждый понимает его по своему).

Моё личное наблюдение заключается в том, что описание своих идей и советов на таком искусственном языке позволяет из области пенисометрии сместить нить дискуссии в область собственно метрологии. smile.gif

2. Вы принципиально не ходите по ссылкам? Раз наблюдение проводится лонгитудинально над двумя объектами, то и методика должна этот факт учитывать. Повторные измерения одних и тех же объектов позволяет учесть Mixed model.

Цитата
Книга (на простом английском языке) с описание методик анализа лежит здесь
http://lme4.r-forge.r-project.org/book/


В меру своих сил то, что изложено в книге я применил к данным этого обсуждения.
100$
Цитата
1. Моё личное наблюдение заключается в том, что описание своих идей и советов на таком искусственном языке позволяет из области пенисометрии сместить нить дискуссии в область собственно метрологии. smile.gif


Мое личное наблюдение заключается в следующем: 1. Хронологически Вы присоединились к беседе раньше меня. 2. Автор темы, судя по нику - женска полу. Так это Вы с ней собирались заняться пенисометрией? Извините, если (непреднамеренно) отвлек. insane.gif

Цитата
2. Вы принципиально не ходите по ссылкам? Раз наблюдение проводится лонгитудинально над двумя объектами, то и методика должна этот факт учитывать. Повторные измерения одних и тех же объектов позволяет учесть Mixed model.


Не то, чтобы принципиально, просто пока мне не сообщили, что от меня хотят, незачем беспокоиться. Это могут быть и панельные данные, и многомерный временной ряд, и просто задачка на сравнение двух выборочных средних. Поживем - узнаем.

p2004r
Цитата(100$ @ 4.12.2011 - 18:50) *
Мое личное наблюдение заключается в следующем: 1. Хронологически Вы присоединились к беседе раньше меня. 2. Автор темы, судя по нику - женска полу. Так это Вы с ней собирались заняться пенисометрией? Извините, если (непреднамеренно) отвлек. insane.gif


Вы сексист? Иначе не понятно почему Вы отказываете прекрасной половине человечества в амбициозности smile.gif

Вообще наиболее амбициозные люди которые мне попадались были женщинами (моя выборка конечно не репрезентативна smile.gif ). Более того скажу, если не являешься объектом упражнения в амбициозности таких женщин, так даже очень ничего такое поведение добавляет им шарма.

Что характерно мужчины с такой особенностью поведения как правило выглядят почему то смешно smile.gif.


PS А книжку бы почитали, с удовольствием услышал бы Ваше мнение о изложенном в ней методе.
Stefa
Спасибо большое?действительно спасибо.
Буду сидеть читать, пытаться разобраться. На самом деле задача состоит в том, чтобы сказать больше всё-таки этих несчастных койко-мест в городе 2, чем в городе 1, или нет.
Притом такая задача у меня возникает постоянно, когда надо сравнивать показатели в динамике в двух городах, например болезненность населения, смертность, рождаемость и т.д. При этом часто данные показатели необходимо сравнить и внутри одного города по разным группам, например болезненность мужчин и женщин, уровень инвалидизации в разных возрастных группах и т.д.
Почему-то вся литература, которую я нашла, направлена на описание методов применительно к клиническим исследованиям - группа опыта, группа контроля. Если кто-то порекомендует книгу про анализ показателей здравоохранения в рамках города, региона и т.д. буду очень признательна. Я училась на информатика в сфере управления и у нас был только один курс статистики за всё время обучения, да и то на уровне что такое дисперсия и что такое среднее, а работать приходится как раз в сфере статистики и анализа (притом работа очень нравится). Читаю книги, но, к сожалению, почему-то не хватает ясности и четкости, что и когда надо делать и желательно с объяснением, почему это надо делать. С удовольствием прошла бы курсы по статистике и анализу, но в городе таковых нет, дистанционные курсы есть у Леонова, но цена этих курсов, к сожалению, для меня неподъемная.
Поэтому буду рада любой помощи: ссылкам на статьи, книги, курсы? еще раз спасибо всем большое.
100$
Цитата(Stefa @ 5.12.2011 - 05:44) *
Спасибо большое?действительно спасибо.
Буду сидеть читать, пытаться разобраться. На самом деле задача состоит в том, чтобы сказать больше всё-таки этих несчастных койко-мест в городе 2, чем в городе 1, или нет.
Притом такая задача у меня возникает постоянно, когда надо сравнивать показатели в динамике в двух городах, например болезненность населения, смертность, рождаемость и т.д.
Поэтому буду рада любой помощи: ссылкам на статьи, книги, курсы? еще раз спасибо всем большое.


Тогда можно поступить следующим образом (не желая усложнять Вам жизнь): два разных города - это две независимые выборки. Тестируете критерием Стьюдента для независимых выборок (или критерием Крамера-Уэлча в терминологии проф. Орлова).
Если сравнивать показатели койко-мест в динамике - то для двух этих временных рядов просто посчитайте цепные и базисные темпы роста (прироста) Не забудьте также средний темп роста (прироста) по формуле средней геометрической. И для одного из рядов (у которого средний темп окажется выше) посчитать т.н. коэффициент опережения.
Успехов!
p2004r
Цитата(100$ @ 5.12.2011 - 11:18) *
Тогда можно поступить следующим образом (не желая усложнять Вам жизнь): два разных города - это две независимые выборки. Тестируете критерием Стьюдента для независимых выборок (или критерием Крамера-Уэлча в терминологии проф. Орлова).



Код
> plot(density(data$"Город 1"))
> rug(data$"Город 1")
> plot(density(data$"Город 2"))
> rug(data$"Город 2")


А я бы не сравнивал это Стьюдентом.
100$
Цитата(p2004r @ 5.12.2011 - 11:59) *
А я бы не сравнивал это Стьюдентом.


Скажу Вам как родному: я бы тоже не стал. Поэтому и упомянул Крамера с Уэлчем.

Однако вопрос имею. Судя по данным, во втором городе значения явно выше, чем в первом. Интересно, почему при оценке плотности распределения (density) для второго города ширина окна (bandwidth=,0146) меньше, чем для первого (h=,292)? Можно ли в R задавать пользовательское значение этого параметра?

P.S. Подозреваю, что если оценить плотность для второго города с параметром h=0,5, то картинка будет, как на первом графике. Такая же одномодальная.
p2004r
Цитата(100$ @ 5.12.2011 - 12:34) *
Скажу Вам как родному: я бы тоже не стал. Поэтому и упомянул Крамера с Уэлчем.

Однако вопрос имею. Судя по данным, во втором городе значения явно выше, чем в первом. Интересно, почему при оценке плотности распределения (density) для второго города ширина окна (bandwidth=,0146) меньше, чем для первого (h=,292)? Можно ли в R задавать пользовательское значение этого параметра?

P.S. Подозреваю, что если оценить плотность для второго города с параметром h=0,5, то картинка будет, как на первом графике. Такая же одномодальная.


"Ты Зин на грубость нарываешься" (С) юбилей у Поэта однако smile.gif

Ваши подозрения напрасны, вот картинка с одинаковым окном (вдобавок ядро сглаживания соответсвует самым современным воззрениям сглаживателей, Venables, W. N. and Ripley, B. D. (2002) "Modern Applie Statistics with S". New York: Springer.). Я точно не советую сравнивать это Стьюдентом, да и любым другим параметрическим критерием тоже.

100$
Цитата(p2004r @ 5.12.2011 - 13:00) *
"Ты Зин на грубость нарываешься" (С) юбилей у Поэта однако smile.gif

Ваши подозрения напрасны, вот картинка с одинаковым окном (вдобавок ядро сглаживания соответсвует самым современным воззрениям сглаживателей, Venables, W. N. and Ripley, B. D. (2002) "Modern Applie Statistics with S". New York: Springer.). Я точно не советую сравнивать это Стьюдентом, да и любым другим параметрическим критерием тоже.


2004-й ну не в службу, а в дружбу, ответьте на заданные вопросы, а? А то Вы только на постскриптумы реагируете. smile.gif
p2004r
Цитата(100$ @ 5.12.2011 - 13:53) *
2004-й ну не в службу, а в дружбу, ответьте на заданные вопросы, а? А то Вы только на постскриптумы реагируете. smile.gif


1. какие вопросы? в заголовке рисунка полная строка которой построен график. параметр называется adjust= , на него умножается расчитанное по канону (заметьте что не от балды взятое, а вычисленное оптимальным образом) окно. задача не корректная и параметр регуляризации надо вычислять а не брать с потолка. и этим параметром обычно уменьшают вычисленное окно, что бы увидеть как "расползается" решение, а не увеличивают.

2. если вопросы топикстартера, то вот ищу (час уже убил) книгу по западному здравоохранению и принятой там статистике показателей клиники. но с современными гигантскими дисками это нереально frown.gif... помню читал, помню что не удалял.... но где она frown.gif

думаю топикстартеру проще в поисковиках поискать литературу о медицинской статотчетности и какие показатели каноничны в этой области.

PS а смешанную модель для средних я в самом начале посчитал (даже в нескольких вариантах). там сразу видна разница между городами и доверительный интервал для уровней обеспеченности в городах.
100$
Цитата(p2004r @ 5.12.2011 - 14:08) *
1. какие вопросы?


Ну, разумеется, про ширину окна. При разговоре об оценках типа Розенблатта-Парзена вопросы бывают только про нее родимую , да форму ядра.

Я это вот к чему: самому приходилось заниматься этими вещами и оптимизировать ширину окна методами кросс-валидации на основе наименьших квадратов и наибольшего правдоподобия. Функция правдоподобя, н-р, очень даже запросто может быть многоэкстремальной. У меня в каком-то случае было 3 локальных пика и 1 глобальный. Любой оптимизационный алгоритм вполне может застрять в локальном экстремуме. Вот я и спросил про пользовательскую ширину окна. И доводы о том, что это, дескать, прога так насчитала, конечно, хороши, но в меру.

Так что, оценивая плотность по 5 наблюдениям, картинки можно получить самые забавные.


P.S. И еще. Ответы из серии "Так надо" я и сам давать умею. Пройденный этап. Просто от вас я жду большего.
Только не кипятитесь, как (холодный) самовар.

P.P.S. А девушку тут уже достаточно загрузили. Она с перепугу только "спасибо" и сумела сказать. Теперь уйдет от нас, и я останусь безутешным.
Короче всем спасибо, все свободны. Уходя, гасите свет.
p2004r
Цитата(100$ @ 5.12.2011 - 15:57) *
Короче всем спасибо, все свободны. Уходя, гасите свет.


Из десятка найденных в интернетах статей о показателе койко-обеспеченности на просторах СНГ я обнаружил --- никто никакими сравнениями не грузится вообще. Просто приводят цифры по годам и говорят "вот здесь больше, а здесь меньше".

А топикстартера с ну очень похожим вопросом уже как минимум один раз я видел. Думаю что "отпугнуть" не получится smile.gif
Stefa
Не получится smile.gif К кому же мне еще обращаться за помощью. А спасибо было не "с перепугу", а от души. И всё же хотелось бы уточнить: при сравнении показателей в двух группах в динамике в случае нормального распределения (и равенства дисперсий ?) применяется двухфакторный дисперсионный анализ. В случае несоблюдения предпосылок применяется его непараметрический аналог - критерий Фридмана?
p2004r
Цитата(Stefa @ 6.12.2011 - 03:58) *
В случае несоблюдения предпосылок применяется его непараметрический аналог - критерий Фридмана?


Только он, как и Пейдж, для данных "измеренных в трех или более условиях на одной и той же выборке испытуемых."

В приведенных данных по моему два условия.

PS а сколько у Вас всего городов к сравнению между собой? Может их хотя бы десяток наберется?
Stefa
Городов, к сожалению, только 2. А в данном случае меняющимся условием измерения не являются годы?
p2004r
Цитата(Stefa @ 6.12.2011 - 12:02) *
Городов, к сожалению, только 2. А в данном случае меняющимся условием измерения не являются годы?



да, в виде таблицы считают (пишут правда что Пейдж мощнее). зациклился что то на "длинном" представлении данных frown.gif

Код
           г1 г2 г3 г4 ....
город1
город2


comisora
Коллеги добрый день.
Если хочется изучить заболеваемость в течение времени и влияния на неё километров дорог в разных регионах, целесообразно применять смешанную модель?
Заболеваемость~1+1/регион/дороги+1/год?
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.