Какие выборки считаются связанными |
Здравствуйте, гость ( Вход | Регистрация )
Какие выборки считаются связанными |
2.12.2011 - 07:39
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 33 Регистрация: 31.07.2008 Пользователь №: 5185 |
Всем добрый день! Столкнулась с проблемой и просто зациклилась на ней. Пример из книги В.Ю. Урбаха : две делянки пшеницы, одна опыт, вторая контроль, измерялась урожайность раз в год.
Год| 1947|1948|1949|1950|1951|1952|1953 Опыт|22.9|20.2|19.5|30.5|35.6|31.9|27.7 Контроль|19.4|16.2|16.9|29.3|31.4|28.5|26.6 Для сравнения урожайности применяется критерий Стьюдента для парных выборок. У меня аналогичная задача, но я не могу доказать, почему эти выборки следует считать парными. На все мои объяснения, что опыт и контроль связаны годом, и что нельзя сравнивать урожайность первой делянки за 1947 год и урожайность второй делянки, например, за 1953г., а необходимо рассматривать именно пары, мне рассказывают про пациентов до и после лечения, и что там да, связанные, а здесь никакой связи нет. Может быть я не права? А если права, то, как объяснить так, чтобы не у кого не возникало никаких сомнений. Помогите, пожалуйста! Заранее большое спасибо. |
|
3.12.2011 - 16:10
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
>100$. Вообще-то учебник Урбаха весьма неплох для своего времени и особенно - места. В нём есть почти уникальные штуки, которые по крупицам рассыпаны в другой литературе, а кое-чего в других книгах я просто не нашёл, хотя по идее быть должно. Также он содержит больше доживших до наших дней методов, чем его ровесники от Плохинского. Хотя именно по зависимым выборкам я тоже не согласен. См. ниже.
>Stefa. На картинке я привёл цитату из соответствующего места Урбаха (стр. 155). На мой взгляд здесь есть путаница двух понятий: истинной завимости групп и преобладающего источника изменчивости. Настоящие зависимые выборки - опыты на одних и тех же животных и опыты на делянках с одних и тех же полей в разные годы. В первой же части цитаты описывается ситуация, которая не подразумевает зависимого характером выборок: то, что для каких-то биологических признаков именно год, а не поле привносит большую изменчивость, которую нужно грамотно учесть, ещё не делает выборки зависимыми. Просто получается что год - более существенный для урожайности фактор, чем поле. Если мы будем сравнивать урожайность с разных полей для одного ряда лет, а поля будут разные - некорректно считать и учитывать только ошибку разности в соответвующих парах лет, т.к. остаётся неучтённой изменчивость самих полей. А значит - это не есть зависимые выборки. Зависимые были бы тогда, когда мы бы поделили несколько полей и на одной части удобряли, на другой - нет. Тогда можно было считать, что разность между значениями на одном поле отражает именно результат удобрения и в обобщающей разности была бы только один источник изменчивости - разная "реакция" полей на удобрение. Я не особо разбирался что сделал р2004r, но вашу задачу можно решить: (1) двухфакторным дисперсионным анализом с единственным наблюдением на ячейку комплекса (параметрический подход) или (2) анализом Фридмана или Квейд (непараметрический подход). >p2004r. Если работать в классическом русле параметрикой, то это - двухфакторный дисперсионным анализом с единственным наблюдением на ячейку комплекса. Фактор "Город" - фиксированный, фактор "Год" - случайный. Взаимодействие факторов "Город х Год" неотделимо от ошибки анализа (т.к. в ячейках только по одной цифре) и само выступает в качестве статистики ошибки для главных эффектов. Ниже я прикрепил результаты этого анализа. Город значим, год - незначим. Год "вкладывает" в изменчивость койко-мест существенно меньше (лень считать компоненты дисперсии) и не является существенным. |
|
3.12.2011 - 17:59
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
> Nokh, коль скоро в посте #3 не содержится даже минимальных сведений о задаче, которую
Кроме того, мне не совсем понятно вот что: здесь мы имеем дело с (очевидно) независимыми выборками (2 города), а Фридман и Квейд работают со связанными выборками. Их-то на кой советуете? И еще. Вводить год в модель в качестве регрессора в данном контексте-очевидная глупость. Время - признак, не имеющий градаций. Вот рассмотреть в качестве предиктора величину инвестиций в здравоохранение (по годам для каждого города) - другое дело. Тогда, возможно, станет понятно, почему в городе Б больше коек на 1000 населения, нежели в граде А. Кстати, раз уж Урбах у Вас под рукой, что он пишет в смысле (возможного) ответа на мой вопрос из поста #6? P.S. Не люблю ломать копья в отсутствие топик-стартера. Сообщение отредактировал 100$ - 3.12.2011 - 18:19 |
|
4.12.2011 - 16:07
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
И еще. Вводить год в модель в качестве регрессора в данном контексте-очевидная глупость. Время - признак, не имеющий градаций. Вот рассмотреть в качестве предиктора величину инвестиций в здравоохранение (по годам для каждого города) - другое дело. Тогда, возможно, станет понятно, почему в городе Б больше коек на 1000 населения, нежели в граде А. Ну ну... "глупость" это лонгитудинальное наблюдение считать независимым от времени. И _никакой_ учтенный фактор "по годам" природу модели в части зависимости значения текущего года от предыдущего не изменит (да и сам скорее всего будет зависим от своих предыдущих по времени значений). |
|
4.12.2011 - 17:40
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Ну ну... "глупость" это лонгитудинальное наблюдение считать независимым от времени. И _никакой_ учтенный фактор "по годам" природу модели в части зависимости значения текущего года от предыдущего не изменит (да и сам скорее всего будет зависим от своих предыдущих по времени значений). Вообще-то все началось с вопроса о том, что такое связанные выборки. Может быть Stef'е надо всего лишь проверить однородность мат. ожиданий для двух городов, и она просто хочет узнать, каким критерием Стьюдента все это тестить применительно к своей задаче. Не могли бы Вы в качестве небольшой любезности сообщить, что это за листинги вы повесили в постах 4, 5 и 7? Заранее спасибо за снисходительные комментарии. Сообщение отредактировал 100$ - 4.12.2011 - 17:41 |
|
4.12.2011 - 18:08
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Не могли бы Вы в качестве небольшой любезности сообщить, что это за листинги вы повесили в постах 4, 5 и 7? Заранее спасибо за снисходительные комментарии. 1. Это листинги на языке R ( http://cran.r-project.org/ ). Этот язык собственно и разработали что бы не описывать алгоритм обработки данных на естественном языке (ввиду того что каждый понимает его по своему). Моё личное наблюдение заключается в том, что описание своих идей и советов на таком искусственном языке позволяет из области пенисометрии сместить нить дискуссии в область собственно метрологии. 2. Вы принципиально не ходите по ссылкам? Раз наблюдение проводится лонгитудинально над двумя объектами, то и методика должна этот факт учитывать. Повторные измерения одних и тех же объектов позволяет учесть Mixed model. Цитата Книга (на простом английском языке) с описание методик анализа лежит здесь http://lme4.r-forge.r-project.org/book/ В меру своих сил то, что изложено в книге я применил к данным этого обсуждения. Сообщение отредактировал p2004r - 4.12.2011 - 18:12 |
|
4.12.2011 - 18:50
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Цитата 1. Моё личное наблюдение заключается в том, что описание своих идей и советов на таком искусственном языке позволяет из области пенисометрии сместить нить дискуссии в область собственно метрологии. Мое личное наблюдение заключается в следующем: 1. Хронологически Вы присоединились к беседе раньше меня. 2. Автор темы, судя по нику - женска полу. Так это Вы с ней собирались заняться пенисометрией? Извините, если (непреднамеренно) отвлек. Цитата 2. Вы принципиально не ходите по ссылкам? Раз наблюдение проводится лонгитудинально над двумя объектами, то и методика должна этот факт учитывать. Повторные измерения одних и тех же объектов позволяет учесть Mixed model. Не то, чтобы принципиально, просто пока мне не сообщили, что от меня хотят, незачем беспокоиться. Это могут быть и панельные данные, и многомерный временной ряд, и просто задачка на сравнение двух выборочных средних. Поживем - узнаем. |
|