Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> ещё ликбез по выборкам
kont
сообщение 8.06.2016 - 01:20
Сообщение #1


Дух форума
*

Группа: Пользователи
Сообщений: 149
Регистрация: 11.02.2014
Пользователь №: 26005



Подскажите, есть ли смысл в зависимой выборке? Вернее лучше сказать в тестах для зависимых выборок.
например. рис 1
стандартная подача для т-теста для зависимых выборок до-после
правее стандартная подача для т-теста для независимых выборок
Вопрос. А почему нельзя обходится только форматом независимых выборок? Измерил сегодня, измерил завтра. Сделал один столбец(группирующая переменная)
день измерения
сегодня
завтра
сегодня
завтра
сегодня
завтра
сегодня
завтра
сегодня
завтра

получил динамику, т.е. сравнение средних.Если я что-то недопонимаю, прошу строго не судить.


Можно углубить вопрос. Зачем нужен Анова, если все равно требуется ПостХок со странными критериями(Шеффе, Дункан, Даннет, Тьюки....) Если можно просто сделать несколько раз сравнение тем же т-тестом. Например, если у нас 4 выборки
1-2
1-3
1-4
2-3
2-4
3-4
Вот и весь постхок был бы.



Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 8.06.2016 - 09:44
Сообщение #2


Дух форума
*

Группа: Пользователи
Сообщений: 1058
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(kont @ 8.06.2016 - 01:20) *
Подскажите, есть ли смысл в зависимой выборке? Вернее лучше сказать в тестах для зависимых выборок.
например. рис 1
стандартная подача для т-теста для зависимых выборок до-после
правее стандартная подача для т-теста для независимых выборок
Вопрос. А почему нельзя обходится только форматом независимых выборок? Измерил сегодня, измерил завтра. Сделал один столбец(группирующая переменная)
день измерения
сегодня
завтра
сегодня
завтра
сегодня
завтра
сегодня
завтра
сегодня
завтра

получил динамику, т.е. сравнение средних.Если я что-то недопонимаю, прошу строго не судить.


Можно углубить вопрос. Зачем нужен Анова, если все равно требуется ПостХок со странными критериями(Шеффе, Дункан, Даннет, Тьюки....) Если можно просто сделать несколько раз сравнение тем же т-тестом. Например, если у нас 4 выборки
1-2
1-3
1-4
2-3
2-4
3-4
Вот и весь постхок был бы.


Мыслить категориями "групп" (а не "выборок") крайне вредно. Уже эти два понятия путаются как видим. Если вспомнить, что выборка на самом деле не совсем выборка, то у "связанных выборок" есть дополнительная информация в виде "объект наблюдения" и "факт воздействия". Для этого достаточно представить данные в нормальном "длинном формате".

Если кратко излагать "почему не множественные сравнения", то: вариация в выборке это "одеяло", и его "по отдельности" легко можно натянуть "то на голову, то на ноги", но вот если "одеяло коротковато", то одновременно натянуть его и на голову и на ноги не получиться... придется "урезать осетра гипотезы" smile.gif


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
kont
сообщение 8.06.2016 - 15:04
Сообщение #3


Дух форума
*

Группа: Пользователи
Сообщений: 149
Регистрация: 11.02.2014
Пользователь №: 26005



p2004r, а что всякие Шеффе......Тьюки удлиняют одеяло, что и на голову и на ноги хватило?))
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 8.06.2016 - 16:09
Сообщение #4


Дух форума
*

Группа: Пользователи
Сообщений: 1058
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(kont @ 8.06.2016 - 15:04) *
p2004r, а что всякие Шеффе......Тьюки удлиняют одеяло, что и на голову и на ноги хватило?))


"Группы" это зло. Если понимать, что это просто подогнанная к данным наилучшим образом модель, то понятен "подспудный смысл" постхок --- посмотреть на данные (вместе с подогнанной моделью) под таким углом, когда видна только интересующая нас "разница между группами".

Сообщение отредактировал p2004r - 8.06.2016 - 19:55


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 8.06.2016 - 22:26
Сообщение #5


Дух форума
*

Группа: Пользователи
Сообщений: 364
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(kont @ 8.06.2016 - 01:20) *
Подскажите, есть ли смысл в зависимой выборке? А почему нельзя обходится только форматом независимых выборок?
Как заметил р2004, зависимые выборки по сравнению с независимыми содержат дополнительную информацию об изменении показателя для каждого пациента. Эта дополнительная информация позволяет повысить мощность критерия, т.е. найти отличия там, где независимая выборка их не находит. См.Гланц "Мед.био статистика", глава 9 "Анализ повторных измерений"

Сообщение отредактировал DoctorStat - 8.06.2016 - 22:27


Signature
Просто включи мозг => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
kont
сообщение 10.06.2016 - 21:37
Сообщение #6


Дух форума
*

Группа: Пользователи
Сообщений: 149
Регистрация: 11.02.2014
Пользователь №: 26005



Коллеги, а я ещё запутался в терминологии Среднеквадратичная ошибка среднего это показатель точности оценки среднего выборки или теоретическое стандартное отклонение всех средних выборки размера
просто, как сказано на портале Statsoft. Ну, например, пусть среднее М=45, RMSE=1,7 как это интерпретировать это Rmse?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 11.06.2016 - 09:26
Сообщение #7


Дух форума
*

Группа: Пользователи
Сообщений: 1058
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(kont @ 10.06.2016 - 21:37) *
Коллеги, а я ещё запутался в терминологии Среднеквадратичная ошибка среднего это показатель точности оценки среднего выборки или теоретическое стандартное отклонение всех средних выборки размера
просто, как сказано на портале Statsoft. Ну, например, пусть среднее М=45, RMSE=1,7 как это интерпретировать это Rmse?



Код
> runif(10)
[1] 0.15777836 0.33600955 0.64628139 0.49859762 0.95817068 0.05088469
[7] 0.57508005 0.95273789 0.07290973 0.81564387
> data <- runif(1000)
> mean(data)
[1] 0.4929045
> sd(data)
[1] 0.2900703
> sd(data)/(1000)^0.5
[1] 0.009172827
> sd(replicate(1000000, mean(sample(data, replace=T))))
[1] 0.00918224


Сомнений не осталось? smile.gif


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
kont
сообщение 12.06.2016 - 23:59
Сообщение #8


Дух форума
*

Группа: Пользователи
Сообщений: 149
Регистрация: 11.02.2014
Пользователь №: 26005



у меня на этом месте
sd(replicate(1000000, mean(sample(data, replace=T))))
зависает R)
Ну ладно, винду может переустановить нужно. А почему мы стандартное отклонение делим на 1000^0,5
1000 это у нас нагенерено случайным образом наблюдение(выборка), но почему в степени 0.5?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 13.06.2016 - 06:32
Сообщение #9


Дух форума
*

Группа: Пользователи
Сообщений: 1058
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(kont @ 12.06.2016 - 23:59) *
у меня на этом месте
sd(replicate(1000000, mean(sample(data, replace=T))))
зависает R)
Ну ладно, винду может переустановить нужно. А почему мы стандартное отклонение делим на 1000^0,5
1000 это у нас нагенерено случайным образом наблюдение(выборка), но почему в степени 0.5?



1000 это размер выборки случайных чисел, а ^0.5 это корень квадратный --- всё вместе оценка стандартного отклонения среднего арифметического.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 13.06.2016 - 10:00
Сообщение #10


Дух форума
*

Группа: Пользователи
Сообщений: 364
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(kont @ 10.06.2016 - 21:37) *
Коллеги, а я ещё запутался в терминологии Среднеквадратичная ошибка среднего это показатель точности оценки среднего выборки или теоретическое стандартное отклонение всех средних выборки размера
просто, как сказано на портале Statsoft. Ну, например, пусть среднее М=45, RMSE=1,7 как это интерпретировать это Rmse?
Я не большой специалист в программе Statsoft, но википедия говорит, что root-mean-square error (RMSE) - это выборочная, а не теоретическая оценка дисперсии среднего. Стентон Гланц в книге "Мед-био статистика" в главе "Как описать данные" обозначает эту величину как: sx=s/sqrt(n)
Это значит, что среднее значение совокупности с вероятностью 95% заключено в интервале:
[ M - 2*sqrt(RMSE), M + 2*sqrt(RMSE) ]

Сообщение отредактировал DoctorStat - 13.06.2016 - 10:09


Signature
Просто включи мозг => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
kont
сообщение 14.06.2016 - 16:50
Сообщение #11


Дух форума
*

Группа: Пользователи
Сообщений: 149
Регистрация: 11.02.2014
Пользователь №: 26005



Теперь стало яснее))
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему