Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ ещё ликбез по выборкам

Автор: kont 8.06.2016 - 01:20

Подскажите, есть ли смысл в зависимой выборке? Вернее лучше сказать в тестах для зависимых выборок.
например. рис 1
стандартная подача для т-теста для зависимых выборок до-после
правее стандартная подача для т-теста для независимых выборок
Вопрос. А почему нельзя обходится только форматом независимых выборок? Измерил сегодня, измерил завтра. Сделал один столбец(группирующая переменная)
день измерения
сегодня
завтра
сегодня
завтра
сегодня
завтра
сегодня
завтра
сегодня
завтра

получил динамику, т.е. сравнение средних.Если я что-то недопонимаю, прошу строго не судить.


Можно углубить вопрос. Зачем нужен Анова, если все равно требуется ПостХок со странными критериями(Шеффе, Дункан, Даннет, Тьюки....) Если можно просто сделать несколько раз сравнение тем же т-тестом. Например, если у нас 4 выборки
1-2
1-3
1-4
2-3
2-4
3-4
Вот и весь постхок был бы.




 

Автор: p2004r 8.06.2016 - 09:44

Цитата(kont @ 8.06.2016 - 01:20) *
Подскажите, есть ли смысл в зависимой выборке? Вернее лучше сказать в тестах для зависимых выборок.
например. рис 1
стандартная подача для т-теста для зависимых выборок до-после
правее стандартная подача для т-теста для независимых выборок
Вопрос. А почему нельзя обходится только форматом независимых выборок? Измерил сегодня, измерил завтра. Сделал один столбец(группирующая переменная)
день измерения
сегодня
завтра
сегодня
завтра
сегодня
завтра
сегодня
завтра
сегодня
завтра

получил динамику, т.е. сравнение средних.Если я что-то недопонимаю, прошу строго не судить.


Можно углубить вопрос. Зачем нужен Анова, если все равно требуется ПостХок со странными критериями(Шеффе, Дункан, Даннет, Тьюки....) Если можно просто сделать несколько раз сравнение тем же т-тестом. Например, если у нас 4 выборки
1-2
1-3
1-4
2-3
2-4
3-4
Вот и весь постхок был бы.


Мыслить категориями "групп" (а не "выборок") крайне вредно. Уже эти два понятия путаются как видим. Если вспомнить, что выборка на самом деле не совсем выборка, то у "связанных выборок" есть дополнительная информация в виде "объект наблюдения" и "факт воздействия". Для этого достаточно представить данные в нормальном "длинном формате".

Если кратко излагать "почему не множественные сравнения", то: вариация в выборке это "одеяло", и его "по отдельности" легко можно натянуть "то на голову, то на ноги", но вот если "одеяло коротковато", то одновременно натянуть его и на голову и на ноги не получиться... придется "урезать осетра гипотезы" smile.gif

Автор: kont 8.06.2016 - 15:04

p2004r, а что всякие Шеффе......Тьюки удлиняют одеяло, что и на голову и на ноги хватило?))

Автор: p2004r 8.06.2016 - 16:09

Цитата(kont @ 8.06.2016 - 15:04) *
p2004r, а что всякие Шеффе......Тьюки удлиняют одеяло, что и на голову и на ноги хватило?))


"Группы" это зло. Если понимать, что это просто подогнанная к данным наилучшим образом модель, то понятен "подспудный смысл" постхок --- посмотреть на данные (вместе с подогнанной моделью) под таким углом, когда видна только интересующая нас "разница между группами".

Автор: DoctorStat 8.06.2016 - 22:26

Цитата(kont @ 8.06.2016 - 01:20) *
Подскажите, есть ли смысл в зависимой выборке? А почему нельзя обходится только форматом независимых выборок?
Как заметил р2004, зависимые выборки по сравнению с независимыми содержат дополнительную информацию об изменении показателя для каждого пациента. Эта дополнительная информация позволяет повысить мощность критерия, т.е. найти отличия там, где независимая выборка их не находит. См.Гланц "Мед.био статистика", глава 9 "Анализ повторных измерений"

Автор: kont 10.06.2016 - 21:37

Коллеги, а я ещё запутался в терминологии Среднеквадратичная ошибка среднего это показатель точности оценки среднего выборки или теоретическое стандартное отклонение всех средних выборки размера
просто, как сказано на портале Statsoft. Ну, например, пусть среднее М=45, RMSE=1,7 как это интерпретировать это Rmse?

Автор: p2004r 11.06.2016 - 09:26

Цитата(kont @ 10.06.2016 - 21:37) *
Коллеги, а я ещё запутался в терминологии Среднеквадратичная ошибка среднего это показатель точности оценки среднего выборки или теоретическое стандартное отклонение всех средних выборки размера
просто, как сказано на портале Statsoft. Ну, например, пусть среднее М=45, RMSE=1,7 как это интерпретировать это Rmse?



Код
> runif(10)
[1] 0.15777836 0.33600955 0.64628139 0.49859762 0.95817068 0.05088469
[7] 0.57508005 0.95273789 0.07290973 0.81564387
> data <- runif(1000)
> mean(data)
[1] 0.4929045
> sd(data)
[1] 0.2900703
> sd(data)/(1000)^0.5
[1] 0.009172827
> sd(replicate(1000000, mean(sample(data, replace=T))))
[1] 0.00918224


Сомнений не осталось? smile.gif

Автор: kont 12.06.2016 - 23:59

у меня на этом месте
sd(replicate(1000000, mean(sample(data, replace=T))))
зависает R)
Ну ладно, винду может переустановить нужно. А почему мы стандартное отклонение делим на 1000^0,5
1000 это у нас нагенерено случайным образом наблюдение(выборка), но почему в степени 0.5?

Автор: p2004r 13.06.2016 - 06:32

Цитата(kont @ 12.06.2016 - 23:59) *
у меня на этом месте
sd(replicate(1000000, mean(sample(data, replace=T))))
зависает R)
Ну ладно, винду может переустановить нужно. А почему мы стандартное отклонение делим на 1000^0,5
1000 это у нас нагенерено случайным образом наблюдение(выборка), но почему в степени 0.5?



1000 это размер выборки случайных чисел, а ^0.5 это корень квадратный --- всё вместе оценка стандартного отклонения среднего арифметического.

Автор: DoctorStat 13.06.2016 - 10:00

Цитата(kont @ 10.06.2016 - 21:37) *
Коллеги, а я ещё запутался в терминологии Среднеквадратичная ошибка среднего это показатель точности оценки среднего выборки или теоретическое стандартное отклонение всех средних выборки размера
просто, как сказано на портале Statsoft. Ну, например, пусть среднее М=45, RMSE=1,7 как это интерпретировать это Rmse?
Я не большой специалист в программе Statsoft, но https://en.wikipedia.org/wiki/Root-mean-square_deviation говорит, что root-mean-square error (RMSE) - это выборочная, а не теоретическая оценка дисперсии среднего. Стентон Гланц в книге "Мед-био статистика" в главе "Как описать данные" обозначает эту величину как: sx=s/sqrt(n)
Это значит, что среднее значение совокупности с вероятностью 95% заключено в интервале:
[ M - 2*sqrt(RMSE), M + 2*sqrt(RMSE) ]

Автор: kont 14.06.2016 - 16:50

Теперь стало яснее))

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)