Статистическая разница |
Здравствуйте, гость ( Вход | Регистрация )
Статистическая разница |
5.10.2021 - 14:10
Сообщение
#1
|
||
Группа: Пользователи Сообщений: 5 Регистрация: 30.09.2021 Пользователь №: 39610 |
Здравствуйте!
Проводим на животных (здоровых и больных) тестирование 3-х приборов: сначала измеряем одним ? образцовым, затем двумя опытными. Сняли 100 троек измерений, рассчитали разность между показаниями опытных и образцового, получилась таблица: Распределения в выборках отличны от нормального. Как оценить есть ли статистическая разница между показаниями опытных приборов? Спасибо. |
|
|
5.10.2021 - 14:59
Сообщение
#2
|
||
Группа: Пользователи Сообщений: 9 Регистрация: 13.02.2019 Пользователь №: 32925 |
Здравствуйте! Проводим на животных (здоровых и больных) тестирование 3-х приборов: сначала измеряем одним ? образцовым, затем двумя опытными. Сняли 100 троек измерений, рассчитали разность между показаниями опытных и образцового, получилась таблица: Распределения в выборках отличны от нормального. Как оценить есть ли статистическая разница между показаниями опытных приборов? Спасибо. Здравствуйте! По анализу таких баз данных нужно не только сравнивать средние значения, но и все остальные параметры. Более того, по таким базам данных нужно производить и все остальные методы анализа. Которые и обнаруживают скрытые зависимости всех этих признаков. То есть использовать не только парные методы анализа, но и разные многомерные методы анализа. Вот и у нас, по аналогичной базе данных, 5 лет назад провели много методов анализа в НЦ БИОМЕТРИКА. И в результате установили наличие нелинейных зависимостей реально всех количественных признаков. Также обнаружили и наличие нескольких разных подгрупп, которые как раз и отличаются между собой. И поэтому рекомендую вам использовать эти нелинейные зависимости, и методы многомерного статистического анализа. Сообщение отредактировал Med_Elena - 5.10.2021 - 15:08 |
|
|
6.10.2021 - 08:39
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 5 Регистрация: 30.09.2021 Пользователь №: 39610 |
Здравствуйте! По анализу таких баз данных нужно не только сравнивать средние значения, но и все остальные параметры. Более того, по таким базам данных нужно производить и все остальные методы анализа. Которые и обнаруживают скрытые зависимости всех этих признаков. То есть использовать не только парные методы анализа, но и разные многомерные методы анализа. Вот и у нас, по аналогичной базе данных, 5 лет назад провели много методов анализа в НЦ БИОМЕТРИКА. И в результате установили наличие нелинейных зависимостей реально всех количественных признаков. Также обнаружили и наличие нескольких разных подгрупп, которые как раз и отличаются между собой. И поэтому рекомендую вам использовать эти нелинейные зависимости, и методы многомерного статистического анализа. Да мне бы с простейшим разобраться. Работаю в PAST. Вставляю свои колонки "Разность 1" и "Разность 2", далее: Univariate -> Two sample tests -> Two sample tests. Смотрю t-test: p=1E-17. Это я сравнил средние разности и получил достоверное различие? Или в моем случае надо использовать "Two sample paired tests"? Проверяю на нормальность: Univariate -> Normality tests. Shapiro-Wilk для "Разность 1" дает p=0,005; для "Разность 2" дает p=0,2. Одна выборка не нормальная, вторая - нормальная. Результаты t-test использовать можно? Сообщение отредактировал versant - 6.10.2021 - 10:44 |
|
6.10.2021 - 23:17
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Цитата Или в моем случае надо использовать "Two sample paired tests"? Поскольку один и тот же объект (животное) трижды порождает экспериментальный материал, то выборки считаются связанными. Т.е. необходимо использовать "Two sample paired tests". Он не требует проверки классических условий применения теста Стьюдента для независимых выборок - нормальности распределения и равенства дисперсий. Поэтому с проверкой нормальности не заморачивайтесь. К слову сказать, тестовый прибор здесь и не нужен. Алгебраически (т.е. если мы начнем явно проговаривать вероятностно-статистичекую модель порождения данных) ваша задача все равно сводится к разности показаний 2-го и 3-го приборов. |
|
7.10.2021 - 09:31
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 5 Регистрация: 30.09.2021 Пользователь №: 39610 |
Поскольку один и тот же объект (животное) трижды порождает экспериментальный материал, то выборки считаются связанными. Т.е. необходимо использовать "Two sample paired tests". Он не требует проверки классических условий применения теста Стьюдента для независимых выборок - нормальности распределения и равенства дисперсий. Поэтому с проверкой нормальности не заморачивайтесь. К слову сказать, тестовый прибор здесь и не нужен. Алгебраически (т.е. если мы начнем явно проговаривать вероятностно-статистичекую модель порождения данных) ваша задача все равно сводится к разности показаний 2-го и 3-го приборов. Спасибо большое, все начинает проясняться. Позволю задать еще несколько вопросов для уточнения. Первый вопрос применительно к моим двум разностям и "Two sample paired tests". А что сравнивает этот тест? Правильно ли я понимаю, что получив в этом тесте p<<0,01 можно утверждать, что "Разность 1" и "Разность 2" различаются статистически значимо? Тест также дает среднее значение "Разность 1" = 0,5 и "Разность 2" = 5. Можно ли при этом утверждать, что среднее значение "Разность 1" и "Разность 2" различаются высоко статистически значимо? Или для этого нужен еще тест? Второй вопрос применительно к Вашему "задача все равно сводится к разности показаний 2-го и 3-го приборов". Тогда в таблице будет всего одна колонка "Разность 1-2" и как ее оценивать? Если взять "One sample tests", то там надо ввести "Given mean". Если полагать, что разницы нет, то ввожу 0, получаю p<<0,01; "Sample mean" = -4,5 и заключение "Means are significantly different". Т.е. вывод: показания 2-го и 3-го приборов различаются статистически значимо, средняя разница -4,5. Верно? И последнее. Можно ли использовать данные техники для определения различий не по всей выборке, а по диапазонам показаний образцового прибора? |
|
7.10.2021 - 12:51
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Цитата А что сравнивает этот тест? Отличие от нуля среднего разностей двух связанных выборок. Цитата Правильно ли я понимаю, что получив в этом тесте p<<0,01 можно утверждать, что "Разность 1" и "Разность 2" различаются статистически значимо? Правильно. Цитата Тест также дает среднее значение "Разность 1" = 0,5 и "Разность 2" = 5. Можно ли при этом утверждать, что среднее значение "Разность 1" и "Разность 2" различаются высоко статистически значимо? Можно. Цитата Или для этого нужен еще тест? Не нужен. Цитата Тогда в таблице будет всего одна колонка "Разность 1-2" и как ее оценивать? "One sample tests" Цитата Если взять "One sample tests", то там надо ввести "Given mean". Если полагать, что разницы нет, то ввожу 0, получаю p<<0,01; "Sample mean" = -4,5 и заключение "Means are significantly different". Т.е. вывод: показания 2-го и 3-го приборов различаются статистически значимо, средняя разница -4,5. Верно? Верно. Цитата И последнее. Можно ли использовать данные техники для определения различий не по всей выборке, а по диапазонам показаний образцового прибора? Можно. Но есть одна тонкость. Если разбиение шкалы прибора на диапазоны возможно только единственным образом (т.е. любой другой исследователь будет делать только так, а не иначе, в чем я сомневаюсь), то тогда фактор "Поддиапазон шкалы прибора" будет иметь т.н. "фиксированный" эффект, и задача сведется к двухфакторному дисперсионному анализу с фиксированными эффектами. Если же шкала разбивается на поддиапазоны произвольно, то говорят о т.н. "случайном" эффекте. Это потребует изошренной статистической техники под обобщающим названием "Mixed effect model". Не уверен, что PAST обсчитывает такие вещи, не уверен, что вы хоть что-то поймете в результатах оценивания такой модели. Сообщение отредактировал 100$ - 7.10.2021 - 12:56 |
|
7.10.2021 - 19:32
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Добавлю ещё.
1) Так как объём выборки неплохой (100 измерений) может быть полезным посмотреть распределение разности, достаточно визуально. Техническая изменчивость имеет свои особенности и с ней также можно разбираться и работать. Например, может оказаться, что распределение такой разности не унимодальное, а бимодальное или полимодальное (у меня такое было). С этим можно разбираться: что порождает дополнительные моды, которые скорее всего центры других распределений. Если есть подозрения, что в разных диапазонах различия между методами меняются, то как раз на гистограммах это можно увидеть и даже наметить границы этих диапазонов: не искусственно, а опираясь на сами данные. Можно даже выполнить разделение смеси распределений, PAST это делает ЕМ-алгоритмом. 2) Пакет PAST хорош тем, что содержит во многих модулях ресэмплинг-техники, что современно и полезно. Если окажется, что разность показаний распределена унимодально или нет желания заморачиваться с этими модами, то можно вычислить для неё 95%-ный доверительный интервал бутстрепом (лучше методом процентилей - Percentile). Если он не будет содержать ноля, значит на 5%-ном уровне значимости можно отклонять гипотезу об отсутствии различий в измерениях разными приборами. Это будет вполне самостоятельный и непараметрический тест на сравнение зависимых выборок. 3) В Лабораторном практикуме рассматривается сравнение и зависимых выборок, и построение ДИ бутстрепом, и анализ распределения с разделением смеси: https://disk.yandex.ru/d/g50i73pt3J6pAa |
|
8.10.2021 - 08:15
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 5 Регистрация: 30.09.2021 Пользователь №: 39610 |
Спасибо огромное! 3) В Лабораторном практикуме рассматривается сравнение и зависимых выборок, и построение ДИ бутстрепом, и анализ распределения с разделением смеси: https://disk.yandex.ru/d/g50i73pt3J6pAa Спасибо. Это и скачал, пробую разобраться. |
|
9.10.2021 - 08:39
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Кажется, что вы забыли задать (и ответить на) более важный вопрос: "Отличаются ли показания опытных приборов от образцового ?"
Сообщение отредактировал DoctorStat - 9.10.2021 - 08:39 Просто включи мозги => http://doctorstat.narod.ru
|
|
11.10.2021 - 08:46
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 5 Регистрация: 30.09.2021 Пользователь №: 39610 |
Кажется, что вы забыли задать (и ответить на) более важный вопрос: "Отличаются ли показания опытных приборов от образцового ?" Да, теперь, зная как сравнить показания опытных приборов, прихожу к вопросу: а можно ли использовать "One sample tests" для сравнения любых парных разностей в моих измерениях? Сообщение отредактировал versant - 11.10.2021 - 11:35 |
|
17.07.2022 - 12:45
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615 |
Добрый день.
Подскажите, могу ли я сравнить две независимые группы по 104 и 14 наблюдений в каждой? мне нужно удостовериться в различии средних. Подойдет ли Мана-Уитни для этих целей? Просто конкретно для данного параметра так мало данных доступно. |
|
17.07.2022 - 13:47
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
Добрый день. Подскажите, могу ли я сравнить две независимые группы по 104 и 14 наблюдений в каждой? мне нужно удостовериться в различии средних. Подойдет ли Мана-Уитни для этих целей? Просто конкретно для данного параметра так мало данных доступно. Это называется несбалансированные выборки. Да, такие результаты сравнивать теоретически можно, и любой подходящий критерий - тем более непараметрический - применять тоже можно. Вот только к полученным результатам относиться надо с большой осторожностью. Кое что о похожих ситуация обговаривают тут https://ru-spss.livejournal.com/94838.html Учитывая, что в первой выборке у вас значений несколько многовато для М-У, я бы попробовал провести ряд расчетов, выбирая каждый раз случайную подвыборку из первой выборки, и уж потом-бы делал выводы. |
|
17.07.2022 - 14:06
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632 |
Подскажите, могу ли я сравнить две независимые группы по 104 и 14 наблюдений в каждой? мне нужно удостовериться в различии средних. Подойдет ли Мана-Уитни для этих целей? Не подойдет, поскольку не сравнивает средние. В данном случае можно вполне юзать критерий рандомизации (версию Монте-Карло) или бутсреп на основе разности средних. Также вполне можно проверить нормальность в большей выборке критерием Шапиро-Уилка и в случае принятия нулевой гипотезы, предположить, что и во второй выборке она есть (если данные похожего происхождения), далее - критерий Уэлча. Если же гипотеза нормальности уверенно отклоняется, рекомендую посмотреть на форму распределения и поразмыслить, какая мера положения в данном случае будет иметь больший смысл. Далеко не всегда это среднее арифметическое. Сообщение отредактировал ИНО - 17.07.2022 - 14:15 |
|
17.07.2022 - 19:11
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615 |
Это называется несбалансированные выборки. Да, такие результаты сравнивать теоретически можно, и любой подходящий критерий - тем более непараметрический - применять тоже можно. Вот только к полученным результатам относиться надо с большой осторожностью. Кое что о похожих ситуация обговаривают тут https://ru-spss.livejournal.com/94838.html Учитывая, что в первой выборке у вас значений несколько многовато для М-У, я бы попробовал провести ряд расчетов, выбирая каждый раз случайную подвыборку из первой выборки, и уж потом-бы делал выводы. Вот это понятно) спасибо ! |
|
17.07.2022 - 19:17
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615 |
Не подойдет, поскольку не сравнивает средние. В данном случае можно вполне юзать критерий рандомизации (версию Монте-Карло) или бутсреп на основе разности средних. Также вполне можно проверить нормальность в большей выборке критерием Шапиро-Уилка и в случае принятия нулевой гипотезы, предположить, что и во второй выборке она есть (если данные похожего происхождения), далее - критерий Уэлча. Если же гипотеза нормальности уверенно отклоняется, рекомендую посмотреть на форму распределения и поразмыслить, какая мера положения в данном случае будет иметь больший смысл. Далеко не всегда это среднее арифметическое. Вот это не очень? а в данном случае так необходимо именно средние сравнивать? |
|