Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Оценка изменчивости признаков для непараметрических данных
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Giulietta
Всем добрый день!
Проводим анализ изменчивости признаков. Нужно не только визуально определить изменчивость, но и получить конкретные цифры, её оценивающие, а потом проверить достоверность отличия изменчивости в выборках.
Нашли отличные формулы у Л.А. Животовского (Журнал общей биологии 1980, N2), позволяют и обобщённую дисперсию вычислить, и статистически её оценить, но всё это для параметрических данных. А у нас они непараметрические. Существует ли что нибудь подобное применительно к непараметрическим выборкам?
Спасибо smile.gif
nokh
Цитата(Giulietta @ 11.03.2014 - 13:18) *
Всем добрый день!
Проводим анализ изменчивости признаков. Нужно не только визуально определить изменчивость, но и получить конкретные цифры, её оценивающие, а потом проверить достоверность отличия изменчивости в выборках.
Нашли отличные формулы у Л.А. Животовского (Журнал общей биологии 1980, N2), позволяют и обобщённую дисперсию вычислить, и статистически её оценить, но всё это для параметрических данных. А у нас они непараметрические. Существует ли что нибудь подобное применительно к непараметрическим выборкам?
Спасибо smile.gif

Во-первых, непараметрическими могут быть только методы (критерии, подходы), но никак не данные или выборки. Разберитесь с этим вопросом, т.к. это - азы, "завалитесь" на первой же конференции. Лучше не использовать специальных терминов вообще, чем использовать их неправильно.

Во-вторых, мер оценки рассеяния (масштаба), как и мер оценки центральной тенденции несколько, например: размах, межквартильный размах, коэффициент вариации ... В зависимости от того, какой мерой пользоваться нужно будет и выбирать критерии для сравнения. Хороший справочник есть в сети - Кобзарь. Прикладная математическая статистика. См. начиная с раздела 4.2.2. Хотя пока не ясно что именно вам нужно, т.к. не понятно о каких признаках идёт речь: о количественных с ненормальным распределением, о счётных, о частотах, в т.ч. редких вариантах? Все они обрабатываются непараметрическими критериями. Например, у того же Животовского есть формула для расчёта среднего числа вариаций в выборке, которая позволяет оценивать изменчивость по качественным признакам; я её использовал для сравнения вариабельности окрасов бродячих собак в разных районах родного города (скоро опубликуем laugh.gif ). Но не факт что вам нужно именно это.

В-третьих, с коллегами нужно говорить на том языке, который они понимают. По крайней мере, сперва нужно доказать свою адекватность традиционными подходами, а уже потом "грузить" коллег статистической экзотикой. Какой язык понимают ваши коллеги, какие методы используют? Не может быть, чтобы никто, никогда, а вы - первая. Всё равно, кто-то, когда-то, как-то. Поднимайте литературу: кто, когда и как? А за рубежом? Например, насколько я знаю, дальше восточной Европы наработки того же Животовского не используют. А что используют в вашей области науки?
Giulietta
Спасибо за разъяснения!
Извиняюсь за неточность терминов. Я имела в виду ненормальное распределение в выборке. Признаки - количественные. А именно, длина, площадь, толщина органов изучаемых растений. Нужно провести анализ изменчивости фенотипических признаков. Строили диаграммы размаха ("ящик с усами"), соответственно чисто зрительно, по величине размаха, оценивали увеличение-уменьшение изменчивости. Но ведь мало просто визуально оценить. Как-то нужно это выразить в цифрах. Мне кажется, если вычислить грамотно показатель изменчивости (может быть даже не принципиально каким способом, лишь бы он был оправдан для выборки с ненормальным распределением) можно будет обработать эти цифры, с помощью, скажем, критерия Манна-Уитни. И тогда можно будет сказать "изменчивость увеличилась достоверно". Поправьте меня, если я что-то не то говорю! Я не спец в статистике. Работы коллег смотрела, но, честно скажу, в основном русскоязычные. Я биолог, медицинские журналы не очень доступны, в биологических же нужные статистические методы мне что-то не попались (в основном в таких случаях кивают на того же Животовского да на Глотова). Мне казалось, что может быть я просто упускаю что-то, и не замечаю методы, которые давно известны. По-видимому, это и правда экзотика какая-то. Плюнуть на всё, и сделать вид, будто выборка с нормальным распределением и обработать по Животовскому? Или рыть дальше уже в иностранной литературе .. insane.gif
Для начала пойду справочник Кобзаря поищу wink.gif
nokh
Цитата(Giulietta @ 13.03.2014 - 14:26) *
... Плюнуть на всё, и сделать вид, будто выборка с нормальным распределением и обработать по Животовскому?

Ну и кого вы обманите? Ройте, всё есть! Я бы попробовал критерий Сьегля-Тьюки (Siegel-Tukey test). Подробно описан в Закс Л. Статистическое оценивание со стр. 264 (кстати, это - одна из любимых книг Н.В. Глотова, полезно иметь, хотя и заметно устаревшая местами). Минус критерия - сильно падает мощность при росте различий в средних/медианах. Так что сравнивать Манном-Уитни всё равно придётся. Искать в пакетах Сьегля-Тьюки или что-то подобное пока совсем некогда, но сразу попался код на R: https://stat.ethz.ch/pipermail/r-help/2010-...ary/229215.html. А в качестве собствено меры изменчивости к нему дать межквартильный размах. Для надёжности можно параллельно вычислять коэффициенты вариации. Формулу для оценки статистической значимости различий CV с помощью F-критерия давал в сообщении #14 здесь: http://molbiol.ru/forums/index.php?showtopic=527397 . Я противник того, чтобы сваливать разные признаки в одну кучу (кроме задач для PCA-подобных техник); как в случае сравнения средних через MANOVA, так и относительно обобщённой дисперсии. Считал бы по каждому признаку отдельно.
Giulietta
Обмануть получится только саму себя))) Это верно))
Значит коэффициент вариации применять можно даже для выборки с ненормальным распределением! А я опасалась им воспользоваться, полагая, что, раз его расчёт основан на вычислении средней, а среднее вроде как для таких выборок вычислять - моветон, то Cv - табу, такое же, как и стандартное отклонение..
А Вы Н.В. Глотова лично знаете? Надо конечно найти его любимую книжку)))
Про критерий Сьегля-Тьюки поняла, уже нашла, большое спасибо!




nokh
Цитата(Giulietta @ 17.03.2014 - 12:16) *
Обмануть получится только саму себя))) Это верно))
Значит коэффициент вариации применять можно даже для выборки с ненормальным распределением! А я опасалась им воспользоваться, полагая, что, раз его расчёт основан на вычислении средней, а среднее вроде как для таких выборок вычислять - моветон, то Cv - табу, такое же, как и стандартное отклонение..
А Вы Н.В. Глотова лично знаете? Надо конечно найти его любимую книжку)))
Про критерий Сьегля-Тьюки поняла, уже нашла, большое спасибо!

Каким бы ненормальным не было распределение, среднее арифметическое - всё равно остаётся мерой центральной тенденции, хотя в каких-то случаях и неустойчивой, но самой простой. Поэтому собственно за среднее в формуле я не особо боюсь. Коэффициент вариации можно рассчитать для любых данных, у Закса даже указано, что для не слишком маленьких выборок из нормально распределённой генеральной совокупности CV не может превышать 33%. Поэтоу никто не может запретить нам сначала вычислить CV=300%, а далее по этой величине предположить ненормальность распределения. Или сделать вывод о степени изменчивости показателя. Сомнения относительно CV у меня есть, т.к. в его формулу входит стандартное отклонение, которое для асимметричных данных связано со средним. Как это может повлиять на результаты сравнения изменчивости при наличии различий в средних - не знаю. Собственно поэтому и предложил в первую очередь межквартильный размах и Сьегля-Тьюки. Из википедии сейчас узнал о Quartile coefficient of dispersion (http://en.wikipedia.org/wiki/Quartile_coefficient_of_dispersion) - непараметрическом аналоге CV, похоже это лучше чем межквартильный размах, но в работах его не встречал.
2 курса лекций Глотова прослушал в аспирантуре в середине-конце 90-х.
Giulietta
Квартильный коэффициент - да, это был бы выход! И ссылка есть, просто замечательно. Я, когда думала о том, как проще вычислить интегральный показатель изменчивости, придумала похожую формулу (разность делим на сумму), только у меня были не квартили, и минимаксные значения. Потом решила, что я надумала глупость - что минимум и максимум - это грубо, нужно брать области по обе стороны от медианы, вычислять для каждой области дисперсию и использовать эти значения. Поскольку я не математик, дальше этих предположений дело не пошло, я испугалась, что от незнания сотворю что-то глупое, предположила, что есть люди поумнее и уже давно всё придумали, надо только поискать))) Ура, спасибо, nokh!
DoctorStat
Цитата(Giulietta @ 18.03.2014 - 05:53) *
Квартильный коэффициент - да, это был бы выход!
Как бы я решал задачу сравнения изменчивостей двух выборок.
1. Посмотрел, на что похожа функция распределения реальной выборки. Придумал (выбрал из стандартных или вывел из теории) аналитическую формулу распределения с несколькими (лучше двумя) параметрами. Один параметр - мат.ожидание, второй - дисперсия.
2. Разработал метод "проверки гипотезы одинаковой дисперсии" для построенных функций распределения, когда мат.ожидание может быть различным.
Но это только первоначальное видение проблемы. По ходу дела могут встретиться дополнительные подводные камни.
100$
Цитата(Giulietta @ 11.03.2014 - 11:18) *
Всем добрый день!
Проводим анализ изменчивости признаков. Нужно не только визуально определить изменчивость, но и получить конкретные цифры, её оценивающие, а потом проверить достоверность отличия изменчивости в выборках.
Нашли отличные формулы у Л.А. Животовского (Журнал общей биологии 1980, N2), позволяют и обобщённую дисперсию вычислить, и статистически её оценить, но всё это для параметрических данных. А у нас они непараметрические. Существует ли что нибудь подобное применительно к непараметрическим выборкам?
Спасибо smile.gif


А почему бы не использовать многомерные подходы? Памятуя о том, что одномерный анализ - частный случай многомерного.
Н-р, единицу статистического наблюдения - объект (то бишь растение) охарактеризовать вектором признаков, а потом тестировать гипотезу равенства дисперсионно-ковариационных матриц, играющих в многомерных распределениях роль дисперсий.
Методами, реализованными, н-р, в AtteStat'е. Имею в виду непараметрический критерий Пури-Сена.
Giulietta
DoctorStat, Отложу совет в копилку, спасибо! "Придумал бы (выбрал из стандартных или вывел из теории) аналитическую формулу распределения с несколькими (лучше двумя) параметрами. Один параметр - мат.ожидание, второй - дисперсия... и т.д." - это звучит здорово, и, будь я математиком, я бы с удовольствием попробовала этот алгоритм. cool.gif
Я способна понять, что Вы имеете в виду (в общих чертах), но с реализацией кажется будет туго, пока я не подключу в совместную работу математика wink.gif

Да, наверное, и это можно сделать, 100$, хорошая мысль. Спасибо, что напомнили про критерий Пури-Сена!
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.