![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() ![]() |
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 11.03.2014 Из: Иркутск Пользователь №: 26157 ![]() |
Всем добрый день!
Проводим анализ изменчивости признаков. Нужно не только визуально определить изменчивость, но и получить конкретные цифры, её оценивающие, а потом проверить достоверность отличия изменчивости в выборках. Нашли отличные формулы у Л.А. Животовского (Журнал общей биологии 1980, N2), позволяют и обобщённую дисперсию вычислить, и статистически её оценить, но всё это для параметрических данных. А у нас они непараметрические. Существует ли что нибудь подобное применительно к непараметрическим выборкам? Спасибо ![]() |
|
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Всем добрый день! Проводим анализ изменчивости признаков. Нужно не только визуально определить изменчивость, но и получить конкретные цифры, её оценивающие, а потом проверить достоверность отличия изменчивости в выборках. Нашли отличные формулы у Л.А. Животовского (Журнал общей биологии 1980, N2), позволяют и обобщённую дисперсию вычислить, и статистически её оценить, но всё это для параметрических данных. А у нас они непараметрические. Существует ли что нибудь подобное применительно к непараметрическим выборкам? Спасибо ![]() Во-первых, непараметрическими могут быть только методы (критерии, подходы), но никак не данные или выборки. Разберитесь с этим вопросом, т.к. это - азы, "завалитесь" на первой же конференции. Лучше не использовать специальных терминов вообще, чем использовать их неправильно. Во-вторых, мер оценки рассеяния (масштаба), как и мер оценки центральной тенденции несколько, например: размах, межквартильный размах, коэффициент вариации ... В зависимости от того, какой мерой пользоваться нужно будет и выбирать критерии для сравнения. Хороший справочник есть в сети - Кобзарь. Прикладная математическая статистика. См. начиная с раздела 4.2.2. Хотя пока не ясно что именно вам нужно, т.к. не понятно о каких признаках идёт речь: о количественных с ненормальным распределением, о счётных, о частотах, в т.ч. редких вариантах? Все они обрабатываются непараметрическими критериями. Например, у того же Животовского есть формула для расчёта среднего числа вариаций в выборке, которая позволяет оценивать изменчивость по качественным признакам; я её использовал для сравнения вариабельности окрасов бродячих собак в разных районах родного города (скоро опубликуем ![]() В-третьих, с коллегами нужно говорить на том языке, который они понимают. По крайней мере, сперва нужно доказать свою адекватность традиционными подходами, а уже потом "грузить" коллег статистической экзотикой. Какой язык понимают ваши коллеги, какие методы используют? Не может быть, чтобы никто, никогда, а вы - первая. Всё равно, кто-то, когда-то, как-то. Поднимайте литературу: кто, когда и как? А за рубежом? Например, насколько я знаю, дальше восточной Европы наработки того же Животовского не используют. А что используют в вашей области науки? Сообщение отредактировал nokh - 11.03.2014 - 20:04 |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 11.03.2014 Из: Иркутск Пользователь №: 26157 ![]() |
Спасибо за разъяснения!
Извиняюсь за неточность терминов. Я имела в виду ненормальное распределение в выборке. Признаки - количественные. А именно, длина, площадь, толщина органов изучаемых растений. Нужно провести анализ изменчивости фенотипических признаков. Строили диаграммы размаха ("ящик с усами"), соответственно чисто зрительно, по величине размаха, оценивали увеличение-уменьшение изменчивости. Но ведь мало просто визуально оценить. Как-то нужно это выразить в цифрах. Мне кажется, если вычислить грамотно показатель изменчивости (может быть даже не принципиально каким способом, лишь бы он был оправдан для выборки с ненормальным распределением) можно будет обработать эти цифры, с помощью, скажем, критерия Манна-Уитни. И тогда можно будет сказать "изменчивость увеличилась достоверно". Поправьте меня, если я что-то не то говорю! Я не спец в статистике. Работы коллег смотрела, но, честно скажу, в основном русскоязычные. Я биолог, медицинские журналы не очень доступны, в биологических же нужные статистические методы мне что-то не попались (в основном в таких случаях кивают на того же Животовского да на Глотова). Мне казалось, что может быть я просто упускаю что-то, и не замечаю методы, которые давно известны. По-видимому, это и правда экзотика какая-то. Плюнуть на всё, и сделать вид, будто выборка с нормальным распределением и обработать по Животовскому? Или рыть дальше уже в иностранной литературе .. ![]() Для начала пойду справочник Кобзаря поищу ![]() |
|
![]() |
![]() |
![]()
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
... Плюнуть на всё, и сделать вид, будто выборка с нормальным распределением и обработать по Животовскому? Ну и кого вы обманите? Ройте, всё есть! Я бы попробовал критерий Сьегля-Тьюки (Siegel-Tukey test). Подробно описан в Закс Л. Статистическое оценивание со стр. 264 (кстати, это - одна из любимых книг Н.В. Глотова, полезно иметь, хотя и заметно устаревшая местами). Минус критерия - сильно падает мощность при росте различий в средних/медианах. Так что сравнивать Манном-Уитни всё равно придётся. Искать в пакетах Сьегля-Тьюки или что-то подобное пока совсем некогда, но сразу попался код на R: https://stat.ethz.ch/pipermail/r-help/2010-...ary/229215.html. А в качестве собствено меры изменчивости к нему дать межквартильный размах. Для надёжности можно параллельно вычислять коэффициенты вариации. Формулу для оценки статистической значимости различий CV с помощью F-критерия давал в сообщении #14 здесь: http://molbiol.ru/forums/index.php?showtopic=527397 . Я противник того, чтобы сваливать разные признаки в одну кучу (кроме задач для PCA-подобных техник); как в случае сравнения средних через MANOVA, так и относительно обобщённой дисперсии. Считал бы по каждому признаку отдельно. Сообщение отредактировал nokh - 16.03.2014 - 21:33 |
|
![]() |
![]() |
![]()
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 11.03.2014 Из: Иркутск Пользователь №: 26157 ![]() |
Обмануть получится только саму себя))) Это верно))
Значит коэффициент вариации применять можно даже для выборки с ненормальным распределением! А я опасалась им воспользоваться, полагая, что, раз его расчёт основан на вычислении средней, а среднее вроде как для таких выборок вычислять - моветон, то Cv - табу, такое же, как и стандартное отклонение.. А Вы Н.В. Глотова лично знаете? Надо конечно найти его любимую книжку))) Про критерий Сьегля-Тьюки поняла, уже нашла, большое спасибо! |
|
![]() |
![]() |
![]()
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Обмануть получится только саму себя))) Это верно)) Значит коэффициент вариации применять можно даже для выборки с ненормальным распределением! А я опасалась им воспользоваться, полагая, что, раз его расчёт основан на вычислении средней, а среднее вроде как для таких выборок вычислять - моветон, то Cv - табу, такое же, как и стандартное отклонение.. А Вы Н.В. Глотова лично знаете? Надо конечно найти его любимую книжку))) Про критерий Сьегля-Тьюки поняла, уже нашла, большое спасибо! Каким бы ненормальным не было распределение, среднее арифметическое - всё равно остаётся мерой центральной тенденции, хотя в каких-то случаях и неустойчивой, но самой простой. Поэтому собственно за среднее в формуле я не особо боюсь. Коэффициент вариации можно рассчитать для любых данных, у Закса даже указано, что для не слишком маленьких выборок из нормально распределённой генеральной совокупности CV не может превышать 33%. Поэтоу никто не может запретить нам сначала вычислить CV=300%, а далее по этой величине предположить ненормальность распределения. Или сделать вывод о степени изменчивости показателя. Сомнения относительно CV у меня есть, т.к. в его формулу входит стандартное отклонение, которое для асимметричных данных связано со средним. Как это может повлиять на результаты сравнения изменчивости при наличии различий в средних - не знаю. Собственно поэтому и предложил в первую очередь межквартильный размах и Сьегля-Тьюки. Из википедии сейчас узнал о Quartile coefficient of dispersion (http://en.wikipedia.org/wiki/Quartile_coefficient_of_dispersion) - непараметрическом аналоге CV, похоже это лучше чем межквартильный размах, но в работах его не встречал. 2 курса лекций Глотова прослушал в аспирантуре в середине-конце 90-х. Сообщение отредактировал nokh - 17.03.2014 - 12:11 |
|
![]() |
![]() |
![]()
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 11.03.2014 Из: Иркутск Пользователь №: 26157 ![]() |
Квартильный коэффициент - да, это был бы выход! И ссылка есть, просто замечательно. Я, когда думала о том, как проще вычислить интегральный показатель изменчивости, придумала похожую формулу (разность делим на сумму), только у меня были не квартили, и минимаксные значения. Потом решила, что я надумала глупость - что минимум и максимум - это грубо, нужно брать области по обе стороны от медианы, вычислять для каждой области дисперсию и использовать эти значения. Поскольку я не математик, дальше этих предположений дело не пошло, я испугалась, что от незнания сотворю что-то глупое, предположила, что есть люди поумнее и уже давно всё придумали, надо только поискать))) Ура, спасибо, nokh!
|
|
![]() |
![]() |
![]()
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 381 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 ![]() |
Квартильный коэффициент - да, это был бы выход! Как бы я решал задачу сравнения изменчивостей двух выборок. 1. Посмотрел, на что похожа функция распределения реальной выборки. Придумал (выбрал из стандартных или вывел из теории) аналитическую формулу распределения с несколькими (лучше двумя) параметрами. Один параметр - мат.ожидание, второй - дисперсия. 2. Разработал метод "проверки гипотезы одинаковой дисперсии" для построенных функций распределения, когда мат.ожидание может быть различным. Но это только первоначальное видение проблемы. По ходу дела могут встретиться дополнительные подводные камни. Сообщение отредактировал DoctorStat - 18.03.2014 - 14:00 ![]() Просто включи мозги => http://doctorstat.narod.ru
|
|
![]() |
![]() |
![]()
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Всем добрый день! Проводим анализ изменчивости признаков. Нужно не только визуально определить изменчивость, но и получить конкретные цифры, её оценивающие, а потом проверить достоверность отличия изменчивости в выборках. Нашли отличные формулы у Л.А. Животовского (Журнал общей биологии 1980, N2), позволяют и обобщённую дисперсию вычислить, и статистически её оценить, но всё это для параметрических данных. А у нас они непараметрические. Существует ли что нибудь подобное применительно к непараметрическим выборкам? Спасибо ![]() А почему бы не использовать многомерные подходы? Памятуя о том, что одномерный анализ - частный случай многомерного. Н-р, единицу статистического наблюдения - объект (то бишь растение) охарактеризовать вектором признаков, а потом тестировать гипотезу равенства дисперсионно-ковариационных матриц, играющих в многомерных распределениях роль дисперсий. Методами, реализованными, н-р, в AtteStat'е. Имею в виду непараметрический критерий Пури-Сена. |
|
![]() |
![]() |
![]()
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 11.03.2014 Из: Иркутск Пользователь №: 26157 ![]() |
DoctorStat, Отложу совет в копилку, спасибо! "Придумал бы (выбрал из стандартных или вывел из теории) аналитическую формулу распределения с несколькими (лучше двумя) параметрами. Один параметр - мат.ожидание, второй - дисперсия... и т.д." - это звучит здорово, и, будь я математиком, я бы с удовольствием попробовала этот алгоритм.
![]() Я способна понять, что Вы имеете в виду (в общих чертах), но с реализацией кажется будет туго, пока я не подключу в совместную работу математика ![]() Да, наверное, и это можно сделать, 100$, хорошая мысль. Спасибо, что напомнили про критерий Пури-Сена! |
|
![]() |
![]() |
![]() ![]() |