Дискриминантный анализ и критерия различий |
Здравствуйте, гость ( Вход | Регистрация )
Дискриминантный анализ и критерия различий |
28.09.2009 - 14:53
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 28.09.2009 Пользователь №: 6383 |
Здравствуйте,
Пожалуйста, помогите с таким вопросом.. Почему дискриминантный анализ предлагает в качестве критериев, значимо разделяющих группы, не только (и не совсем) те переменные, по которым обнаруживаются достоверные различия между группами по непараметрическим тестам? Очень жду Ваших предположений, буду рада любой помощи! С уважением, Лиза |
|
28.09.2009 - 17:48
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Здравствуйте, Пожалуйста, помогите с таким вопросом.. Почему дискриминантный анализ предлагает в качестве критериев, значимо разделяющих группы, не только (и не совсем) те переменные, по которым обнаруживаются достоверные различия между группами по непараметрическим тестам? Очень жду Ваших предположений, буду рада любой помощи! С уважением, Лиза Дискриминантный анализ вырабатывает решающие правила классификации [многомерного] объекта в одну из групп. Выборка представляет собой совокупность объектов. Но если в обычном [одномерном] случае выборка - ряд случайных чисел, то здесь - ряд случайных векторов. Для проверки гипотез для данных такого типа разработаны специальные многомерные аналоги параметрических и непараметрических методов. Это - критерии Хотеллинга (аналог Стьюдента), Джеймса-Сю (аналог Уэлча), Кульбака (аналог F-критерия), Пери-Сена-Тамура (аналог Вилкоксона), Пури-Сена (аналог Муда), Шайрера-Рэя-Хейра (аналог Краскела-Уоллиса). Применение указанных методов, думаю, решит Ваши вопросы о различиях между группами. Сообщение отредактировал Игорь - 28.09.2009 - 19:59 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
28.09.2009 - 21:08
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 28.09.2009 Пользователь №: 6383 |
Дискриминантный анализ вырабатывает решающие правила классификации [многомерного] объекта в одну из групп. Выборка представляет собой совокупность объектов. Но если в обычном [одномерном] случае выборка - ряд случайных чисел, то здесь - ряд случайных векторов. Для проверки гипотез для данных такого типа разработаны специальные многомерные аналоги параметрических и непараметрических методов. Это - критерии Хотеллинга (аналог Стьюдента), Джеймса-Сю (аналог Уэлча), Кульбака (аналог F-критерия), Пери-Сена-Тамура (аналог Вилкоксона), Пури-Сена (аналог Муда), Шайрера-Рэя-Хейра (аналог Краскела-Уоллиса). Применение указанных методов, думаю, решит Ваши вопросы о различиях между группами. Спасибо за ответ! Извините, я Вас не совсем поняла. Я уже сравнила группы с помощью непараметрического критерия, получила различия по определенным переменным. Решила провести дискриминантный анализ. С помощью него на своей выборке нашла классификационные функции, по которым группы делятся с наибольшей точностью. Однако, мне не понятно, почему эти функции не совпадают с теми переменнными, по которым группы имеют статистически достоверные различия. Сообщение отредактировал Лиза2 - 28.09.2009 - 22:29 |
|
28.09.2009 - 21:49
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284 |
>Почему дискриминантный анализ предлагает в качестве критериев, значимо разделяющих группы, не только (и не совсем) те переменные, по которым обнаруживаются достоверные различия между группами по непараметрическим тестам? 1. В ДМ для построения функций чаще всего используют линейные модели, и, в этом случае, предположения о нормальности независимых переменных никто не снимал. 2. Если вы пользовались к примеру, нейросетевыми методами, то... достаточно ли данных, чтобы строить сложные сети? Возможно переобучение. В общем случае, в непараметрических тестах и в ДМ работают разные метрики. Это не кованализ :)
|
|
28.09.2009 - 23:35
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
... Однако, мне не понятно, почему эти функции не совпадают с теми переменными, по которым группы имеют статистически достоверные различия. Вашей информации недостаточно чтобы ответить однозначно. Во-первых, непонятно какой алгоритм использовался. Если пошаговый, то коррелирующие с признаком-наилучшим дискриминатором переменные могли просто не попасть в дальнейший анализ. А значимые различия могли наблюдаться именно по скоррелированным показателям. Во-вторых, могла сработать ненормальность распределения признаков, особенно в многомерном пространстве - всё-таки классический (линейный) ДА - параметрическая процедура. Ну и в-третьих, сама суть анализа заключается не в поиске оптимального набора признаков-дискриминаторов (как в деревьях решений), а в поиске дискриминантной функции от признаков в многомерном пространстве. На рисунке ниже представлены 2 группы объектов в пространстве коррелирующих между собой признаков, а также проекции этих групп на три оси. Видно, что в отдельности ни по первому, ни по второму признаку две группы не различались - слишком велика зона трансгрессии распределений (зелёная область). Однако функция от них, состоящая наполовину из первого признака, а наполовину - из второго, позволила на 100% разделить группы. Аналогично в многомерном пространстве: могло оказаться, что несущественные по отдельности показатели дали такую комбинацию, что для разделения групп она оказалась в целом лучше признаков, по которым были различия в одномерном пространстве. Проанализируйте факторную структуру канонических функций - возможно получившиеся комбинации признаков получиться интерпретировать по существу стоящих за ними явлений, а не просто разделить группы. Сообщение отредактировал nokh - 29.09.2009 - 06:18 |
|
29.09.2009 - 13:28
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 28.09.2009 Пользователь №: 6383 |
Большое спасибо за Ваши ответы!
|
|
30.09.2009 - 08:59
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Спасибо за ответ! Извините, я Вас не совсем поняла. Я уже сравнила группы с помощью непараметрического критерия, получила различия по определенным переменным. Решила провести дискриминантный анализ. С помощью него на своей выборке нашла классификационные функции, по которым группы делятся с наибольшей точностью. Однако, мне не понятно, почему эти функции не совпадают с теми переменнными, по которым группы имеют статистически достоверные различия. Идея такая. Каждый объект исследования (пациент) описывается ни одним, а НЕСКОЛЬКИМИ параметрами. Изучив совокупность объектов (группу пациентов), мы получим матрицу данных. Классические методы проверки гипотез оперируют выборкой, представляющей собой измерения ОДНОГО параметра. Например, исследовав статистическую значимость различий между двумя группами, мы можем по ОДНОМУ (по одним) параметру (параметрам) получить различия, по ДРУГОМУ (другим) параметру (параметрам) не получить различий. Дискриминантный анализ (также многомерные методы, которые я упоминал выше) оперируют не одним параметрам, а всей совокупностью параметров сразу. Таким образом, несмотря на то, что по одному или нескольким параметрам группы значимо не различаются, различий между другими параметрами "хватит" для выполнения дискриминации (разделения) предъявленных для распознавания объектов на классы. Например, имеется две группы рыжих мужчин (1 группа) и рыжих женщин (2 группа). Пусть каждый индивидуум описан двумя параметрами: цвет волос и пол. По параметру "цвет волос" группы не будут различаться (все ваши методы покажут отсутствие различий). По параметру "пол" между группами будет значимое различие. Теперь пусть имеется две группы мужчин: брюнеты (1 группа) и блондины (2 группа). Пусть каждый индивидуум описан двумя параметрами: цвет волос и пол. По параметру "цвет волос" группы будут значимо различаться. По параметру "пол" между группами не будет значимого различия. Дискриминантный анализ же и в первом, и во втором примерах адекватно разделит представленную (изначально "сваленную в одну кучу") совокупность на классы. Многомерные методы проверки гипотез, если им предъявить полученные классы, также покажут значимые различия. На самом деле я упростил ситуацию. Дискриминантный анализ для получения решающих правил должен иметь обучающие данные (режим обучения) с тем, чтобы в дальнейшем, используя решающие правила, относить вновь предъявленный объект к тому или иному классу (режим распознавания). Обучающие данные должны быть заранее классифицированы, т.к. сам метод дискриминантного анализа такую классификацию не производит. Ее можно выполнить методами кластерного анализа либо с помощью экспертов (т.е. людей). Для данных методов (кластерный и дискриминантный анализы) имеются и нейросетевые аналоги. В качестве простейшей однослойной нейронной сети (персептрона) может быть интерпретирована уже рассматривавшаяся на данном форуме логистическая регрессия - метод, родственный (по задачам) дискриминантному анализу. Сообщение отредактировал Игорь - 1.10.2009 - 17:13 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
30.09.2009 - 15:20
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284 |
Самая распространенная ошибка, с которой сталкивалась - это переобучение. Неважно, линейной регрессии или нейросетей. Задав на 20 кейсов 30 параметров - получают "потрясающие" результаты. Программное обеспечение позволяет считать такие модели.
Поэтому, прежде чем стоить любые многомерные модели, стоит оценить достаточно ли данных. Я пользуюсь прикидочным расчетом оценка одного параметра = 6-8 наблюдений. Наверняка есть литература. Подскажите? Это не кованализ :)
|
|
1.10.2009 - 15:47
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
В статистическом анализе данных сочетается как познание неизвестного, так и практическое приложение полученного знания. Нейронные сети не позволяют познавать мир, т.к. всё самое интересное остаётся в чёрном ящике. Устроит ли Вас если вам скажут что нужно делать для достижения цели, но не объяснят почему? По нейронным сетям и data mining есть есть давний и хороший ресурс с форумом: http://www.basegroup.ru/forum/
Сообщение отредактировал nokh - 1.10.2009 - 15:48 |
|
1.10.2009 - 18:02
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284 |
nokh, спасибо!
Этот ресурс мне известен. Наверное, неправильно задала вопрос. От статистиков с опытом слышала, что для построения регрессионной модели с n параметрами нужно приблизительно 8*n кейсов. Литература по вопросу размера выборки от количества оцениваемых параметров - можно ли дать ссылки на литературу(именно с точки зрения статистики)? Спасибо! Это не кованализ :)
|
|
1.10.2009 - 19:55
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 28.09.2009 Пользователь №: 6383 |
Огромное спасибо, Игорь!
Теперь поняла |
|
3.11.2009 - 11:53
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 29.10.2009 Из: Россия Пользователь №: 6516 |
Общий анализ крови делается автоматически-если делаетсяиммунограмма.Потому как цитометр считает все клеткикрови,не только Т4.
Лично я сдаю раз в месяц пцр вич, иммунограмму,пцр hcvи всё прочее.Если не на арт,раз в 3 мес-достаточно |
|
10.01.2012 - 03:36
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 1 Регистрация: 29.08.2009 Пользователь №: 6288 |
Доброго времени суток.
Для прогнозирования исхода лечения пользуюсь дискриминантным анализом. не хватает знаний использования в анализе категориальных предикторов. я знаю есть книга Халафян А.А. Современные статистические методы медицинских исследований. если кто не жадный, может помочь достать эту книгу в электронном варианте. пожалуйста, очень нужно. |
|