Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Непараметрический дискриминантный анализ
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Адам
Уважаемые коллеги! Провел дискриминантный анализ, но гложат сомнения, некоторые данные распределены не нормально, существует ли непараметрический дискриминантный анализ, сведения встречаются, а найти конкретную информацию не могу можно ли его провести в статистика 6. Спасибо!
Адам
в учебнике по статистике указано, что

Предполагается, что анализируемые переменные представляют выборку из многомерного нормального распределения. Поэтому вы можете проверить, являются ли переменные нормально распределенными. Отметим, однако, что пренебрежение условием нормальности обычно не является "фатальным" в том смысле, что результирующие критерии значимости все еще "заслуживают доверия".

Может быть я зря сомневаюсь
Игорь
Цитата(Адам @ 26.10.2011 - 08:21) *
в учебнике по статистике указано, что

Предполагается, что анализируемые переменные представляют выборку из многомерного нормального распределения. Поэтому вы можете проверить, являются ли переменные нормально распределенными. Отметим, однако, что пренебрежение условием нормальности обычно не является "фатальным" в том смысле, что результирующие критерии значимости все еще "заслуживают доверия".

Может быть я зря сомневаюсь

Штремель М.А., Кудря А.В., Иващенко А.В. Непараметрический дискриминантный анализ в задачах управления качеством // Заводская лаборатория. Диагностика материалов, 2006, т. 72, N5, с. 53-62. (не найдете - в личку напишите свой email)

Ключевое слово "многомерного" - это не то же самое, что проверить каждую выборку (здесь варианта выборки - не число, а вектор, т.е. совокупность чисел) на нормальность. Требуется использовать специальные критерии для тестирования именно многомерной нормальности (например, критерии Мардиа, также тут http://www2.sas.com/proceedings/sugi27/p247-27.pdf ). На основе каких тестов Вы утверждаете, что Ваша многомерная выборка не является многомерно нормальной?

Далее, исходными данными для дискриминантного анализа являются уже классифицированные объекты. От качественно выполненной классификации (без учителя) зависит во многом и классификация с учителем, представителем которой как раз дискриминантный анализ и является.
Ссылка полезная http://masters.donntu.edu.ua/2005/kita/kap...ry/discr_an.htm
p2004r
Цитата(Адам @ 26.10.2011 - 06:21) *
в учебнике по статистике указано, что

Предполагается, что анализируемые переменные представляют выборку из многомерного нормального распределения. Поэтому вы можете проверить, являются ли переменные нормально распределенными. Отметим, однако, что пренебрежение условием нормальности обычно не является "фатальным" в том смысле, что результирующие критерии значимости все еще "заслуживают доверия".

Может быть я зря сомневаюсь


1 Только нормальными данные должны быть всего внутри классов. В сумме они даже очень ненормальны smile.gif

2 Если не уверены, возьмите Random forest. (его результаты визуализируют обычно многомерным шкалированием)

PS На мой взгляд и pca и lda это чистая геометрия сводящаяся к преобразованию ковариации данных, и зачем там нормальное распределение откровенно говоря не понятно. Ковариация определена для любых распределений и её преобразования абсолютно корректны. Кто то когда то выразил чисто геометрическую задачу через нормальные распределения, почему это накладывает ограничения на возможность разделить две группы точек гиперплоскостью? smile.gif Если классы разделены, то они разделены. Оптимально ли проведена разделяющая гиперплоскость? Это все равно нужно доказывать каким либо вариантом бутстрепа. Ну а если гиперплоскостью данные не пилятся, значит берут всякие SVM как описание классов и считают статистику для них.
Игорь
Цитата(p2004r @ 26.10.2011 - 10:49) *
1 Только нормальными данные должны быть всего внутри классов.

Да, верная поправка. В пределах классов. Но - многомерно нормальны. В сумме будет смесь нормальных распределений, которую перед применением дискриминантного анализа и надлежит разделить - получить обучающие группы/классы/кластеры.

Встречалось еще одно требование - равенство ковариационных матриц классов. Для их сравнения тоже есть специальные критерии.

Т.е. - обратите внимание - те же требования, что в "одномерном случае" для обычной параметрики.
Адам
Уважаемые коллеги! Спасибо за ответы, но я честно говоря ничего не понял
nokh
Цитата(Адам @ 27.10.2011 - 08:19) *
Уважаемые коллеги! Спасибо за ответы, но я честно говоря ничего не понял

smile.gif возьму на себя смелость подытожить:

(1) прямого непараметрического аналога дискриминантного анализа нет (по крайней мере более-менее распространённого). Однако задачу разделения групп по совокупности признаков можно решать другими подходами, не требующими от данных нормальности. Например - построением дерева решений (Classification Tree) или их леса (Random Forest). Если нужно разделить только 2 группы, а задействованные в классификации переменные не слишком коррелируют - можно использовать аппарат множественной логистической регрессии. Также задача решается каноническим анализом соответствий (Canonical correspondence analysis) - многомерной ординационной техникой с ограничением (constrained ordination), которая редка в медицине, но крайне популярна в экологии. Именно данный анализ ближе всего подходит на роль непараметрического аналога дискриминантного анализа - однако только с точки зрения философии метода, но не возможностей практического использования его результатов в виде выработки решающего правила, всё-таки это больше разведочная ординационная техника.

(2) ненормально распределённые данные можно предварительно преобразовать и использовать обычный дискриминантный анализ. Как и что преобразовывать - неоднозначно, т.к. реальные данные почти никогда не удовлетворяют даже требованиям двумерного нормального распределения, не то что многомерного. Поэтому возможны варианты, которые я бы разбил по цели, которую преследуют анализом:

2-А) Задача скорее исследовательская: определить принципиальную возможность разделения групп и разобраться в структуре показателей. Можно предварительно преобразовывать данные сколь угодно сложными методами, вплоть до многомерного преобразования Бокса-Кокса (есть в пакете Игоря - AtteStat), которое максимально подгонит данные к многомерному нормальному распределению. Чтобы разобраться в структуре связей переменных-предикторов лучше перейти к каноническим осям - т.н. канонический дискриминантный анализ (уже описывал этот подход для Statistica: см. сообщение #2 и ссылки в нём http://forum.disser.ru/index.php?showtopic=2443 )

2-Б) Задача скорее практическая: выработать дискриминантные ключи для разделения групп по совокупности признаков. Жертвуем немного математической строгостью в угоду практической простоты, т.е. используем самые простые преобразования (типа логарифмирования) для признаков с откровенно асимметричными распределениями, далее используем обычный линейный ДА и по его результатам строим ключи.










Адам
Спасибо Вам, уважаемый nokh и другим участникам дискуссии!
Игорь
Цитата(Адам @ 27.10.2011 - 12:47) *
Спасибо Вам, уважаемый nokh и другим участникам дискуссии!

Не понял, Вы, Адам и уважаемый nokh, нашли указанную мной статью "Штремель М.А., Кудря А.В., Иващенко А.В. Непараметрический дискриминантный анализ в задачах управления качеством // Заводская лаборатория. Диагностика материалов, 2006, т. 72, N5, с. 53-62" или нет. Или личное незнание о существовании метода позволяет заявить о том, что данного метода не существует вовсе?

Есть издания ("братские могилы"), которые никто не читает и которые публикуют все, за что платят. Но до сих пор, несмотря на все усилия, в России есть издания (и их немало), которые заслуживают безусловного доверия ввиду тщательного отбора и рецензирования статей. Одним из таких изданий является журнал "Заводская лаборатория. Диагностика материалов". Если там описан метод анализа, можно верить.
nokh
Просто я имел в виду такие методы, которыми практики могут воспользоваться. Потому что, в отличие от уважаемых математиков, для практика нет толку ни от статьи в хорошем журнале, который заработал себе репутацию, ни от редких отдельных зарубежных статей в интернете по данной теме ввиду сложности специальных текстов.
nokh
Кстати, вчера занимался подготовкой статьи с каноническим анализом соответствий (который называл выше - в сообщении #7) и абсолютно случайно наткнулся в интернете на его модификацию, заточенную не на разведочный анализ данных, а именно на разделение групп. Это так называемый barycentric discriminant analysis, предложенный в 1994 г. По нему в сети есть материал, но беглый гуглинг не дал софта. Так что, действительно, непараметрические аналоги дискриминантного анализа есть, но пока это - экзотика.
p2004r
Цитата(nokh @ 21.11.2011 - 06:55) *
Кстати, вчера занимался подготовкой статьи с каноническим анализом соответствий (который называл выше - в сообщении #7) и абсолютно случайно наткнулся в интернете на его модификацию, заточенную не на разведочный анализ данных, а именно на разделение групп. Это так называемый barycentric discriminant analysis, предложенный в 1994 г. По нему в сети есть материал, но беглый гуглинг не дал софта. Так что, действительно, непараметрические аналоги дискриминантного анализа есть, но пока это - экзотика.


Это не оно?

http://www.r-project.org/conferences/useR-...ebke+Ligges.pdf
In order to check the results various performance measures like the one described
by Garczarek (2002) can be calculated. If the data consists of 3 or 4 classes, the
membership values of different classifiers can be compared by visualization in a
barycentric coordinate system.

nokh
Цитата(p2004r @ 21.11.2011 - 11:15) *
Это не оно? ...

Думаю нет, хотя наверное что-то родственное. Я имел ввиду и нашёл вот это: http://pbil.univ-lyon1.fr/ade4/ade4-html/discrimin.coa.html . Экзотика обретает форму!
Кстати ade4 - крутой пакет который был популярен у продвинутых экологов ещё до появления R (качал и ставил из любопытства более 8 лет назад, но не работал в нём), а позже был переписан для R.

Хотя выходит это - только частный случай барицентрического дискриминантного анализа: http://books.google.ru/books?id=pvo1SauGir...sis&f=false
Игорь
Цитата(nokh @ 21.11.2011 - 13:20) *
Хотя выходит это - только частный случай барицентрического дискриминантного анализа: http://books.google.ru/books?id=pvo1SauGir...sis&f=false

Прошу обратить внимание на первую ссылку к указанной статье. Книга была издана на русском языке. Возможно, доступна в Интернете (при затруднении прошу обращаться в личку). Похоже, мы близки к обсуждению нечетких методов.

Еще одна ссылка из одной из указанных выше совсем интересна http://pbil.univ-lyon1.fr/members/lobry/repro/cabios96/ . Похоже, тут что-то даже можно посчитать на R в он-лайне.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.