Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Непараметрический дискриминантный анализ
Адам
сообщение 26.10.2011 - 06:22
Сообщение #1





Группа: Пользователи
Сообщений: 27
Регистрация: 28.06.2011
Пользователь №: 23257



Уважаемые коллеги! Провел дискриминантный анализ, но гложат сомнения, некоторые данные распределены не нормально, существует ли непараметрический дискриминантный анализ, сведения встречаются, а найти конкретную информацию не могу можно ли его провести в статистика 6. Спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Адам
сообщение 26.10.2011 - 07:21
Сообщение #2





Группа: Пользователи
Сообщений: 27
Регистрация: 28.06.2011
Пользователь №: 23257



в учебнике по статистике указано, что

Предполагается, что анализируемые переменные представляют выборку из многомерного нормального распределения. Поэтому вы можете проверить, являются ли переменные нормально распределенными. Отметим, однако, что пренебрежение условием нормальности обычно не является "фатальным" в том смысле, что результирующие критерии значимости все еще "заслуживают доверия".

Может быть я зря сомневаюсь
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 26.10.2011 - 08:26
Сообщение #3





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Адам @ 26.10.2011 - 08:21) *
в учебнике по статистике указано, что

Предполагается, что анализируемые переменные представляют выборку из многомерного нормального распределения. Поэтому вы можете проверить, являются ли переменные нормально распределенными. Отметим, однако, что пренебрежение условием нормальности обычно не является "фатальным" в том смысле, что результирующие критерии значимости все еще "заслуживают доверия".

Может быть я зря сомневаюсь

Штремель М.А., Кудря А.В., Иващенко А.В. Непараметрический дискриминантный анализ в задачах управления качеством // Заводская лаборатория. Диагностика материалов, 2006, т. 72, N5, с. 53-62. (не найдете - в личку напишите свой email)

Ключевое слово "многомерного" - это не то же самое, что проверить каждую выборку (здесь варианта выборки - не число, а вектор, т.е. совокупность чисел) на нормальность. Требуется использовать специальные критерии для тестирования именно многомерной нормальности (например, критерии Мардиа, также тут http://www2.sas.com/proceedings/sugi27/p247-27.pdf ). На основе каких тестов Вы утверждаете, что Ваша многомерная выборка не является многомерно нормальной?

Далее, исходными данными для дискриминантного анализа являются уже классифицированные объекты. От качественно выполненной классификации (без учителя) зависит во многом и классификация с учителем, представителем которой как раз дискриминантный анализ и является.
Ссылка полезная http://masters.donntu.edu.ua/2005/kita/kap...ry/discr_an.htm

Сообщение отредактировал Игорь - 26.10.2011 - 13:38


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 26.10.2011 - 10:49
Сообщение #4





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(Адам @ 26.10.2011 - 06:21) *
в учебнике по статистике указано, что

Предполагается, что анализируемые переменные представляют выборку из многомерного нормального распределения. Поэтому вы можете проверить, являются ли переменные нормально распределенными. Отметим, однако, что пренебрежение условием нормальности обычно не является "фатальным" в том смысле, что результирующие критерии значимости все еще "заслуживают доверия".

Может быть я зря сомневаюсь


1 Только нормальными данные должны быть всего внутри классов. В сумме они даже очень ненормальны smile.gif

2 Если не уверены, возьмите Random forest. (его результаты визуализируют обычно многомерным шкалированием)

PS На мой взгляд и pca и lda это чистая геометрия сводящаяся к преобразованию ковариации данных, и зачем там нормальное распределение откровенно говоря не понятно. Ковариация определена для любых распределений и её преобразования абсолютно корректны. Кто то когда то выразил чисто геометрическую задачу через нормальные распределения, почему это накладывает ограничения на возможность разделить две группы точек гиперплоскостью? smile.gif Если классы разделены, то они разделены. Оптимально ли проведена разделяющая гиперплоскость? Это все равно нужно доказывать каким либо вариантом бутстрепа. Ну а если гиперплоскостью данные не пилятся, значит берут всякие SVM как описание классов и считают статистику для них.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 26.10.2011 - 11:47
Сообщение #5





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(p2004r @ 26.10.2011 - 10:49) *
1 Только нормальными данные должны быть всего внутри классов.

Да, верная поправка. В пределах классов. Но - многомерно нормальны. В сумме будет смесь нормальных распределений, которую перед применением дискриминантного анализа и надлежит разделить - получить обучающие группы/классы/кластеры.

Встречалось еще одно требование - равенство ковариационных матриц классов. Для их сравнения тоже есть специальные критерии.

Т.е. - обратите внимание - те же требования, что в "одномерном случае" для обычной параметрики.

Сообщение отредактировал Игорь - 26.10.2011 - 11:58


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Адам
сообщение 27.10.2011 - 05:19
Сообщение #6





Группа: Пользователи
Сообщений: 27
Регистрация: 28.06.2011
Пользователь №: 23257



Уважаемые коллеги! Спасибо за ответы, но я честно говоря ничего не понял
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 27.10.2011 - 09:38
Сообщение #7





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Адам @ 27.10.2011 - 08:19) *
Уважаемые коллеги! Спасибо за ответы, но я честно говоря ничего не понял

smile.gif возьму на себя смелость подытожить:

(1) прямого непараметрического аналога дискриминантного анализа нет (по крайней мере более-менее распространённого). Однако задачу разделения групп по совокупности признаков можно решать другими подходами, не требующими от данных нормальности. Например - построением дерева решений (Classification Tree) или их леса (Random Forest). Если нужно разделить только 2 группы, а задействованные в классификации переменные не слишком коррелируют - можно использовать аппарат множественной логистической регрессии. Также задача решается каноническим анализом соответствий (Canonical correspondence analysis) - многомерной ординационной техникой с ограничением (constrained ordination), которая редка в медицине, но крайне популярна в экологии. Именно данный анализ ближе всего подходит на роль непараметрического аналога дискриминантного анализа - однако только с точки зрения философии метода, но не возможностей практического использования его результатов в виде выработки решающего правила, всё-таки это больше разведочная ординационная техника.

(2) ненормально распределённые данные можно предварительно преобразовать и использовать обычный дискриминантный анализ. Как и что преобразовывать - неоднозначно, т.к. реальные данные почти никогда не удовлетворяют даже требованиям двумерного нормального распределения, не то что многомерного. Поэтому возможны варианты, которые я бы разбил по цели, которую преследуют анализом:

2-А) Задача скорее исследовательская: определить принципиальную возможность разделения групп и разобраться в структуре показателей. Можно предварительно преобразовывать данные сколь угодно сложными методами, вплоть до многомерного преобразования Бокса-Кокса (есть в пакете Игоря - AtteStat), которое максимально подгонит данные к многомерному нормальному распределению. Чтобы разобраться в структуре связей переменных-предикторов лучше перейти к каноническим осям - т.н. канонический дискриминантный анализ (уже описывал этот подход для Statistica: см. сообщение #2 и ссылки в нём http://forum.disser.ru/index.php?showtopic=2443 )

2-Б) Задача скорее практическая: выработать дискриминантные ключи для разделения групп по совокупности признаков. Жертвуем немного математической строгостью в угоду практической простоты, т.е. используем самые простые преобразования (типа логарифмирования) для признаков с откровенно асимметричными распределениями, далее используем обычный линейный ДА и по его результатам строим ключи.










Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Адам
сообщение 27.10.2011 - 12:47
Сообщение #8





Группа: Пользователи
Сообщений: 27
Регистрация: 28.06.2011
Пользователь №: 23257



Спасибо Вам, уважаемый nokh и другим участникам дискуссии!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 6.11.2011 - 11:00
Сообщение #9





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Адам @ 27.10.2011 - 12:47) *
Спасибо Вам, уважаемый nokh и другим участникам дискуссии!

Не понял, Вы, Адам и уважаемый nokh, нашли указанную мной статью "Штремель М.А., Кудря А.В., Иващенко А.В. Непараметрический дискриминантный анализ в задачах управления качеством // Заводская лаборатория. Диагностика материалов, 2006, т. 72, N5, с. 53-62" или нет. Или личное незнание о существовании метода позволяет заявить о том, что данного метода не существует вовсе?

Есть издания ("братские могилы"), которые никто не читает и которые публикуют все, за что платят. Но до сих пор, несмотря на все усилия, в России есть издания (и их немало), которые заслуживают безусловного доверия ввиду тщательного отбора и рецензирования статей. Одним из таких изданий является журнал "Заводская лаборатория. Диагностика материалов". Если там описан метод анализа, можно верить.

Сообщение отредактировал Игорь - 6.11.2011 - 11:13


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 19.11.2011 - 17:40
Сообщение #10





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Просто я имел в виду такие методы, которыми практики могут воспользоваться. Потому что, в отличие от уважаемых математиков, для практика нет толку ни от статьи в хорошем журнале, который заработал себе репутацию, ни от редких отдельных зарубежных статей в интернете по данной теме ввиду сложности специальных текстов.

Сообщение отредактировал nokh - 21.11.2011 - 06:55
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 21.11.2011 - 06:55
Сообщение #11





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Кстати, вчера занимался подготовкой статьи с каноническим анализом соответствий (который называл выше - в сообщении #7) и абсолютно случайно наткнулся в интернете на его модификацию, заточенную не на разведочный анализ данных, а именно на разделение групп. Это так называемый barycentric discriminant analysis, предложенный в 1994 г. По нему в сети есть материал, но беглый гуглинг не дал софта. Так что, действительно, непараметрические аналоги дискриминантного анализа есть, но пока это - экзотика.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 21.11.2011 - 09:15
Сообщение #12





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(nokh @ 21.11.2011 - 06:55) *
Кстати, вчера занимался подготовкой статьи с каноническим анализом соответствий (который называл выше - в сообщении #7) и абсолютно случайно наткнулся в интернете на его модификацию, заточенную не на разведочный анализ данных, а именно на разделение групп. Это так называемый barycentric discriminant analysis, предложенный в 1994 г. По нему в сети есть материал, но беглый гуглинг не дал софта. Так что, действительно, непараметрические аналоги дискриминантного анализа есть, но пока это - экзотика.


Это не оно?

http://www.r-project.org/conferences/useR-...ebke+Ligges.pdf
In order to check the results various performance measures like the one described
by Garczarek (2002) can be calculated. If the data consists of 3 or 4 classes, the
membership values of different classifiers can be compared by visualization in a
barycentric coordinate system.



Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 21.11.2011 - 12:20
Сообщение #13





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(p2004r @ 21.11.2011 - 11:15) *
Это не оно? ...

Думаю нет, хотя наверное что-то родственное. Я имел ввиду и нашёл вот это: http://pbil.univ-lyon1.fr/ade4/ade4-html/discrimin.coa.html . Экзотика обретает форму!
Кстати ade4 - крутой пакет который был популярен у продвинутых экологов ещё до появления R (качал и ставил из любопытства более 8 лет назад, но не работал в нём), а позже был переписан для R.

Хотя выходит это - только частный случай барицентрического дискриминантного анализа: http://books.google.ru/books?id=pvo1SauGir...sis&f=false

Сообщение отредактировал nokh - 21.11.2011 - 12:32
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 21.11.2011 - 13:29
Сообщение #14





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(nokh @ 21.11.2011 - 13:20) *
Хотя выходит это - только частный случай барицентрического дискриминантного анализа: http://books.google.ru/books?id=pvo1SauGir...sis&f=false

Прошу обратить внимание на первую ссылку к указанной статье. Книга была издана на русском языке. Возможно, доступна в Интернете (при затруднении прошу обращаться в личку). Похоже, мы близки к обсуждению нечетких методов.

Еще одна ссылка из одной из указанных выше совсем интересна http://pbil.univ-lyon1.fr/members/lobry/repro/cabios96/ . Похоже, тут что-то даже можно посчитать на R в он-лайне.

Сообщение отредактировал Игорь - 21.11.2011 - 13:37


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему