Непараметрический дискриминантный анализ |
Здравствуйте, гость ( Вход | Регистрация )
Непараметрический дискриминантный анализ |
26.10.2011 - 06:22
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 27 Регистрация: 28.06.2011 Пользователь №: 23257 |
Уважаемые коллеги! Провел дискриминантный анализ, но гложат сомнения, некоторые данные распределены не нормально, существует ли непараметрический дискриминантный анализ, сведения встречаются, а найти конкретную информацию не могу можно ли его провести в статистика 6. Спасибо!
|
|
26.10.2011 - 07:21
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 27 Регистрация: 28.06.2011 Пользователь №: 23257 |
в учебнике по статистике указано, что
Предполагается, что анализируемые переменные представляют выборку из многомерного нормального распределения. Поэтому вы можете проверить, являются ли переменные нормально распределенными. Отметим, однако, что пренебрежение условием нормальности обычно не является "фатальным" в том смысле, что результирующие критерии значимости все еще "заслуживают доверия". Может быть я зря сомневаюсь |
|
26.10.2011 - 08:26
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
в учебнике по статистике указано, что Предполагается, что анализируемые переменные представляют выборку из многомерного нормального распределения. Поэтому вы можете проверить, являются ли переменные нормально распределенными. Отметим, однако, что пренебрежение условием нормальности обычно не является "фатальным" в том смысле, что результирующие критерии значимости все еще "заслуживают доверия". Может быть я зря сомневаюсь Штремель М.А., Кудря А.В., Иващенко А.В. Непараметрический дискриминантный анализ в задачах управления качеством // Заводская лаборатория. Диагностика материалов, 2006, т. 72, N5, с. 53-62. (не найдете - в личку напишите свой email) Ключевое слово "многомерного" - это не то же самое, что проверить каждую выборку (здесь варианта выборки - не число, а вектор, т.е. совокупность чисел) на нормальность. Требуется использовать специальные критерии для тестирования именно многомерной нормальности (например, критерии Мардиа, также тут http://www2.sas.com/proceedings/sugi27/p247-27.pdf ). На основе каких тестов Вы утверждаете, что Ваша многомерная выборка не является многомерно нормальной? Далее, исходными данными для дискриминантного анализа являются уже классифицированные объекты. От качественно выполненной классификации (без учителя) зависит во многом и классификация с учителем, представителем которой как раз дискриминантный анализ и является. Ссылка полезная http://masters.donntu.edu.ua/2005/kita/kap...ry/discr_an.htm Сообщение отредактировал Игорь - 26.10.2011 - 13:38 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
26.10.2011 - 10:49
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
в учебнике по статистике указано, что Предполагается, что анализируемые переменные представляют выборку из многомерного нормального распределения. Поэтому вы можете проверить, являются ли переменные нормально распределенными. Отметим, однако, что пренебрежение условием нормальности обычно не является "фатальным" в том смысле, что результирующие критерии значимости все еще "заслуживают доверия". Может быть я зря сомневаюсь 1 Только нормальными данные должны быть всего внутри классов. В сумме они даже очень ненормальны 2 Если не уверены, возьмите Random forest. (его результаты визуализируют обычно многомерным шкалированием) PS На мой взгляд и pca и lda это чистая геометрия сводящаяся к преобразованию ковариации данных, и зачем там нормальное распределение откровенно говоря не понятно. Ковариация определена для любых распределений и её преобразования абсолютно корректны. Кто то когда то выразил чисто геометрическую задачу через нормальные распределения, почему это накладывает ограничения на возможность разделить две группы точек гиперплоскостью? Если классы разделены, то они разделены. Оптимально ли проведена разделяющая гиперплоскость? Это все равно нужно доказывать каким либо вариантом бутстрепа. Ну а если гиперплоскостью данные не пилятся, значит берут всякие SVM как описание классов и считают статистику для них. |
|
26.10.2011 - 11:47
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
1 Только нормальными данные должны быть всего внутри классов. Да, верная поправка. В пределах классов. Но - многомерно нормальны. В сумме будет смесь нормальных распределений, которую перед применением дискриминантного анализа и надлежит разделить - получить обучающие группы/классы/кластеры. Встречалось еще одно требование - равенство ковариационных матриц классов. Для их сравнения тоже есть специальные критерии. Т.е. - обратите внимание - те же требования, что в "одномерном случае" для обычной параметрики. Сообщение отредактировал Игорь - 26.10.2011 - 11:58 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
27.10.2011 - 05:19
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 27 Регистрация: 28.06.2011 Пользователь №: 23257 |
Уважаемые коллеги! Спасибо за ответы, но я честно говоря ничего не понял
|
|
27.10.2011 - 09:38
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Уважаемые коллеги! Спасибо за ответы, но я честно говоря ничего не понял возьму на себя смелость подытожить: (1) прямого непараметрического аналога дискриминантного анализа нет (по крайней мере более-менее распространённого). Однако задачу разделения групп по совокупности признаков можно решать другими подходами, не требующими от данных нормальности. Например - построением дерева решений (Classification Tree) или их леса (Random Forest). Если нужно разделить только 2 группы, а задействованные в классификации переменные не слишком коррелируют - можно использовать аппарат множественной логистической регрессии. Также задача решается каноническим анализом соответствий (Canonical correspondence analysis) - многомерной ординационной техникой с ограничением (constrained ordination), которая редка в медицине, но крайне популярна в экологии. Именно данный анализ ближе всего подходит на роль непараметрического аналога дискриминантного анализа - однако только с точки зрения философии метода, но не возможностей практического использования его результатов в виде выработки решающего правила, всё-таки это больше разведочная ординационная техника. (2) ненормально распределённые данные можно предварительно преобразовать и использовать обычный дискриминантный анализ. Как и что преобразовывать - неоднозначно, т.к. реальные данные почти никогда не удовлетворяют даже требованиям двумерного нормального распределения, не то что многомерного. Поэтому возможны варианты, которые я бы разбил по цели, которую преследуют анализом: 2-А) Задача скорее исследовательская: определить принципиальную возможность разделения групп и разобраться в структуре показателей. Можно предварительно преобразовывать данные сколь угодно сложными методами, вплоть до многомерного преобразования Бокса-Кокса (есть в пакете Игоря - AtteStat), которое максимально подгонит данные к многомерному нормальному распределению. Чтобы разобраться в структуре связей переменных-предикторов лучше перейти к каноническим осям - т.н. канонический дискриминантный анализ (уже описывал этот подход для Statistica: см. сообщение #2 и ссылки в нём http://forum.disser.ru/index.php?showtopic=2443 ) 2-Б) Задача скорее практическая: выработать дискриминантные ключи для разделения групп по совокупности признаков. Жертвуем немного математической строгостью в угоду практической простоты, т.е. используем самые простые преобразования (типа логарифмирования) для признаков с откровенно асимметричными распределениями, далее используем обычный линейный ДА и по его результатам строим ключи. |
|
27.10.2011 - 12:47
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 27 Регистрация: 28.06.2011 Пользователь №: 23257 |
Спасибо Вам, уважаемый nokh и другим участникам дискуссии!
|
|
6.11.2011 - 11:00
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Спасибо Вам, уважаемый nokh и другим участникам дискуссии! Не понял, Вы, Адам и уважаемый nokh, нашли указанную мной статью "Штремель М.А., Кудря А.В., Иващенко А.В. Непараметрический дискриминантный анализ в задачах управления качеством // Заводская лаборатория. Диагностика материалов, 2006, т. 72, N5, с. 53-62" или нет. Или личное незнание о существовании метода позволяет заявить о том, что данного метода не существует вовсе? Есть издания ("братские могилы"), которые никто не читает и которые публикуют все, за что платят. Но до сих пор, несмотря на все усилия, в России есть издания (и их немало), которые заслуживают безусловного доверия ввиду тщательного отбора и рецензирования статей. Одним из таких изданий является журнал "Заводская лаборатория. Диагностика материалов". Если там описан метод анализа, можно верить. Сообщение отредактировал Игорь - 6.11.2011 - 11:13 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
19.11.2011 - 17:40
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Просто я имел в виду такие методы, которыми практики могут воспользоваться. Потому что, в отличие от уважаемых математиков, для практика нет толку ни от статьи в хорошем журнале, который заработал себе репутацию, ни от редких отдельных зарубежных статей в интернете по данной теме ввиду сложности специальных текстов.
Сообщение отредактировал nokh - 21.11.2011 - 06:55 |
|
21.11.2011 - 06:55
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Кстати, вчера занимался подготовкой статьи с каноническим анализом соответствий (который называл выше - в сообщении #7) и абсолютно случайно наткнулся в интернете на его модификацию, заточенную не на разведочный анализ данных, а именно на разделение групп. Это так называемый barycentric discriminant analysis, предложенный в 1994 г. По нему в сети есть материал, но беглый гуглинг не дал софта. Так что, действительно, непараметрические аналоги дискриминантного анализа есть, но пока это - экзотика.
|
|
21.11.2011 - 09:15
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Кстати, вчера занимался подготовкой статьи с каноническим анализом соответствий (который называл выше - в сообщении #7) и абсолютно случайно наткнулся в интернете на его модификацию, заточенную не на разведочный анализ данных, а именно на разделение групп. Это так называемый barycentric discriminant analysis, предложенный в 1994 г. По нему в сети есть материал, но беглый гуглинг не дал софта. Так что, действительно, непараметрические аналоги дискриминантного анализа есть, но пока это - экзотика. Это не оно? http://www.r-project.org/conferences/useR-...ebke+Ligges.pdf In order to check the results various performance measures like the one described by Garczarek (2002) can be calculated. If the data consists of 3 or 4 classes, the membership values of different classifiers can be compared by visualization in a barycentric coordinate system. |
|
21.11.2011 - 12:20
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Это не оно? ... Думаю нет, хотя наверное что-то родственное. Я имел ввиду и нашёл вот это: http://pbil.univ-lyon1.fr/ade4/ade4-html/discrimin.coa.html . Экзотика обретает форму! Кстати ade4 - крутой пакет который был популярен у продвинутых экологов ещё до появления R (качал и ставил из любопытства более 8 лет назад, но не работал в нём), а позже был переписан для R. Хотя выходит это - только частный случай барицентрического дискриминантного анализа: http://books.google.ru/books?id=pvo1SauGir...sis&f=false Сообщение отредактировал nokh - 21.11.2011 - 12:32 |
|
21.11.2011 - 13:29
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Хотя выходит это - только частный случай барицентрического дискриминантного анализа: http://books.google.ru/books?id=pvo1SauGir...sis&f=false Прошу обратить внимание на первую ссылку к указанной статье. Книга была издана на русском языке. Возможно, доступна в Интернете (при затруднении прошу обращаться в личку). Похоже, мы близки к обсуждению нечетких методов. Еще одна ссылка из одной из указанных выше совсем интересна http://pbil.univ-lyon1.fr/members/lobry/repro/cabios96/ . Похоже, тут что-то даже можно посчитать на R в он-лайне. Сообщение отредактировал Игорь - 21.11.2011 - 13:37 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|