Проблема уменьшения размерности |
Здравствуйте, гость ( Вход | Регистрация )
Проблема уменьшения размерности |
11.11.2007 - 16:34
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 15.08.2007 Пользователь №: 4262 |
Здравствуйте!
Есть такая задача. Имеются 40 некоторых факторов, выраженных в пятибалльной шкале (степень выраженности). Есть наличие/отсутствие заболевания. Как из 40 выделить факторы, наиболее влияющие на диагноз? Логистическая регрессия дает неубедительные результаты из-за большого количества независимых переменных. Как уменьшить размерность по факторам? Ведь факторный анализ и метод главных компонент применим только к непрерывным величинам имеющим нормальное распределение. заранее благодарю |
|
12.11.2007 - 06:46
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Действительно, это требование при вычислении коэффициента корреляции Пирсона. В ряде методов факторного анализа, кстати, применяются ковариации, из которых формируется [дисперсионно-ковариационная] матрица, подлежащая анализу. Однако высказано предположение, что данная матрица может быть сформирована и из других показателей (назовем их "типа корреляции"), вычисляемых на основе неколичественных и даже смешанных исходных данных. Какой показатель используется, зависит от типа (типов) исходных данных.
Дальнейший анализ матрицы (в том числе редукция, проверка ее положительной полуопределенности, решение проблемы собственных значений, вращение и т.д. - см. конкретные методы) и интерпретация результатов проводятся теми же способами, что и в применяемых методах факторного анализа. В работе "Уткин В.А., Гайдышев И.П., Кобазева О.М. О возможном единообразии приложений и условий реализации факторного анализа // Наука и образование Зауралья, 2001, № 1, с. 33-38." рассматривается факторный анализ в т.ч. и неколичественных данных. Исследовательская статья доступна бесплатно в Интернете. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
12.11.2007 - 17:22
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 15.08.2007 Пользователь №: 4262 |
Спасибо!
А деревья классификации тут применимы? вроде там и количественные и неколичественные переменные могут участвовать без ограничений. Только у меня кроме описания в в пакете Statistica в хелпе про этот метод ничего нет. Может кому попадалась кому толковая статья с примером использования? |
|
13.11.2007 - 21:07
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
А сколько у Вас наблюдений? Как факторный, так и любой другой мультивариантный метод требует не менее 5 (10) наблюдений на одну переменную. Так что если у Вас менее 200 (400) наблюдений лучше факторным анализом не пользоваться (и классификационными деревьями тоже).
Если у Вас наблюдений много, то тогда действительно можно использовать различные показатели "типа корреляции" и затем на полученной матрице делать анализ (правда не уверен, что Statistica это позволит. Кстати, Вам нужен не факторный анализ а анализ главных компонент. Насчет классификационных деревьев - на русском языке я что-то ничего не припомню, обычно статьи идут по тем алгоритмам, которые используются для создания деревьев (CHAID, С4.5, CART и т.п. хорошее введение в методологию (CART) находится в главах 3 и 4 тут http://www.ifpri.org/pubs/microcom/micro3.pdf ). В статистике, мне помнится используется алгоритм QUEST (статьи с его описанием можно посмотреть на вэб-сайте авторов http://www.stat.wisc.edu/~loh/quest.html). Особых сложностей в применении методики нет - делите случайным образом свой набор наблюдений пополам. Строите дерево меняя параметры обрезания ветвей (prune). Когда получаете более-менее логичное дерево (с небольшим количеством ветвей и остутствием конечных узлов с очень малым количеством наблюдений), запоминаете качество классификации. Затем запускаете решающее правило на второй половине данных и проверяете качество классификации. Если оно сильно меньше - начинаете все сначала. Обычно этап проверки забывают и поэтому любят деревья. Они метод хороший. но очень требовательный к размерам выборки (т.е. в Вашем случае 400 наблюдений, минимум - по 200 в группе построения и проверки). |
|
15.11.2007 - 00:17
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 15.08.2007 Пользователь №: 4262 |
Спасибо!
наблюдений маловато - 120 да еще хочется на три отдельных группы разбить где же в медицине много данных набрать? сколько было больных - все наши. что делать-то? |
|
15.11.2007 - 13:27
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Ну вообще-то, нормальные клинические испытания делаются на достаточно большом количестве пациентов и их число определяется на основании формулировки гипотезы ПЕРЕД началом исследования - для этого, кстати аспиранты и соискатели пишут аннотацию - формулируют цели и задачи исследования и описывают протокол. Если люди задумываются на этапе планирования у них потом меньше проблем - но это так, о наболевшем, поскольку мы пытаемся втолковать эти очевидные вещи аспирантам первого года уже лет семь, а воз и ныне там - 100 переменных, 10 больных и "сделайте мне красиво".
Теперь по существу. Можно поступить так: у Вас 40 переменных. Вероятность случайно признать одну из них значимой (по определению) 0,05. Чтобы не сделать ошибку во всех 40 случаях, надо уменьшить порог значимости (в Вашем случае до 0,0013) - это называется метод Бонферрони. Соответственно, делаете попарный анализ всех 40 факторов (логистическая регрессия). Отбираете только те из них, которые имеют значимость (в парном анализе) менее 0,0013 и их включаете в многомерную модель. В принципе, можно при отборе переменных считать, что пограничным значением общей экспериментальной ошибки является не 0,05, а 0,1. Тогда отбирать нужно только те переменные, которые имели значимость 0,003. Если так ничего не получается, я бы рекомендовал вначале сформулировать гипотезу о том, какие переменные могут оказывать влияние на исход (на основании анализа литературы) и затем работать только с ними. |
|