Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Проблема уменьшения размерности
Tatiana
сообщение 11.11.2007 - 16:34
Сообщение #1





Группа: Пользователи
Сообщений: 7
Регистрация: 15.08.2007
Пользователь №: 4262



Здравствуйте!
Есть такая задача.
Имеются 40 некоторых факторов, выраженных в пятибалльной шкале (степень выраженности). Есть наличие/отсутствие заболевания. Как из 40 выделить факторы, наиболее влияющие на диагноз? Логистическая регрессия дает неубедительные результаты из-за большого количества независимых переменных.
Как уменьшить размерность по факторам? Ведь факторный анализ и метод главных компонент применим только к непрерывным величинам имеющим нормальное распределение.
заранее благодарю
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
плав
сообщение 13.11.2007 - 21:07
Сообщение #2





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



А сколько у Вас наблюдений? Как факторный, так и любой другой мультивариантный метод требует не менее 5 (10) наблюдений на одну переменную. Так что если у Вас менее 200 (400) наблюдений лучше факторным анализом не пользоваться (и классификационными деревьями тоже).
Если у Вас наблюдений много, то тогда действительно можно использовать различные показатели "типа корреляции" и затем на полученной матрице делать анализ (правда не уверен, что Statistica это позволит. Кстати, Вам нужен не факторный анализ а анализ главных компонент.
Насчет классификационных деревьев - на русском языке я что-то ничего не припомню, обычно статьи идут по тем алгоритмам, которые используются для создания деревьев (CHAID, С4.5, CART и т.п. хорошее введение в методологию (CART) находится в главах 3 и 4 тут http://www.ifpri.org/pubs/microcom/micro3.pdf ). В статистике, мне помнится используется алгоритм QUEST (статьи с его описанием можно посмотреть на вэб-сайте авторов http://www.stat.wisc.edu/~loh/quest.html). Особых сложностей в применении методики нет - делите случайным образом свой набор наблюдений пополам. Строите дерево меняя параметры обрезания ветвей (prune). Когда получаете более-менее логичное дерево (с небольшим количеством ветвей и остутствием конечных узлов с очень малым количеством наблюдений), запоминаете качество классификации. Затем запускаете решающее правило на второй половине данных и проверяете качество классификации. Если оно сильно меньше - начинаете все сначала. Обычно этап проверки забывают и поэтому любят деревья. Они метод хороший. но очень требовательный к размерам выборки (т.е. в Вашем случае 400 наблюдений, минимум - по 200 в группе построения и проверки).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему