![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 15.08.2007 Пользователь №: 4262 ![]() |
Здравствуйте!
Есть такая задача. Имеются 40 некоторых факторов, выраженных в пятибалльной шкале (степень выраженности). Есть наличие/отсутствие заболевания. Как из 40 выделить факторы, наиболее влияющие на диагноз? Логистическая регрессия дает неубедительные результаты из-за большого количества независимых переменных. Как уменьшить размерность по факторам? Ведь факторный анализ и метод главных компонент применим только к непрерывным величинам имеющим нормальное распределение. заранее благодарю |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
А сколько у Вас наблюдений? Как факторный, так и любой другой мультивариантный метод требует не менее 5 (10) наблюдений на одну переменную. Так что если у Вас менее 200 (400) наблюдений лучше факторным анализом не пользоваться (и классификационными деревьями тоже).
Если у Вас наблюдений много, то тогда действительно можно использовать различные показатели "типа корреляции" и затем на полученной матрице делать анализ (правда не уверен, что Statistica это позволит. Кстати, Вам нужен не факторный анализ а анализ главных компонент. Насчет классификационных деревьев - на русском языке я что-то ничего не припомню, обычно статьи идут по тем алгоритмам, которые используются для создания деревьев (CHAID, С4.5, CART и т.п. хорошее введение в методологию (CART) находится в главах 3 и 4 тут http://www.ifpri.org/pubs/microcom/micro3.pdf ). В статистике, мне помнится используется алгоритм QUEST (статьи с его описанием можно посмотреть на вэб-сайте авторов http://www.stat.wisc.edu/~loh/quest.html). Особых сложностей в применении методики нет - делите случайным образом свой набор наблюдений пополам. Строите дерево меняя параметры обрезания ветвей (prune). Когда получаете более-менее логичное дерево (с небольшим количеством ветвей и остутствием конечных узлов с очень малым количеством наблюдений), запоминаете качество классификации. Затем запускаете решающее правило на второй половине данных и проверяете качество классификации. Если оно сильно меньше - начинаете все сначала. Обычно этап проверки забывают и поэтому любят деревья. Они метод хороший. но очень требовательный к размерам выборки (т.е. в Вашем случае 400 наблюдений, минимум - по 200 в группе построения и проверки). |
|
![]() |
![]() |
![]() ![]() |