Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Проблема уменьшения размерности
Tatiana
сообщение 11.11.2007 - 16:34
Сообщение #1





Группа: Пользователи
Сообщений: 7
Регистрация: 15.08.2007
Пользователь №: 4262



Здравствуйте!
Есть такая задача.
Имеются 40 некоторых факторов, выраженных в пятибалльной шкале (степень выраженности). Есть наличие/отсутствие заболевания. Как из 40 выделить факторы, наиболее влияющие на диагноз? Логистическая регрессия дает неубедительные результаты из-за большого количества независимых переменных.
Как уменьшить размерность по факторам? Ведь факторный анализ и метод главных компонент применим только к непрерывным величинам имеющим нормальное распределение.
заранее благодарю
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 12.11.2007 - 06:46
Сообщение #2





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Действительно, это требование при вычислении коэффициента корреляции Пирсона. В ряде методов факторного анализа, кстати, применяются ковариации, из которых формируется [дисперсионно-ковариационная] матрица, подлежащая анализу. Однако высказано предположение, что данная матрица может быть сформирована и из других показателей (назовем их "типа корреляции"), вычисляемых на основе неколичественных и даже смешанных исходных данных. Какой показатель используется, зависит от типа (типов) исходных данных.

Дальнейший анализ матрицы (в том числе редукция, проверка ее положительной полуопределенности, решение проблемы собственных значений, вращение и т.д. - см. конкретные методы) и интерпретация результатов проводятся теми же способами, что и в применяемых методах факторного анализа.

В работе "Уткин В.А., Гайдышев И.П., Кобазева О.М. О возможном единообразии приложений и условий реализации факторного анализа // Наука и образование Зауралья, 2001, № 1, с. 33-38." рассматривается факторный анализ в т.ч. и неколичественных данных. Исследовательская статья доступна бесплатно в Интернете.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Tatiana
сообщение 12.11.2007 - 17:22
Сообщение #3





Группа: Пользователи
Сообщений: 7
Регистрация: 15.08.2007
Пользователь №: 4262



Спасибо!
А деревья классификации тут применимы?
вроде там и количественные и неколичественные переменные могут участвовать без ограничений.
Только у меня кроме описания в в пакете Statistica в хелпе про этот метод ничего нет.
Может кому попадалась кому толковая статья с примером использования?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 13.11.2007 - 21:07
Сообщение #4





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



А сколько у Вас наблюдений? Как факторный, так и любой другой мультивариантный метод требует не менее 5 (10) наблюдений на одну переменную. Так что если у Вас менее 200 (400) наблюдений лучше факторным анализом не пользоваться (и классификационными деревьями тоже).
Если у Вас наблюдений много, то тогда действительно можно использовать различные показатели "типа корреляции" и затем на полученной матрице делать анализ (правда не уверен, что Statistica это позволит. Кстати, Вам нужен не факторный анализ а анализ главных компонент.
Насчет классификационных деревьев - на русском языке я что-то ничего не припомню, обычно статьи идут по тем алгоритмам, которые используются для создания деревьев (CHAID, С4.5, CART и т.п. хорошее введение в методологию (CART) находится в главах 3 и 4 тут http://www.ifpri.org/pubs/microcom/micro3.pdf ). В статистике, мне помнится используется алгоритм QUEST (статьи с его описанием можно посмотреть на вэб-сайте авторов http://www.stat.wisc.edu/~loh/quest.html). Особых сложностей в применении методики нет - делите случайным образом свой набор наблюдений пополам. Строите дерево меняя параметры обрезания ветвей (prune). Когда получаете более-менее логичное дерево (с небольшим количеством ветвей и остутствием конечных узлов с очень малым количеством наблюдений), запоминаете качество классификации. Затем запускаете решающее правило на второй половине данных и проверяете качество классификации. Если оно сильно меньше - начинаете все сначала. Обычно этап проверки забывают и поэтому любят деревья. Они метод хороший. но очень требовательный к размерам выборки (т.е. в Вашем случае 400 наблюдений, минимум - по 200 в группе построения и проверки).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Tatiana
сообщение 15.11.2007 - 00:17
Сообщение #5





Группа: Пользователи
Сообщений: 7
Регистрация: 15.08.2007
Пользователь №: 4262



Спасибо!
наблюдений маловато - 120
да еще хочется на три отдельных группы разбить
где же в медицине много данных набрать?
сколько было больных - все наши.
что делать-то?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 15.11.2007 - 13:27
Сообщение #6





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Ну вообще-то, нормальные клинические испытания делаются на достаточно большом количестве пациентов и их число определяется на основании формулировки гипотезы ПЕРЕД началом исследования - для этого, кстати аспиранты и соискатели пишут аннотацию - формулируют цели и задачи исследования и описывают протокол. Если люди задумываются на этапе планирования у них потом меньше проблем - но это так, о наболевшем, поскольку мы пытаемся втолковать эти очевидные вещи аспирантам первого года уже лет семь, а воз и ныне там - 100 переменных, 10 больных и "сделайте мне красиво".
Теперь по существу. Можно поступить так: у Вас 40 переменных. Вероятность случайно признать одну из них значимой (по определению) 0,05. Чтобы не сделать ошибку во всех 40 случаях, надо уменьшить порог значимости (в Вашем случае до 0,0013) - это называется метод Бонферрони. Соответственно, делаете попарный анализ всех 40 факторов (логистическая регрессия). Отбираете только те из них, которые имеют значимость (в парном анализе) менее 0,0013 и их включаете в многомерную модель. В принципе, можно при отборе переменных считать, что пограничным значением общей экспериментальной ошибки является не 0,05, а 0,1. Тогда отбирать нужно только те переменные, которые имели значимость 0,003.
Если так ничего не получается, я бы рекомендовал вначале сформулировать гипотезу о том, какие переменные могут оказывать влияние на исход (на основании анализа литературы) и затем работать только с ними.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему