Проблема уменьшения размерности - Форум врачей-аспирантов

Форум врачей-аспирантов

Правила форума

Пользователи

Календарь

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

Добавить ответ в эту тему

Открыть тему

Проблема уменьшения размерности

Tatiana Просмотр профиля	11.11.2007 - 16:34 Сообщение #1
Группа: Пользователи Сообщений: 7 Регистрация: 15.08.2007 Пользователь №: 4262	Здравствуйте! Есть такая задача. Имеются 40 некоторых факторов, выраженных в пятибалльной шкале (степень выраженности). Есть наличие/отсутствие заболевания. Как из 40 выделить факторы, наиболее влияющие на диагноз? Логистическая регрессия дает неубедительные результаты из-за большого количества независимых переменных. Как уменьшить размерность по факторам? Ведь факторный анализ и метод главных компонент применим только к непрерывным величинам имеющим нормальное распределение. заранее благодарю

Игорь Просмотр профиля	12.11.2007 - 06:46 Сообщение #2
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040	Действительно, это требование при вычислении коэффициента корреляции Пирсона. В ряде методов факторного анализа, кстати, применяются ковариации, из которых формируется [дисперсионно-ковариационная] матрица, подлежащая анализу. Однако высказано предположение, что данная матрица может быть сформирована и из других показателей (назовем их "типа корреляции"), вычисляемых на основе неколичественных и даже смешанных исходных данных. Какой показатель используется, зависит от типа (типов) исходных данных. Дальнейший анализ матрицы (в том числе редукция, проверка ее положительной полуопределенности, решение проблемы собственных значений, вращение и т.д. - см. конкретные методы) и интерпретация результатов проводятся теми же способами, что и в применяемых методах факторного анализа. В работе "Уткин В.А., Гайдышев И.П., Кобазева О.М. О возможном единообразии приложений и условий реализации факторного анализа // Наука и образование Зауралья, 2001, № 1, с. 33-38." рассматривается факторный анализ в т.ч. и неколичественных данных. Исследовательская статья доступна бесплатно в Интернете. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

Tatiana Просмотр профиля	12.11.2007 - 17:22 Сообщение #3
Группа: Пользователи Сообщений: 7 Регистрация: 15.08.2007 Пользователь №: 4262	Спасибо! А деревья классификации тут применимы? вроде там и количественные и неколичественные переменные могут участвовать без ограничений. Только у меня кроме описания в в пакете Statistica в хелпе про этот метод ничего нет. Может кому попадалась кому толковая статья с примером использования?

плав Просмотр профиля	13.11.2007 - 21:07 Сообщение #4
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	А сколько у Вас наблюдений? Как факторный, так и любой другой мультивариантный метод требует не менее 5 (10) наблюдений на одну переменную. Так что если у Вас менее 200 (400) наблюдений лучше факторным анализом не пользоваться (и классификационными деревьями тоже). Если у Вас наблюдений много, то тогда действительно можно использовать различные показатели "типа корреляции" и затем на полученной матрице делать анализ (правда не уверен, что Statistica это позволит. Кстати, Вам нужен не факторный анализ а анализ главных компонент. Насчет классификационных деревьев - на русском языке я что-то ничего не припомню, обычно статьи идут по тем алгоритмам, которые используются для создания деревьев (CHAID, С4.5, CART и т.п. хорошее введение в методологию (CART) находится в главах 3 и 4 тут http://www.ifpri.org/pubs/microcom/micro3.pdf ). В статистике, мне помнится используется алгоритм QUEST (статьи с его описанием можно посмотреть на вэб-сайте авторов http://www.stat.wisc.edu/~loh/quest.html). Особых сложностей в применении методики нет - делите случайным образом свой набор наблюдений пополам. Строите дерево меняя параметры обрезания ветвей (prune). Когда получаете более-менее логичное дерево (с небольшим количеством ветвей и остутствием конечных узлов с очень малым количеством наблюдений), запоминаете качество классификации. Затем запускаете решающее правило на второй половине данных и проверяете качество классификации. Если оно сильно меньше - начинаете все сначала. Обычно этап проверки забывают и поэтому любят деревья. Они метод хороший. но очень требовательный к размерам выборки (т.е. в Вашем случае 400 наблюдений, минимум - по 200 в группе построения и проверки).

Tatiana Просмотр профиля	15.11.2007 - 00:17 Сообщение #5
Группа: Пользователи Сообщений: 7 Регистрация: 15.08.2007 Пользователь №: 4262	Спасибо! наблюдений маловато - 120 да еще хочется на три отдельных группы разбить где же в медицине много данных набрать? сколько было больных - все наши. что делать-то?

плав Просмотр профиля	15.11.2007 - 13:27 Сообщение #6
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	Ну вообще-то, нормальные клинические испытания делаются на достаточно большом количестве пациентов и их число определяется на основании формулировки гипотезы ПЕРЕД началом исследования - для этого, кстати аспиранты и соискатели пишут аннотацию - формулируют цели и задачи исследования и описывают протокол. Если люди задумываются на этапе планирования у них потом меньше проблем - но это так, о наболевшем, поскольку мы пытаемся втолковать эти очевидные вещи аспирантам первого года уже лет семь, а воз и ныне там - 100 переменных, 10 больных и "сделайте мне красиво". Теперь по существу. Можно поступить так: у Вас 40 переменных. Вероятность случайно признать одну из них значимой (по определению) 0,05. Чтобы не сделать ошибку во всех 40 случаях, надо уменьшить порог значимости (в Вашем случае до 0,0013) - это называется метод Бонферрони. Соответственно, делаете попарный анализ всех 40 факторов (логистическая регрессия). Отбираете только те из них, которые имеют значимость (в парном анализе) менее 0,0013 и их включаете в многомерную модель. В принципе, можно при отборе переменных считать, что пограничным значением общей экспериментальной ошибки является не 0,05, а 0,1. Тогда отбирать нужно только те переменные, которые имели значимость 0,003. Если так ничего не получается, я бы рекомендовал вначале сформулировать гипотезу о том, какие переменные могут оказывать влияние на исход (на основании анализа литературы) и затем работать только с ними.

« Предыдущая тема · Медицинская статистика · Следующая тема »

Добавить ответ в эту тему

Открыть тему

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Форум IP.Board © 2024 IPS, Inc.