Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >  
Добавить ответ в эту темуОткрыть тему
> Логлинейный анализ, есть ли смысл
marinakom
сообщение 30.01.2008 - 11:31
Сообщение #1





Группа: Пользователи
Сообщений: 7
Регистрация: 30.01.2008
Пользователь №: 4760



Коллеги, поделитесь опытом, есть ли смысл применять лог-линейный анализ в следующей ситуации:
переменная отклика бинарная: болен - здоров
независимые предикторы: бинарные или порядковые (3-5 градаций), реже номинальные.
Модели логистической регрессии выходят все очень низкодетерминированные, хоть и значимые, R^2 порядка 0,1-0,3. Правда это имеет и некоторое содержательное объяснение: речь идёт о заболеваемости разными группами заболеваний в зависимости от факторов образа жизни (анкетный материал). Часто в литературе рекомендуют применять именно логлинейный анализ для ситуаций, когда все данные качественные, в частности в социологии ( Толстова, Мирзоев). В нашей медицине его (логлин) реально кто-нибудь видел? Как описывать полученное, какими словами и т.п. Как ни крути, а логистическая регрессия в плане описания более удобна и понятна, вот и раздумываю, имеет ли смысл усложнять ситуацию.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 31.01.2008 - 17:21
Сообщение #2





Группа: Пользователи
Сообщений: 1218
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



В вашей ситуации логлинейный анализ вряд ли подойдет. Не исключено, что может повезти и сработает какое-то взаимодействие входов таблицы, но скорее добавление в анализ новых переменных сделает картину еще более размытой. Статистика "размажется" по огромному числу взаимодействий, а число степеней свободы будет очень велико. С логистической регрессией я работаю редко, поэтому не могу подсказать точно где это сделать, но должны быть программы с алгоритмами автоматического выбора лучшей модели для множественной логистической регрессии. Это первый вариант. Другой вариант - попробовать вытащить из связей предикторов латентные обобщающие переменные, возможно они окажутся более сильными предикторами + удастся обобщить данные. В качестве таких переменных можно использовать шкалы, полученные в ходе множественного анализа соответствий (multiple correspondence analysis) или других ординационных текхник. В SPSS, например, есть алгоритм Categorical PCA, позволяющий обрабатывать одновременно количественные, порядковые и качественные переменные. Этот путь требует специфической практики многомерного анализа данных.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
marinakom
сообщение 1.02.2008 - 00:10
Сообщение #3





Группа: Пользователи
Сообщений: 7
Регистрация: 30.01.2008
Пользователь №: 4760



Спасибо за участие к моим проблемам! Отвечаю и раздумываю по порядку. Экспериментирую с логлинейным анализом с ограниченным набором переменных ( по 4 шт, где по другим методам анализа или по здравому смыслу вероятны взаимодействия). Это чтоб не «размазалась» статистика. Да и объём наблюдений, как водится в медицине не тысячи, а сотни. И кое-где значимые взаимодействия 3х переменных, типа var1*var2*var3 выходят. Но я задаю кросс-переменные и в логистической регрессии. И они иногда в модель включаются. Не всегда вот взаимодействия, полученные этими двумя методами исследования, совпадают.

Логистическая регрессия. С автоматическим выбором предикторов нет проблем. И вообще проблема не с получением модели (я их часто делаю, да и в западных статьях это достаточно популярный метод), а с её качеством. Чтоб не быть голословной привожу синтаксис ( я в SPSS работаю; пусть var1 -- зависимая переменная, остальные -- независимые).
LOGISTIC REGRESSION VAR= var1
/METHOD=FSTEP(WALD) var2 var3 var4 var2 * var3 var4 *var2 var3 * var4
/PRINT=CI(95)
/CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5) .


fstep и дает пошаговый отбор с включением, и наоборот можно bstep; по обстоятельствам смотрю.
Логлинейный анализ с тем же набором переменных:

HILOGLINEAR
var1(0 1) var2(0 1) var3(0 1) var4(0 1)
/METHOD=BACKWARD
/CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(.5)
/PRINT=FREQ RESID
/DESIGN .

Но! если описывая логистическую регрессию можно привести exp(b), интерпретируемое как ОШ, то от логлинейного анализа мы можем указать в текстовом отчете только что выявили значимые взаимодействия таких-то предикторов и всё. Или я чего-то недооцениваю?

Ползём дальше. Multiple correspondence analysis. В множественном варианте он у меня только в Statistica идёт. В SPSS (более любимым мною) -- только с двумя переменными. И в данном исследовании анализ соответствий (с двумя переменными по 5-7 градаций) давал некоторые интересные визуализации. Честно говоря, я его ( и двумерный и многомерный) вообще применяю только как разведочный анализ и или способ визуализации и не более. Это сторона интерпретаций. А в техническом плане (для MCA), может, у меня версия SPSS старовата? Судя по их инфoрмации на сайте spss.ru, оно так и есть -- рекламируют MCA для 14 версии. . . Я 11.5 использую, т.к. по жизни консерватор, ни за что не перехожу ни на что новое, пока не убеждаюсь, что из старого совсем уж выросла и что имеющееся новое не совсем уж дрянь. Впрочем, у меня есть и 15 версия, немного тестировала я её, но она стоит на стареньком компе, где в данный момент монитор глючит (то мои временные трудности). Или может как-то в обход можно из синтаксиса выудить multiple correspondence analysis ( типа на одном этапе сохранив burt matrix, а на следующем собственно анализ проведя)? Если да, буду весьма благодарна подсказке.

И Categorical PCA, я так понимаю, в более поздних версиях реализован. . . Плюс надо осознать, что за ним стоит.. . Я как раз ( в отличие, видимо, от nokh) компонентный анализ и в классическом-то варианте нечасто применяю . . .

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 1.02.2008 - 22:33
Сообщение #4





Группа: Пользователи
Сообщений: 1218
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Ну вот, раз дела обстоят так, то по части регрессии от меня толку мало smile.gif, а она все равно кажется мне здесь более уместной. По логлинейному. Модель логлинейного анализа формулируется в логитах, а логит - натуральный логарифм отношения шансов. Поэтому перейти к ОШ просто. Здесь показано как это сделать, кстати по результатам расчетов в SPSS:
http://www2.chass.ncsu.edu/garson/pa765/logit.htm
Там же описан неиерархический вариант анализа с зависимыми категорями, который возможно вам более подойдет, но я им не пользовался. Это вообще хороший ресурс (http://www2.chass.ncsu.edu/garson/pa765/statnote.htm), все четко по полочкам разложено.

Что касается MCA, то действительно он в SPSS не на виду. Эта техника многократно и независимо открывалась и имеет разные названия. В SPSS это - Homogeneity analysis. В деталях он может отличаться от других алгоритмов MCA, но в принципе - то же самое. Он, как и CATPCA находится в модуле Data reduction - Optimal scaling (есть даже в версии 10.0). Там если выбрать что все переменные номинальные - будет Homogeneity analysis, иначе - CATPCA. В последней есть возможность тонкой настройки типа данных и способа дискретизатии. Я обычно для количественных данных выбираю numeric, а в качестве дискретизации - ранжирование. Для номинальных категорий - nominal, а дискретизацию не заполняю (Unspesified). Читал, что для порядковых переменных лучше выбирать Spline ordinal: реальные расстояния между упорядоченными категориями могут быть разными и алгоритм сам как-то это вычисляет, потом можно посмотреть. С практической точки зрения есть сложность с выбором числа компонент (здесь в отличие от классического PCA его нужно четко задать, как в факторном): если много номинальных категорий и/или слабая связь между переменными Scree plot (нужно строить самому) получается без выраженных изломов. Делаю так: (1) сначала задаю все компоненты, т.е. сколько переменных, (2) строю Scree plot и определяюсь с числом компонент, (3) в новом анализе выставляю это число и сохраняю преобразованные переменные (в менюшке Save нужно отметить), (4) в модуле классического PCA задаю то же число компонент и выполняю PCA с варимакс-вращением для преобразованных переменных, (5) в матрице нагрузок выделяю жирным значения более 0,3 и интерпретирую компоненты, (6) сохраняю шкалы, чтобы потом с ними работать или строить biplot средствами более удобных в работе с графикой программ. Схему придумал не сам - вычитал у зарубежных психологов в статье. Эти ухищрения нужны чтобы выполнить вращение, которое улучшает интерпретируемость, но отсутствует в модуле CATPCA. Хоть это и разведочный анализ, результаты обычно не разочаровывают: интересные и логичные интерпретации выходят. Попробуйте!

И последнее. Многие вопросы по SPSS можно задать в сообществе: http://community.livejournal.com/ru_spss/
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
marinakom
сообщение 2.02.2008 - 01:12
Сообщение #5





Группа: Пользователи
Сообщений: 7
Регистрация: 30.01.2008
Пользователь №: 4760



Разные виды моделей (анализов, подходов). Не спорю, может регрессионная модель и окажется наиболее толковой. Но почему бы не попробовать и другие подходы? Благо времени и сил это нынче не очень много занимает. Не на калькуляторе же вручную считаем, как когда-то давным-давно . . .

Ресурс посмотрела. Хороший. Спасибо. Вообще я многие вещи изучала по подобным сайтам западных универов. Уровень сложности и подробности изложения можно любой найти.

CATPCA -- посмотрела. Всё работает! Спасибо. Scree plot, понятно, что и в экселе строиться. А вот идея сохранить преобразованные переменные и по ним отдельно вращать -- красивая. С ходу не догадаешься.
Я пока бегло посмотрела, по переменным, где содержательные интерпретации очевидные. Надо ещё будет поэкспериментировать с настройками ( у меня чуток иначе пошло: дискретизация не Unspesified, а RANKING), сравнить с картинкой по тем же переменным из Статистики, и подчитать еще ( последенее процесс бесконечный). . .
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 5.02.2008 - 18:39
Сообщение #6





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Как только было написано, что есть переменная отклика - это практически автоматом означает, что необходим регресионный метод анализа. Оптимальный вариант в данном случае - логистическая регрессия с превращением порядковых переменных в переменные-пустышки (dummy. Логистическая регрессия не очень хорошо приспособлена для ординальных независимых переменных). Что касается логлинейного анализа - то он хорош для определения связей между переменными, однако в логлинейном анализе надо крайне аккуратно относится к автоматическому выбору моделей, чаще всего необходимо подбирать наиболее адекватную модель вручную путем построения всего набора вложенных моделей.
Насчет же варимакс вращения после PCA качественных переменных - что-то странное. Метод максимизирует дисперсию (весь факторный анализ параметрический) - и тут у нас мгновенно идет нарушение допущения гомоскедаксичности. Мне кажется, вращение не зря убрали из CATPCA - что касается того, что идея почерпнута в публикации - не забывайте, что в среднем в западных публикациях примерно 50% содержат статистические ошибки.
Если уже действительно надо делать аналог факторного анализа для качественных переменных - корреспондентский анализ именно для этого и разрабатывался, проблема с многоуровневыми переменными решается так же, как и в случае логистической регрессии
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 5.02.2008 - 23:06
Сообщение #7





Группа: Пользователи
Сообщений: 1218
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



В свое время читал, что вращения - это для факторных моделей, но не ГК. А сейчас все поголовно вращают любые решения. Кто прав? Я не математик, поэтому могу руководствоваться здесь только авторитетными мнениями. Привожу ссылку на работу, из которой заимствовал способ вращения: www.datatheory.nl/pages/Maniserajca.pdf (описание алгоритма вращения - на стр. 15-16). 3 автора с математических отделений двух университетов - я им верю.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 6.02.2008 - 01:56
Сообщение #8





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Вопрос веры - это вопрос, который не обсуждается.
Для всех остальных
1) Не понятно, где она была опубликована и была ли опубликована вообще (приведенная ссылка - это черновик статьи, см. заметки для авторов в литературе) - была ли эта статья рецензирована?
2) Кафедра педагогики Лейденского университета вряд ли может быть описана как "математическое отделение университета", хотя в числе авторов есть одна, которая также была соавтором работ с создателями программы CATPCA
3) Непонятно, почему нет обычного в таких случаях математического обоснования разработанной методики или - что принято в биостатистике - результатов вычислительного эксперимента. В таком случае подход был бы более оправданным
3) Обоснования использования метода вращения в статье нет
4) "В противоположность номинальным или ординальным переменным в анализе, трансформированные переменные имеют метрические свойства" (стр. 6) - иными словами, магическое преобразование и над полом (людей) можно совершать математические операции сложения и вычитания, а также объяснять чему равен пол 1,5.
Сказанное выше не означает, что использованный подход неправильный (или правильный), а лишь, то что остается ряд вопросов, которые должен задавать себе любой человек, пытающийся использовать нестандартные подходы к анализу данных. Общее правило сохраняется - если кто-то готов, что ему зададут вопросы почему он делал так, а не иначе, и он сможет на них _обоснованно_ ответить, а не сослаться на авторитеты, то подобный подход он использовать может. Если же на вопрос - "почему так?" идет ссылка на Ивана Ивановича (Джона Смита), то оппоненты могут усомниться в способности автора правильно выбирать и использовать методы (ибо всегда можно найти 333 отличия между опубликованной пусть даже в рецензируемом журнале статьей и описываемой задачей).
В принципе, есть вообще очень простой способ анализировать факторным анализом любые данные - делаете корреляции, корректируете их так, чтобы они были сопоставимы с Пирсоновским коэффициентом корреляции (т.е. для бинарных используете тетрахорический коэффициент корреляции, для качественных/количественных - точечно-бисериальный, для упорядоченных Спирмена - только затем их домножаете на специальные множители - их можно найти во многих математических справочниках). После этого корреляционную решетку анализируете как в обычном случае (со всеми вращениями и т.п.). Это, конечно, квази решение, но концептуально проще и используется, как минимум, с начала 1970х годов (т.е. когда CATPCA не было и в помине). И, самое главное, всегда можно объяснить что и как делалось (я подозреваю, что идеи в описанной выше статье близки к этому старому подходу, судя по замечанию 4)


Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 6.02.2008 - 09:35
Сообщение #9





Группа: Пользователи
Сообщений: 1141
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(nokh @ 5.02.2008 - 23:06) *
В свое время читал, что вращения - это для факторных моделей, но не ГК. А сейчас все поголовно вращают любые решения. Кто прав? Я не математик, поэтому могу руководствоваться здесь только авторитетными мнениями. Привожу ссылку на работу, из которой заимствовал способ вращения: www.datatheory.nl/pages/Maniserajca.pdf (описание алгоритма вращения - на стр. 15-16). 3 автора с математических отделений двух университетов - я им верю.

Сначала персоналии:
Marica Manisera - аспирантка http://www.unibs.it/on-line/dmq/Home/Perso.../scheda913.html
Elise Dusseldorp - PhD, преподаватель http://www.datatheory.nl/pages/dusseldorp.html
Anita van der Kooij - PhD, разработчик SPSS http://www.datatheory.nl/pages/kooij.html
Групповое фото http://www.datatheory.nl/pages/staff.html
Два последних автора - авторитетные ученые в данной области. Но работа исследовательская. Не опубликована. Ссылаться нельзя. Рекомендуется подождать публикации.
Цитата(плав @ 6.02.2008 - 01:56) *
В принципе, есть вообще очень простой способ анализировать факторным анализом любые данные - делаете корреляции, корректируете их так, чтобы они были сопоставимы с Пирсоновским коэффициентом корреляции (т.е. для бинарных используете тетрахорический коэффициент корреляции, для качественных/количественных - точечно-бисериальный, для упорядоченных Спирмена - только затем их домножаете на специальные множители - их можно найти во многих математических справочниках). После этого корреляционную решетку анализируете как в обычном случае (со всеми вращениями и т.п.). Это, конечно, квази решение, но концептуально проще и используется, как минимум, с начала 1970х годов (т.е. когда CATPCA не было и в помине). И, самое главное, всегда можно объяснить что и как делалось (я подозреваю, что идеи в описанной выше статье близки к этому старому подходу, судя по замечанию 4)

Плав прав. Была публикация на эту тему: Уткин В.А., Гайдышев И.П., Кобазева О.М. О возможном единообразии приложений и условий реализации факторного анализа // Наука и образование Зауралья, 2001, № 1, с. 33-38. Но журнал периферийный - не найти. Сейчас электронная ссылка убрана в связи с регистрацией нового домена (несколько дней примерно, пока оплата придет). Как закончится процедура, обязательно выложу и сообщу, где взять. Либо могу по email прислать.
Насчет 70-х годов - не знаю, работ не встречал (если кто знает названия, просьба поделиться). Так что не исключено, что идея факторного анализа произвольных (качественных и количественных), в том числе смешанных, данных, принадлежит д.м.н. В.А. Уткину.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
marinakom
сообщение 6.02.2008 - 11:11
Сообщение #10





Группа: Пользователи
Сообщений: 7
Регистрация: 30.01.2008
Пользователь №: 4760



Господа! Наша дискуссия разделилась на две ветви. По первой части, непосредственно озвученной мною в первом сообщении ( логистическая регрессия и логлинейный анализа для изучения зависимости заболеваемости студентов от факторов образа жизни) я получила полезную ссылку +, судя по недавнему сообщению Плав`а, подтверждение моей гипотезы, что логлинейный анализ хорош именно для выявления связей между переменными. Особенно удачно в моем примере выходит, когда в эту связку, выявленную логлинейным анализом, попадает переменная, бывшая зависимой в модели логистической регрессии. Для выбора окончательной модели (при любом способе моделирования) всё равно необходим здравый смысл и содержательная оценка получаемых результатов. Так что вроде по этим двум методам непротиворечивые, взаимодополняющие результаты выходят.
Второе направление дискуссии -- разные варианты факторного анализа и близкие к нему методы мне менее знакомы. На данный момент для меня осталось загадкой, как происходят преобразования шкал (из 0 и 1 в моем случае, в какие дробные числа) в методе CatPCA. Однако ж, что не менее удивительно, процент объясненной дисперсии по двум новоиспечённым осям в методе CatPCA в SPSS и многомерном корреспондентском анализе в Statistica с одни и тем же набором переменных совпали один в один, хотя MCA основан на мере хи-квадрат ( логичной для таблиц сопряженности). На ближайшую неделю-другую вынуждена отложить эти эксперименты: никуда не денешься, приходится расставлять приоритеты в своих работах и увлечениях. После многих лет работы в практическом здравоохранении я попала в технический вуз, где достаточно строго относятся к математическим идеям и высказываниям, поэтому и вникать хочу основательно, а не только на пакетно-пользовательском уровне.
По поводу квази-решения, предложенного Плав`ом. Хоть SPSS более популярен у маркетологов и социологов, чем у медиков, вот ссылка синтаксиса для SPSS, где реализована идея факторного анализа по корреляциям Спирмена.
http://www.spsstools.ru/Syntax/FA/FAwithSp...Correlation.txt
Там довольно своеобразный файл матрицы для факторного анализа конструируется, в котором первые три строки (cases) среднее, SD, N по каждой переменной, далее попарные корреляции по каждой переменной ( Спирмена или Кендалла, какие заявить; можно и другие меры связи засунуть). А что за специальные множители, г-н Плав, можно пояснить (хотя бы на уровне ключевых слов)?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 6.02.2008 - 13:27
Сообщение #11





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Игорь @ 6.02.2008 - 09:35) *
Насчет 70-х годов - не знаю, работ не встречал (если кто знает названия, просьба поделиться). Так что не исключено, что идея факторного анализа произвольных (качественных и количественных), в том числе смешанных, данных, принадлежит д.м.н. В.А. Уткину.


Методика факторного анализа качественных (бинарных) переменных была разработана еще в Kelly в 50х годах (для анализа репертуарных решеток), а идея совместного анализа качественных и количественных переменных описана, например, в
Jahn, W, Vahle H. Die Faktorenanalyse. Verlag die Wirtschaft, Berlin, 1970. Поскольку это обзорная прикладная книга, сама методика явно появилась еще раньше. Книга продавалась в СССР и, с моей точки зрения, является одним из лучших введений в факторный анализ (я с ее помощью делал факторный анализ с помощью калькулятора - там были методики "ручного расчета").

Цитата(marinakom @ 6.02.2008 - 11:11) *
По поводу квази-решения, предложенного Плав`ом. Хоть SPSS более популярен у маркетологов и социологов, чем у медиков, вот ссылка синтаксиса для SPSS, где реализована идея факторного анализа по корреляциям Спирмена.
http://www.spsstools.ru/Syntax/FA/FAwithSp...Correlation.txt
Там довольно своеобразный файл матрицы для факторного анализа конструируется, в котором первые три строки (cases) среднее, SD, N по каждой переменной, далее попарные корреляции по каждой переменной ( Спирмена или Кендалла, какие заявить; можно и другие меры связи засунуть). А что за специальные множители, г-н Плав, можно пояснить (хотя бы на уровне ключевых слов)?

Подобные матрицы формируются потому, что именно такой формат данных является входным для факторного анализа в этих программах (аналогичный формат и в SAS), хотя, строго говоря, нужна только матрица корреляций. Проблема в том, что если взять нормально распределенные данные и рассчитать коэффициент корреляции Пирсона (обычный) и Спирмена, то их значения будут различными. Для коррекции используются множители, которые можно найти в Математической энциклопедии. Формулы для коэффициентов Кэнделла (тау) и Спирмена (rho_s) выглядят так:
rho=sin((pi/2)*tau)=2*sin((pi/6)*rho_s) (http://www.statacorp.com/statalist/archive/2002-09/msg00000.html)
Для бинарных переменных используется тетрахорический коэффициент корреляции Пирсона
rho=cos(pi*sqrt(B*C)/(sqrt(BC)+sqrt(AD)) (см. ссылку на книгу Jahn и Vahle выше), считается, что он примерно равен коэффициенту Пирсона (product-moment) при медианом делении распределения для бинаризации.
интересное обсуждение разных вариантов категоризации переменных для PCA на основе вычислительного эксперимента представлены С.Колениковым (http://www.unc.edu/~skolenik/talks/StatLunch/statlunch-kolenikov-030304.pdf). Не призываю ему "верить", но посмотрите, какой подход используется если надо сравнивать разные методы.

Цитата(Игорь @ 6.02.2008 - 09:35) *
Сначала персоналии:
Marica Manisera - аспирантка http://www.unibs.it/on-line/dmq/Home/Perso.../scheda913.html
Elise Dusseldorp - PhD, преподаватель http://www.datatheory.nl/pages/dusseldorp.html
Anita van der Kooij - PhD, разработчик SPSS http://www.datatheory.nl/pages/kooij.html
Групповое фото http://www.datatheory.nl/pages/staff.html
Два последних автора - авторитетные ученые в данной области. Но работа исследовательская. Не опубликована. Ссылаться нельзя. Рекомендуется подождать публикации.

Ой не люблю я проходиться по персоналиям, но ничего не могу поделать, не я начал:
SPSS была разработана в конце 1960х годов в Университете Чикаго, соответственно, Anita van der Kooij никак не может быть ее "разработчиком", она принимала участие в разработке программного обеспечения для одного из модулей (который, кстати, разрабатывался ее консультантами по кандидатской (PhD) диссертации, защищенной в 2007 году по психологии - не по биостатистике). В списке литературы статей в рецензируемых журналах я не нашел - только статьи в сборниках и документы- описания алгоритмов.
Elise Dusseldorp также была учеником Meulman, под руководством которого защитила диссертацию в 2001. Большинство опубликованных работ в рецензируемых журналах посвящены психологии. Две статьи можно отнести к работам в области биостатистики - одна в журнале Psychometrica, другая - в Methods of Information in Medicine. Второй журнал не с самым высоким импакт-фактором.
Иными словами, речь идет о молодых ученых, которые, вполне возможно, абсолютно правы в своих подходах, но ссылаться на их авторитет как на непререкаемый я бы не рекомендовал. Честно говоря, я бы не рекомендовал бездумно использовать и получаемые на этом форуме рекомендации - будь то мои, Игоря или еще кого иного. Наука не базируется на авторитетах, она базируется на фактах и логике. Иными словами, все, что я написал выше об ответственности исследователя за использованный метод остается в силе.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 13.02.2008 - 12:19
Сообщение #12





Группа: Пользователи
Сообщений: 1141
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(плав @ 6.02.2008 - 01:56) *
В принципе, есть вообще очень простой способ анализировать факторным анализом любые данные - делаете корреляции, корректируете их так, чтобы они были сопоставимы с Пирсоновским коэффициентом корреляции (т.е. для бинарных используете тетрахорический коэффициент корреляции, для качественных/количественных - точечно-бисериальный, для упорядоченных Спирмена - только затем их домножаете на специальные множители - их можно найти во многих математических справочниках). После этого корреляционную решетку анализируете как в обычном случае (со всеми вращениями и т.п.). Это, конечно, квази решение, но концептуально проще и используется, как минимум, с начала 1970х годов (т.е. когда CATPCA не было и в помине). И, самое главное, всегда можно объяснить что и как делалось (я подозреваю, что идеи в описанной выше статье близки к этому старому подходу, судя по замечанию 4)

При использовании в факторном анализе корреляционной матрицы, составленной не из коэффициентов корреляции Пирсона, возможна одна проблема, которой в литературе не уделено должного внимания. А именно, корреляционная матрица должна быть положительно полуопределенной (матрицей Грама, т.е. все главные миноры больше либо равны нулю), что всегда имеет место для матрицы, составленной из коэффициентов Пирсона, но часто не соблюдается для прочих матриц. Это ведет к тому, что часть собственных значений оказывается отрицательной (соответствуют отрицательным дисперсиям/ковариациям!?) и, как следствие, возникают комплексные собственные вектора, трактовать которые в терминах факторов не представляется возможным.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 13.02.2008 - 16:39
Сообщение #13





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Игорь @ 13.02.2008 - 12:19) *
При использовании в факторном анализе корреляционной матрицы, составленной не из коэффициентов корреляции Пирсона, возможна одна проблема, которой в литературе не уделено должного внимания. А именно, корреляционная матрица должна быть положительно полуопределенной (матрицей Грама, т.е. все главные миноры больше либо равны нулю), что всегда имеет место для матрицы, составленной из коэффициентов Пирсона, но часто не соблюдается для прочих матриц.

А почему это должно быть так? (я имею ввиду, чем матрица, составленная из, например, коэффициентов корреляции Спирмена - который есть не что иное, как коэффициент корреляции Пирсона только на ранговых значениях - принципиально отличается от матрицы обычных коэффициентов Пирсона, что приводит к отсутствию свойства положительной полуопределенности)?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 14.02.2008 - 13:52
Сообщение #14





Группа: Пользователи
Сообщений: 1141
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(плав @ 13.02.2008 - 16:39) *
А почему это должно быть так? (я имею ввиду, чем матрица, составленная из, например, коэффициентов корреляции Спирмена - который есть не что иное, как коэффициент корреляции Пирсона только на ранговых значениях - принципиально отличается от матрицы обычных коэффициентов Пирсона, что приводит к отсутствию свойства положительной полуопределенности)?


Не должно, а бывает. Эффект наблюдался нами в практических расчетах, когда в факторном анализе использовались разнородные и смешанные данные. Объяснение, почему это так, может быть предметом научного исследования. Но проверять положительную полуопределенность корреляционной матрицы перед производством факторного анализа необходимо. Нет положительной полуопределенности - нет факторного анализа.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 15.02.2008 - 13:44
Сообщение #15





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Игорь @ 14.02.2008 - 13:52) *
Не должно, а бывает. Эффект наблюдался нами в практических расчетах, когда в факторном анализе использовались разнородные и смешанные данные. Объяснение, почему это так, может быть предметом научного исследования. Но проверять положительную полуопределенность корреляционной матрицы перед производством факторного анализа необходимо. Нет положительной полуопределенности - нет факторного анализа.

Ну так и вне зависимости от причины - если получаются отрицательные собственные значения, продолжать анализ нельзя. Собственно говоря это бывает и если использовались Пирсоновские коэффициенты корреляции, но расчет велся не по "сырым" данным, а введились корреляционные решетки с округленными значениями и высокой корреляцией между переменными.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 10.06.2010 - 22:46
Сообщение #16





Группа: Пользователи
Сообщений: 1218
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Игорь @ 6.02.2008 - 12:35) *
Сначала персоналии:
Marica Manisera - аспирантка http://www.unibs.it/on-line/dmq/Home/Perso.../scheda913.html
Elise Dusseldorp - PhD, преподаватель http://www.datatheory.nl/pages/dusseldorp.html
Anita van der Kooij - PhD, разработчик SPSS http://www.datatheory.nl/pages/kooij.html
Групповое фото http://www.datatheory.nl/pages/staff.html
Два последних автора - авторитетные ученые в данной области. Но работа исследовательская. Не опубликована. Ссылаться нельзя. Рекомендуется подождать публикации.

Работа опубликована в Quality Technology & Quantitative Management ( http://web2.cc.nctu.edu.tw/~qtqm/ ), Vol. 7, No. 2, pp. 97-115, 2010:
http://web2.cc.nctu.edu.tw/~qtqm/qtqmpaper...2010V7N2_F1.pdf
PS В журнале полнотекстовый доступ к статьям (только начал смотреть)


Сообщение отредактировал nokh - 10.06.2010 - 22:52
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V   1 2 >
Добавить ответ в эту темуОткрыть тему