Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Rate of success scaling
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Choledochus
Добрый день!
Кто-нибудь владеет этим инструментом для анализа опросников?
Есть несколько англоязычных статей, но пояснений почти нет. Считается наверное внутри пакетов.

Есть такая подсказка: "Discriminant validity of items and rates of scaling success were
analysed by comparing the differences between item-own and item other
scale correlations".

Как сравниваются корреляции ответного ряда внутри субшкалы и вне? Успех это больше или меньше?
Может ли это SPSS или Statistica делать?
Спасибо.
nokh
Цитата(Choledochus @ 7.06.2021 - 10:46) *
Добрый день!
Кто-нибудь владеет этим инструментом для анализа опросников?
Есть несколько англоязычных статей, но пояснений почти нет. Считается наверное внутри пакетов.
Есть такая подсказка: "Discriminant validity of items and rates of scaling success were
analysed by comparing the differences between item-own and item other
scale correlations".

Есть очень небольшой опыт, статья "зависла" на этапе доведения до ума людьми, которые её так и не доделали. Работал со шкалой Бартел для оценки состояния пожилых людей. В отечественной литературе чаще называется опросником или шкалой "Бартела", хотя это был не он, а она - Доротея Бартел (Dorothea W. Barthel). Поскольку к теме больше не возвращался, могу только написать что делал тогда, хотя похоже направление развивается.

1) Валидность. Смотрел конструктную валидность, это наиболее комплексный и сложный вид валидности, который характеризуется способностью теста к измерению именно запланированной и теоретически обоснованной характеристики. Её можно оценивать по факторной валидности, которую проводят анализом главных компонент или факторным анализом. Суть - убедиться, что отчётливо выделяется только одна компонента или один фактор. Я использовал нелинейный анализ главных компонент по алгоритму CATPCA (в SPSS) и на первую компоненту пришлось 85,2% общей дисперсии. По критериям Кайзера, "сломанной трости" и "каменистой осыпи" Кэттелла выделялась именно эта одна компонента, что хорошо. Если бы выделялось больше факторов, то это значило бы, что этот опросник оценивает не один, а несколько процессов, т.е. не только то, для чего он разрабатывался, но и что-то ещё. Далее прокоррелировал шкалу Бартел со значениями первой компоненты и вычислил коэффициент детерминации R2. Он был равен 0,960, т.е. обе шкалы на 96% измеряли одно и то же. Таким образом подтвердил факторную валидность, и в целом конструктную валидность.

2) Надёжность. Т.к. измерения проводились однократно можно рассчитать только один показатель надёжность - внутреннюю согласованность. Соответственно с внешней и прочим не знаком, видимо там есть свои показатели. Внутренняя согласованность показателей теста показывает насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Она является ключевой в оценке качества теста: считается, что именно внутренняя согласованность должна быть основной целью разработчиков теста. Для оценки надёжности рассчитывают ?альфу? Кронбаха, которая изменяется от 0 (показатели не коррелируют между собой) до 1 (все показатели взаимно коррелированы). Формулы для расчёта есть в Интернете, пакет SPSS всегда считает её автоматически в PCA и факторном анализе. У меня эти альфы получились близкими: 0,981 в CATPCA и 0,969 по формуле для 10 пунктов опросника. Это хорошо, считается, что для качественных опросников это значение должно быть больше 0,90. В этой части можно углубиться и посмотреть корреляции отдельных шкал опросника с итоговой, вероятно это и есть item-own scale correlation. Т.к я уже сделал многомерный анализ, то такие корреляции не считал, а показал просто нагрузки переменных (10 отдельных шкал) на первую компоненту, т.к. факторные нагрузки это и есть корреляции Пирсона показателя с компонентой. Что такое item other
scale correlations не знаю, времени искать нет, но возможно, что в сложных опросниках, где вычисляется не одна итоговая шкала (как в Бартел), а несколько (как в SF-36) считают ещё корреляции между разными итоговыми шкалами. По логике корреляции субшкал внутри большой шкалы должны быть максимальны, а корреляции между большими шкалами - минимальны, т.к. они нацелены на измерение разных качеств.

3) Дискриминативность. Видимо то, что в вашем материале называется Discriminant validity. Это показатель качества методики, который оценивает её способность различать испытуемых. Обычно она измеряется коэффициентом дискриминативности Фергюсона ?дельта?, который изменяется от 0 до 1. Он принимает минимальное значение δ=0 если все испытуемые получают по шкале одинаковое значение, а максимальное δ=1 ? если каждый испытуемый получает уникальную оценку, что соответствует равномерному (прямоугольному) распределению. У меня дельта была 0,906, что указывало на высокую дискриминативность. Я построил распределение итоговой шкалы и оно получилось полимодальным, с 4 модами. Сильнее всего отстояла от других группа слабых пожилых, которые уже себя не обслуживали, а те которые обслуживали разбились ещё на 3 подгруппы, включая большую подгруппу пожилых с максимальными значениями, которую мы использовали далее в иммунологических работах под названием "активное долголетие". Короче, дискриминативности шкалы хватило даже на то, чтобы провести анализ смеси распределений (делал в R, но можно и в PAST) и выделить подгруппы.

Таким образом в моём примере получилось, что во-первых, шкала действительно измеряет нужное свойство и только его (конструктная валидность), во-вторых, все шкалы вкладываются в итоговую шкалу (факторные нагрузки от 0,847 до 0,947), что видно по интегральному показателю - альфе Кронбаха, и в-третьих, шкала наделяет респондентов практически уникальными итоговыми значениями, т.е. имеет хорошую дискриминативность.

Смотрел как и вы какие-то англоязычные материалы, из отечественных:
Жмуров, В. А. Большая энциклопедия по психиатрии / В. А. Жмуров. ? 2-е изд. ? М. : Джангар, 2012. ? 864 с.
Клайн П. Справочное руководство по конструированию тестов: Введение в психометрическое проектирование: Пер. с англ. / Под ред. Л.Ф. Бурлачука. Киев: ПАН Лтд., 1994. 288 с.
Какую-то книгу Наследова по SPSS (у него их несколько)

Также можете скачать у меня материалы Гарсона. В своё время у него был сайт, который он наполнял качественным хорошо структурированным материалом с привязкой к методам пакета SPSS, но иногда шире. Я всё это качал и складывал в папку. Оказалось, что правильно делал, т.к. он закрыл свой сайт и выложил эти и последующие материалы уже как платный контент. Там мало собственно по опросникам, но Validity и Reliability Analysis есть. Архив старых страничек здесь: https://yadi.sk/d/yrc6UAN3SC9cNg

Если разберётесь во всём и/или найдёте хорошие руководства - выкладывайте сюда в продолжение темы.
Choledochus
ОГРОМНОЕ СПАСИБО!
Есть же умные люди!
Спасибо, что откликнулись. Нужно погружаться с головой полностью, чтобы разобраться в этой психометрике.
Думаю как более-менее правильно перевести success scaling, как-то нечасто оставляют термин без перевода.
Хотя в физике бывает (я сам закончил физфак МГУ), например shuffles можно не переводить в физике фазовых переходов, хотя на русском это специфические перетасовки атомов в сторону положений в новой фазе.
Шкалирование, шкальность - как вам? Встретил в одном месте конвергентная валидность.
Как я понял речь идет о том, что опросник удачно разбит на субшкалы. R высокий внутри субшкал и ниже, чем с другими субшкалами.
Буду еще искать pdf-ы с success scaling..
comisora
Доброго времени суток.

В работе "Tests of data quality, scaling assumptions, reliability, and construct validity of the SF-36 health survey in people who abuse heroin" написано буквально следующее: "caling properties were evaluated by item frequency distribution, equivalence of item means and standard deviations, item-internal consistency, and item-discriminant validity (calculating scaling success)". В книге "The Basics of Item Response Theory Using R" про это немного написано в параграфе 1.2. Справочник с большим количеством технической информации - "Handbook of Item Response Theory: Three Volume Set by Wim J. van der Linden". Вероятно Вам следует искать item discrimination parameter с какими-то дополнительными ключами в духе success scaling. Хочу заметить, что success scaling rate в моей области на глаза не попадался. Не исключаю, что плохо искал.
Choledochus
Да, действительно, встречается термин в англоязычной литературе как конвергентная валидность, правда на русский success scaling так и не переводится удачно. Успешное шкалирование, успех шкалирования?
В квантовой физике иногда не заморачиваются: название квантовых чисел странность, очарование, ...
СПАСИБО всем, немного проясняется. Правда не совсем понятно, что нужно брать в числитель: пункты с rвнутр>0.4 или пункты с rвнутр>rвнешн. Здесь (как я перевел) разные авторы по-разному предлагают.

p.s. "В книге "The Basics of Item Response Theory Using R" про это немного написано в параграфе 1.2". Скачал пдф, но не нашел про это.
Choledochus
Цитата(nokh @ 8.06.2021 - 21:58) *
Суть - убедиться, что отчётливо выделяется только одна компонента или один фактор. Я использовал нелинейный анализ главных компонент по алгоритму CATPCA (в SPSS) и на первую компоненту пришлось 85,2% общей дисперсии.


После каких сочетаний клавиш в SPSS получается выделить главный компонент? Можно по-простому. В учебниках пока не разобрался, хотя есть несколько.
Спасибо
comisora
Цитата(Choledochus @ 10.06.2021 - 10:02) *
p.s. "В книге "The Basics of Item Response Theory Using R" про это немного написано в параграфе 1.2". Скачал пдф, но не нашел про это.


Я, к сожалению, ввёл Вас в заблуждение. Параграф 1.3 называется Item Difficulty and Item Discrimination. Именно в нём, а не в параграфе 1.2, дано описание концепции item discrimination. Безусловно, это не совсем то, что Вам необходимо, хотя область поиска примерно та же. Скорее всего, вы эту ссылку уже находили самостоятельно.
В качестве примера, ещё статьи, корыте привлекли моё внимание при поиске
- The reliability, validity, and preliminary responsiveness of the Eye Allergy Patient Impact Questionnaire (EAPIQ)
- Validation of the Korean Version of the COVID-19 Phobia Scale (K-C19PS) - заинтересовал источник ?24.
- DEVELOPMENT AND SCORING OF THE SATISFACTIONWITH IRON CHELATION THERAPY INSTRUMENT FORPATIENTS WITH IRON OVERLOAD

Пока представления как явно/на пальцах считаются данные показатели в R у меня нет. Попробую порыться в репозиториях и литературе. В случае успеха отпишусь.
p2004r
Цитата(Choledochus @ 10.06.2021 - 13:35) *
После каких сочетаний клавиш в SPSS получается выделить главный компонент? Можно по-простому. В учебниках пока не разобрался, хотя есть несколько.
Спасибо


Процедуру рандомизации для собственных значений разложения матрицы с данными делают вручную (или какой то пакет используют где тесты "на наличие простой структуры в pca(fa) реализованы).
nokh
Цитата(Choledochus @ 10.06.2021 - 15:35) *
После каких сочетаний клавиш в SPSS получается выделить главный компонент? Можно по-простому. В учебниках пока не разобрался, хотя есть несколько.
Спасибо

Я отвечал на вопрос в личке, ответа не получил.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.