Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V  < 1 2  
Добавить ответ в эту темуОткрыть тему
> Анализ данных в баллах
Игорь
сообщение 2.07.2011 - 19:52
Сообщение #16


Дух форума
*

Группа: Пользователи
Сообщений: 964
Регистрация: 10.04.2007
Из: Россия
Пользователь №: 4040



Цитата(nokh @ 2.07.2011 - 18:52) *
Так почему же для возраста и роста можно рассчитать средние значения, а для баллов ?

Потому что шкала баллов имеет ряд ограничений по сравнению с количественными шкалами. И эти ограничения заключаются в арифметических операциях, обусловленных физикой изучаемого явления.

Пусть три студента получили следующие отметки: 3, 4 и 5. Мы не может утверждать, что первый студент знает материал хуже, чем второй настолько же, насколько второй знает хуже, чем третий. Потому что относительно баллов мы можем их проранжировать - сказать, какой из студентов знает хуже. Но не можем сказать, насколько. Хотя баллы можно просуммировать - например, вычислить сумму баллов в приложении к диплому (у нас так и делали с целью выявления лучших студентов для обеспечения их выбора при распределении), и средний балл, в принципе, может решить ту же задачу. Однако такая процедура похожа скорее не на вычисление среднего значения, а на изменение масштаба. Потому что среднего балла не существует, ибо переменная, называемая баллом, в приведенном примере может принимать лишь пять значений: 1, 2, 3, 4 и 5. Она не может быть никакой другой. Область определения переменной "оценка успеваемости" включает только множество {1, 2, 3, 4, 5}. Для шкал с другим количеством баллов рассуждения аналогичны. Например, для суммы баллов, о которой говорилось выше, в случае 20 предметов область определения будет {20, 21, ... 99, 100}. При этом для переменной "средний балл", искусственно введенной выше, область определения будет {1, 1.05, ... 4.95, 5}. Но главное, что переменная "средний балл" от такой процедуры не стала количественной! Она может принимать только значения из последнего множества.

От обращения с баллами, как с количественными переменными (а это можно захотеть сделать, вычислив "средний балл", как показано выше и таким образом за счет перехода к числам с плавающей точкой получив иллюзию, что мы имеем количественные переменные), можно ожидать больших неприятностей. Например, для двух групп с разной размерностью шкалы баллов переменные "средний балл" будут иметь различные области определения и не могут быть сравнимы точно так же, как не могут быть сравнимы их суммы баллов (а "средний балл", представляющий собой отмасштабированную сумму баллов, побуждает сделать это).

Конечно, искусственно ввести порядковую переменную "средний балл" можно, как показано выше, но слово "средний" вводит в заблуждение. Считайте уж тогда сумму баллов либо дайте пояснение, что вы имеете в виду.

Совсем иные рассуждения для количественной переменной. Даже если у вас шкала настолько груба, что, скажем, вы измеряете рост с точностью до сантиметра, ничто не мешает переменной "рост" теоретически принимать значение с любым количеством знаков после запятой. Даже если эта конкретная величина никогда не будет получена в эксперименте. Область определения переменной "рост" включает все положительные действительные значения - множество R.

Хотя все эти рассуждения каждый волен игнорировать и поступать по своему усмотрению. Наша наука от этого уже не пострадает. Нам еще и не то в последнее время встречалось, особенно в работах медико-биологической направленности. Например, в одной рецензируемой работе автор сократил градусы в числителе и знаменателе дроби. И все бы ничего, но в числителе была температура в градусах Цельсия, в знаменателе - угловая величина в градусах.

Добавление
----------------
Возможно, для анализа данных в виде баллов следует использовать методы теории экспертных оценок. Теория хорошо развита профессором Орловым. Отдельные моменты кратко описаны в ПО AtteStat.

Поиск в Яндексе по "теория балльных оценок". Первая же ссылка http://ozrp.narod.ru/learn/year0708/2nd/me...lnyh_ocenok.pdf. Параграф 5 посмотрите.

Сообщение отредактировал Игорь - 3.07.2011 - 09:04


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 3.07.2011 - 19:38
Сообщение #17


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Благодарю за столь развёрнутый ответ! Теперь вынужден пересмотреть своё отношение к баллам. Кстати, я сталкивался с различием масштабов между порядковыми оценками, знаю как с помощью многомерных методов их оценить и даже пару месяцев назад отослал в ж-л "Экология" статью в т.ч. об этом. Но с точки зрения вычисления средних и пр. не придавал этому значения:)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Адам
сообщение 5.07.2011 - 13:04
Сообщение #18


Дух форума
*

Группа: Пользователи
Сообщений: 27
Регистрация: 28.06.2011
Пользователь №: 23257



Спасибо всем за ответы! Я как понял правильным выбором будет анализ корреляций

Сообщение отредактировал Адам - 5.07.2011 - 13:05
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 24.12.2011 - 00:06
Сообщение #19


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Столкнулся с необходимостью анализа данных, представленных шкалами Лайкерта - для оценки качества жизни после операции в динамике. Шкалы короткие: 4-5 баллов. Всё осложняется тем, что есть как перекрестные эффекты (комбинации вариантов лечения), так и иерархические (повторные измерения внутри вариантов). Опять поднимал литературу по возможности анализа таких данных параметрическими техниками. Нашёл такую оптимистичную и свежую работу:
http://ebookbrowse.com/likert-scales-level...9-pdf-d68102825
Как считаете, корректно ли будет снабдить средние баллы (вычисленные просто как понятный эквивалент суммы баллов) бутстреп-оценками ДИ (в том же смысле, т.е. если мы будем многократно извлекать из популяции выборки, считать по ним сумму баллов и находить для удобства средний бал, то в 95% выборок будем получать бал в таком диапазоне)? smile.gif

Сообщение отредактировал nokh - 24.12.2011 - 05:08
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 24.12.2011 - 15:48
Сообщение #20


Дух форума
*

Группа: Пользователи
Сообщений: 694
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата
Как считаете, корректно ли будет снабдить средние баллы (вычисленные просто как понятный эквивалент суммы баллов) бутстреп-оценками ДИ (в том же смысле, т.е. если мы будем многократно извлекать из популяции выборки, считать по ним сумму баллов и находить для удобства средний бал, то в 95% выборок будем получать бал в таком диапазоне)? smile.gif


Считаем так же, как и Шолом-Алейхем: если нельзя, но очень хочется-значит,можно! smile.gif

Кроме шуток: теоретическим инструментом для доверительного оценивания как общепринятой стаистической спроцедуры является закон больших чисел (ЗБЧ), согласно которому эмпирические средние сходятся к теоретическим. В ординальной (порядковой) шкале понятие суммы не определено (сумма знаний двоечника и троечника не равна сумме знаний отличника). Соответственно, не определено понятие средней величины (в т.ч. и среднего балла). Соответственно, никакие эмпирические средние баллы ни к каким теоретическим не сходятся. Это с одной стороны.

С другой стороны - существует неклассическое следствие из ЗБЧ: выборочная медиана сходится-таки к теоретической. Именно поэтому в ординальной шкале оправдано использование медианы (баллов). Может, стоит поступить именно так? Тогда и в бутстрапировании особой надобности не будет: медиана и так является робастной оценкой.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 24.12.2011 - 20:12
Сообщение #21


Дух форума
*

Группа: Пользователи
Сообщений: 1053
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(nokh @ 24.12.2011 - 00:06) *
Как считаете, корректно ли будет снабдить средние баллы (вычисленные просто как понятный эквивалент суммы баллов) бутстреп-оценками ДИ (в том же смысле, т.е. если мы будем многократно извлекать из популяции выборки, считать по ним сумму баллов и находить для удобства средний бал, то в 95% выборок будем получать бал в таком диапазоне)? smile.gif


так и стройте сразу для 97.5% случаев верхнюю границу и 2.5% нижнюю. просто отсортировав.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 24.12.2011 - 21:40
Сообщение #22


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(p2004r @ 24.12.2011 - 22:12) *
так и стройте сразу для 97.5% случаев верхнюю границу и 2.5% нижнюю. просто отсортировав.

Ну это был типа юмор такой. Просто несколькими постами выше Игорь обосновал и изменил мой прежний взгляд на баллы. Речь шла также о сумме баллов. Но если мы будем использовать средний балл не в смысле интервальной шкалы, а в смысле удобного представления суммы баллов как некоего интегрального показателя, то почему бы не рассчитать для него и ДИ? - ресэмплинг это позволяет.
Цитата(100$ @ 24.12.2011 - 17:48) *
...В ординальной (порядковой) шкале понятие суммы не определено (сумма знаний двоечника и троечника не равна сумме знаний отличника). Соответственно, не определено понятие средней величины (в т.ч. и среднего балла). Соответственно, никакие эмпирические средние баллы ни к каким теоретическим не сходятся. Это с одной стороны.
С другой стороны - существует неклассическое следствие из ЗБЧ: выборочная медиана сходится-таки к теоретической. Именно поэтому в ординальной шкале оправдано использование медианы (баллов). Может, стоит поступить именно так? Тогда и в бутстрапировании особой надобности не будет: медиана и так является робастной оценкой.

Ваша точка зрения весьма распространена. Однако так считают не все и вопрос до сих пор не закрыт, т.к. многие пытаются оспаривать тот факт, что шкалы Лайкерта - истинно порядковые и доказывают то, что часто они практически неотличимы от интервальных. А следовательно с ними можно работать параметрикой. Особенно много таких в психологии и социологии, т.к. у них все опросники построены чуть ли не целиком на таких шкалах: от "категорически несогласен" до "двумя руками за". Работа, ссылку на которую я привёл выше, как раз из этого числа. Конечно я бы не пытался ловить что-то в мутной воде, если бы имел сложному (смешанная модель) дисперсионному анализу достойную и более-менее распространённую непараметрическую альтернативу. А тут приходится выкручиваться. А по поводу медианы - тоже не всё хорошо. Т.к. шкалы короткие, медианы не будут отличаться, а это плохо смотрится в таблицах. Скажем в выборках средние баллы будут 3,3 и 3,7, а медианы в обеих - 3,5. Как писала выше DrgLena в её практике были случаи, когда выборки отличались высоко статистически значимо по критериям, но имели равную медиану. Т.е. возможно как мера центральной тенденции медиана даже "слишком робастна", если так можно выразиться.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 24.12.2011 - 22:57
Сообщение #23


Дух форума
*

Группа: Пользователи
Сообщений: 694
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата
...Однако так считают не все и вопрос до сих пор не закрыт, т.к. многие пытаются оспаривать тот факт, что шкалы Лайкерта - истинно порядковые и доказывают то, что часто они практически неотличимы от интервальных. А следовательно с ними можно работать параметрикой.




Ни в коем случае не предлагаю Вам устраивать революцию в науке, но вот цитатка из Большого псюхологического словаря (я на нее ориентировался):

"Шкала Лайкерта (англ. Likert scale) - один из 3 основных типов шкал для измерения аттитюдов, предложенный в 1932 Ренсисом Лайкертом (Ликертом). Термин ?Ш. Л.? относится как к шкалам, которые были сконструированы самим Лайкертом, так и ко всем шкалам такого типа. Син.: метод суммируемых оценок Лайкерта.

Ш. Л. представляет собой порядковую шкалу измерения: она позволяет оценить выраженность установки, сравнивать установки разных людей по интенсивности; из статистических процедур допускается определение медиан распределений, вычисление коэффициентов ранговой корреляции и сопряженности. "

И еще (в порядке обмена мнениями): в интервальной шкале в отличие от номинальной и ординальной впервые приобретают смысл отношения типа "насколько" и "во-сколько". Имеют ли они смысл применительно к шкалам Лайкерта? Если да, то тогда Ваша схема не вызывает нареканий.




Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 25.12.2011 - 01:26
Сообщение #24


Дух форума
*

Группа: Пользователи
Сообщений: 1053
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(100$ @ 24.12.2011 - 22:57) *
И еще (в порядке обмена мнениями): в интервальной шкале в отличие от номинальной и ординальной впервые приобретают смысл отношения типа "насколько" и "во-сколько". Имеют ли они смысл применительно к шкалам Лайкерта? Если да, то тогда Ваша схема не вызывает нареканий.


0) ну хорошо пусть будет только отношение больше-меньше.

1) тогда заменяем каждую оценку на вектор из позиций шкалы в котором 0 значения превышающие оценку, а единицы те которые меньше. каждая из позиций шкалы представляет из себя вырожденную интервальную.

2) проводим PCA - получаем (или не получаем если докажем случайность картины) ортогональные шкалы.

PS можно и Non-metric Multidimensional Scaling использовать, оно только больше-меньше учитывает.

Сообщение отредактировал p2004r - 25.12.2011 - 12:55


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 25.12.2011 - 14:47
Сообщение #25


Дух форума
*

Группа: Пользователи
Сообщений: 1320
Регистрация: 27.11.2007
Пользователь №: 4573



Цитата(nokh @ 24.12.2011 - 01:06) *
Нашёл такую оптимистичную и свежую работу:

Вики также оптимистична, если шкала имеет хотя бы 5 значений, но ссылки не дает.
http://en.wikipedia.org/wiki/Likert_scale
Когда мы учим аспирантов и студентов, то мы даем правильные советы, когда критикуем чужие публикации, то также исходим из того, что написано в хороших книжках.
Но, когда нам самим приходится анализировать данные, то мы понимаем, что в описанном nokh дизайне использование параметрических методов позволит извлечь больше информации для выводов работы.
Важным в выборе методов анализа является и существующие традиции представления данных. Например, представление суммы по нескольким шкалам в психиатрии и использование ROC для разделения между двумя альтернативными состояниями, если нужен прогноз.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 25.12.2011 - 16:34
Сообщение #26


Дух форума
*

Группа: Пользователи
Сообщений: 964
Регистрация: 10.04.2007
Из: Россия
Пользователь №: 4040



Все-таки не уходим мы от ошибочного понятия средних баллов. Ну хорошо,тогда так.

Пусть у нас выборка из 5 значений. Что-то из статистики посчитать мы можем, но не очень красиво - мало данных, все-таки, мощность мизерна. А вот мы возьмем эту выборку 10 раз. И уже имеем 50 значений. Неплохо. А 100. Тогда 500 значений. Вот это статистика будет! Вот это значимость! Но в основе-то - подлог и шаманство.

Я намеренно утрирую, чтобы показать, что обработка баллов параметрическими методами - такой же подлог и шаманство.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 25.12.2011 - 17:11
Сообщение #27


Дух форума
*

Группа: Пользователи
Сообщений: 1320
Регистрация: 27.11.2007
Пользователь №: 4573



Шкала имеет 5 значений, а не выборка smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 25.12.2011 - 19:06
Сообщение #28


Дух форума
*

Группа: Пользователи
Сообщений: 694
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Игорь @ 25.12.2011 - 16:34) *
Все-таки не уходим мы от ошибочного понятия средних баллов. Ну хорошо,тогда так.

Пусть у нас выборка из 5 значений. Что-то из статистики посчитать мы можем, но не очень красиво - мало данных, все-таки, мощность мизерна. А вот мы возьмем эту выборку 10 раз. И уже имеем 50 значений. Неплохо. А 100. Тогда 500 значений. Вот это статистика будет! Вот это значимость! Но в основе-то - подлог и шаманство.

Я намеренно утрирую, чтобы показать, что обработка баллов параметрическими методами - такой же подлог и шаманство.


Осмелюсь подвести промежуточный итог:
существуют три вида лжи:
- ложь;
- наглая ложь;
- статистика (с) тьма авторов smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 25.12.2011 - 20:45
Сообщение #29


Дух форума
*

Группа: Пользователи
Сообщений: 964
Регистрация: 10.04.2007
Из: Россия
Пользователь №: 4040



Цитата(100$ @ 25.12.2011 - 19:06) *
Осмелюсь подвести промежуточный итог:
существуют три вида лжи:
- ложь;
- наглая ложь;
- статистика (с) тьма авторов smile.gif

Так по потребностям и фрукт.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V  < 1 2
Добавить ответ в эту темуОткрыть тему