Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Описание данных, как правильно описать разные данные
Shu
сообщение 17.04.2008 - 20:54
Сообщение #1





Группа: Пользователи
Сообщений: 5
Регистрация: 17.04.2008
Пользователь №: 4970



Здравствуйте, помогите, пожалуйста, подскажите, как правильно описываются разные данные. Не все же опсываются средней и стандартным отклонением. Медиана, процентили... К примеру мне надо описать порядковые данные (балльная система оценки признака), как правильно будет?
и второй вопрос. Чем от этого отличается доверительный интервал, как его считать? Сразу говорю, что в статистике еще очень плохо разбираюсь smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 18.04.2008 - 10:28
Сообщение #2





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Shu @ 17.04.2008 - 20:54) *
Здравствуйте, помогите, пожалуйста, подскажите, как правильно описываются разные данные. Не все же опсываются средней и стандартным отклонением. Медиана, процентили... К примеру мне надо описать порядковые данные (балльная система оценки признака), как правильно будет?
и второй вопрос. Чем от этого отличается доверительный интервал, как его считать? Сразу говорю, что в статистике еще очень плохо разбираюсь smile.gif

В описании данных, как минимум, указывают параметр положения и параметр разброса. Какие именно показатели фигурируют в качестве данных параметров, зависит от шкалы измерения выборки (точнее, от арифметических операций, допустимых в данной шкале), а также от типа распределения. Кроме того, оценки всех показателей могут быть точечными и интервальными.
Операции следующие:
- различение
- сравнение
- сложение и вычитание
- умножение и деление

1. Количественные данные, нормальное распределение: среднее значение, дисперсия, параметрические доверительные интервалы.
2. Количественные данные, распределение не является нормальным: медиана, межквартильный размах, непараметрические доверительные интервалы.
3. Порядковые данные. Часто вычисляют средний балл, но это некорректно - для порядковой шкалы операция деления не определена. Поэтому, видимо, так же, как и для количественных данных, не являющихся нормальными.
4. Номинальные и, как частный случай, бинарные (дихотомические) данные: пропорция, дисперсия пропорции, непараметрические доверительные интервалы.

Во всех случаях могут применяться и иные показатели (например, медиана Ходжеса-Лемана для количественных данных или шансы вместо пропорций для бинарных данных), в том числе произведенные от указанных, в той или иной степени характеризующие положение и разброс.

Есть еще ряд параметров, характеризующих статистическое распределение: функция распределения, асимметрия, эксцесс, мода.

В качестве примера посмотрите описательную статистику в "Пакете анализа" электронных таблиц Microsoft Excel.

Интересно знать, откуда взялись понятия среднего и медианы. Можно привести несколько различных процедур вывода. Мне нравится следующее, взятое из теории множеств. Пусть дана выборка (шкала значения не имеет). Значение, имеющее минимальную сумму расстояний до всех вариант выборки, будет:
1. медианой, если данное значение ищется только среди представленных вариант.
2. средним, если данное значение ищется среди всех возможных реализаций.
"Имеющее минимальную сумму расстояний" здесь как раз зависит от шкалы измерения этих самых "расстояний" между вариантами выборки, поэтому введенные таким образом понятия универсальны. Поступая формально (см. операции выше), можно сконструировать медиану и среднее для любой выборки в любой шкале и любой размерности, в том числе и для многомерных выборок в смешанных шкалах. Источник: с. 240 книги "Алгоритмы: построение и анализ / Е.Ч. Кормен, Ч.И. Лейзерсон, Р.Л. Ривест и др. - М.: Вильямс, 2005".


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Shu
сообщение 18.04.2008 - 16:59
Сообщение #3





Группа: Пользователи
Сообщений: 5
Регистрация: 17.04.2008
Пользователь №: 4970



Спасибо за ответы smile.gif
я правильно поняла, что если порядковые данные (шкалы) надо вычислять медиану, а не среднюю?
мне на сегодня конкретно про это надо, срочно
правда я так и не поняла что такое доверительный интервал....
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 18.04.2008 - 17:09
Сообщение #4





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Shu @ 18.04.2008 - 16:59) *
Спасибо за ответы smile.gif
я правильно поняла, что если порядковые данные (шкалы) надо вычислять медиану, а не среднюю?
мне на сегодня конкретно про это надо, срочно

Да, так и нужно поступить.
Цитата(Shu @ 18.04.2008 - 16:59) *
правда я так и не поняла что такое доверительный интервал....

Указание доверительных интервалов в последнее время - модная тенденция. К тому же - полезная характеристика. Доверительный интервал (к примеру, 95%-й) означает, 95% всех эмпирических данных попадет в границы, определяемые данным интервалом. Формул тут много, поэтому проще всего указать доступный и чрезвычайно содержательный источник, составленный на языке, понятном обычному исследователю - не математику:
Орлов А.И. Непараметрическое точечное и интервальное оценивание характеристик распределения // Заводская лаборатория. Диагностика материалов, 2004, т. 70, № 5, с. 65-70. Доступно для бесплатной загрузки по ссылке http://orlovs.pp.ru/stat/s1p4rasp.zip.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 22.04.2008 - 12:54
Сообщение #5





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Насчет использование медианы для порядковых данных мнения расходятся, некоторые считают использование средних и диспесий "смертным грехом" (т.е. надо медианы и межкваритильное расстояние), некоторые считают, что возможно использовать средние и дисперсии (т.е. интервально- базирующиеся показатели).
Надо заметить, что на самом деле (если отбросить теоретическую чистоту) важным является количество категорий в упорядоченных данных. Все споры ведутся вокруг Ликертовских шкал, т.е. шкал с 7 возможными значениями. Если же речь идет об опросниках, например с 556 возможными значениями, то несмотря на ординальный характер данных к ним относятся, как к интервальным.
Что касается доверительного интервала, то довольно часто речь идет о доверительном интервале среднего (медианы), это тот интервал, расчитанный на основе выборочных данных, в котором с заданной вероятностью (95%) находится популяционное значение среднего (медианы).
Это на самом деле не совсем правильное, но понятное определение. Правильное определение - интервал, который, если будет строится на основании данных каждой выборки перекроется с 95% интервалов других выборок
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Shu
сообщение 27.04.2008 - 11:17
Сообщение #6





Группа: Пользователи
Сообщений: 5
Регистрация: 17.04.2008
Пользователь №: 4970



Скажите, пожадуйста, можно ли так считать?
Сравниваю различия в трех независимых группах, применяю критерий Крускала-Уоллиса. Мне надо изобразить графически. Основываясь на каких показателях можно строить диаграммы, средних или медиан? Некоторые данные числовые, некоторые порядковые. Правильно ли я понимаю, что для порядковых для диаграммы берем медианы, а для чисел - средние? Или для всех медианы? Критерий Крускала-Уоллиса же оценивает ранги? И как правильно говорить Крускала же , а не Краскела? Глупые у меня вопросы, да smile.gif)))))))))))))))) Спасибо вам, Плав и Игорь, короли статистики))))))
И еще на графиках надо указывать "плюс-минус" это стандартное отклонение или что?..
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 27.04.2008 - 19:56
Сообщение #7





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Shu @ 27.04.2008 - 12:17) *
Скажите, пожадуйста, можно ли так считать?
Сравниваю различия в трех независимых группах, применяю критерий Крускала-Уоллиса. Мне надо изобразить графически. Основываясь на каких показателях можно строить диаграммы, средних или медиан? Некоторые данные числовые, некоторые порядковые. Правильно ли я понимаю, что для порядковых для диаграммы берем медианы, а для чисел - средние? Или для всех медианы? Критерий Крускала-Уоллиса же оценивает ранги? И как правильно говорить Крускала же , а не Краскела? Глупые у меня вопросы, да smile.gif)))))))))))))))) Спасибо вам, Плав и Игорь, короли статистики))))))
И еще на графиках надо указывать "плюс-минус" это стандартное отклонение или что?..

Если Вы взяли Крускала-Уоллиса, Вы автоматически стали сравнивать медианы, соответственно, на графиках они и должны быть. Даже если Вы брали количественные, нормально распределенные данные, все равно - медианы.
Плюс-минус в этом случае уже ничего не укажешь. Для оценки разброса надо либо
а) Расчитать доверительный интервал медиана (и нанести его на график), либо
б) Оценить межквартильный интервал и нарисовать его (хотя это и не принято, но межквартильный интервал является аналогом стандартного отклонения в случае непараметрики).
Я бы рекомендовал доверительный интервал медианы, однако, не все программы умеют его расчитывать frown.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Shu
сообщение 28.04.2008 - 12:48
Сообщение #8





Группа: Пользователи
Сообщений: 5
Регистрация: 17.04.2008
Пользователь №: 4970



Очень большое спасибо, Вам, Плав))))))
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему