Цитата(Shu @ 17.04.2008 - 20:54)

Здравствуйте, помогите, пожалуйста, подскажите, как правильно описываются разные данные. Не все же опсываются средней и стандартным отклонением. Медиана, процентили... К примеру мне надо описать порядковые данные (балльная система оценки признака), как правильно будет?
и второй вопрос. Чем от этого отличается доверительный интервал, как его считать? Сразу говорю, что в статистике еще очень плохо разбираюсь

В описании данных, как минимум, указывают параметр положения и параметр разброса. Какие именно показатели фигурируют в качестве данных параметров, зависит от шкалы измерения выборки (точнее, от арифметических операций, допустимых в данной шкале), а также от типа распределения. Кроме того, оценки всех показателей могут быть точечными и интервальными.
Операции следующие:
- различение
- сравнение
- сложение и вычитание
- умножение и деление
1. Количественные данные, нормальное распределение: среднее значение, дисперсия, параметрические доверительные интервалы.
2. Количественные данные, распределение не является нормальным: медиана, межквартильный размах, непараметрические доверительные интервалы.
3. Порядковые данные. Часто вычисляют средний балл, но это некорректно - для порядковой шкалы операция деления не определена. Поэтому, видимо, так же, как и для количественных данных, не являющихся нормальными.
4. Номинальные и, как частный случай, бинарные (дихотомические) данные: пропорция, дисперсия пропорции, непараметрические доверительные интервалы.
Во всех случаях могут применяться и иные показатели (например, медиана Ходжеса-Лемана для количественных данных или шансы вместо пропорций для бинарных данных), в том числе произведенные от указанных, в той или иной степени характеризующие положение и разброс.
Есть еще ряд параметров, характеризующих статистическое распределение: функция распределения, асимметрия, эксцесс, мода.
В качестве примера посмотрите описательную статистику в "Пакете анализа" электронных таблиц Microsoft Excel.
Интересно знать, откуда взялись понятия среднего и медианы. Можно привести несколько различных процедур вывода. Мне нравится следующее, взятое из теории множеств. Пусть дана выборка (шкала значения не имеет). Значение, имеющее минимальную сумму расстояний до всех вариант выборки, будет:
1. медианой, если данное значение ищется только среди представленных вариант.
2. средним, если данное значение ищется среди всех возможных реализаций.
"Имеющее минимальную сумму расстояний" здесь как раз зависит от шкалы измерения этих самых "расстояний" между вариантами выборки, поэтому введенные таким образом понятия универсальны. Поступая формально (см. операции выше), можно сконструировать медиану и среднее для любой выборки в любой шкале и любой размерности, в том числе и для многомерных выборок в смешанных шкалах. Источник: с. 240 книги "Алгоритмы: построение и анализ / Е.Ч. Кормен, Ч.И. Лейзерсон, Р.Л. Ривест и др. - М.: Вильямс, 2005".