Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Теория статистического анализа данных в вопросах

Автор: Black Jack 30.11.2010 - 21:07

Здравствуйте!
Есть странные вопросы, на которые мне не ответил преподаватель. Сославшись, что это классическая теория, нужно только запоминать.
Вопросы:
1.Почему при расчете несмещенной дисперсии ее находят по формуле деля на (n-1). Откуда берется ?-1?. Прочитав про разные степени свободы, я так и не понял, почему так, а не просто на ?n?. Разница в результатах расчета смещенной и несмещенной дисперсии при малом количестве данных значительна. Почему так сделано, зачем?
2.На лекциях мы применяем таблицы Фишера и Стьюдента для проверки гипотез. После расчетов сравниваем с табличным значением и делаем выводы. Объясните мне, пожалуйста, что это за таблицы, как они появились, почему я сравниваю с какими-то цифрами, как их рассчитали?

Расскажите как чайнику, так что бы бабушке было понятно. Очень нужно, скоро зачет, а преподаватель явно будет валить меня за мои вопросы.

Автор: Игорь 1.12.2010 - 07:05

Цитата(Black Jack @ 30.11.2010 - 22:07) *
1.Почему при расчете несмещенной дисперсии ее находят по формуле деля на (n-1). Откуда берется ?-1?. Прочитав про разные степени свободы, я так и не понял, почему так, а не просто на ?n?. Разница в результатах расчета смещенной и несмещенной дисперсии при малом количестве данных значительна. Почему так сделано, зачем?

Форум не поддерживает формулы (во всяком случае, это сложно), поэтому во вложении дается весь материал о дисперсии, в том числе вывод упомянутой формулы.
Цитата(Black Jack @ 30.11.2010 - 22:07) *
2.На лекциях мы применяем таблицы Фишера и Стьюдента для проверки гипотез. После расчетов сравниваем с табличным значением и делаем выводы. Объясните мне, пожалуйста, что это за таблицы, как они появились, почему я сравниваю с какими-то цифрами, как их рассчитали?

Статистика любого критерия имеет свою функцию распределения (разрешимую, либо неразрешимую в квадратурах, либо вид ее может быть неизвестен). Таблицы как раз и есть эти самые функции. Вычисляются, соответственно, либо просто по формуле, либо одним из численных методов оптимизации, либо методом моделирования (Монте-Карло).

 Variance.doc ( 141,5 килобайт ) : 1558
 

Автор: Black Jack 1.12.2010 - 15:38

.... чайник вскипел, а бабушка в больнице eek.gif

Спасибо за ответ! Хотелось бы еще пообщаться может со временем до меня дойдет (до зачета).

1. С расчетом смещенной и несмещенной дисперсией еле понятно, в общем формула выводится.
А можно так сказать, что несмещенная оценка дисперсии находится для экспериментальных данных, смещенная для идеальных, имеющих нормальное распределение?

2. С табличными значениями критериев Стьюдента и Фишера не понятно. Если я правильно рассуждаю, то у каждого есть свое распределение, т.е. функция распределения по которой рассчитаны таблицы для разного уровня р. Я не понимаю логики, почему нужно сравнивать: для отклонения гипотезы расчетное значение критерия должно быть больше табличного, что в этом случае происходит, в чем секрет?

Автор: DoctorStat 1.12.2010 - 16:41

Цитата(Black Jack @ 1.12.2010 - 15:38) *
1. А можно так сказать, что несмещенная оценка дисперсии находится для экспериментальных данных, смещенная для идеальных, имеющих нормальное распределение?
Истории из жизни. Вы приходите в магазин в овощной отдел купить 1 кг картошки. В ответ продавщица спрашивает: у нас в отделе есть двое весов: одни весы (несмещенные) показывают вес с точностью 50 грамм, а другие вчера упали на пол и сломались (смещенные) и показывают в среднем на 200 грамм больше. Вам на каких весах картошку взвешивать? (Подсказка для сообразительных: на тех весах, которые меньше врут)
Цитата(Black Jack @ 1.12.2010 - 15:38) *
2. Я не понимаю логики, почему нужно сравнивать: для отклонения гипотезы расчетное значение критерия должно быть больше табличного...?
Вечером Вы возвращались домой и увидели, как хулиганы напали на девушку с целью завладения ее сумочкой с деньгами. Защищая честь и достоинство представительницы слабого пола, Вы ввязались в драку и получили выстрел в голову из травматического пистолета. Чтобы зафиксировать этот факт в милицейском протоколе, Вы пришли в больницу для подтверждения гипотезы о нанесении травмы. Медсестра, осматривая синяк в области лица, сказала: "О, ваш синяк НЕДОСТАТОЧНО синий, чтобы подтвердить гипотезу о попадании пули в голову".

Автор: Игорь 1.12.2010 - 17:46

Цитата(Black Jack @ 1.12.2010 - 16:38) *
А можно так сказать, что несмещенная оценка дисперсии находится для экспериментальных данных, смещенная для идеальных, имеющих нормальное распределение?

Нет, так сказать нельзя. И в том, и в другом случае распределение нормальное. Разница в том, что смещенная оценка делается, если вам точно известно математическое ожидание выборки (т.е. вы его не вычисляете по выборке), а несмещенная оценка делается, если математическое ожидание выборки вы вычисляете по той же самой выборке. Можно еще сказать, что за недостаток информации о выборке (т.е. вы изначально не знаете математическое ожидание) вы платите увеличенной в n/(n-1) раз дисперсией. Впрочем, для большой выборки (большой численности n) это несущественно.
Цитата(Black Jack @ 1.12.2010 - 16:38) *
2. С табличными значениями критериев Стьюдента и Фишера не понятно. Если я правильно рассуждаю, то у каждого есть свое распределение, т.е. функция распределения по которой рассчитаны таблицы для разного уровня р. Я не понимаю логики, почему нужно сравнивать: для отклонения гипотезы расчетное значение критерия должно быть больше табличного, что в этом случае происходит, в чем секрет?

Вы можете воспользоваться приложенными к посту материалами по проверке гипотез. В них указаны источники. Для начала нужно взять один из них, самый простой, где с помощью иллюстраций поясняются основные факты проверки гипотез. Без изучения литературы, основываясь только на материалах форума, усвоить материал будет трудно.

 Статистическая_гипотеза.doc ( 226,5 килобайт ) : 696
 

Автор: Ancha 23.12.2010 - 22:51

Здравствуйте, помогите, пожалуйста, разобраться.
Для обработки данных использую непараметрическую статистику (поскольку распределение отличное от нормального). Необходимо найти среднее значение для признака (содержание тяжелых металлов в продуктах питания). В Инете везде написано, что ср. арифметическое?ошибку среднего можно рассчитывать только в параметрической статистике, а в непараметрической ? исключительно моду или медиану. Но программа Statistica (версия 5.5) производит расчет ср. арифмет. и ошибки ср. в непараметрической статистике. Не могу понять: можно ли использовать эти значения?

Автор: 100$ 23.12.2010 - 23:55

Цитата(Ancha @ 23.12.2010 - 23:51) *
... Но программа Statistica (версия 5.5) производит расчет ср. арифмет. и ошибки ср. в непараметрической статистике. Не могу понять: можно ли использовать эти значения?


Можно. Для того их программа и выдает smile.gif

Автор: Ancha 24.12.2010 - 18:25

спасибо ))

Автор: плав 25.12.2010 - 13:11

Цитата(100$ @ 23.12.2010 - 23:55) *
Можно. Для того их программа и выдает smile.gif

Прекрасный совет, показывает, что отвечающий не осознает, что среднее арифметическое, а тем более стандартная ошибка базируются на предположении об определенном (нормальном) распределении данных или справедливости допущения распределения выборочных показателей по центральной предельной теореме. В обоих случаях необходимости в использовании непараметрической статистики нет (ввиду ее меньшей мощности). Если же используется непараметрическая статистика, это означает, что у нас ординальные данные и/или мы не можем полагаться на ЦПТ. Тогда указание стандартной ошибки становится бессмыслицей, демонстрирующей незнание базовой теории. Кстати, поскольку большинство по непараметрикой понимают ранговые тесты типа Вилкокосона, то как же можно, зная только ранги рассчитать среднее? А?
Короткий ответ по теме - что бы не считали программы, теоретически правильной записью является медиана и межквартильное расстояние.

Автор: Ancha 25.12.2010 - 17:57

А кто даст гарантию, что в СанПиНе тоже медиана расчитана? Получается некорректно сравнивать мои данные с ПДК?

В общем, Плав, насколько я поняла, чтобы узнать сколько свинца содержится в среднем в трех морковках - среднее арифметическое нельзя использовать.
То есть когда мы читаем на бутылке с минеральной водой содержание солей всяких - это там все медианы указаны?

А вот свинец в крови человека (тоже не по нормальному закону распределение) - значит тоже нельзя ср. арифмет. А все расчитывают. Все поголовно. Как же так?

Автор: Игорь 25.12.2010 - 18:30

Цитата(Ancha @ 25.12.2010 - 17:57) *
А вот свинец в крови человека (тоже не по нормальному закону распределение) - значит тоже нельзя ср. арифмет. А все расчитывают. Все поголовно. Как же так?

Форум не поддерживает формулы (во всяком случае, это сложно), поэтому во вложении дается весь материал о среднем значении.

Если взять любой справочник по статистическим распределениям, то можно убедиться, что для каждого стандартного типа распределения дается своя формула расчета среднего значения, выведенная по тому же принципу, что и в примере, данном во вложении. Если тип распределения статистических данных известен или установлен и совпадает с одним из известных типов, то среднее значение вычисляется по соответствующей формуле. И это не всегда сумма вариант, деленная на их количество.

Если тип распределения неизвестен, используется непараметрическая оценка параметра положения, а именно - медиана.

Если тип распределения не является нормальным, то использование среднего значения в виде суммы вариант, деленной на их количество, является ошибочным. При этом факт ошибки не оправдывается высоким статусом издания, в котором она приводится.

Если же говорить о шкале измерения, отличающейся от количественной, то в силу того, что для данных шкал не определена операция деления, использование обсуждаемой формулы вычисления среднего вообще лишено смысла. Во втором из вложений некоторые соображения на счет порядковых данных приводятся. Т.е., в принципе среднее значение можно найти и для них, но начинать нужно с того, что мы понимаем под средним.

Для бинарных данных также можно ввести свое определения среднего. Но это не будет определение: сложить варианты и поделить на их количество.

 Mean.doc ( 46 килобайт ) : 445
 Mean_1.doc ( 42 килобайт ) : 437
 

Автор: Ancha 25.12.2010 - 19:06

прийдется видимо продукты (и т.п.) пересчитывать (((

А вот биосубстраты, пожалуй, прийдется оставить; ведь если пересчитаю - то не смогу сравнить свои данные ни с одной статьей.

Автор: DoctorStat 25.12.2010 - 19:44

Цитата(Ancha @ 25.12.2010 - 17:57) *
А вот свинец в крови человека (тоже не по нормальному закону распределение) - значит тоже нельзя ср. арифмет. А все расчитывают
Не путайте божий дар с яичницей smile.gif. В качестве характерного значения случайной величины используются математическое ожидание, медиана, мода. Среднее значение случ.величины из выборки, полученной в результате эксперимента, является всего лишь ОЦЕНКОЙ вышеуказанных характеристик. Само по себе среднее значение не описывает случ.величину.

Автор: Ancha 25.12.2010 - 19:55

Вы такими словами пишете - я ничего не понимаю. Можете попроще писать? smile.gif

Средняя вообще чтоли ничего на значит?!

Раз уж я тут в форуме расписалась, задам еще вопросов - пересчитала по каждому продукту (морковь, капуста, картошка и т.п.) медиану, а теперь мне допустим средняя концентрация по овощами нужна - мне опять из этих медиан медиану считать (или какой-то еще более страшный показатель)?

Автор: Ancha 25.12.2010 - 20:05

С медианой расчеты получаются не корректные. Допустим - в 5ти образцах овощей содержание кадмия близкое к 0 (0,0005) или 0 (невыявлен), а 3х - превышает ПДК (0,3000). А медиана = 0 мг/кг. Разве это корректно?

Автор: Игорь 25.12.2010 - 20:24

Цитата(Ancha @ 25.12.2010 - 21:05) *
С медианой расчеты получаются не корректные. Допустим - в 5ти образцах овощей содержание кадмия близкое к 0 (0,0005) или 0 (невыявлен), а 3х - превышает ПДК (0,3000). А медиана = 0 мг/кг. Разве это корректно?

Конечно, нет. Ибо посчитано неверно.

Автор: nokh 25.12.2010 - 20:27

Поделюсь своим мнением, т.к. тоже приходится приводить данные по металлам. Отношусь к среднему арифметическому просто как к одной из мер положения. Действительно, для распределений, отличных от нормального, она не является оптимальной. Но неоптимальность - одно, а стат. некорректность - другое. Я специально анализировал типы распределения металлов в некоторых наборах своих данных (вода, снег, почвы) и пришёл к выводу о столь же надуманном логарифмическом преобразовании таких данных, т.е. расчёте не арифметического, а геометрического среднего. Хотя тоже, в геологических работах - сплошное простое логарифмирование. Медиана является хорошей мерой положения, но в публикациях не встречается такая форма представления данных как медиана с 95% ДИ, а обычные в таких случаях коробчатые графики не позволяют сравнивать медианы графически. Я принял для себя следующую стратегию предоставления данных по металлам.
(1) Если объём публикации это позволяет - даю и среднее, и медианы, и нижнюю с верхней квартили (в наших классических учебниках по статистике квартиль женского рода). Но не даю стандартную ошибку среднего ввиду её полной бессмысленности.
(2) Если данных много (десятки наблюдений) - преобразую их по Боксу-Коксу, нахожу среднее арифметическое и 95%-ные ДИ для него, и полученные значения ретрансформирую к исходной шкале. Т.о. получается, что для нормально распределённых данных (лямбда = 1) привожу среднее арифметическое с ДИ для него, для логнормально распредённых данных (лямбда = 0) - среднее геометрическое с ДИ для него, а для промежуточных вариантов (у меня часто лямбда в районе 0,2-0,3) - среднее, оптимальное для таких данных и ДИ для него.
(3) Если данных мало (до 20, доверия к получаемому в ходе преобразования по Боксу-Коксу значению лямбды нет) и объём публикации не позволяет дать описательную статистику развёрнуто - соглашаюсь с тем, что ничего не знаю о типе распределения, но не отказываюсь от среднего арифметического. Всё-таки это - самая простая и распространённая мера положения. Привожу среднее и 95%-ные доверительные интервалы для него, полученные бутстрепом. Чем сильнее скошено распределение данных, тем асимметричнее получаются ДИ. Эти же значения и откладываю на графиках, если места для таблицы с описательной статистикой совсем нет.

Автор: Ancha 25.12.2010 - 20:38

Игорь, в том то и дело что расчитано правильно. Сами, хоть в экселе попробуйте. Забейте 10 меленьких значений и 8 больших (на 2 порядка больше) - он вам медиану выдаст по маленьким значениям, игнорируя 8 больших.

Nokh, поняла вашу стратегию. Я тоже и снег и почву и воду. Уже в одной статье накосячила, чувствую неотвертеться будет теперь.
Походу как ни крутись - все равно всем не угодить.

Автор: nokh 25.12.2010 - 21:01

Цитата(Ancha @ 25.12.2010 - 22:38) *
Игорь, в том то и дело что расчитано правильно. Сами, хоть в экселе попробуйте. Забейте 10 меленьких значений и 8 больших (на 2 порядка больше) - он вам медиану выдаст по маленьким значениям, игнорируя 8 больших.

Nokh, поняла вашу стратегию. Я тоже и снег и почву и воду. Уже в одной статье накосячила, чувствую неотвертеться будет теперь.
Походу как ни крутись - все равно всем не угодить.

Игорь прав, посчитано неверно т.к. у Вас не полные данные, а цензурированные - обрезанные слева. То что вы включаете в анализ как 0, на самом деле нолём не является. Это просто концентрация, находящаяся за пределами чувствительности методики. А значит посчитано неверно. В самом примитивном случае такие ноли заменяют половиной порога чувствительности методики (что, впрочем, не намного грамотней). А вообще существуют алгоритмы для расчёта среднего и ДИ для цензурированных данных. Это метод Каплана-Мейера "наоброт", ROS-методы (Regression on Order Statistic) и др. Сам пользуюсь бесплатной программой UnCensor 4.0 (лежала здесь: Еnvironmental Toxicology and Risk Assessment Software, URL: http://www.vims.edu/env/research/risk/software/vims_software.html#uncensor но сейчас не нашёл, не времени искать новую ссылку ). Про другую программу для этого писал в этой ветке: http://forum.disser.ru/index.php?showtopic=1382 сообщение 12.

Автор: Ancha 25.12.2010 - 21:06

Не понимаю почему они цензурированные? Вот данные: 0,0010 0,0022 0,0033 0,3450 0,6701 Медиана будет 0,0033?

Автор: nokh 25.12.2010 - 22:10

Я не вижу в этих данных значения "или 0 (невыявлен)", про которое Вы писали в посте #15. Данный же набор не содержит цензурированных наблюдений.

Автор: Ancha 25.12.2010 - 22:28

Вот, вот, данные не цензурированные, а медиана не отражает истины.

Сейчас просмотрела кучу наших и иностранных статей - все пишут как хотят, обходя все законы статистики.

Автор: nokh 25.12.2010 - 23:57

Учитывая, что значения различаются на порядки в данном случае я бы посчитал как в микробиологии - среднее геометрическое. Т.е. представил бы в таблице среднее так (х10-4): 175,8 (95% ДИ: 3,9 - 7853). Полагаю, что величина именно такого порядка (сотни х10-4) наилучшим образом характеризует центральную тенденцию данных в исходной шкале.
А вообще проблема есть. Сильно скошенные и вообще непонятно какие (возможно, полимодальные) распределения встречаются, например, для многих иммунологических показателей в однородных группах пациентов. Пока не столкнулся, даже не знал что существует такая вариабельность. Однако как правило приводят средние значения.

Интересно мнение участников форума по проблеме.

Автор: 100$ 26.12.2010 - 02:10

А чтой-то никто не спросит девушку про объем выборки?
Ништо она и впрямь по пяти морковкам пытается проверить нормальность распределения?
А так ли уж велики отклонения от нормальности, чтобы грузить человека цитатками из теории множеств?
Может, оно на самом деле логнормальное или экспоненциальное?

Ушел спать, ой! учить ЦПТ.

Автор: Ancha 26.12.2010 - 12:11

Гы. ) А по скольким ж морковкам я должна считать? Мешок чтоли купить? Или всю популяцию моркови, произрастающей в области?
Выборки разные.
По продуктам очень маленькие - от 12 до 24 значений. По воде - нормальные - около 700 значений.

Автор: Игорь 26.12.2010 - 13:51

Цитата(Ancha @ 26.12.2010 - 12:11) *
Гы. ) А по скольким ж морковкам я должна считать? Мешок чтоли купить? Или всю популяцию моркови, произрастающей в области?
Выборки разные.
По продуктам очень маленькие - от 12 до 24 значений. По воде - нормальные - около 700 значений.

При расчете репрезентативности выборки статистика оперирует численностью выборки - т.е. штуками (хотя мешками тоже можно). По-моему, данные вопросы уже обсуждались в других ветках форума.

Меня при знакомстве с результатами биохимических исследований тоже сначала немного шокировал разброс данных (на порядки). Но специалисты сообщили, что это в порядке вещей в этой области.

Важно представлять себе цель исследования. Если вы производите определенные анализы в рамках стандартных лабораторных инструкций, то даже если инструкции содержат ошибочные положения, устраивать революцию бесполезно - вас не поймут. Делайте, как делают все. Если вы выполняете научную работу, то тогда имеет смысл указать на неточности стандартных методик. Но тогда необходимо предложить и научно обосновать свою методику.

Автор: 100$ 26.12.2010 - 14:45

To Ancha:

Вот хотите - верьте, хотите-проверьте, но для такой довольно ответственной статистической процедуры как проверка характера распределения (р-р, проверка нормальности) и мешка может не хватить.
В учебниках проф. Орлова А.И. приводится расчет, из которого следует, что для гарантии того, что выборочная ф-ция распределения отличается от теоретической не более чем на 0,01 необходимо порядка 2500 наблюдений.
Так что много моркови не бывает. Смело можете на всю область замахнуться.
А прверять нормальность по 12-24 образцам - это разновидность алхимии.


Автор: Ancha 26.12.2010 - 15:32

100$, Вы же понимаете, надеюсь, что 2500 проб - это невозможно сделать (по одному объекту), даже 100 невозможно.

По примерным подсчетам это я только морковку за 5-6 лет обработаю, а еще где-то полторы сотни параметров... По вашему получается что вообще 20-30 проб статистически обрабатывать нельзя?

Автор: 100$ 26.12.2010 - 16:14

Цитата(Ancha @ 26.12.2010 - 16:32) *
100$, Вы же понимаете, надеюсь, что 2500 проб - это невозможно сделать (по одному объекту), даже 100 невозможно.

По примерным подсчетам это я только морковку за 5-6 лет обработаю, а еще где-то полторы сотни параметров... По вашему получается что вообще 20-30 проб статистически обрабатывать нельзя?


Конечно, понимаю. (Хоть одну Вашу надежду оправдал). Точнее было бы сказать, что эта работа не для одного человека.
Когда Скурихин с Волгаревым руководили выпуском "Таблиц хим. состава пищевых продуктов", так там тьма исследователей засветилась.


Цитата
По вашему получается что вообще 20-30 проб статистически обрабатывать нельзя?


Можно, конечно, просто в данном случае надо либо априори убедительно обосновать предполагаемый вид распределения контаминантов в продуктах, что, конечно, не всегда возможно, либо упоминания о проверке характера распределения свести к минимуму и уж, конечно, не кричать о них на весь мир и его окрестности.
Наиболее продвинутая рекомендация для Вашего случая сводится к тому, что надо будет выдать и среднее арифметическое, и медиану, и межквартильный размах
Кстати, непараметрическому (доверительному) оцениванию характеристик распределения у проф. Орлова посвящен целый параграф.
Вот как-то так.

Успехов!

Автор: DrgLena 26.12.2010 - 18:30

Цитата(100$ @ 26.12.2010 - 17:14) *
Наиболее продвинутая рекомендация для Вашего случая сводится к тому, что надо будет выдать и среднее арифметическое, и медиану, и межквартильный размах

У меня сомнение, что такая обработка будет самая продвинутая. Не нужно ничего "обрабатывать", не поможет ни среднее с ошибкой, ни медиана с квартилями, никакой динамики по годам по таким 5 значениям содержания свинца в морковках сделать будет нельзя. Приводите все 5 значений, с указанием того на каких грядках они произрастали. А выводы пусть делают читатели, их может быть несколько. Лаборант не помыл руки после свинцовых примочек себе или двум последним морковкам, две последние морковки с другой грядки, там зарыт свинцовый аккумулятор.
Если жалко изводить мешок морковки, а исследовательский зуд имеется, тогда разрежьте одну морковку на 3 части и в каждой сделайте 3 параллели. На тканях лабораторных животных именно так и делается, чтобы определить содержание чего -то в тканях. Меня никак не убедила мысль, что на одной грядке растут нормальные по содержанию свинца объекты и монстры с превышением предельно допустимые концентрации. Нужно искать причину такой вариабельности, а не приводить кучу статистических обобщений для 5 объектов. Впрочем, могу ошибаться в предметной области, поэтому не помешала бы статья из надежного источника с описанием подобных исследований.

Автор: Ancha 26.12.2010 - 19:22

Почитайте журнал ?Гигиена и санитария?, бесчисленное количество статей по этой тематике. Журнал ?Микроэлементы в медицине?.

DrgLena, вы невнимательно просмотрели мои многочисленные сообщения, речь идет не только о маленьких, но и о больших выборках (до 1000 проб). Морковка росла не на грядке, а в тарелке ребенка, посещающего ДОУ. Мне не нужно проводить эксперименты на лабораторных животных, т.к. обследую живых детей. Продуктов много ? 82 наименования, если каждое в повторностях напишу ? превышу лимит даже докторской диссертации (и это будет только таблица).

Зуд имеется, жаль, что из всех ответивших мне Вы не предложили ничего существенного, чтобы его остудить, хотя наверно могли бы.
Я действительно очень плохо разбираюсь в статистике. Извините что зафлудила тему.

Спасибо всем за советы )))

Автор: nokh 26.12.2010 - 20:30

Цитата(Ancha @ 26.12.2010 - 17:32) *
100$, Вы же понимаете, надеюсь, что 2500 проб - это невозможно сделать (по одному объекту), даже 100 невозможно.
По примерным подсчетам это я только морковку за 5-6 лет обработаю, а еще где-то полторы сотни параметров... По вашему получается что вообще 20-30 проб статистически обрабатывать нельзя?

Пока вынужден относиться как к флуду не к Вашим сообщениям, а к сообщениям 100$ , поскольку в них нет дельных советов, а люди обращаются на форум именно в поисках советов, а не для того чтобы кто-то грузил не по делу. О проверки на нормальность распределения речь вообще не шла. Речь шла о способе представления описательной статистики в случае малых выборок неизвестного распределения. Но в посте #24 100$ сам поднимает вопрос об объёме выборки для проверки нормальности, а в посте #27 сам же на него отвечает, только как будто проверять нормальность на малых выборках собирались Вы. Короче, громко и сам с собою. Тем более не считаю его компетенцию сколь либо достаточной для критического обзора рекомендаций, выданных вам другими участниками обсуждения и мной в частности. И 2500 проб - тоже флуд. На выборках такого объёма можно скорее доказать, что ни один известный тип распределения не подходит к данным, чем подтвердить нормальность или логнормальность распределения. 20-З0 проб - уже может быть достаточно не только для характеристики центральной тенденции в данных, но и для попыток их многомерного обобщения в вариантах факторного анализа, а также для геостатистического анализа с последующим построением карт распределения загрязнённости. По личному опыту для металлов в воде воде этого может быть недостаточно, а вот для почв, рыбы и особенно донных отложений - вполне.

Цитата(DrgLena @ 26.12.2010 - 20:30) *
... Меня никак не убедила мысль, что на одной грядке растут нормальные по содержанию свинца объекты и монстры с превышением предельно допустимые концентрации. Нужно искать причину такой вариабельности, а не приводить кучу статистических обобщений для 5 объектов. Впрочем, могу ошибаться в предметной области, поэтому не помешала бы статья из надежного источника с описанием подобных исследований.

Я в предыдущем посте специально обратил внимание на иммунологические показатели, Игорь далее - на биохимические. Т.е. дело скорее не в предметной области, пожалуй в любой области находятся такие показатели. Скажем в гидрохимии также принято приводить усреднённый химический состав воды, хотя ни о какой нормальности речи не идёт, т.к. каждая часть и уровень водоёма имеют свою специфику - если в каждой делать по 30 измерений будет отчётливое полимодальное распределение. Если говорить о металлах, то главный источник изменчивости - мозаичный характер загрязнения и тренды загрязнения, т.е. также имеем полимодальность, поскольку одни участки территории подвергаются микроэлементной нагрузке от специфических источников загрязнения, другие - практически нет, или подвергаются, но от других источников. Я бы заострил вопрос именно на способе представления усреднённых характеристик гетерогенных выборок. Как, например, Вы представляете описательную статистику по иммунологическим, биохимическим и прочим сильно варьирующим показателям?

Автор: 100$ 26.12.2010 - 23:33

Nokh, первая часть поста #32 не удалась

И вааще не надо так ревниво реагировать на мое приятное общение с дамой

Автор: DrgLena 27.12.2010 - 02:23

Цитата(Ancha @ 26.12.2010 - 20:22) *
DrgLena, вы невнимательно просмотрели мои многочисленные сообщения, .....т.к. обследую живых детей.

Да, действительно не внимательно, я поняла, что свинец вы анализируете в морковках, а не в живых детях.
Ancha, Вы прицепились к ветке, где .... чайник вскипел, а бабушка в больнице
И Ваше первое сообщение написано в том же духе, поэтому на него серьезно трудно ответить, вот 100$ и пошутил, раз программа выдает, значит, можно, но его серьезные люди не поняли.
Цитата(Ancha @ 23.12.2010 - 23:51) *
Для обработки данных использую непараметрическую статистику (поскольку распределение отличное от нормального). Необходимо найти среднее значение для признака

Ну раз необходимо найти, так найдите, при чем тут непараметрическая статистика?
Из ваших постов понятно, что ряды по размеру совершенно различные от 5 до 700, например. Различны они будут и по форме распределения исследуемой величины. Я обычно начинаю описательную часть с анализа гистограмм. Для меня это важнее, чем результат тестирования на нормальность. Вы можете задать любое число интервалов и посчитать долю каждого интервала в общем числе наблюдений. На такой гистограмме вы можете нарисовать диапазон нормы и посчитать долю не нормы. А дальше, получите описательные статистики для ряда включая и среднее и ошибку среднего и среднеквадратическое отклонение, 95% ДИ, а также медиану и квартили, как советовал плав. Для ваших 5 морковок будут следующие данные: среднее 0,2043 (95%ДИ =-0,1678; 0,5765), медана 0,0033 (0,0022;0,345)
Нижняя граница 95% ДИ отрицательная, среднее сильно отличается от медианы , а саму медиану и квартили трудно описать, поскольку из 5 морковок половина будет иметь значение меньше 0,0033, 25% меньше 0,0022 и еще 25% больше 0,345,т.е. в квартилях по одной морковке, т.к. ниже 0,0022 одно наблюдение и выше 0,345 тоже только одно наблюдение. Отсюда следует мое убеждение, что не все результаты наблюдений можно и нужно обобщать, гораздо больше информации будет в таблице, где будут представлены все 5 истинных значений содержания свинца в морковках. Из такой таблицы будет понятно, что из 5 значений 3 в диапазоне нормы, а 2 совершенно недопустимые. Мои рекомендации, которые вы сочли бесполезными, можете оставить без внимания, необходимо найти среднее, находите. Я руководствуюсь здравым смыслом и общими рекомендациями (к сожалению нет под рукой ссылки) для биомедицинских публикаций, если наблюдения немногочисленны, желательно привести все значения исследуемого количественного признака. Это касается в частности различных линеек онкомаркеров при различных типах опухолей.
Если данных достаточно, то конечно требуется статистическое описание. И его характер тоже будет зависеть от формы распределения. Удобно, когда работа написана в одном стиле, например, все ряды описаны средними и среднеквадратическими отклонениями, все довольны ? боксы с усами ДИ показывают. Но в результате может получиться то, что с 5 морковками.
У меня в недавней работе в группе больных исследованы 4 интерлейкина, два из них описаны средними и их динамика также, а два медианами. Так что общего рецепта, как описывать данные нет, трудность еще и в том, что кроме описания группы нужны еще и сравнения, вот тут уже могут быть ошибочные выводы из за неверных методов.

nokh, про полимодальность иммунологических показателей готова пообщаться, но в другой ветке

 

Автор: Ancha 27.12.2010 - 19:43

DrgLena, надеюсь, Вы не приняли за правду число морковок и те цифровые данные, что я написала, т.к. это просто случайные цифры, набранные для примера (Ох и любите Вы я смотрю этот овощ - это шутка). Гистограммами и т.п. я все проверяла, тоже с этого начала. Спасибо что прониклись моей проблемой.

Спасибо за комментарии, в любом случае они будут мне полезны.

Автор: DrgLena 27.12.2010 - 19:59

Цитата(Ancha @ 27.12.2010 - 19:43) *
Ох и любите Вы я смотрю этот овощ ....

Мне понравились именно эти 5 морковок, потому, что они объясняют мою любовь к гистограммам, на рис. есть данные, что по одному из критериев их распределение не противоречит нормальному!!!

 

Автор: DoctorStat 27.12.2010 - 22:43

Цитата(DrgLena @ 27.12.2010 - 19:59) *
по одному из критериев их распределение не противоречит нормальному!!!
Вы некорректно провели сравнение эмпирической с нормальной функцией распределения. Морковки нужно исследовать отдельно, а не объединять несколько штук в один столбец гистограммы. Такое объединение (огрубление) измерений ведет к потере информации и снижению мощности статистических критериев. Если вы вернетесь к отдельным морковкам, то ВСЕ критерии покажут отличие эмпирического от нормального распределения.

Автор: DrgLena 28.12.2010 - 00:00

Не важно сколько нарисовано морковок, расчет Dmax проведен по всем.

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)