Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

3 страниц V  < 1 2 3 >  
Добавить ответ в эту темуОткрыть тему
> Теория статистического анализа данных в вопросах, Разбираем вопросы по теории методов статистического анализа данных
Игорь
сообщение 25.12.2010 - 20:24
Сообщение #16





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Ancha @ 25.12.2010 - 21:05) *
С медианой расчеты получаются не корректные. Допустим - в 5ти образцах овощей содержание кадмия близкое к 0 (0,0005) или 0 (невыявлен), а 3х - превышает ПДК (0,3000). А медиана = 0 мг/кг. Разве это корректно?

Конечно, нет. Ибо посчитано неверно.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 25.12.2010 - 20:27
Сообщение #17





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Поделюсь своим мнением, т.к. тоже приходится приводить данные по металлам. Отношусь к среднему арифметическому просто как к одной из мер положения. Действительно, для распределений, отличных от нормального, она не является оптимальной. Но неоптимальность - одно, а стат. некорректность - другое. Я специально анализировал типы распределения металлов в некоторых наборах своих данных (вода, снег, почвы) и пришёл к выводу о столь же надуманном логарифмическом преобразовании таких данных, т.е. расчёте не арифметического, а геометрического среднего. Хотя тоже, в геологических работах - сплошное простое логарифмирование. Медиана является хорошей мерой положения, но в публикациях не встречается такая форма представления данных как медиана с 95% ДИ, а обычные в таких случаях коробчатые графики не позволяют сравнивать медианы графически. Я принял для себя следующую стратегию предоставления данных по металлам.
(1) Если объём публикации это позволяет - даю и среднее, и медианы, и нижнюю с верхней квартили (в наших классических учебниках по статистике квартиль женского рода). Но не даю стандартную ошибку среднего ввиду её полной бессмысленности.
(2) Если данных много (десятки наблюдений) - преобразую их по Боксу-Коксу, нахожу среднее арифметическое и 95%-ные ДИ для него, и полученные значения ретрансформирую к исходной шкале. Т.о. получается, что для нормально распределённых данных (лямбда = 1) привожу среднее арифметическое с ДИ для него, для логнормально распредённых данных (лямбда = 0) - среднее геометрическое с ДИ для него, а для промежуточных вариантов (у меня часто лямбда в районе 0,2-0,3) - среднее, оптимальное для таких данных и ДИ для него.
(3) Если данных мало (до 20, доверия к получаемому в ходе преобразования по Боксу-Коксу значению лямбды нет) и объём публикации не позволяет дать описательную статистику развёрнуто - соглашаюсь с тем, что ничего не знаю о типе распределения, но не отказываюсь от среднего арифметического. Всё-таки это - самая простая и распространённая мера положения. Привожу среднее и 95%-ные доверительные интервалы для него, полученные бутстрепом. Чем сильнее скошено распределение данных, тем асимметричнее получаются ДИ. Эти же значения и откладываю на графиках, если места для таблицы с описательной статистикой совсем нет.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ancha
сообщение 25.12.2010 - 20:38
Сообщение #18





Группа: Пользователи
Сообщений: 13
Регистрация: 23.12.2010
Пользователь №: 23068



Игорь, в том то и дело что расчитано правильно. Сами, хоть в экселе попробуйте. Забейте 10 меленьких значений и 8 больших (на 2 порядка больше) - он вам медиану выдаст по маленьким значениям, игнорируя 8 больших.

Nokh, поняла вашу стратегию. Я тоже и снег и почву и воду. Уже в одной статье накосячила, чувствую неотвертеться будет теперь.
Походу как ни крутись - все равно всем не угодить.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 25.12.2010 - 21:01
Сообщение #19





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Ancha @ 25.12.2010 - 22:38) *
Игорь, в том то и дело что расчитано правильно. Сами, хоть в экселе попробуйте. Забейте 10 меленьких значений и 8 больших (на 2 порядка больше) - он вам медиану выдаст по маленьким значениям, игнорируя 8 больших.

Nokh, поняла вашу стратегию. Я тоже и снег и почву и воду. Уже в одной статье накосячила, чувствую неотвертеться будет теперь.
Походу как ни крутись - все равно всем не угодить.

Игорь прав, посчитано неверно т.к. у Вас не полные данные, а цензурированные - обрезанные слева. То что вы включаете в анализ как 0, на самом деле нолём не является. Это просто концентрация, находящаяся за пределами чувствительности методики. А значит посчитано неверно. В самом примитивном случае такие ноли заменяют половиной порога чувствительности методики (что, впрочем, не намного грамотней). А вообще существуют алгоритмы для расчёта среднего и ДИ для цензурированных данных. Это метод Каплана-Мейера "наоброт", ROS-методы (Regression on Order Statistic) и др. Сам пользуюсь бесплатной программой UnCensor 4.0 (лежала здесь: Еnvironmental Toxicology and Risk Assessment Software, URL: http://www.vims.edu/env/research/risk/soft...e.html#uncensor но сейчас не нашёл, не времени искать новую ссылку ). Про другую программу для этого писал в этой ветке: http://forum.disser.ru/index.php?showtopic=1382 сообщение 12.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ancha
сообщение 25.12.2010 - 21:06
Сообщение #20





Группа: Пользователи
Сообщений: 13
Регистрация: 23.12.2010
Пользователь №: 23068



Не понимаю почему они цензурированные? Вот данные: 0,0010 0,0022 0,0033 0,3450 0,6701 Медиана будет 0,0033?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 25.12.2010 - 22:10
Сообщение #21





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Я не вижу в этих данных значения "или 0 (невыявлен)", про которое Вы писали в посте #15. Данный же набор не содержит цензурированных наблюдений.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ancha
сообщение 25.12.2010 - 22:28
Сообщение #22





Группа: Пользователи
Сообщений: 13
Регистрация: 23.12.2010
Пользователь №: 23068



Вот, вот, данные не цензурированные, а медиана не отражает истины.

Сейчас просмотрела кучу наших и иностранных статей - все пишут как хотят, обходя все законы статистики.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 25.12.2010 - 23:57
Сообщение #23





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Учитывая, что значения различаются на порядки в данном случае я бы посчитал как в микробиологии - среднее геометрическое. Т.е. представил бы в таблице среднее так (х10-4): 175,8 (95% ДИ: 3,9 - 7853). Полагаю, что величина именно такого порядка (сотни х10-4) наилучшим образом характеризует центральную тенденцию данных в исходной шкале.
А вообще проблема есть. Сильно скошенные и вообще непонятно какие (возможно, полимодальные) распределения встречаются, например, для многих иммунологических показателей в однородных группах пациентов. Пока не столкнулся, даже не знал что существует такая вариабельность. Однако как правило приводят средние значения.

Интересно мнение участников форума по проблеме.

Сообщение отредактировал nokh - 26.12.2010 - 00:24
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 26.12.2010 - 02:10
Сообщение #24





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



А чтой-то никто не спросит девушку про объем выборки?
Ништо она и впрямь по пяти морковкам пытается проверить нормальность распределения?
А так ли уж велики отклонения от нормальности, чтобы грузить человека цитатками из теории множеств?
Может, оно на самом деле логнормальное или экспоненциальное?

Ушел спать, ой! учить ЦПТ.

Сообщение отредактировал 100$ - 26.12.2010 - 02:14
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ancha
сообщение 26.12.2010 - 12:11
Сообщение #25





Группа: Пользователи
Сообщений: 13
Регистрация: 23.12.2010
Пользователь №: 23068



Гы. ) А по скольким ж морковкам я должна считать? Мешок чтоли купить? Или всю популяцию моркови, произрастающей в области?
Выборки разные.
По продуктам очень маленькие - от 12 до 24 значений. По воде - нормальные - около 700 значений.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 26.12.2010 - 13:51
Сообщение #26





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Ancha @ 26.12.2010 - 12:11) *
Гы. ) А по скольким ж морковкам я должна считать? Мешок чтоли купить? Или всю популяцию моркови, произрастающей в области?
Выборки разные.
По продуктам очень маленькие - от 12 до 24 значений. По воде - нормальные - около 700 значений.

При расчете репрезентативности выборки статистика оперирует численностью выборки - т.е. штуками (хотя мешками тоже можно). По-моему, данные вопросы уже обсуждались в других ветках форума.

Меня при знакомстве с результатами биохимических исследований тоже сначала немного шокировал разброс данных (на порядки). Но специалисты сообщили, что это в порядке вещей в этой области.

Важно представлять себе цель исследования. Если вы производите определенные анализы в рамках стандартных лабораторных инструкций, то даже если инструкции содержат ошибочные положения, устраивать революцию бесполезно - вас не поймут. Делайте, как делают все. Если вы выполняете научную работу, то тогда имеет смысл указать на неточности стандартных методик. Но тогда необходимо предложить и научно обосновать свою методику.

Сообщение отредактировал Игорь - 26.12.2010 - 13:53


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 26.12.2010 - 14:45
Сообщение #27





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



To Ancha:

Вот хотите - верьте, хотите-проверьте, но для такой довольно ответственной статистической процедуры как проверка характера распределения (р-р, проверка нормальности) и мешка может не хватить.
В учебниках проф. Орлова А.И. приводится расчет, из которого следует, что для гарантии того, что выборочная ф-ция распределения отличается от теоретической не более чем на 0,01 необходимо порядка 2500 наблюдений.
Так что много моркови не бывает. Смело можете на всю область замахнуться.
А прверять нормальность по 12-24 образцам - это разновидность алхимии.



Сообщение отредактировал 100$ - 26.12.2010 - 15:00
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ancha
сообщение 26.12.2010 - 15:32
Сообщение #28





Группа: Пользователи
Сообщений: 13
Регистрация: 23.12.2010
Пользователь №: 23068



100$, Вы же понимаете, надеюсь, что 2500 проб - это невозможно сделать (по одному объекту), даже 100 невозможно.

По примерным подсчетам это я только морковку за 5-6 лет обработаю, а еще где-то полторы сотни параметров... По вашему получается что вообще 20-30 проб статистически обрабатывать нельзя?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 26.12.2010 - 16:14
Сообщение #29





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Ancha @ 26.12.2010 - 16:32) *
100$, Вы же понимаете, надеюсь, что 2500 проб - это невозможно сделать (по одному объекту), даже 100 невозможно.

По примерным подсчетам это я только морковку за 5-6 лет обработаю, а еще где-то полторы сотни параметров... По вашему получается что вообще 20-30 проб статистически обрабатывать нельзя?


Конечно, понимаю. (Хоть одну Вашу надежду оправдал). Точнее было бы сказать, что эта работа не для одного человека.
Когда Скурихин с Волгаревым руководили выпуском "Таблиц хим. состава пищевых продуктов", так там тьма исследователей засветилась.


Цитата
По вашему получается что вообще 20-30 проб статистически обрабатывать нельзя?


Можно, конечно, просто в данном случае надо либо априори убедительно обосновать предполагаемый вид распределения контаминантов в продуктах, что, конечно, не всегда возможно, либо упоминания о проверке характера распределения свести к минимуму и уж, конечно, не кричать о них на весь мир и его окрестности.
Наиболее продвинутая рекомендация для Вашего случая сводится к тому, что надо будет выдать и среднее арифметическое, и медиану, и межквартильный размах
Кстати, непараметрическому (доверительному) оцениванию характеристик распределения у проф. Орлова посвящен целый параграф.
Вот как-то так.

Успехов!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 26.12.2010 - 18:30
Сообщение #30





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Цитата(100$ @ 26.12.2010 - 17:14) *
Наиболее продвинутая рекомендация для Вашего случая сводится к тому, что надо будет выдать и среднее арифметическое, и медиану, и межквартильный размах

У меня сомнение, что такая обработка будет самая продвинутая. Не нужно ничего "обрабатывать", не поможет ни среднее с ошибкой, ни медиана с квартилями, никакой динамики по годам по таким 5 значениям содержания свинца в морковках сделать будет нельзя. Приводите все 5 значений, с указанием того на каких грядках они произрастали. А выводы пусть делают читатели, их может быть несколько. Лаборант не помыл руки после свинцовых примочек себе или двум последним морковкам, две последние морковки с другой грядки, там зарыт свинцовый аккумулятор.
Если жалко изводить мешок морковки, а исследовательский зуд имеется, тогда разрежьте одну морковку на 3 части и в каждой сделайте 3 параллели. На тканях лабораторных животных именно так и делается, чтобы определить содержание чего -то в тканях. Меня никак не убедила мысль, что на одной грядке растут нормальные по содержанию свинца объекты и монстры с превышением предельно допустимые концентрации. Нужно искать причину такой вариабельности, а не приводить кучу статистических обобщений для 5 объектов. Впрочем, могу ошибаться в предметной области, поэтому не помешала бы статья из надежного источника с описанием подобных исследований.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

3 страниц V  < 1 2 3 >
Добавить ответ в эту темуОткрыть тему