Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Помогите разобраться
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
maxandron
Здравствуйте!
Прочитал одну статью: [url="http://www.pharmtech.com/pharmtech/article/articleDetail.jsp?id=711308&sk=&date=&pageID=2#"/url]. Видел ее перевод на одном из форумов. Один из вопросов, который у меня возник, это таблица 3 (Table III: Estimated variance component for furosemide content in the powder blend). Про нее написано:
Цитата
To understand process variation, the authors performed a fully nested ANOVA (see Table III). The result showed that 72.90% of the observed variation in the furosemide content resulted from a batch factor. Thus, to minimize the process variability, the causes of the variation among batches required further investigation.

Я попробовал тоже посчитать в программе STATISTICA и вручную. Получил один и тот же результат, который не совпадает со статейным. Прикладываю в прикрепленном файле результаты. Не могу понять, что делаю не так. Хочу разобраться. Может кто поможет? Жду ответов. Заранее благодарен за помощь.
nokh
Цитата(maxandron @ 28.09.2014 - 19:56) *
... Я попробовал тоже посчитать в программе STATISTICA и вручную. Получил один и тот же результат, который не совпадает со статейным. Прикладываю в прикрепленном файле результаты. Не могу понять, что делаю не так. Хочу разобраться. Может кто поможет? Жду ответов. Заранее благодарен за помощь.

Так у вас только таблица ДА, а где расчёт компонентов дисперсии? Это считается отдельно (можно и в пакете: Statistics - Advanced Linear... - Variance Components). Хотя один хрен не сходится со статьёй.
Чтобы рассчитать компоненты дисперсии нужно знать математические ожидания средних квадратов (MS). Прочитать и попрактиковаться в том числе и с последующим иерархическим комплексом можно по книге Монтгомери (Глава 7):
https://yadi.sk/d/oxwgeXAQbhwrq
Сначала в таблице ANOVA выпишем поточнее MS (Format - Cells - знаков 5-7)
Ожидаемый MS для Batch: Сигма2 + n * Сигма2Batch
Ожидаемый MS для Error: Сигма2
Отсюда вычисляем компонент дисперсии, связанный с эффектом Batch: s2Batch=(MSBatch - MSError) / n = (7,5334675 - 0,2347609) /10 = 0,72987066.
С ошибкой связано s2Error=MSError=0,2347609.
Общая дисперсия (100% дисперсии) = 0,72987066 + 0,2347609 = 0,96463156.
Доля дисперсии для эффекта партии = 0,72987066 / 0,96463156 * 100% = 75,66%.
Доля дисперсии для изменчивости внутри партии = 100 - 75,66 = 24,34%.
В случае однофакторного ДА всё просто и однозначно, почему у авторов другие цифры - непонятно.
maxandron
Цитата(nokh @ 28.09.2014 - 19:22) *
Так у вас только таблица ДА, а где расчёт компонентов дисперсии? Это считается отдельно (можно и в пакете: Statistics - Advanced Linear... - Variance Components). Хотя один хрен не сходится со статьёй.
Чтобы рассчитать компоненты дисперсии нужно знать математические ожидания средних квадратов (MS). Прочитать и попрактиковаться в том числе и с последующим иерархическим комплексом можно по книге Монтгомери (Глава 7):
https://yadi.sk/d/oxwgeXAQbhwrq
Сначала в таблице ANOVA выпишем поточнее MS (Format - Cells - знаков 5-7)
Ожидаемый MS для Batch: Сигма2 + n * Сигма2Batch
Ожидаемый MS для Error: Сигма2
Отсюда вычисляем компонент дисперсии, связанный с эффектом Batch: s2Batch=(MSBatch - MSError) / n = (7,5334675 - 0,2347609) /10 = 0,72987066.
С ошибкой связано s2Error=MSError=0,2347609.
Общая дисперсия (100% дисперсии) = 0,72987066 + 0,2347609 = 0,96463156.
Доля дисперсии для эффекта партии = 0,72987066 / 0,96463156 * 100% = 75,66%.
Доля дисперсии для изменчивости внутри партии = 100 - 75,66 = 24,34%.
В случае однофакторного ДА всё просто и однозначно, почему у авторов другие цифры - непонятно.

Большое спасибо за Ваш ответ и книгу. Почитаю. Еще пара вопросов. Пользовались ли Вы программой Minitab? Если да, то как она в работе? И второй вопрос. Проверку на нормальность в статье проводили с помощью критерия Андерсона-Дарлинга. Причину его использования авторы дают следующую:
Цитата
This test was developed to be especially sensitive to deviations from normality in the distribution tails. For capability analysis, the tails are the most critical part of the distribution (15).

Только ли в этом преимущество данного критерия? Причем вроде как различают критерий Андерсона-Дарлинга и модифицированный критерий Андерсона-Дарлинга.
100$
Цитата(maxandron @ 29.09.2014 - 07:34) *
И второй вопрос. Проверку на нормальность в статье проводили с помощью критерия Андерсона-Дарлинга. Причину его использования авторы дают следующую:

Только ли в этом преимущество данного критерия? Причем вроде как различают критерий Андерсона-Дарлинга и модифицированный критерий Андерсона-Дарлинга.


Критерий Андерсона-Дарлинга - это ни разу НЕ критерий проверки нормальности, поскольку не использует никаких специальных свойств нормального распределения. . Это - критерий согласия, т.е. проверка гипотезы о теоретическом распределении.
Считается, что он обладает неплохой мощностью по отношению к альтернативам с тяжелыми хвостами.
А модификации критерия - это способ ускорить сходимость реального распределения статистики критерия к предельному (которое весьма громоздко с вычислительной точки зрения).
Ну, вот, как бы, и все.
Medic
Помогите разобраться... и правильно я написал вывод...
На основании использования критерия Ливиня было установлено, что дисперсии сравниваемых беременных по степеням ожирения статистически значимо не различаются (значение критерия Ливиня = 0,362 при р = 0,781). Это дает нам основание для дальнейшего использования результатов однофакторного дисперсного анализа. В результате его применения было выявлено, что среднее значение ВБД у беременных с различной степенью ожирения статистически достоверно различаются ? F = 4,892 при p = 0,003. Таким образом, беременные с разной степенью ожирения имеют статистически значимо разные (качественно различающиеся) уровни ВБД.
Была так же выявленная умеренная положительная связь высокой степени значимости между уровнем ВБД и ИМТ у беременных с ожирением ? r-Пирсона = 0,36 при p ≤ 0,001.
Однако в результате множественных попарных сравнений с использованием критерия Шеффе, мы установили, что между беременными с различной степенью ожирения нет статистически значимых различий. (так как p больше 0,05).
nokh
Цитата(Medic @ 7.02.2015 - 20:26) *
Помогите разобраться... и правильно я написал вывод...
На основании использования критерия Ливиня было установлено, что дисперсии сравниваемых беременных по степеням ожирения статистически значимо не различаются (значение критерия Ливиня = 0,362 при р = 0,781). Это дает нам основание для дальнейшего использования результатов однофакторного дисперсного анализа. В результате его применения было выявлено, что среднее значение ВБД у беременных с различной степенью ожирения статистически достоверно различаются ? F = 4,892 при p = 0,003. Таким образом, беременные с разной степенью ожирения имеют статистически значимо разные (качественно различающиеся) уровни ВБД.
Была так же выявленная умеренная положительная связь высокой степени значимости между уровнем ВБД и ИМТ у беременных с ожирением ? r-Пирсона = 0,36 при p ≤ 0,001.
Однако в результате множественных попарных сравнений с использованием критерия Шеффе, мы установили, что между беременными с различной степенью ожирения нет статистически значимых различий. (так как p больше 0,05).

1) р - площадь под кривой распределения статистики, т.е. статистика - сама по себе, а не "при р". А вот р - при статистике. Т.е. "при р" некоррекно. Лучше давать статистику и р через "," или ";"
2) Любая статистистическая выкладка даётся тремя значениями: (1) Статистика. (2) Степени свободы или объёмы выборок (в зависимости от статистики). (3) значение р. Двух значений недостаточно. Раз хотите приводить Левне - Ливена - Ливиня, то посмотрите какое (2) ему нужно записать. Для F-критерия тоже дайте степени свободы. Если автор приводит 2 значения, значит не понимает, что при данном значении критерия, но других объёмах выборки значение р будет совсем другим. А если приводит везде только р - вообще ничего не понимает, и может быть даже фальсифицирует результаты исследования.
3) "Это дает нам основание для дальнейшего использования результатов классического однофакторного дисперсного анализа." Т.к.при неравных дисперсиях можно также: (1) предварительно преобразовать данные для "стабилизации" дисперсии, (2) использовать подходы с штрафами за несоблюдение требований типа подходов Вэлча или Мардии - Земроч, (3) использовать рандомизационный дисперсионный анализ. Ну и скорее использования не "результатов", а самого анализа. Для сравнения используется анализ, а его результаты - для выводов.
4) Я жёстко придерживаюсь мнения о некорректности использования в науке занятых терминов. Точнее в меня это вбили ещё в аспирантуре, когда я в популяционной экологической работе использовал занятый здесь термин "когорта" в демографическом смысле. Просто последовавшей серией вопросов показали в деталях, что я не "молодой учёный", и даже не личинка, которая в учении может окуклиться и потом полететь, а простой червь, который в лучшем случае просто выберется на поверхность из кромешной тьмы своих заблуждений. Термин "достоверный" используется в теории вероятности для событий, имеющих вероятность 1. В математической статистике может быть 0,9999999999 и т.д., но 1 никогда нет. Если человек начитавшись дурных учебников пишет "достоверный" вместо "статистически значимый", значит он выдаёт этим свою некомпетентность в математике, т.к. или не знает что 1 не может быть, либо не знает что матстатистика базируется на теории вероятности. Ну и вообще, статистика - английское изобретение, там нет иного штампа кроме "statistically significant", т.е. "статистически значимый". К статистически значимому результату исследователь может относиться как к достоверному, но это уже его проблема.
5) Если пишете знаками, то везде: не "p больше 0,05", а "p>0,05".
6) Избегайте скобок - обилие скобок указывает на некую разорванность мышления, что обычно свойственно новичкам. В результате ваши читатели тоже вынуждены будут спотыкаться о скобки, а мысль должна литься. Можно, конечно, и скобки, но когда по другому никак не выходит.
7) По правилам русского языка перед пояснением ставится двоеточие, а не тире (при копировании из ворда тире превращаются здесь в ?)
8) Про корреляцию не понял ни с первого, ни со второго прочтения. Значит написано неудачно. Попробуйте "вплести" идею с корреляцией иначе.
Ну а в общем и целом - нормально smile.gif Видно, что новичок, но по крайней мере использует статистику осознанно.
Medic
Цитата(nokh @ 8.02.2015 - 23:56) *
Ну а в общем и целом - нормально smile.gif Видно, что новичок, но по крайней мере использует статистику осознанно.

Спасибо Вам большое за такой развернутый ответ, очень приятно видеть не только свои ошибки, но и как их исправить.
1. ст. св. между группами указывать или внутри групп при F, а если Ливиня то ст. св. 1 или ст. св.2. (пользуюсь SPSS 21.)
2. Если я пишу средние значения то такой вариант написания подходит: среднее арифм (стандарт отклонения) +/- ст. ошибка ср. откл.
3. Сам для себя не могу объяснить следующее...
"...Таким образом, беременные с разной степенью ожирения имеют статистически значимо разные (качественно различающиеся) уровни ВБД.
...Однако в результате множественных попарных сравнений с использованием критерия Шеффе, мы установили, что между беременными с различной степенью ожирения нет статистически значимых различий...
nokh
Цитата(Medic @ 9.02.2015 - 10:54) *
Спасибо Вам большое за такой развернутый ответ, очень приятно видеть не только свои ошибки, но и как их исправить.
1. ст. св. между группами указывать или внутри групп при F, а если Ливиня то ст. св. 1 или ст. св.2. (пользуюсь SPSS 21.)
2. Если я пишу средние значения то такой вариант написания подходит: среднее арифм (стандарт отклонения) +/- ст. ошибка ср. откл.
3. Сам для себя не могу объяснить следующее...
"...Таким образом, беременные с разной степенью ожирения имеют статистически значимо разные (качественно различающиеся) уровни ВБД.
...Однако в результате множественных попарных сравнений с использованием критерия Шеффе, мы установили, что между беременными с различной степенью ожирения нет статистически значимых различий...

1. Для F-критерия указываются 2 степени свободы, например: F[15; 306]=2,00; р=0,015. Для Ливена не знаю, смотрите про этот тест.
2. "среднее +/- ст. ошибка" - устаревший стандарт, по крайней мере в медицине - безнадёжно устаревший. Приводите "Среднее (95% ДИ)", типа: 3,6 (95% ДИ: 2,8 - 5,6).
3. Про это не понял. Критерий Шеффе очень маломощный, т.к. используется для случаев когда интересует очень много сравнений средних в рамках дисперсионного комплекса. Может поэтому не находит, хотя дисп. анализ значимый. Попробуйте Тьюки - хороший, строгий тест. Рекомендуют также Ньюмена - Кёйлса. Если сравнений мало (на 1 меньше числа групп) - лучшее, что возможно - не множественный пост-хок, а запланированные сравнения: там мощность ещё больше (за счёт меньшего числа одновременно проверяемых простых гипотез).
Medic
Цитата(nokh @ 13.02.2015 - 20:38) *
2. "среднее +/- ст. ошибка" - устаревший стандарт, по крайней мере в медицине - безнадёжно устаревший. Приводите "Среднее (95% ДИ)", типа: 3,6 (95% ДИ: 2,8 - 5,6).

Как я понимаю 95% ДИ это для нормального распределения, а если ненорм то 25% - 75% процентили, так?
nokh
Цитата(Medic @ 14.02.2015 - 13:51) *
Как я понимаю 95% ДИ это для нормального распределения, а если ненорм то 25% - 75% процентили, так?

Нет. Для ненормально распределённых данных тоже можно вычислить ДИ.
(1) Если известно нормализующее преобразование, то можно: 1) преобразовать данные, 2) для ставшего приблизительно нормальным распределения вычислить среднее и ДИ классическим способом, 3) ретрансформировать эти 3 значения в исходную шкалу с помощью обратного преобразования (так называемая наивная ретрансформация). Если эти значения используются для прогноза, точности наивной ретрансформации может не хватить, т.к. она даст смещённый относительно популяционного среднего и менее широкий интервал, можно сделать точнее, но это уже тонкости, про которые многие даже не слышали.
(2) Для любого произвольного распределения можно вычислить ДИ с помощью процедуры бутстрепа (bootstrap). Есть несколько методов бутстрепа, более точным считается метод BCa (bias corrected accelerated).

А вообще нужно давать те меры, которые приняты в вашей области. Если наиболее продвинутые и авторитетные коллеги обычно приводят медианы и квартили - лучше давать их. Я люблю средние и ДИ, т.к. на коробчатых графиках не видно ориентировочно статистической значимости различий (если только автор не позаботился снабдить такой график скобками со значениями р), а по ДИ - видно. Да и среднее уж больно простая и привычная мера. Поэтому даже когда чаще приводят медианы и квартили даю также средние с ДИ: в ячейке таблицы над чертой - Среднее (нижняя граница ДИ - верхняя граница ДИ), под чертой - Медиана (Q1 - Q3). Также должно быть логичное соответствие между описательной статистикой и методами сравнения. Если данные в группах сравнивались с помощью дисперсионного анализа после предварительного преобразования, то и в описательную логично давать средние и ДИ после ретрансформации. Если сравнивали порядковыми методами, например Краскелом - Уоллисом, то и описательную логично давать порядковую - медиану и квартили. Ну или наоборот плясать от желаемой описательной статистике к методам сравнения, поиска связей, зависимостей.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.