Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >  
Добавить ответ в эту темуОткрыть тему
> Доклиника, распределение не нормально. Выборка?, _помогите посчитать выборку_
himik
сообщение 29.04.2014 - 18:29
Сообщение #1





Группа: Пользователи
Сообщений: 15
Регистрация: 29.04.2014
Пользователь №: 26382



День добрый.

Планируем делать доклинику. Пилот не делали, но из литературы знаем, что распределение ненормально. Подскажите, пожалуйста, как рассчитать выборку для сравнения препаратов. Нулевых гипотез 2 вида: а) препарат А лучше препарата Б, б) препарат А не хуже препарата В.

Буду благодарен за помощь.


Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 30.04.2014 - 22:50
Сообщение #2





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(himik @ 29.04.2014 - 18:29) *
День добрый.

Планируем делать доклинику. Пилот не делали, но из литературы знаем, что распределение ненормально. Подскажите, пожалуйста, как рассчитать выборку для сравнения препаратов. Нулевых гипотез 2 вида: а) препарат А лучше препарата Б, б) препарат А не хуже препарата В.

Буду благодарен за помощь.


лучше чем грузиныТМ smile.gif

1) надо четко сформулировать что значит "лучше" количественно (или хотя бы качественно)

2) что написано в литературе про распределение подробно? Хотя бы распределение чего написано?


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
himik
сообщение 1.05.2014 - 03:29
Сообщение #3





Группа: Пользователи
Сообщений: 15
Регистрация: 29.04.2014
Пользователь №: 26382



1) "Лучше" в нашем случае означает, что вещество статистически значимо (p<0,05) увеличивает латентное время в одном из физиологических тестов.
2) В литературе конкретно не приводятся экспериментальные точки, а только медианы и стандартные отклонения. Однако учитывая, что расчёт статистики идёт по Краскелу-Уоллису, а также то, что коэффициент вариации немаленький, сделано соответствующее предположение о распределении, отличном от нормального. Речь идёт о распределении латентных времён.

Сообщение отредактировал himik - 1.05.2014 - 03:49
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 1.05.2014 - 12:25
Сообщение #4





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(himik @ 1.05.2014 - 06:29) *
1) "Лучше" в нашем случае означает, что вещество статистически значимо (p<0,05) увеличивает латентное время в одном из физиологических тестов.
2) В литературе конкретно не приводятся экспериментальные точки, а только медианы и стандартные отклонения. Однако учитывая, что расчёт статистики идёт по Краскелу-Уоллису, а также то, что коэффициент вариации немаленький, сделано соответствующее предположение о распределении, отличном от нормального. Речь идёт о распределении латентных времён.

Очень похвально, что вы пытаетесь грамотно подойти к планированию эксперимента, а не как обычно у нас... И в случае приблизительно нормального распределения данных всё было бы замечательно: есть и онлайновые калькуляторы, и программы, и коды для среды R. В случае пилотных данных - ещё лучше: могли бы считать по предварительно преобразованным (например, логарифмированием) данным. Но вот погуглил я на предмет чисто теоретического планирования для ненормально распределённых данных и остался недоволен. По-сути, все что предлагается - это использование величины относительной асимптотической эффективности критериев (asymptotic relative efficiency, ARE) для коррекции результатов, вычисленных в предположении нормального распределения данных. Например, для ранговых критериев Манна-Уитни и Краскела-Уоллиса эта величина составляет около 3/пи=0,955, но не меньше 0,864 и объём выборки нужно соответственно увеличить в 1/0,955 или 1/0,864 раза, по сравнению с тем, что требовалось бы для t-критерия Стьюдента при нормальном распределении показателей. Т.о. это просто некий штраф за отклонение распределения от нормального. Скачал даже бесплатную программку для подобных расчётов: http://www.gpower.hhu.de/ . Но и там, для критерия Уилкоксона-Манна-Уитни: во-первых, аппроксимация самой статистики U-критерия t-распределением, а во-вторых - ARE.
Чем это плохо?

Распределение любых показателей, как-то связанных со временем скорее логарифмически нормальное, чем нормальное. Такие распределения поджаты слева, но имеют хвосты в правой части, т.е. демонстрируют положительную асимметрию. В результате среднее значение, как мера центральной тенденции, по стабильности заметно уступает медиане: добавление даже одного значения в хвост распределения сильно сдвигает среднее вправо. Стандартное же отклонение теряет свою геометрическую интерпретацию и становится просто абстрактной расчётной величиной. Когда мы работаем с такими данными на практике, то используем либо преобразование из семейства степенных (например, логарифмическое, квадратного корня, Бокса-Кокса) и считаем параметрикой, либо используем преобразование к рангам и считаем ранговой непараметрикой. Оба способа поджимают длинные хвосты справа делают распределения симметричнее + уменьшают меру рассеяния данных относительно центра. Однако закладывая стандартное отклонение асимметричного распределения в расчёт объема выборки, мы никак не учитываем такую процедуру "поджатия хвоста" smile.gif В результате, чем сильнее данные отклоняются от нормального распределения по асимметрии, тем более завышенным получится рассчитанный объём выборки.

За неимением лучшего, я бы всё-таки посчитал что предлагают калькуляторы, но относился бы к полученной величине как к сильно завышенной границе разумности (возможно в разы!!! eek.gif ); ARE не учитывал бы (ARE=1). Можете посчитать в G*Power или попробуйте онлайновые калькуляторы в разделе Power, Sample Size and Experimental Design Calculations этого ресурса: http://statpages.org/ По ссылкам оттуда можно выйти, например, на такой: http://powerandsamplesize.com/Calculators/Compare-2-Means/2-Sample-Non-Inferiority-or-Superiority (замечательный ресурс с формулами, ссылками и даже кодом на R).



Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 1.05.2014 - 12:33
Сообщение #5





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(himik @ 1.05.2014 - 03:29) *
1) "Лучше" в нашем случае означает, что вещество статистически значимо (p<0,05) увеличивает латентное время в одном из физиологических тестов.
2) В литературе конкретно не приводятся экспериментальные точки, а только медианы и стандартные отклонения. Однако учитывая, что расчёт статистики идёт по Краскелу-Уоллису, а также то, что коэффициент вариации немаленький, сделано соответствующее предположение о распределении, отличном от нормального. Речь идёт о распределении латентных времён.


1) Набрав 1000 экспериментальных точек Вы получите свои заветные 0.05 для сколь угодно малого эффекта (если он конечно есть) . Цель может быть сформулирована только одним образом --- получить доверительный интервал для оценки величины "прироста латентного времени".

2) Зафиксируем --- речь именно о самих латентных временах, а не их "приростах". Имеется медиана, стандартное отклонение и кв. Значит у нас есть косвенно и среднее. Очевидно есть максимальное и минимальное значение.

Возьмем подходящее теоретически распределение (например Weibull distribution) и зафитим его парметры

Код
### Получаю модельные данные
> data <- rweibull(20000, shape=1, scale = 1)
> mean(data)
[1] 0.9946463
> median(data)
[1] 0.6907863
> sd(data)
[1] 0.9952487

### Восстанавливаю параметры имея только генерацию распределения

> optim(c(2,2),
             function(x) {x1<-x[1];
                                x2<-x[2];
                                (mean(data) - mean(rweibull(20000, shape=x1, scale = x2)))^2  +  (median(data) - median(rweibull(20000, shape=x1, scale = x2)))^2
             },  
             method = "BFGS")
$par
[1] 1.006755 1.008493

$value
[1] 6.970689e-06

$counts
function gradient
     136       21

$convergence
[1] 0

$message
NULL

Было 22 предупреждений (введите warnings() чтобы их просмотреть)


Повторим для других исходных

Код
> data <- rweibull(20000, shape=1, scale = 3)
> optim(c(2,2),
             function(x) {x1<-x[1];
                                 x2<-x[2];
                                 (mean(data) - mean(rweibull(20000, shape=x1, scale = x2)))^2 + (median(data) - median(rweibull(20000, shape=x1, scale = x2)))^2
             },  
             method = "BFGS")
$par
[1] 0.9168395 2.9314810

$value
[1] 0.004491055

$counts
function gradient
     112       12

$convergence
[1] 0

$message
NULL

Было 16 предупреждений (введите warnings() чтобы их просмотреть)

> data <- rweibull(20000, shape=1.5, scale = 4)
> optim(c(2,2),
             function(x) {x1<-x[1];
                                x2<-x[2];
                                (mean(data) - mean(rweibull(20000, shape=x1, scale = x2)))^2 + (median(data) - median(rweibull(20000, shape=x1, scale = x2)))^2
             },  
             method = "BFGS")
$par
[1] 1.600342 3.981985

$value
[1] 5.3779e-05

$counts
function gradient
     302       26

$convergence
[1] 0

$message
NULL

Было 50 или более предупреждений (введите warnings() чтобы просмотреть первые 50)



Теперь мы можем планировать.

Задаем "размер экспериментальной выборки" и получив множество реализаций случайных выборок считаем нужные нам статистики. "Перебирая размеры выборки" находим оптимальный объем эксперимента который позволит получить удовлетворяющий нас доверительный интервал.

Если лень подгонять самому (или очень много параметров) можно опять заставить поработать optim(). smile.gif

Сообщение отредактировал p2004r - 1.05.2014 - 12:39


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
himik
сообщение 1.05.2014 - 13:11
Сообщение #6





Группа: Пользователи
Сообщений: 15
Регистрация: 29.04.2014
Пользователь №: 26382



2 nokh

Спасибо на добром слове. Просто если не подойти статистически грамотно, гипотезы доказать будет очень сложно :-). А нам это очень важно.
Мы тоже озабочены проблемой не очень хорошо разработанных для не нормальных распределений расчётов. Как действовать в случае нормальных распределений, нам понятно :-). Увы, не наш случай.

Что касается сведения к нормальному (путём логарифмирования), то этот вариант нами тоже просматривался.

Спасибо за помощь! Если всё сложится, попробую не забыть рассказать, что получилось.

Сообщение отредактировал himik - 1.05.2014 - 13:11
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 1.05.2014 - 13:20
Сообщение #7





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(himik @ 1.05.2014 - 13:11) *
2 nokh

Спасибо на добром слове. Просто если не подойти статистически грамотно, гипотезы доказать будет очень сложно :-). А нам это очень важно.
Мы тоже озабочены проблемой не очень хорошо разработанных для не нормальных распределений расчётов. Как действовать в случае нормальных распределений, нам понятно :-). Увы, не наш случай.

Что касается сведения к нормальному (путём логарифмирования), то этот вариант нами тоже просматривался.

Спасибо за помощь! Если всё сложится, попробую не забыть рассказать, что получилось.


А что не понравилось в моем способе?


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
himik
сообщение 1.05.2014 - 13:25
Сообщение #8





Группа: Пользователи
Сообщений: 15
Регистрация: 29.04.2014
Пользователь №: 26382



2 p2004r
Спасибо! Будем пробовать.

P.S. Нарыл вчера статью, которая рассматривает как раз наш случай (один в один). Вкратце суть сводится к тому, что применяется метод Каплана-Майера.



Сообщение отредактировал himik - 1.05.2014 - 13:25
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
himik
сообщение 1.05.2014 - 13:26
Сообщение #9





Группа: Пользователи
Сообщений: 15
Регистрация: 29.04.2014
Пользователь №: 26382



Цитата(p2004r @ 1.05.2014 - 14:20) *
А что не понравилось в моем способе?


Ничего не не понравилось. smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 1.05.2014 - 13:30
Сообщение #10





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(himik @ 1.05.2014 - 13:26) *
Ничего не не понравилось. smile.gif


Тогда давайте точное значение из статьи медианы, среднеквадратичного, к.в. и "что там еще есть" smile.gif

Подставим и зафитим (если не этим распределением, так придуманным другим подходящим)?


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 1.05.2014 - 13:36
Сообщение #11





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(himik @ 1.05.2014 - 13:25) *
2 p2004r
Спасибо! Будем пробовать.

P.S. Нарыл вчера статью, которая рассматривает как раз наш случай (один в один). Вкратце суть сводится к тому, что применяется метод Каплана-Майера.


То есть "факт реакции" рассматривается как процесс "выживания" "не среагировавших"? Подходяще.

Это безусловно подойдет для анализа результата эксперимента, увы планирование все равно придется делать в виде вычислительного эксперимента.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
himik
сообщение 1.05.2014 - 13:51
Сообщение #12





Группа: Пользователи
Сообщений: 15
Регистрация: 29.04.2014
Пользователь №: 26382



Цитата(p2004r @ 1.05.2014 - 14:30) *
Тогда давайте точное значение из статьи медианы, среднеквадратичного, к.в. и "что там еще есть" smile.gif

Подставим и зафитим (если не этим распределением, так придуманным другим подходящим)?


Нет, там просто описано, как можно интерпретировать данные таких экспериментов, конкретики нет. Вот ссылка на статью, она в свободном доступе: статья

Сообщение отредактировал himik - 1.05.2014 - 13:52
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
himik
сообщение 1.05.2014 - 13:55
Сообщение #13





Группа: Пользователи
Сообщений: 15
Регистрация: 29.04.2014
Пользователь №: 26382



Цитата(p2004r @ 1.05.2014 - 14:36) *
То есть "факт реакции" рассматривается как процесс "выживания" "не среагировавших"? Подходяще.

Это безусловно подойдет для анализа результата эксперимента, увы планирование все равно придется делать в виде вычислительного эксперимента.


По поводу последнего соглашусь. К тому же статья привела одного из участников нашей команды к мысли, что надо изменить немного методику - увеличить время наблюдения, хотя этом случае будет несколько проблематично сравнивать с литературными данными. Но это даст возможность большему количеству животных сделать себе бо-бо, а там выборка прямо пропорциональна числу животных, которые делать бо-бо отказываются. smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 1.05.2014 - 14:07
Сообщение #14





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(himik @ 1.05.2014 - 13:51) *
Нет, там просто описано, как можно интерпретировать данные таких экспериментов, конкретики нет. Вот ссылка на статью, она в свободном доступе: статья


Понятно, просто из топика мне показалось, что есть еще одна "первичная" статья, из которой узнали о ненормальности распределения и неких его параметрах.

Поскольку стоит задача различить две кривые выживаемости, то надо тогда посмотреть как сужается оценка доверительного интервала на кривой выживаемости от объема выборки.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
himik
сообщение 16.05.2014 - 18:52
Сообщение #15





Группа: Пользователи
Сообщений: 15
Регистрация: 29.04.2014
Пользователь №: 26382



Хотелось бы продолжить получение консультации, если никто не возражает :-)
Удалось заполучить экспериментальные данные, из которых я смог достать дисперсию и стандартное отклонение. Надеюсь, правильно.
Поскольку файл прикрепить не удалось, вешаю картинку.

Не подскажите, как действовать дальше?
Я напомню, с какими вопросами обратился:
1) как узнать, какая выборка животных нужна для того, чтобы оценить superiority? Предположительно полагаем, что superiority будет доказана, если будет превышение в латентных временах не менее
чем на 50 %. Позитивный контроль у нас будет такой же как в файле, и его мы будем сравнивать с экспериментальными веществами, одно из которых, по нашему предположению. не будет работать, т.е. при его введении латеное время будет близко к латентому времени в контроле.
2) второе сложнее. У нас есть ещё 3 экспериментальных вещества, которые мы также хотим попарно сравнить с позитивным контролем. В этом случае надо доказать non-inferiority. Можем предположить, что 20 % разницу в латентных временах можно считать незначительной. Вопрос тот же: какая должна быть выборка?

Всё это осложнено ненормальным распределением латентных времён.
Прошу заранее простить мне мою настойчивость и, возможно, некую непонятливость. Универ я окончил более 10 лет назад, и всё, с чем мы имели дело в рамках его курсов, - это нормальное распределение, которое обычно применялось к аналитической химии (дано 10 результатов анализов, посчитать дисперсию, стандартное отклонение и всё такое).

Посчитать по методу анализа выживаемости не удалось.

С уважением, himik.


Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V   1 2 >
Добавить ответ в эту темуОткрыть тему