Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Повторности опыта, статистика и методология
fruitfly
сообщение 12.11.2007 - 23:46
Сообщение #1





Группа: Пользователи
Сообщений: 7
Регистрация: 6.11.2007
Пользователь №: 4508



Привет знатокам статистики и методологии.

Сформулирую свои вопросы на конкретном примере.
Надо узнать влияние вещества А на жизнеспособность организма В. Жизнеспособность измеряется в силе люминисценции (измеряется прибором и выдает численое значение).

Опыт: берется 10 чашек петри для контроля и 10 для опыта (в опытные чашки в питательную среду добавляется вещество А). На каждую чашку высеваются колонии (клетки) организма В. Через какое-то время проводится анализ жизнеспособности (по люм. свечению). Для этого из каждой чашки абсолютно случайным образом выбирается 15 клеток которые и измеряются. Получаем определенный набор цифр. Для каждой чашки расчитывается средняя величина свечения и ст. Отклонение (по 15 клеткам)

Теперь собствено вопросы:
1. Как определить если какая/ие-то из 10 чашек (повторностей) не укладываются (статистически) в общую картину? Если такое происходит что надо делать все равно рассматривать эту/и повторности со всеми или надо выкинуть?

2. Как считать разницу между контролем и опытом. Взять среднию (по десяти чашкам)-средних (по 15 клеткам) и ст. отклонение для опыта и контроля и их сравнить между собой (здесь N для опыта и контроля будет по 10) или же правильней будет объеденить все повторности в одну (если не все то те которые не отличаются (статистически) от общей картины) для них расчитать среднее и ст. отклонение и сравнить опыт и контроль. Только во втором случае N будет равно по 150 для опыта и контроля, собственно столько сколько клеток было проанализировано.

Заранее благодарю за ответ. Особено было бы классно показать ход расчетов на примере Statistica 6.0
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 13.11.2007 - 20:53
Сообщение #2





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



В Вашем случае необходимо делать дисперсионный анализ с введением номера чашки в качестве независимой переменной (т.е. для каждого наблюдения (1) Интенсивность свечения (2) Номер чашки (3) Наличие в чашке вещества). В принципе надо бы использовать дисперсионный анализ с повторными наблюдениями и номер чашки указать как индикатор "наблюдения" (как если бы это было измерение у одного организма). К сожалению, показывать ход расчетов в Statistica невозможно, поскольку требуется описание по типу "в меню Х нажмите кнопку Y" и рисование картинок. Одна из причин использования в мире программ с командным языком - проще объяснять - как сделать.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
fruitfly
сообщение 15.11.2007 - 00:47
Сообщение #3





Группа: Пользователи
Сообщений: 7
Регистрация: 6.11.2007
Пользователь №: 4508



Данные, к сожалению, не нормально распределены.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 15.11.2007 - 11:33
Сообщение #4





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Если данные распределены не нормально, то надо искать причину - в Вашем случае анализируется повторяемость опыта и данные - теоретически - должны быть распределены нормально. Если Вы, как и многие в данной ветке, просто посмотрели на выборочное распределение и считаете, что распределение не нормальное, советую почитать в других ветках о том, что определять тип распределения по выборке дело вообще достаточно опасное, особенно при размере выборки 15 наблюдений.
Если у Вас есть теоретические причины думать о ненормальности распределения, надо данные нормализовать - логарифмирование или извлечение квадратного корня часто помогает, но в общем случае - трансформация Box-Cox.
Если все это кажется очень сложным - замените значения на ранги и делайте дисперсионный анализ на рангах. Строго говоря, все методы непараметрического дисперсионного анализа к этому и сводятся. При этом вы достаточно сильно потеряете в чувствительности метода, но зато удовлетворите авторов публикаций. которые из всех статистики усвоили только боевой клич "отсутствия нормально распределенных данных в медицине".
Алгоритм буде достаточно простым - берете все значения (без учета принадлежности у группе) сортируете в порядке возрастания - убывания, записываете порядковый номер и этот номер (ранг) записываете в новую переменную. которую затем и используете в дисперсионном анализе. В Statistica вроде есть функция расчета рангов.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
fruitfly
сообщение 15.11.2007 - 22:07
Сообщение #5





Группа: Пользователи
Сообщений: 7
Регистрация: 6.11.2007
Пользователь №: 4508



Привет Плав. Спасибо за объяснения.
Я смотрел данные на нормальность используя Колмагорова-Смирнова тест в Statistica. Я смотрел расспределение с учетом всех наблюдений во всех повторностях в пределах одной группы (контроль или опыт). Потом я их прологарифмировал (т.е. трансформировал) и это существенно не помогло. Вот почему я решил использовать непараметрические методы.
А вот с рангами это интересно. Попробую, но опять же я не знаю насколько это правомерно использовать ранжирование здесь. Можно ли применять этот метод для любых данных? Как например с данными по выживаемости?
Что такое непараметрический дисперсионный анализ? Вообще с дисперссионным анализом у меня какая-то странная вещь. Я как бы понимаю его важность, но не могу понять все его возможности. Ну например я делал бы АНОВУ на этих данных и что существенного можно узнать из неё? Все в конце концов сводиться к Post-Hoc сравнениям где видно что от чего отличается. Например ANOVA показала значимое влияние повторности. Что делать дальше? Вопрос то который меня мучает как знать и что делать если одна повторность сильно отличается от других. Изначально я предполагал конечно что между ними не должно быть разницы, но вот что-то некотролированное случилось что повлияло именно на эту повторность опыта. Ну например эта повторность-чашка стояла очень близко к обогревателю воздуха а я это незнал. Вижу только что данные этой повторности сильно отличаются от остальных, вот поэтому хочу знать как с помощью статистики принять решение выкинуть ее к ... или нельзя этого делать.
И еще. Не могли бы вы посоветовать что почитать и где это взять, по поводу ANOVA. Но только чтобы это было бы на простом, конкретном примере (как в моем случае например), а не занудная теория с кучей формул. Чтобы понять как вытянуть из этого анализа все что можно, что означает каждое действие и т.д.
Спасибо.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 15.11.2007 - 23:07
Сообщение #6





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Ну одно логарифмирование вряд ли достаточно, надо по крайней мере попробовать взятие квадратного корня, но самое главное у Вас единица наблюдения - чашка. Распределение должно быть нормальным в популяции клеток, откуда Вы взяли 15 клеток. По идее если нет систематических факторов и Вы берете случайным образом клетки, распределение должно быть нормальным (влияют только случайные факторы). Если это так и Вы на группе из 15 клеток не получаете нормальности (точнее, какова по KS вероятность нормальности в Вашем случае?) то у Вас очень большая вероятность ошибки II типа, т.е. Вы признаете распределение не нормальным, когда оно на самом деле нормально. Если интересно, посмотрите в других ветках примеры расчетов, я приводил. Непараметрика - особенно многомерная - разработана не очень хорошо. Поэтому если Вы будете настаивать на непараметрике у Вас будут проблемы (а многомерная модель у Вас, поскольку влияет номер чашки и наличие в чашке вещества).
Что касается ANOVA. Post Hoc сравнения НЕЛЬЗЯ делать, если суммарный (омнибусный) тест показывает недостоверность модели. так что к Post Hoc она не сводится. Более того, в Вашем случае ANOVA ответит на следующие вопросы: учитывая разброс свечения в чашках (номер чашки) есть ли различия между чашками (это не интересно) и в зависимости от добаления вещества. Соответственно, если у Вас фактор "вещество" оказывается достоверным, то это и есть ответ на мучающий Вас вопрос (без всякого Post Hoc сравнения - сравниваются только факторы). Более того, Вы можете получить откорректированные средние свечения (т.е. средние с веществом и без с учетом различий в чашках)
Некоторое - с примерами введение в дисперсионный анализ можно найти тут http://www.pubhealth.spb.ru/SASDIST/SAS1-3.htm, а для повторных наблюдений - тут http://www.pubhealth.spb.ru/SASDIST/SAS1-4.htm. Там все примеры в SAS, но в ней проще объяснять (сами программы при чтении можно опускать). Кстати, в самой Statistica в подсказке очень неплохо описан дисперсионный анализ с примерами.
Что касается анализа выживаемости - для него разработаны специальные методики, самая известная - и мощная - модель пропорционального риска Кокса. Считается полупараметрической (не требует задания типа распределения времен выживаемости, как модели Вейбулла или Гомпертца).
По поводу выкидования данных - статистически удаление данных не приветствуется. Это может делать только сам исследователь на основании анализа условий эксперимента. Если чашка стояла близко к обогревателю или наоборот около открытого окна, ее надо выбрасывать. Однако если Вы предполагаете, что она стояла не там на основании данных - вот это уже делать нельзя, ибо Ваше предположение может оказаться ложным и делаться только для того, чтобы "причесать" данные. В принципе удаление данных на основании "интуиции" рассматривается как подделка данных.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
fruitfly
сообщение 15.11.2007 - 23:24
Сообщение #7





Группа: Пользователи
Сообщений: 7
Регистрация: 6.11.2007
Пользователь №: 4508



спасибо
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему