Повторности опыта, статистика и методология |
Здравствуйте, гость ( Вход | Регистрация )
Повторности опыта, статистика и методология |
12.11.2007 - 23:46
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 6.11.2007 Пользователь №: 4508 |
Привет знатокам статистики и методологии.
Сформулирую свои вопросы на конкретном примере. Надо узнать влияние вещества А на жизнеспособность организма В. Жизнеспособность измеряется в силе люминисценции (измеряется прибором и выдает численое значение). Опыт: берется 10 чашек петри для контроля и 10 для опыта (в опытные чашки в питательную среду добавляется вещество А). На каждую чашку высеваются колонии (клетки) организма В. Через какое-то время проводится анализ жизнеспособности (по люм. свечению). Для этого из каждой чашки абсолютно случайным образом выбирается 15 клеток которые и измеряются. Получаем определенный набор цифр. Для каждой чашки расчитывается средняя величина свечения и ст. Отклонение (по 15 клеткам) Теперь собствено вопросы: 1. Как определить если какая/ие-то из 10 чашек (повторностей) не укладываются (статистически) в общую картину? Если такое происходит что надо делать все равно рассматривать эту/и повторности со всеми или надо выкинуть? 2. Как считать разницу между контролем и опытом. Взять среднию (по десяти чашкам)-средних (по 15 клеткам) и ст. отклонение для опыта и контроля и их сравнить между собой (здесь N для опыта и контроля будет по 10) или же правильней будет объеденить все повторности в одну (если не все то те которые не отличаются (статистически) от общей картины) для них расчитать среднее и ст. отклонение и сравнить опыт и контроль. Только во втором случае N будет равно по 150 для опыта и контроля, собственно столько сколько клеток было проанализировано. Заранее благодарю за ответ. Особено было бы классно показать ход расчетов на примере Statistica 6.0 |
|
13.11.2007 - 20:53
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
В Вашем случае необходимо делать дисперсионный анализ с введением номера чашки в качестве независимой переменной (т.е. для каждого наблюдения (1) Интенсивность свечения (2) Номер чашки (3) Наличие в чашке вещества). В принципе надо бы использовать дисперсионный анализ с повторными наблюдениями и номер чашки указать как индикатор "наблюдения" (как если бы это было измерение у одного организма). К сожалению, показывать ход расчетов в Statistica невозможно, поскольку требуется описание по типу "в меню Х нажмите кнопку Y" и рисование картинок. Одна из причин использования в мире программ с командным языком - проще объяснять - как сделать.
|
|
15.11.2007 - 00:47
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 6.11.2007 Пользователь №: 4508 |
Данные, к сожалению, не нормально распределены.
|
|
15.11.2007 - 11:33
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Если данные распределены не нормально, то надо искать причину - в Вашем случае анализируется повторяемость опыта и данные - теоретически - должны быть распределены нормально. Если Вы, как и многие в данной ветке, просто посмотрели на выборочное распределение и считаете, что распределение не нормальное, советую почитать в других ветках о том, что определять тип распределения по выборке дело вообще достаточно опасное, особенно при размере выборки 15 наблюдений.
Если у Вас есть теоретические причины думать о ненормальности распределения, надо данные нормализовать - логарифмирование или извлечение квадратного корня часто помогает, но в общем случае - трансформация Box-Cox. Если все это кажется очень сложным - замените значения на ранги и делайте дисперсионный анализ на рангах. Строго говоря, все методы непараметрического дисперсионного анализа к этому и сводятся. При этом вы достаточно сильно потеряете в чувствительности метода, но зато удовлетворите авторов публикаций. которые из всех статистики усвоили только боевой клич "отсутствия нормально распределенных данных в медицине". Алгоритм буде достаточно простым - берете все значения (без учета принадлежности у группе) сортируете в порядке возрастания - убывания, записываете порядковый номер и этот номер (ранг) записываете в новую переменную. которую затем и используете в дисперсионном анализе. В Statistica вроде есть функция расчета рангов. |
|
15.11.2007 - 22:07
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 6.11.2007 Пользователь №: 4508 |
Привет Плав. Спасибо за объяснения.
Я смотрел данные на нормальность используя Колмагорова-Смирнова тест в Statistica. Я смотрел расспределение с учетом всех наблюдений во всех повторностях в пределах одной группы (контроль или опыт). Потом я их прологарифмировал (т.е. трансформировал) и это существенно не помогло. Вот почему я решил использовать непараметрические методы. А вот с рангами это интересно. Попробую, но опять же я не знаю насколько это правомерно использовать ранжирование здесь. Можно ли применять этот метод для любых данных? Как например с данными по выживаемости? Что такое непараметрический дисперсионный анализ? Вообще с дисперссионным анализом у меня какая-то странная вещь. Я как бы понимаю его важность, но не могу понять все его возможности. Ну например я делал бы АНОВУ на этих данных и что существенного можно узнать из неё? Все в конце концов сводиться к Post-Hoc сравнениям где видно что от чего отличается. Например ANOVA показала значимое влияние повторности. Что делать дальше? Вопрос то который меня мучает как знать и что делать если одна повторность сильно отличается от других. Изначально я предполагал конечно что между ними не должно быть разницы, но вот что-то некотролированное случилось что повлияло именно на эту повторность опыта. Ну например эта повторность-чашка стояла очень близко к обогревателю воздуха а я это незнал. Вижу только что данные этой повторности сильно отличаются от остальных, вот поэтому хочу знать как с помощью статистики принять решение выкинуть ее к ... или нельзя этого делать. И еще. Не могли бы вы посоветовать что почитать и где это взять, по поводу ANOVA. Но только чтобы это было бы на простом, конкретном примере (как в моем случае например), а не занудная теория с кучей формул. Чтобы понять как вытянуть из этого анализа все что можно, что означает каждое действие и т.д. Спасибо. |
|
15.11.2007 - 23:07
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Ну одно логарифмирование вряд ли достаточно, надо по крайней мере попробовать взятие квадратного корня, но самое главное у Вас единица наблюдения - чашка. Распределение должно быть нормальным в популяции клеток, откуда Вы взяли 15 клеток. По идее если нет систематических факторов и Вы берете случайным образом клетки, распределение должно быть нормальным (влияют только случайные факторы). Если это так и Вы на группе из 15 клеток не получаете нормальности (точнее, какова по KS вероятность нормальности в Вашем случае?) то у Вас очень большая вероятность ошибки II типа, т.е. Вы признаете распределение не нормальным, когда оно на самом деле нормально. Если интересно, посмотрите в других ветках примеры расчетов, я приводил. Непараметрика - особенно многомерная - разработана не очень хорошо. Поэтому если Вы будете настаивать на непараметрике у Вас будут проблемы (а многомерная модель у Вас, поскольку влияет номер чашки и наличие в чашке вещества).
Что касается ANOVA. Post Hoc сравнения НЕЛЬЗЯ делать, если суммарный (омнибусный) тест показывает недостоверность модели. так что к Post Hoc она не сводится. Более того, в Вашем случае ANOVA ответит на следующие вопросы: учитывая разброс свечения в чашках (номер чашки) есть ли различия между чашками (это не интересно) и в зависимости от добаления вещества. Соответственно, если у Вас фактор "вещество" оказывается достоверным, то это и есть ответ на мучающий Вас вопрос (без всякого Post Hoc сравнения - сравниваются только факторы). Более того, Вы можете получить откорректированные средние свечения (т.е. средние с веществом и без с учетом различий в чашках) Некоторое - с примерами введение в дисперсионный анализ можно найти тут http://www.pubhealth.spb.ru/SASDIST/SAS1-3.htm, а для повторных наблюдений - тут http://www.pubhealth.spb.ru/SASDIST/SAS1-4.htm. Там все примеры в SAS, но в ней проще объяснять (сами программы при чтении можно опускать). Кстати, в самой Statistica в подсказке очень неплохо описан дисперсионный анализ с примерами. Что касается анализа выживаемости - для него разработаны специальные методики, самая известная - и мощная - модель пропорционального риска Кокса. Считается полупараметрической (не требует задания типа распределения времен выживаемости, как модели Вейбулла или Гомпертца). По поводу выкидования данных - статистически удаление данных не приветствуется. Это может делать только сам исследователь на основании анализа условий эксперимента. Если чашка стояла близко к обогревателю или наоборот около открытого окна, ее надо выбрасывать. Однако если Вы предполагаете, что она стояла не там на основании данных - вот это уже делать нельзя, ибо Ваше предположение может оказаться ложным и делаться только для того, чтобы "причесать" данные. В принципе удаление данных на основании "интуиции" рассматривается как подделка данных. |
|
15.11.2007 - 23:24
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 6.11.2007 Пользователь №: 4508 |
спасибо
|
|