![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]() ![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 2.07.2010 Пользователь №: 22590 ![]() |
Уважаемые участники форума, добрый день!
-- Краткая версия вопроса. Работа in vitro на клеточной линии, результаты теста снимаются спектрофотометрически в лунках планшета, каждое измерение тройное (3 лунки на одну концентрацию вещества). Можно ли применять параметрическую статистику для описания результатов, и проверки гипотез? Противоречие в том, что теоретически распределение должно быть нормальным и можно пользоваться параметрической статистикой (я склонен к ней); но практически в каждой группе всего три измерения и мне рекомендуют использовать непараметрику. -- Развернутая версия вопроса. Я зарегистрировался здесь, потому что очень важные детали для себя нашел в обсуждении темы: http://forum.disser.ru/index.php?showtopic...%EE%F7%ED%FB%E5 Несмотря на то, что я в аспирантуре по биологической тематике, моя "математическая" проблема очень близка. В теме обсуждается то, когда стоит применять параметрическую, а когда непараметрическую статистику. У меня с моими коллегами и руководителями нет единого мнения по данному вопросу, поэтому надеюсь на помощь профессионалов. Сразу предупреждаю, я создаю длинный пост не для того, чтобы всех утомить, а так как, чтобы дать квалифицированный ответ могут понадобиться детали. Вот их я и привожу. Если детали не интересуют, то кратко вопрос я уже изложил. Итак, задача. Я работаю с клеточной линией фибробластов легкого эмбриона человека, культура гомогенна, сохраняет свойства и фенотип при пересеве порядка 40-50 пассажей. Для экспериментов высеваю по 10 000 клеток в лунку 96-луночного планшета. Исследуется влияние 2 веществ в разных концентрациях на жизнеспособность клеток при помощи МТТ теста. Суть его в том, что живые клетки способны восстанавливать соединение МТТ, что приводит к образованию в клетках окрашенных кристаллов. После растворения кристаллов оптическая плотность раствора позволяет судить об уровне жизнеспособности клеток в культуре. (Жизнеспособность здесь - интегральный параметр, позволяющий оценить скорость роста культуры, гибель клеток в ней, если таковая присутствует, а также уровень метаболической активности). Каждая концентрация тестируется в трех лунках 96-луночного планшета, и между этими лунками сходимость высокая. В результате получаются значения ОП, к примеру 0,837 0,859 0,793 в контроле и 0,435 0,482 0,455 в опыте, которые нужно сравнить. Отступление по поводу статистического анализа МТТ теста в статьях. В литературе я встречал анализ результатов этого теста как с помощью параметрической статистики, так и непараметрической. Статистическую обработку результатов проводят как при помощи t-критерия Стьюдента, так и с использованием U-критерия Уилкоксона-Манна-Уитни. Если необходимо сравнивать все группы между собой, в случае методов параметрической статистики используют дисперсионный анализ или вместе с t-тестом применяют поправку Бонферрони; в случае методов непараметрической статистики применяют критерий Краскела-Уоллиса. Расхождение в подходах, видимо, связано с тем, что в соответствии с теоретическими предпосылками распределения значений оптического поглощения в исследуемых группах должны быть нормальными, однако в силу малых выборок (обычно 3 лунки в одном планшете) это не доказуемо . Для получения более надежных данных исследования повторяют, но в повторяемость результатов для МТТ теста признается низкой. Мало того, некоторые работы указывают, что у них распределение не было нормальным, что они проверяли по критерию Колмогорова-Смирнова. Но, конечно, как они это делали - не указано. Если они брали 3 измерения, то очевидно, никакой нормальности там быть не могло. В экспериментах на разных планшетах повторяемость не идеальна. Внутри одного планшета - хорошая. (как указано в литературе, различия больше всего обусловлены неравномерным посевом клеток). Доверительные интервалы для измерений чаще всего в пределах 5% от абсолютной величины оптической плотности, соответственно я считаю выборку репрезентативной (высокая гомогенность), и считаю, что повтора достаточно одного. Результаты по повтору должны давать близкие значения, но их, на мой взгляд, не следует сливать в одну группу с первичными. (у них отличаются и среднее значение, и дисперсия, что не удивительно). В результатах собираюсь приводить только расчет статистических параметров только для одного из экспериментов. Сейчас я рассчитываю среднее значение, стандартное отклонение и доверительный интервал в MS Excel функциями "СРЗНАЧ", "СТАНДОТКЛОН", и "ДОВЕРИТ" для отображения на графиках. Для проверки гипотез о достоверности различий между группами я собираюсь делать так. Подключив пакет "статистика" в Excel воспользоваться анализом данных "Двухвыборочный t-тест с одинаковыми дисперсиями", затем при значении t-статистики больше t критического двустороннего, считать, что есть достоверные различия (при уровне статистической значимости 0,05). В противном случае, так не считать; различия, если они просматриваются, считать не достоверными. Поправку Бонферрони я применять не собираюсь, у меня всего 2 вещества в 6 концентрациях, сравнивать буду результаты контроля и концентраций, при которых заметны различия. По большому счету интересно лишь парное сравнение с минимальной действующей концентрацией. Мне же говорят, что нужно пользоваться непараметрической статистикой, так как образцов меньше 30. Плюс к этому с меня просят минимум 2 повтора (итого 9 измерений), и если я все верно понял, то слить группы измерений в разных планшетах. Возможно мне следует сделать 30 одинаковых контролей и проверить распределение на нормальность? Или нужно 30 опытных образцов? Позволит ли это применять параметрическую статистику? Главный вопрос - кто прав в этом споре? Каким критерием правильнее всего пользоваться? Есть ли ссылки на соответствующую литературу, где содержался бы разбор такого случая? Я разбираюсь с этим уже 3 дня и самое релевантное, что я нашел - давнее обсуждение здесь на форуме. Очень прошу помочь! Хочется понять, как же делать правильно и почему. С уважением, Сергей |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 2.07.2010 Пользователь №: 22590 ![]() |
Спасибо за помощь!
Я как всегда пишу длинно и с подробностями. Но с другой стороны, мне кажется, что такая проблема не у меня одного, и будет полезно разобрать ее на форуме. "Про повторы недопонял: для одного повтора нельзя рассчитать ДИ, только для нескольких показателей." Я имел ввиду то, что в одном опыте у меня три одинаковые лунки. После чего я ставлю тот же эксперимент еще раз, это я здесь называю повтором. Внутри одного повтора сходимость между тремя лунками намного лучше (еще бы), чем между повторами (между первыми тремя и вторыми тремя лунками). Вот что я пытался сказать. У меня вопрос следующий. Я создал таблицу в программе Statistica 9.1 (trial). Обрабатываю ее при помощи Variance Components Analysis, то есть способом Mixed-design ANOVA (сложный вариант дисперсионного анализа). У меня есть следующие переменные: 1) номер теста (1 или 2) 2) значение дополнительного фактора (1 или 0) 3) название исследуемого соединения (comp 1 или comp2) 4) концентрация (от 0 в контроле до 0,08) 5) результат теста (число от 0 до 1,5; результаты нормировал относительно контроля = 1) Иду во вкладку Statistics / Advanced Linear/Nonlinear Models / Variance Components; выбираю зависимые переменные - результаты; случайные факторы - номер теста; фиксированные факторы - дополнительный фактор, соединение, концентрация. Затем жму окей и summary. Получаю таблицу, где мне написаны по фактрам и их сочетаниям значения F и p (значение критерия Фишера и уровень статистической значимости). Строчки, выделенные красным - это факторы или их сочетания, вносящие наибольший вклад в общую дисперсию (как я понял). У меня это концентрация, вещество*концентрация, и перемноженные все 4 фактора. Вопросы: 1) Верно ли я представил данные в таблице? То есть у меня все результаты в одной длинной колонке, а данные повторяются в других столбцах. Так как есть одновременно 3 измерения с одинаковыми остальными параметрами - просто во всех колонках, кроме "результат" в строке одно и то же. 2) Все ли я верно делаю и обозначаю, проводя анализ? Верно ли я понял то, как следует "выразить на языке программы" повторы экспериментов? 3) Как сделать выводы из полученных цифр я вроде бы понимаю (может быть не на 100%, но все же). Но вот только эти выводы не совсем то, что мне нужно. Мне нужно ответить на вопросы: а) При каждой конкретной концентрации есть ли достоверное отличие между опытом (2 повтора по 3 лунки) и контролем (2 повтора по 3 лунки)? Каков уровень стат. значимости? б) При каждой конкретной концентрации есть ли достоверное отличие между опытом с веществом 1 и веществом 2 (2 повтора по 3 лунки)? Каков уровень стат. значимости? в) В каких случаях (при каких концентрациях и каких веществах) было достоверным (и было ли) влияние дополнительного фактора? Каков уровень стат. значимости? Я практически уверен, что при помощи программы можно все это подсчитать, не перекраивая таблицу и "оставляя в анализе" все остальные данные. (Как я понимаю, в сложном дисперсионном анализе - все данные - это одна система, которая от количества данных только "усиливается". Это так?) Но я не знаю, как это сделать. Я пробовал разобраться с "помощью" и искать в интернете, но, к сожалению, не нашел, что нужно делать с этими вопросами. И еще один вопрос по получению графиков. Буду очень благодарен, если кто-нибудь объяснит мне "покнопочно" что нужно сделать (у меня англ. версия). Мне нужно, чтобы график отображал зависимость значения результата - среднее по 6 измерениям (это 2 повтора) + дов. интревал - от концентрации. При этом на графике данные по обоим веществам, но только по одному значению дополнительного фактора. Я уже по-разному пробовал, но программа не отделяет для построения графика только те данные, которые мне нужны; я не умею это задать. В Excel это получается сделать очень просто (ну там-то я таблицы делаю каждый раз соответствующие), а здесь столько дополнительных кнопок, вкладок, опций - что я немного запутался. И еще, умеет ли программа расставлять значки достоверности? Если да, то как сделать, чтобы она их расставила? (Это к вопросам а) и б)) Просто не хочется все обрабатывать одновременно в двух программах, если можно в одной. Буду рад любым советам, помимо ответов на вопросы. Может быть, я просто поленился найти, и где-то мои вопросы подробно расписаны? Небольшой вопрос к nokh и плав: Если сложный вариант дисперсионного анализа - это то, что нужно (я и сам, почитав про дисперсионный анализ, пришел к этому выводу), а остальные критерии менее мощные и теряют информацию, то для меня еще вопрос как это доказывать и объяснять тем людям, кто рассуждает по принципу - "мало измерений - значит подойдет только непараметрика". Подход DoctorStat "давайте для начала возьмем самую низкую концентрацию исследуемого вещества и самую высокую. И для каждой концентрации зальем клетки не в 3 лунки, а во все 96 лунок планшета. Построим распределение (выборочную гистограмму) оптической плотности и проверим его на нормальность. Если для крайних концентраций веществ статистический тест(ы) не даст отклонения от гаусса, то есть надежда, что и для промежуточных концентраций веществ распределение нормально." кажется мне не совсем корректным, я не могу строго доказать почему, может быть это всего лишь мое личное ощущение... Более того - это затратно для каждого аналогичного теста такое проверять. C относительно недорогим МТТ тестом это еще можно проделывать, но что делать с иммуноферментным анализом, где принципы обработки результатов будут совершенно идентичны, а вот цена вопроса значительно подрастет? К тому же не всякое анализируемое вещество столь дешево синтезировать, чтобы заливать в максимальной концентрации в 96 лунок. Есть ли литература, которая разбирает подобные примеры и показывает что сложный вариант дисперсионного анализа - именно оптимум, жестко? Есть ли возможность сослаться на теоремы, статьи, разделы книг? Или то, что вы говорите основано на опыте и напрямую не описано? Хочется иметь неопровержимую линию доказательств ![]() nokh, скажите, пожалуйста, как проверять на нормальность распределение остатков? Как запустить критерий Шапиро-Уилка в Statistica? |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Впервые слышу, что малые выборки нужно обсчитывать непараметрикой. Т.к. непараметрические методы менее мощные, для отклонения нулевой гипотезы с их помощью требуется больше наблюдений. Это есть во ВСЕХ учебниках. Т.е. как раз в случае малых выборок имеет смысл искать любые способы преобразования данных лишь бы потом смочь воспользоваться параметрикой.
Данные организованы верно, анализ проведён неверно. В Statistica нужно использовать модуль GLM и правильно задать расположение одних эффектов "внутри" других, но у меня есть сомнения, что данный пакет справится с этой задачей. Появился дополнительный фактор, дизайн ещё более усложнился, версии 5 и 6 пасовали перед такими сложными анализами. Я обсчитывал подобные дисперсионные комплексы в SPSS и расчёты занимали до 15-20 мин на компе с 2 ГГц процессором. Пока пошагово проинструктировать что нужно делать в Statistica не смогу, к тому же у меня нет девятой версии. Предлагаю сделать так: Вы скинете в личку файл с данными или их полноценной частью (т.е. чтобы были представлены все интересующие эффекты, но скажем не все концентрации или лунки - у людей бывают страхи что данные украдут:), сохранёнными в формате старых версий (5 или 6). Я покручу их - посмотрю для начала возьмёт ли их Statistica 6. Остальное будет зависеть от этого. Только впишите в описание данных дополнительный фактор - т.к. пока непонятно куда его вкладывать. Пока буду смотреть - скачайте книгу Монтгомери Д. К. Планирование эксперимента и анализ данных - пока это лучший учебник на русском языке по дисперсионному анализу, хотя и устаревший (в нём нет описания дисперсионного анализа в терминах GLM). Разберитесь с главами 6, 7, 11 и постарайтесь построить модель для своего случая. Сообщение отредактировал nokh - 16.07.2010 - 05:56 |
|
![]() |
![]() |
![]() ![]() |