![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() ![]() |
![]() |
![]() ![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 2.07.2010 Пользователь №: 22590 ![]() |
Уважаемые участники форума, добрый день!
-- Краткая версия вопроса. Работа in vitro на клеточной линии, результаты теста снимаются спектрофотометрически в лунках планшета, каждое измерение тройное (3 лунки на одну концентрацию вещества). Можно ли применять параметрическую статистику для описания результатов, и проверки гипотез? Противоречие в том, что теоретически распределение должно быть нормальным и можно пользоваться параметрической статистикой (я склонен к ней); но практически в каждой группе всего три измерения и мне рекомендуют использовать непараметрику. -- Развернутая версия вопроса. Я зарегистрировался здесь, потому что очень важные детали для себя нашел в обсуждении темы: http://forum.disser.ru/index.php?showtopic...%EE%F7%ED%FB%E5 Несмотря на то, что я в аспирантуре по биологической тематике, моя "математическая" проблема очень близка. В теме обсуждается то, когда стоит применять параметрическую, а когда непараметрическую статистику. У меня с моими коллегами и руководителями нет единого мнения по данному вопросу, поэтому надеюсь на помощь профессионалов. Сразу предупреждаю, я создаю длинный пост не для того, чтобы всех утомить, а так как, чтобы дать квалифицированный ответ могут понадобиться детали. Вот их я и привожу. Если детали не интересуют, то кратко вопрос я уже изложил. Итак, задача. Я работаю с клеточной линией фибробластов легкого эмбриона человека, культура гомогенна, сохраняет свойства и фенотип при пересеве порядка 40-50 пассажей. Для экспериментов высеваю по 10 000 клеток в лунку 96-луночного планшета. Исследуется влияние 2 веществ в разных концентрациях на жизнеспособность клеток при помощи МТТ теста. Суть его в том, что живые клетки способны восстанавливать соединение МТТ, что приводит к образованию в клетках окрашенных кристаллов. После растворения кристаллов оптическая плотность раствора позволяет судить об уровне жизнеспособности клеток в культуре. (Жизнеспособность здесь - интегральный параметр, позволяющий оценить скорость роста культуры, гибель клеток в ней, если таковая присутствует, а также уровень метаболической активности). Каждая концентрация тестируется в трех лунках 96-луночного планшета, и между этими лунками сходимость высокая. В результате получаются значения ОП, к примеру 0,837 0,859 0,793 в контроле и 0,435 0,482 0,455 в опыте, которые нужно сравнить. Отступление по поводу статистического анализа МТТ теста в статьях. В литературе я встречал анализ результатов этого теста как с помощью параметрической статистики, так и непараметрической. Статистическую обработку результатов проводят как при помощи t-критерия Стьюдента, так и с использованием U-критерия Уилкоксона-Манна-Уитни. Если необходимо сравнивать все группы между собой, в случае методов параметрической статистики используют дисперсионный анализ или вместе с t-тестом применяют поправку Бонферрони; в случае методов непараметрической статистики применяют критерий Краскела-Уоллиса. Расхождение в подходах, видимо, связано с тем, что в соответствии с теоретическими предпосылками распределения значений оптического поглощения в исследуемых группах должны быть нормальными, однако в силу малых выборок (обычно 3 лунки в одном планшете) это не доказуемо . Для получения более надежных данных исследования повторяют, но в повторяемость результатов для МТТ теста признается низкой. Мало того, некоторые работы указывают, что у них распределение не было нормальным, что они проверяли по критерию Колмогорова-Смирнова. Но, конечно, как они это делали - не указано. Если они брали 3 измерения, то очевидно, никакой нормальности там быть не могло. В экспериментах на разных планшетах повторяемость не идеальна. Внутри одного планшета - хорошая. (как указано в литературе, различия больше всего обусловлены неравномерным посевом клеток). Доверительные интервалы для измерений чаще всего в пределах 5% от абсолютной величины оптической плотности, соответственно я считаю выборку репрезентативной (высокая гомогенность), и считаю, что повтора достаточно одного. Результаты по повтору должны давать близкие значения, но их, на мой взгляд, не следует сливать в одну группу с первичными. (у них отличаются и среднее значение, и дисперсия, что не удивительно). В результатах собираюсь приводить только расчет статистических параметров только для одного из экспериментов. Сейчас я рассчитываю среднее значение, стандартное отклонение и доверительный интервал в MS Excel функциями "СРЗНАЧ", "СТАНДОТКЛОН", и "ДОВЕРИТ" для отображения на графиках. Для проверки гипотез о достоверности различий между группами я собираюсь делать так. Подключив пакет "статистика" в Excel воспользоваться анализом данных "Двухвыборочный t-тест с одинаковыми дисперсиями", затем при значении t-статистики больше t критического двустороннего, считать, что есть достоверные различия (при уровне статистической значимости 0,05). В противном случае, так не считать; различия, если они просматриваются, считать не достоверными. Поправку Бонферрони я применять не собираюсь, у меня всего 2 вещества в 6 концентрациях, сравнивать буду результаты контроля и концентраций, при которых заметны различия. По большому счету интересно лишь парное сравнение с минимальной действующей концентрацией. Мне же говорят, что нужно пользоваться непараметрической статистикой, так как образцов меньше 30. Плюс к этому с меня просят минимум 2 повтора (итого 9 измерений), и если я все верно понял, то слить группы измерений в разных планшетах. Возможно мне следует сделать 30 одинаковых контролей и проверить распределение на нормальность? Или нужно 30 опытных образцов? Позволит ли это применять параметрическую статистику? Главный вопрос - кто прав в этом споре? Каким критерием правильнее всего пользоваться? Есть ли ссылки на соответствующую литературу, где содержался бы разбор такого случая? Я разбираюсь с этим уже 3 дня и самое релевантное, что я нашел - давнее обсуждение здесь на форуме. Очень прошу помочь! Хочется понять, как же делать правильно и почему. С уважением, Сергей |
|
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 381 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 ![]() |
Можно ли применять параметрическую Как бы рассуждал "чайник": ну очень хочется применить параметрическую статистику, но лунок мало. Что делать? А давайте для начала возьмем самую низкую концентрацию исследуемого вещества и самую высокую. И для каждой концентрации зальем клетки не в 3 лунки, а во все 96 лунок планшета. Построим распределение (выборочную гистограмму) оптической плотности и проверим его на нормальность. Если для крайних концентраций веществ статистический тест(ы) не даст отклонения от гаусса, то есть надежда, что и для промежуточных концентраций веществ распределение нормально. Затем (если все ок и распределение в целой популяции можно считать нормальным) оцениваем дисперсию (ширину колокола) и разность мат.ожиданий (средних значений). Подставляем эти значения в формулу мощности статистического критерия (которым будем определять различия между малыми выборками), чтобы ВЫЧИСЛИТЬ необходимое количество лунок для обнаружения эффекта, а не брать наугад, взятое с потолка количество лунок, равное трем.
статистику для описания результатов, и проверки гипотез? ...в каждой группе всего три измерения и мне рекомендуют использовать непараметрику. Сообщение отредактировал DoctorStat - 6.07.2010 - 22:37 ![]() Просто включи мозги => http://doctorstat.narod.ru
|
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Ваш эксперимент невозможно обработать непараметрическими методами без существенной потери информации. Нужно использовать сложный вариант дисперсионного анализа (перекрёстно-иерархический план = between-within anova) с факторами: (1) Вещество (2) Концентрация и (3) Повторность внутри Вущества и Концентрации. В этом случае в ошибку дисперсионного комплекса уйдёт усреднённая изменчивость между лунками внутри повторности, что обеспечит максимальную мощность анализа. Любые усреднения перед анализом - потеря информации. Проблемы с параметрикой нет; дисперсионный анализ (самый что ни на есть параметрический метод) не требует нормального распределения в группах: нужно проводить анализ и проверять на нормальность распределение остатков. Если оно нормальное - оставлять как есть, если ненормальное - выбирать нормализующее преобразование, преобразовывать данные и анализировать заново. Критерий Колмогорова-Смирнова на нормальность имеет малую мощность, универсального теста нет, но, в большинстве случаев лучше критерий Шапиро-Уилка. В экселе профессиональную статобработку не провести, нужны серьёзные пакеты.
|
|
![]() |
![]() |
![]()
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 2.07.2010 Пользователь №: 22590 ![]() |
Спасибо за рекомендации. Буду читать и думать. Признаюсь, что хотел упростить себе задачу. Но с
другой стороны, если уж усложнение неизбежно, нужно усложнять максимально грамотно ![]() Если на каком-то моменте не справлюсь, спрошу еще. Дополнительный небольшой вопрос по предоставлению результатов. Правильно ли на графике указывать доверительные интервалы для одного из повторов, или нужно для слитой группы? Или вообще отметить достоверность различий по точкам звездочками и решетками, и не указывать разброс измерений графически? Я верно понимаю, что это скорее не научный вопрос, а дело вкуса? Оффтоп -- Вообще же, для меня оказалось необычным, что выбор методов статистической обработки результатов - это чуть ли не искусство. Я полагал - это довольно "жесткая" задача, но одни и те же схемы опытов разные люди обрабатывают совершенно по-разному. При этом, если я верно понял, то всегда существует один "оптимальный" способ ответа на четко заданный вопрос. Правда, нужно еще понимать, какие требования существуют к ответу (возможно, требуется, чтобы расчеты были максимально краткими, а потери мощности не важны). |
|
![]() |
![]() |
![]()
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Правильно ли на графике указывать доверительные интервалы для одного из повторов, или нужно для слитой группы? Или вообще отметить достоверность различий по точкам звездочками и решетками, и не указывать разброс измерений графически? Я верно понимаю, что это скорее не научный вопрос, а дело вкуса? Скорее наглядности, чем вкуса. Для двухфакторного и многофакторного дисперсионного анализа график является более информативным, т.к. позволяет увидеть и различия в главных эффектах и взаимодействия факторов (проявляется непараллельностью линий динамики или профиля). Про повторы недопонял: для одного повтора нельзя рассчитать ДИ, только для нескольких показателей. Профессиональные пакеты типа Statistica снабжают график доверительными интервалами автоматически. Вообще же, для меня оказалось необычным, что выбор методов статистической обработки результатов - это чуть ли не искусство. Я полагал - это довольно "жесткая" задача, но одни и те же схемы опытов разные люди обрабатывают совершенно по-разному. При этом, если я верно понял, то всегда существует один "оптимальный" способ ответа на четко заданный вопрос. Правда, нужно еще понимать, какие требования существуют к ответу (возможно, требуется, чтобы расчеты были максимально краткими, а потери мощности не важны). Можно привести аналогию с обработкой земли. Можно засадить огромное поле и получить урожай меньше чем с сотки. Помимо качества посадного материала (методы исследования) всё зависит от способа посадки (дизайн эксперимента) и технологий обработки (статистические методы). Действительно и задача жёсткая и оптимальный способ есть, но (1) не все стремятся использовать оптимальные способы и (2) оптимальность может быть с большим элементом субъективности - зависеть от того, что автор хотел донести. Например, 2 количественных показателя один сравнил t-критерием Стьюдента для равных дисперсий не убедившись ни в равенстве дисперсий, ни в нормальности распределения показателей в группах, другой - проверив требования решил преобразовать исходные данные добившись нормальности распределения показателей и равенства дисперсий, третий не стал ничего преобразовывать и использовал непараметрический аналог этого критерия - критерий Манна-Уитни, а четвёртый, заметив что в 13 случаях из 15 показатель больше в опытной группе использовал критерий знаков. В данном случае, пожалуй, оптимальным будет 4-ый вариант, т.к. позволяет (1) сэкономить время и (2) подчеркнуть, что различия находит даже самый маломощный критерий. Поэтому, в узком смысле слова"искусство" анализ данных таковым не является, это - технология с поиском именно оптимального решения в конкретной ситуации. Если же материал ещё только предстоит собрать важно всё то, о чём написал DoctorStat, т.к планирование эксперимента позволяет прийти к цели с минимальными затратами. В Вашем случае, если различия находятся и Краскелом-Уоллисом - можете использовать и его, усреднив предварительно данные по повторностям. Я указал не оптимальный способ, а метод позволяющий использовать имеющуюся информацию по максимуму. Он сложен и будет оптимальным в случае если другие методы не позволят найти то, что даст он. |
|
![]() |
![]() |
![]()
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
1) Если распределение теоретически нормальное, надо пользоваться тестами, предполагающими нормальное распределение - они наиболее мощные. Все предложения проверить распределение идут от непонимания того факта, что для выбора метода важно знать распределение в популяции, и поэтому рисковать ошибочным заключением устраивая проверку является просто ошибкой. Кстати, мы делали вычислительные эксперименты, чтобы выяснить насколько сильно страдают выводы от использования параметрики в случаях "ненормального" распределения (от прямоугольного до тяжелых хвостов) - выводы страдают мало, значительно большее воздействие оказывает на выводы мощность исследования (читай размер выборки)
2) Примерно 50% зарубежных публикаций содержат статистические ошибки, поэтому использование разных методов для обработки одного и того же материала вряд ли является обоснованием того, что имеется "волюнтаристский" выбор метода. Другое дело, что статистика развивается и поэтому появляются новые методы или более точные и быстрые алгоритмы, увеличивается мощность компьютеров, что меняет отношение к тем или иным моделям (пример - все методы, основанные на максимальном правдоподобии, включая смешанные модели). Однако в области непараметрики это не работает, алгоритмы известны с середины XX века, вычислительно не сложнее основанных на нормальной теории (вообще-то т.н. непараметрика использует нормальную аппроксимацию, просто отбрасывает часть информации). Правда, "точные" методы непараметрики являются вычислительно интенсивными, но, опять-таки плата в виде потери информации не отменяется. 3) Очевидно, что в данном случае оптимальной является смешанная модель, как и указано nokh |
|
![]() |
![]() |
![]()
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 2.07.2010 Пользователь №: 22590 ![]() |
Спасибо за помощь!
Я как всегда пишу длинно и с подробностями. Но с другой стороны, мне кажется, что такая проблема не у меня одного, и будет полезно разобрать ее на форуме. "Про повторы недопонял: для одного повтора нельзя рассчитать ДИ, только для нескольких показателей." Я имел ввиду то, что в одном опыте у меня три одинаковые лунки. После чего я ставлю тот же эксперимент еще раз, это я здесь называю повтором. Внутри одного повтора сходимость между тремя лунками намного лучше (еще бы), чем между повторами (между первыми тремя и вторыми тремя лунками). Вот что я пытался сказать. У меня вопрос следующий. Я создал таблицу в программе Statistica 9.1 (trial). Обрабатываю ее при помощи Variance Components Analysis, то есть способом Mixed-design ANOVA (сложный вариант дисперсионного анализа). У меня есть следующие переменные: 1) номер теста (1 или 2) 2) значение дополнительного фактора (1 или 0) 3) название исследуемого соединения (comp 1 или comp2) 4) концентрация (от 0 в контроле до 0,08) 5) результат теста (число от 0 до 1,5; результаты нормировал относительно контроля = 1) Иду во вкладку Statistics / Advanced Linear/Nonlinear Models / Variance Components; выбираю зависимые переменные - результаты; случайные факторы - номер теста; фиксированные факторы - дополнительный фактор, соединение, концентрация. Затем жму окей и summary. Получаю таблицу, где мне написаны по фактрам и их сочетаниям значения F и p (значение критерия Фишера и уровень статистической значимости). Строчки, выделенные красным - это факторы или их сочетания, вносящие наибольший вклад в общую дисперсию (как я понял). У меня это концентрация, вещество*концентрация, и перемноженные все 4 фактора. Вопросы: 1) Верно ли я представил данные в таблице? То есть у меня все результаты в одной длинной колонке, а данные повторяются в других столбцах. Так как есть одновременно 3 измерения с одинаковыми остальными параметрами - просто во всех колонках, кроме "результат" в строке одно и то же. 2) Все ли я верно делаю и обозначаю, проводя анализ? Верно ли я понял то, как следует "выразить на языке программы" повторы экспериментов? 3) Как сделать выводы из полученных цифр я вроде бы понимаю (может быть не на 100%, но все же). Но вот только эти выводы не совсем то, что мне нужно. Мне нужно ответить на вопросы: а) При каждой конкретной концентрации есть ли достоверное отличие между опытом (2 повтора по 3 лунки) и контролем (2 повтора по 3 лунки)? Каков уровень стат. значимости? б) При каждой конкретной концентрации есть ли достоверное отличие между опытом с веществом 1 и веществом 2 (2 повтора по 3 лунки)? Каков уровень стат. значимости? в) В каких случаях (при каких концентрациях и каких веществах) было достоверным (и было ли) влияние дополнительного фактора? Каков уровень стат. значимости? Я практически уверен, что при помощи программы можно все это подсчитать, не перекраивая таблицу и "оставляя в анализе" все остальные данные. (Как я понимаю, в сложном дисперсионном анализе - все данные - это одна система, которая от количества данных только "усиливается". Это так?) Но я не знаю, как это сделать. Я пробовал разобраться с "помощью" и искать в интернете, но, к сожалению, не нашел, что нужно делать с этими вопросами. И еще один вопрос по получению графиков. Буду очень благодарен, если кто-нибудь объяснит мне "покнопочно" что нужно сделать (у меня англ. версия). Мне нужно, чтобы график отображал зависимость значения результата - среднее по 6 измерениям (это 2 повтора) + дов. интревал - от концентрации. При этом на графике данные по обоим веществам, но только по одному значению дополнительного фактора. Я уже по-разному пробовал, но программа не отделяет для построения графика только те данные, которые мне нужны; я не умею это задать. В Excel это получается сделать очень просто (ну там-то я таблицы делаю каждый раз соответствующие), а здесь столько дополнительных кнопок, вкладок, опций - что я немного запутался. И еще, умеет ли программа расставлять значки достоверности? Если да, то как сделать, чтобы она их расставила? (Это к вопросам а) и б)) Просто не хочется все обрабатывать одновременно в двух программах, если можно в одной. Буду рад любым советам, помимо ответов на вопросы. Может быть, я просто поленился найти, и где-то мои вопросы подробно расписаны? Небольшой вопрос к nokh и плав: Если сложный вариант дисперсионного анализа - это то, что нужно (я и сам, почитав про дисперсионный анализ, пришел к этому выводу), а остальные критерии менее мощные и теряют информацию, то для меня еще вопрос как это доказывать и объяснять тем людям, кто рассуждает по принципу - "мало измерений - значит подойдет только непараметрика". Подход DoctorStat "давайте для начала возьмем самую низкую концентрацию исследуемого вещества и самую высокую. И для каждой концентрации зальем клетки не в 3 лунки, а во все 96 лунок планшета. Построим распределение (выборочную гистограмму) оптической плотности и проверим его на нормальность. Если для крайних концентраций веществ статистический тест(ы) не даст отклонения от гаусса, то есть надежда, что и для промежуточных концентраций веществ распределение нормально." кажется мне не совсем корректным, я не могу строго доказать почему, может быть это всего лишь мое личное ощущение... Более того - это затратно для каждого аналогичного теста такое проверять. C относительно недорогим МТТ тестом это еще можно проделывать, но что делать с иммуноферментным анализом, где принципы обработки результатов будут совершенно идентичны, а вот цена вопроса значительно подрастет? К тому же не всякое анализируемое вещество столь дешево синтезировать, чтобы заливать в максимальной концентрации в 96 лунок. Есть ли литература, которая разбирает подобные примеры и показывает что сложный вариант дисперсионного анализа - именно оптимум, жестко? Есть ли возможность сослаться на теоремы, статьи, разделы книг? Или то, что вы говорите основано на опыте и напрямую не описано? Хочется иметь неопровержимую линию доказательств ![]() nokh, скажите, пожалуйста, как проверять на нормальность распределение остатков? Как запустить критерий Шапиро-Уилка в Statistica? |
|
![]() |
![]() |
![]()
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Впервые слышу, что малые выборки нужно обсчитывать непараметрикой. Т.к. непараметрические методы менее мощные, для отклонения нулевой гипотезы с их помощью требуется больше наблюдений. Это есть во ВСЕХ учебниках. Т.е. как раз в случае малых выборок имеет смысл искать любые способы преобразования данных лишь бы потом смочь воспользоваться параметрикой.
Данные организованы верно, анализ проведён неверно. В Statistica нужно использовать модуль GLM и правильно задать расположение одних эффектов "внутри" других, но у меня есть сомнения, что данный пакет справится с этой задачей. Появился дополнительный фактор, дизайн ещё более усложнился, версии 5 и 6 пасовали перед такими сложными анализами. Я обсчитывал подобные дисперсионные комплексы в SPSS и расчёты занимали до 15-20 мин на компе с 2 ГГц процессором. Пока пошагово проинструктировать что нужно делать в Statistica не смогу, к тому же у меня нет девятой версии. Предлагаю сделать так: Вы скинете в личку файл с данными или их полноценной частью (т.е. чтобы были представлены все интересующие эффекты, но скажем не все концентрации или лунки - у людей бывают страхи что данные украдут:), сохранёнными в формате старых версий (5 или 6). Я покручу их - посмотрю для начала возьмёт ли их Statistica 6. Остальное будет зависеть от этого. Только впишите в описание данных дополнительный фактор - т.к. пока непонятно куда его вкладывать. Пока буду смотреть - скачайте книгу Монтгомери Д. К. Планирование эксперимента и анализ данных - пока это лучший учебник на русском языке по дисперсионному анализу, хотя и устаревший (в нём нет описания дисперсионного анализа в терминах GLM). Разберитесь с главами 6, 7, 11 и постарайтесь построить модель для своего случая. Сообщение отредактировал nokh - 16.07.2010 - 05:56 |
|
![]() |
![]() |
![]()
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 2.07.2010 Пользователь №: 22590 ![]() |
nokh, спасибо за ответ и предложение!
Я совершенно не боюсь, что данные украдут, потому что они бессмысленны без детализации факторов, типа клеток и веществ. Конечно, можно пытаться догадаться, что это, но нужно быть большим оригиналом, чтобы потом пытаться это как-то использовать. По этой причине я выкладываю их прямо здесь, в конце сообщения. Возможно, кто-то тоже захочет попробовать использовать их как учебный пример, а "ответы" я выложу в конце темы, когда пойму что и как считать. "Малые выборки нужно обсчитывать непараметрикой" - я имел ввиду, что это во всех случаях, когда доказать нормальность распределения не получается. Я уже понял, что это не совсем верный подход. (Если я верно понял, то скорее непараметрика нужна тогда, когда точно видно, что нормальности нет. Но там опять же, скорее всего, исследуются какие-нибудь 2 и больше субпопуляции, и группа данных софрмировано ошибочно.) И все-таки мнение, что "когда доказать нормальность распределения не получается, нужна непараметрическая статистика" распространено, и нужно понимать что отвечать на это. У меня пока нет 100% уверенности, что смогу поспорить аргументированно на эту тему. Я уже пробовал говорить про центральную предельную теорему и т.д., но это ведь теория... А как распределены данные в выборке я не доказываю этими теориями. Статистику 9, пробную версию, можно скачать и месяц пользоваться бесплатно. У меня этот месяц скоро закончится, но попробую успеть все посчитать)) http://www.statsoft.com/support/free-statistica-9-trial/ - вот ссылка. Модуль GLM обязательно поищу. Стало интересно. Я думал, что можно условия ("вложенность данных") задать как раз в переменных... Насчет дополнительного фактора... ну если с ним сложно, то его же можно и выкинуть. В конце концов можно отдельно рассчитывать с ним и без него. SPSS я собирался скачать, но завяз в Статистике и теории, поэтому руки не дошли. Если там такое считать удобнее (а удобнее?), то попробую. Они же одинаково считают все, поэтому выбор программы вроде как не важен. Книжку скачал, обязательно прочитаю эти главы. Еще задумался над тем, что, возможно, зря в каждом отдельном опыте нормировал все по контролю... Так как дополнительный фактор присутствовал и в контроле, он мог повлиять на на его абсолютное значение. Ну уж как есть. Влиял он, как я посмотрел по цифрам, незначительно. Зато сходимость между повторами стала лучше ![]() Вообще, конечно, любая предобработка данных может как открывать глаза на истинные закономерности, так быть способом манипуляций. Подвопрос. Допустим я залил 96 контрольных лунок и получил результаты. Как проверить нормальность в Статистике? Мои поиски если и привели к результатам, то к сомнительным... Гистограмма строится, но понять какие две цифры надо сравнить (рассчетную и табличную) для критериев я не могу. -- Результаты. В текстовом виде табулированные данные легко копируются что в Excel, что в Статистику. Только надо при вставке указывать import with text labels, иначе столбец с соединениями будет пустым. (К сожалению, я не могу приложить файл, так как сообщения на форум отправляю через прокси-анонимайзер, а с ним эта опция отключена. Без анонимайзера не могу оставлять сообщения, т.к. происходит деавторизация.) 1 0 Comp 1 0 0,838951311 1 0 Comp 1 0 0,926966292 1 0 Comp 1 0 1,2340824 1 0 Comp 1 0,0025 0,948864437 1 0 Comp 1 0,0025 0,978191254 1 0 Comp 1 0,0025 0,998057808 1 0 Comp 1 0,005 0,887372724 1 0 Comp 1 0,005 0,865614118 1 0 Comp 1 0,005 0,875074381 1 0 Comp 1 0,01 1,0084641 1 0 Comp 1 0,01 1,02076244 1 0 Comp 1 0,01 0,957378674 1 0 Comp 1 0,02 0,963054833 1 0 Comp 1 0,02 0,945080332 1 0 Comp 1 0,02 0,894940935 1 0 Comp 1 0,04 0,823988958 1 0 Comp 1 0,04 0,843855512 1 0 Comp 1 0,04 0,880750539 1 0 Comp 1 0,08 0,708573742 1 0 Comp 1 0,08 0,649920108 1 0 Comp 1 0,08 0,656542293 1 0 Comp 2 0 0,838951311 1 0 Comp 2 0 0,926966292 1 0 Comp 2 0 1,2340824 1 0 Comp 2 0,0025 1,00467999 1 0 Comp 2 0,0025 0,963054833 1 0 Comp 2 0,0025 0,92994391 1 0 Comp 2 0,005 0,91953762 1 0 Comp 2 0,005 0,890210803 1 0 Comp 2 0,005 0,878858487 1 0 Comp 2 0,01 0,927105831 1 0 Comp 2 0,01 0,926159805 1 0 Comp 2 0,01 0,943188279 1 0 Comp 2 0,02 0,829665116 1 0 Comp 2 0,02 0,840071406 1 0 Comp 2 0,02 0,906293251 1 0 Comp 2 0,04 0,678300899 1 0 Comp 2 0,04 0,6962754 1 0 Comp 2 0,04 0,695329373 1 0 Comp 2 0,08 0,319756909 1 0 Comp 2 0,08 0,333001278 1 0 Comp 2 0,08 0,351921805 1 1 Comp 1 0 0,951490357 1 1 Comp 1 0 0,987142022 1 1 Comp 1 0 1,06136762 1 1 Comp 1 0,0025 0,935125658 1 1 Comp 1 0,0025 1,01227352 1 1 Comp 1 0,0025 0,977206312 1 1 Comp 1 0,005 1,07071888 1 1 Comp 1 0,005 0,971361777 1 1 Comp 1 0,005 0,92226768 1 1 Comp 1 0,01 1,02162478 1 1 Comp 1 0,01 1,00058445 1 1 Comp 1 0,01 0,999415546 1 1 Comp 1 0,02 1,00642899 1 1 Comp 1 0,02 0,971361777 1 1 Comp 1 0,02 0,902396259 1 1 Comp 1 0,04 0,849795441 1 1 Comp 1 0,04 0,862653419 1 1 Comp 1 0,04 0,915254237 1 1 Comp 1 0,08 0,720046756 1 1 Comp 1 0,08 0,679135009 1 1 Comp 1 0,08 0,696668615 1 1 Comp 2 0 0,951490357 1 1 Comp 2 0 0,987142022 1 1 Comp 2 0 1,06136762 1 1 Comp 2 0,0025 1,20748101 1 1 Comp 2 0,0025 1,09292811 1 1 Comp 2 0,0025 1,04617183 1 1 Comp 2 0,005 1,00642899 1 1 Comp 2 0,005 0,986557569 1 1 Comp 2 0,005 0,939801286 1 1 Comp 2 0,01 0,977206312 1 1 Comp 2 0,01 0,902396259 1 1 Comp 2 0,01 0,925774401 1 1 Comp 2 0,02 0,789012274 1 1 Comp 2 0,02 0,749269433 1 1 Comp 2 0,02 0,87434249 1 1 Comp 2 0,04 0,599649328 1 1 Comp 2 0,04 0,603156049 1 1 Comp 2 0,04 0,641729982 1 1 Comp 2 0,08 0,0958503799 1 1 Comp 2 0,08 0,0829924021 1 1 Comp 2 0,08 0,0689655172 2 0 Comp 1 0 0,980513729 2 0 Comp 1 0 1,03542958 2 0 Comp 1 0 0,984056687 2 0 Comp 1 0,0025 0,800708592 2 0 Comp 1 0,0025 0,897254207 2 0 Comp 1 0,0025 0,824623561 2 0 Comp 1 0,005 0,709477414 2 0 Comp 1 0,005 0,905225864 2 0 Comp 1 0,005 0,775907883 2 0 Comp 1 0,01 0,796279894 2 0 Comp 1 0,01 0,887511072 2 0 Comp 1 0,01 0,783879539 2 0 Comp 1 0,02 0,853852967 2 0 Comp 1 0,02 0,785651019 2 0 Comp 1 0,02 0,852967228 2 0 Comp 1 0,04 0,862710363 2 0 Comp 1 0,04 0,930912312 2 0 Comp 1 0,04 0,86891054 2 0 Comp 1 0,08 0,746678477 2 0 Comp 1 0,08 0,766164748 2 0 Comp 1 0,08 0,779450841 2 0 Comp 2 0 0,980513729 2 0 Comp 2 0 1,03542958 2 0 Comp 2 0 0,984056687 2 0 Comp 2 0,0025 1,09565988 2 0 Comp 2 0,0025 0,953941541 2 0 Comp 2 0,0025 0,89105403 2 0 Comp 2 0,005 0,997342781 2 0 Comp 2 0,005 0,976085031 2 0 Comp 2 0,005 0,987599646 2 0 Comp 2 0,01 0,93445527 2 0 Comp 2 0,01 0,939769708 2 0 Comp 2 0,01 0,923826395 2 0 Comp 2 0,02 0,774136404 2 0 Comp 2 0,02 0,852967228 2 0 Comp 2 0,02 0,842338353 2 0 Comp 2 0,04 0,73870682 2 0 Comp 2 0,04 0,76173605 2 0 Comp 2 0,04 0,751992914 2 0 Comp 2 0,08 0,125775022 2 0 Comp 2 0,08 0,125775022 2 0 Comp 2 0,08 0,139946856 2 1 Comp 1 0 0,968532526 2 1 Comp 1 0 0,983963691 2 1 Comp 1 0 1,04750378 2 1 Comp 1 0,0025 1,10287443 2 1 Comp 1 0,0025 1,03479576 2 1 Comp 1 0,0025 1,02753404 2 1 Comp 1 0,005 1,00030257 2 1 Comp 1 0,005 0,954916793 2 1 Comp 1 0,005 0,932223903 2 1 Comp 1 0,01 0,972163389 2 1 Comp 1 0,01 0,931316188 2 1 Comp 1 0,01 0,91225416 2 1 Comp 1 0,02 0,936762481 2 1 Comp 1 0,02 0,890468986 2 1 Comp 1 0,02 0,863237519 2 1 Comp 1 0,04 0,865960666 2 1 Comp 1 0,04 0,892284418 2 1 Comp 1 0,04 0,845990923 2 1 Comp 1 0,08 0,776096823 2 1 Comp 1 0,08 0,763388805 2 1 Comp 1 0,08 0,752496218 2 1 Comp 2 0 0,968532526 2 1 Comp 2 0 0,983963691 2 1 Comp 2 0 1,04750378 2 1 Comp 2 0,0025 1,05476551 2 1 Comp 2 0,0025 1,06838124 2 1 Comp 2 0,0025 1,07564297 2 1 Comp 2 0,005 0,95128593 2 1 Comp 2 0,005 0,953101362 2 1 Comp 2 0,005 0,960363086 2 1 Comp 2 0,01 0,937670197 2 1 Comp 2 0,01 0,879576399 2 1 Comp 2 0,01 0,980332829 2 1 Comp 2 0,02 0,820574887 2 1 Comp 2 0,02 0,819667171 2 1 Comp 2 0,02 0,917700454 2 1 Comp 2 0,04 0,726172466 2 1 Comp 2 0,04 0,704387292 2 1 Comp 2 0,04 0,744326778 2 1 Comp 2 0,08 0,165204236 2 1 Comp 2 0,08 0,184266263 2 1 Comp 2 0,08 0,173373676 |
|
![]() |
![]() |
![]()
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Поскольку есть конкретные вопросы, то и анализ может быть построен таким образом, чтобы последовательно на них ответить.
Есть одна количественная величина, и нужно узнать какие факторы на нее влияют. Но чтобы, например, ответить на вопрос а), нужно определиться с повторами (номер теста). Если данные повтора участвуют в анализе, то нужно сравнить 6 значений контроля с 6 значениями каждой конкретной концентрацией (6 различных концентраций). Но в этом вопросе ничего не сказано о наличии или отсутствии фактора. Если это не важно, данных будет 12, а не 6. Т.к. исследуемых веществ два, то можно использовать GLM с двумя факторами. Концентрации предварительно обозначить как уровни фактора ( 0 -6). После чего, поскольку сравнения интересуют только с контролем, использовать критерий Даннетта. comp conc {1} - 1,0000 1 1 0 2 1 1 0,815248 3 1 2 0,018716 4 1 3 0,323120 5 1 4 0,018057 6 1 5 0,000286 7 1 6 0,000008 8 2 0 1,000000 9 2 1 0,933008 10 2 2 0,628357 11 2 3 0,193773 12 2 4 0,000009 13 2 5 0,000008 14 2 6 0,000008 А чтобы ответить на вопрос б) посмотрите на график или используйте другой критерий post-hoc, чтобы доказать, что вещества 1 и 2 различаются по своему воздействию в концентрациях 5 и 6 (0,04 и 0,08). На последний вопрос можно ответить, добавив еще один фактор. На рисунке посмотрите, какие сравнения вас интересуют и найдите в таблице соответствующие значения желанного ?р?. Из своего опыта работы со спектрофотометрическими методиками могу добавить, что повторы (номер опыта у Sergey.Pustylnikov) или параллели (3 лунки) для одного и того же объекта (ткани одного экспериментального животного) служат лишь для получения более точного значения экстинции. В этом эксперименте 6 измерений одного и того же объекта сравнивают с 6-ю измерениями другого объекта. А объектов по одному в каждой группе? В любом случае лунки, как фактор с уровнями 1, 2 и 3 статистически не значимы по данным дисперсионного анализа и можно ограничиться вышеприведенными сравнениями |
|
![]() |
![]() |
![]()
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 2.07.2010 Пользователь №: 22590 ![]() |
DrgLena, большое спасибо за ответ!
Мне сначала показалось, что неправомерно говорить о параллелях и повторах, как о работе с одним образцом. Это почти как считать одним образцом всех мышей одной линии. Гены-то одинаковые. Но с другой стороны, если при выделении из одного органа клетки считать одним образцом, то в этом случае этот "один образец" содержит даже менее гомогенную популяцию, чем образец из клеточной культуры. Так что пусть у меня образец один. Но с другой стороны, параллели и повторы нужны все-таки скорее не для уточнения показания, а для того, чтобы оценивать и учитывать как ошибки данного эксперимента, так и ошибки методики. Ведь внутри теста и между тестами источники вариабельности разные. Поэтому на мой взгляд, так мы оцениваем воспроизводимость при наличии различных источников вариабельности. В "параллели" главные возможные источники вариабельности - неравномерный посев клеток по лункам, неравномерные температура и концентрации газов в CO2-инкубаторе (если его часто открывают и планшет близко к дверце), ошибки пипетки на всех этапах работы, и, конечно же, ошибки, связанные с человеческим фактором. В "повторе" добавляются ошибки, связанные с неточностями подсчета концентрации клеток в суспензии перед посадкой на планшет; неравные (в некоторой степени) интервалы времени между посадкой и добавлением веществ, между прочими экспериментальными процедурами; состояние культуры может незначительно, но отличаться, если между повторами 2 недели. Здесь же могут выявиться изменения от использования каких-либо "новых" реагентов - например, новая среда, новая сыворотка, новая партия веществ, другие антибиотики. Выбирать только часть данных для сравнения - это тоже вариант. Я как раз пытался понять, какой брать критерий. Про Даннета я тоже думал, но решил, что если я возьму редкий критерий, мне потом вообще сложно будет с объяснениями... За графики спасибо! Кажется, легче всего, по меньшей мере для построения графиков, действительно выбирать данные для новой таблицы и строить по ней график. |
|
![]() |
![]() |
![]()
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Кажется, легче всего, по меньшей мере для построения графиков, действительно выбирать данные для новой таблицы и строить по ней график. Вы не должны строить новую таблицу. Всегда можно провести анализ по условию (select case).Но вы можете добавить новую переменную (лунки ? 1,2,3) и убедиться в том, что у вас нет возможности проанализировать в едином статистическом комплексе влияние всех факторов (5) одновременно, хотя Statistica 9 справляется с такими расчетами мгновенно. Потому, что в каждой группе у вас будет только 1 наблюдение. |
|
![]() |
![]() |
![]()
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 2.07.2010 Пользователь №: 22590 ![]() |
DrgLena, спасибо за подсказку про анализ по условию!
Я обычно медленно в программах разбираюсь, не нашел этого сам. -- Отлично! Я, кажется, понял, как делать выбор случаев и проверять нормальность. Мне хотелось проверить, нормальное ли распределение в результатах до концентрации 0,02 включительно и до 0,01 включительно (я дальше обозначу результаты как (а) и (б) для этих случаев). Там как раз достаточно значений (120 и 96 соответственно) получается, и высока вероятность, что получится нормальное распределение. Я сделал tools/selection conditions/enable; tools/selection conditions/edit, где написал в Specific, selected by/Expression: conc<0,03 для первого случая и conc<0,015 для второго (что-то подсказывало, что программа поймет ![]() Затем graphs/histograms/ в variable - выбрал значения; во вкладке advanced поставил галочки на Shapiro-Wilk test и Kolmogorov-Smirnov test; Получил гистограмму, с распределением, очень похожим на нормальное. Под ней подписи: 1) а) Value: D = 0,0688; p < n.s.; Lilliefors-p < 0,2; (Это как я понял, про тест Колмогорова-Смирнова) б) Value: D = 0,0887; p < n.s.; Lilliefors-p < 0,1; (n.s. - это not significant, как я проверил) 2) а) SW-W = 0,9764; p = 0,0330 (Это относится к критерию Шапиро-Вилкса). б) SW-W = 0,9602; p = 0,0053 Помимо этого, я проверил эти же данные по критерию Хи квадрат - statistics/distribution fitting/normal-OK/ выбрал переменную "результат" и получил табличку с подписью сверху 3) а) Chi-Square = 1,18140, df = 1 (adjusted) , p = 0,27707 б) Chi-Square = 1,66646, df = 1 (adjusted) , p = 0,19673 Выводы я понимаю так (минимальный допустимый уровень статистической значимости беру 0,05).: а) По критерию Колмогорова-Смирнова нельзя утверждать, что распределение нормальное. Распределение нормальное по критерию Шапиро-Вилкса с уровнем статистической значимости p<0.05; По критерию Хи квадрат также нельзя утверждать, что распределение нормальное. б) По критерию Колмогорова-Смирнова нельзя утверждать, что распределение нормальное. Распределение нормальное по критерию Шапиро-Вилкса с уровнем статистической значимости p<0.01; По критерию Хи квадрат также нельзя утверждать, что распределение нормальное. Верно ли я тестирую нормальность? Верно ли я интерпретирую результаты? Почему такие различия при разных критериях? Сообщение отредактировал Sergey.Pustylnikov - 20.07.2010 - 07:45 |
|
![]() |
![]() |
![]()
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Честно говоря, я не поняла вашей идеи, проверять нормальность на отдельных концентрациях. На ваши последние вопросы я могу только ответить коротко - нет. Если есть желание, возьмите любые 3 значения (лунки) при любой концентрации и все критерии в этой программе дадут вам нормальное распределение. Совет, почитать то, что вам ответили плав и nokh.
Сообщение отредактировал DrgLena - 20.07.2010 - 10:09 |
|
![]() |
![]() |
![]()
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Модель оказалась проще чем мне показалось сначала - вложенных факторов нет, обычная перекрёстная схема, но с одним случайным фактором (Повторность). Хочу на Вашем примере показать как проводить запланированные ортогональные сравнения (строить контрасты) в Statistica. Если жара не убъёт - выложу здесь материал 9 августа.
|
|
![]() |
![]() |
![]() ![]() |