Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Отклонение от соотношения 1:1
nokh
сообщение 1.02.2011 - 23:28
Сообщение #1





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Столкнулся с предложением использовать критерий хи-квадрат в такой задаче. На питательной среде с добавлением водопроводной воды (контроль) от 4-х пар плодовой мушки за весь период исследования было получено 600 потомков, а на среде с добавлением воды, пропущенной через угольный фильтр, - 800 потомков. Авторы проанализировали данные так: раз для нулевой гипотезы соотношение 1:1, то в каждой пробирке ожидаемая численность была (800+600)/2=700 мух. Далее находили хи-квадрат (здесь выходит 28,57 с одной степенью свободы) и делали вывод о влиянии фильтрации на качество воды.
Не смог внятно объяснить почему так считать нельзя. Дело в том, что генетики именно таким образом считают отклонения от теоретических расщеплений фенотипов (типа 3:1). Ясно, что слабое звено в рассмотренной задаче - расчёт ожидаемых частот, и задача не эквивалентна анализу отклонения от расщепления. Помогите, пожалуйста, сформулировать причину ошибочности подхода с хи-квадрат.

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 3.02.2011 - 17:01
Сообщение #2





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(nokh @ 1.02.2011 - 23:28) *
Помогите, пожалуйста, сформулировать причину ошибочности подхода с хи-квадрат.
Вы переворачиваете проблему с ног на голову, пытаясь объяснить неправильный способ решения. Выберите стандартный метод, описанный во многих широко известных учебниках с примерами задач на использование хи-квадрат. Нужно рассмотреть пример из учебника, подходящий под ваш случай и изложить его пошагово, чтобы было понятно всем. Тогда можно будет критиковать конструктивно. В нынешнем изложении неясно, какой метод вы применили на самом деле.


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 3.02.2011 - 23:30
Сообщение #3





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(DoctorStat @ 3.02.2011 - 19:01) *
Вы переворачиваете проблему с ног на голову, пытаясь объяснить неправильный способ решения. Выберите стандартный метод, описанный во многих широко известных учебниках с примерами задач на использование хи-квадрат. Нужно рассмотреть пример из учебника, подходящий под ваш случай и изложить его пошагово, чтобы было понятно всем. Тогда можно будет критиковать конструктивно. В нынешнем изложении неясно, какой метод вы применили на самом деле.

Я ничего не переворачиваю, с логикой у меня всё в порядке (это не бахвальство и, к сожалению, вообще не моя заслуга, это - просто факт:). Я сформулировал вопрос в том виде, в котором хочу получить на него ответ: почему так считать нельзя. А в учебниках описаны примеры категории "как считать можно". Также метод применял не я, а моя хорошая знакомая генетик. Наблюдаемые частоты были 600 и 800, а расчёт она вела так:
(1) Рассчитала ожидаемые частоты для соотношения 1:1
(800+600)/2=700.
(2) Рассчитала хи-квадрат по обычной формуле:
Хи-квадрат=(800-700)^2/700+(600-700)^2/700=28,57.
(3) Сравнила её с критическим значением хи-квадрат для 1 степени свободы и отвергла нулевую гипотезу.

Сложность в том, что если бы речь шла, скажем, о соотношении мух двух фенотипов в потомстве, то так считать было бы можно. Т.е. если бы среди 1400 потомков выщепились 600 фенотипов первого типа и 800 второго, то отклонение от соотношения 1:1 мы бы рассчитали именно так как было сделано выше. Т.е. к композиционным данным (600+800) применить хи-квадрат можно, а к независимым данным (600 и 800) - нельзя. Почему? smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 4.02.2011 - 11:58
Сообщение #4





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(nokh @ 3.02.2011 - 23:30) *
к композиционным данным (600+800) применить хи-квадрат можно, а к независимым данным (600 и 800) - нельзя. Почему? smile.gif
К вашим данным нельзя применять метод хи-квадрат, потому что они представляют собой ДВЕ НЕЗАВИСИМЫЕ случайные величины, принимающие ОДНО значение с вероятностью Р=1. Метод хи-квадрат, который ошибочно использовала ваша хорошая знакомая, предназначен для анализа ОДНОЙ случайной величины, принимающей НЕСКОЛЬКО значений.


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 4.02.2011 - 12:36
Сообщение #5





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Могу предложить только общие рассуждения, почему так нельзя делать, также без конкретных ссылок на учебники с подобным примером. А пример сводится к тому, что есть два числа и хочется чтобы одно было больше другого (например, р=0,001).
Да, действительно 3:1 или р=0,75 может быть проверено хи квадрат критерием. Но в этом случае признак должен иметь два значения, и из общего числа наблюдений (N = 1064 у Менделя про горох) могут быть посчитаны ожидаемые частоты. И тогда ч.с.с.=число категорий-1.
В представленном примере нет признака, который имеет два значения (например, родилось, умерло). ПО сути имеется только одно наблюдение в одной группе ? 600 потомков от 4 пар и одно наблюдение во второй группе ? 800 от 4 пар. Вот и вся статистика. Чтобы была нужна статистика, она должна что то обобщать, , т.е. должен быть ряд наблюдений, взять еще и другие 4 пары в одной и другой группе и т.д. У Колмогорова было 1200 наблюдений, когда он подтвердил закон Менделя 3:1, который аспирантка Лысенко опровергла, получив что-то вроде соотношения 930: 270 вместо 900:300.
Такое впечатление, что использование статистики является критерием научности. А вывод о том, что фильтрованная вода лучше потому, что мух рождается больше у неспециалиста вызывает ироническую улыбку smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 5.02.2011 - 12:12
Сообщение #6





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(nokh @ 2.02.2011 - 00:28) *
Столкнулся с предложением использовать критерий хи-квадрат в такой задаче. На питательной среде с добавлением водопроводной воды (контроль) от 4-х пар плодовой мушки за весь период исследования было получено 600 потомков, а на среде с добавлением воды, пропущенной через угольный фильтр, - 800 потомков. Авторы проанализировали данные так: раз для нулевой гипотезы соотношение 1:1, то в каждой пробирке ожидаемая численность была (800+600)/2=700 мух. Далее находили хи-квадрат (здесь выходит 28,57 с одной степенью свободы) и делали вывод о влиянии фильтрации на качество воды.
Не смог внятно объяснить почему так считать нельзя. Дело в том, что генетики именно таким образом считают отклонения от теоретических расщеплений фенотипов (типа 3:1). Ясно, что слабое звено в рассмотренной задаче - расчёт ожидаемых частот, и задача не эквивалентна анализу отклонения от расщепления. Помогите, пожалуйста, сформулировать причину ошибочности подхода с хи-квадрат.

Для меня ошибочность подхода неочевидна. Заметил, что задача очень похожа на задачу, обычно возникающую при исследовании соотношения полов. И ответ был найден. См. статью http://www.machinelearning.ru/wiki/index.p...ерий_хи-квадрат. В примере 1 данной статьи как раз описана данная ситуация и представлено применение обсуждаемого критерия.

Так что поход с использованием критерия хи-квадрат, который хотелось опровергнуть, на самом деле, предположительно, верен.

P.S. Кстати, занятный ресурс http://www.machinelearning.ru

Сообщение отредактировал Игорь - 5.02.2011 - 12:17


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 5.02.2011 - 15:02
Сообщение #7





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Не согласна, в этой ссылке признак принимает два значения м и ж, также как и при проверке закона Менделя есть варьирование признака, а в примере nokh нет варьирования признака.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 5.02.2011 - 15:58
Сообщение #8





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(DrgLena @ 5.02.2011 - 16:02) *
Не согласна, в этой ссылке признак принимает два значения м и ж, также как и при проверке закона Менделя есть варьирование признака, а в примере nokh нет варьирования признака.

Я надеюсь, Вы внимательно прочитаете условия и дезавуируете свои слова, ибо не считаю возможным доказывать очевидную Вашу неправоту.

Сообщение отредактировал Игорь - 5.02.2011 - 16:00


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 5.02.2011 - 16:44
Сообщение #9





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Цитата(Игорь @ 5.02.2011 - 12:12) *
В примере 1 данной статьи как раз описана данная ситуация и представлено применение обсуждаемого критерия.

В этом примере данные, как раз, композиционные, что дает возможность применить хи-квадрат критерий. Об этом автор поста и написал. Но вопрос быв в том, можно ли его применить к некомпозиционным данным.
Так что, моя неправота не столь уж и очевидна, поэтому найдите возможность доказать свою точку зрения, которую Вы высказываете не слишком уверенно. Каждый может ошибаться, поэтому свои слова я не убираю. Если бы все было так просто, nokh бы и сам разобрался.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 5.02.2011 - 17:40
Сообщение #10





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(DrgLena @ 5.02.2011 - 17:44) *
В этом примере данные, как раз, композиционные, что дает возможность применить хи-квадрат критерий. Об этом автор поста и написал. Но вопрос быв в том, можно ли его применить к некомпозиционным данным.
Так что, моя неправота не столь уж и очевидна, поэтому найдите возможность доказать свою точку зрения, которую Вы высказываете не слишком уверенно. Каждый может ошибаться, поэтому свои слова я не убираю. Если бы все было так просто, nokh бы и сам разобрался.

Я всего лишь воспользовался прецедентом (это один из методов практической работы, неважно, в технике, медицине или статистике - найти для условий своей задачи аналогичную задачу, но уже решенную, и сделать так же), полагая условия задачи аналогичными в опубликованной статье (в именно - равные ожидаемые доли при отсутствии фактора и доли, скорректированные некоторым воздействующим фактором, для статистического анализа неважно, что это пол, угольный нанофильтр или уровень заработка). Поэтому предлагаю послушать многоопытного nokh, который, наверное, уже сам во всем разобрался.

Сообщение отредактировал Игорь - 5.02.2011 - 17:42


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 5.02.2011 - 18:26
Сообщение #11





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Цитата(Игорь @ 5.02.2011 - 17:40) *
... для статистического анализа неважно, что это пол, угольный нанофильтр или уровень заработка).

Да, я не убедила Вас, сформулировав иначе ту же мысль, что высказал DoctorStat, но для анализа важно, что есть переменная отклика, а что фактор. У пола могут быть доли равные или не равные в конкретной группе, в которой есть и м и ж, а вот фактором может быть и фильтр и лазерное или магнитное облучение или даже зарядка воды от телевизора и все они могут влиять на переменную (рождаемость), которая имеет только по одному наблюдению в каждой из двух групп (фильтра нет - 600 и фильтр есть - 800).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 7.02.2011 - 21:01
Сообщение #12





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Благодарю всех участников обсуждения! Для себя принял объяснение DoctorStat'а. А людям объяснил примерно так: хи-квадрат можно применять, если данные можно выразить в долях или % естественным образом. Например, мы можем сказать, что в выборке новорожденных доля мальчиков составила столько-то. Или, что в потомстве мух было столько-то дикого типа, а столько-то мутантного. В обоих случаях в основе лежит биномиальное распределение и, в принципе, можно проследить историю наблюдаемого соотношения вплоть до собственно этой развилки, когда в гамету попадает х или у хромосома, или когда нормальный ген мутирует. Аналогично с полиномиальным распределением. А в рассматриваемом случае доли можно натянуть только искусственно - свести независимые выборки в композицию. При этом нет никаких оснований в качестве гипотетического ожидаемого рассматривать среднее обеих выборок. Иначе так можно было сравнивать типа статистически любые 2 числа eek.gif !
К счастью для авторов эксперимента они ставили по 5 пробирок на вариант опыта и обсчитывали их отдельно. Изменчивость численности внутри ячейки опыта к счастью тоже была невелика и после логарифмирования различия между контролем и большинством вариантов опыта были статистически значимыми по t-критерию (это - школьная работа на конкурс, дисперсионный анализ с контрастами внутри комплекса не потянут!). Кстати, мухам очень понравился апельсиновый и яблочный сок известной марки (в отличие от ананасового и мультифрукта)! wink.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему