Зависимость локализации поражения от породы |
Здравствуйте, гость ( Вход | Регистрация )
Зависимость локализации поражения от породы |
6.05.2018 - 15:26
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 5.05.2018 Пользователь №: 31338 |
Здравствуйте. Я ветеринарный врач, увлечена клиническими исследованиями. Самоучка, так как в российской ветеринарной медицине этого направления пока нет. Поэтому прошу прощения за возможно глупые вопросы. Коллеги попросили помочь с исследованием: оценка породной предрасположенности к определенной локализации и характеру кожных поражений у собак. Есть 8 пород (в исследование включались породы, где было 3 и больше пациентов) - всего 77 собак, и в качестве контрольной группы собаки, которых было представлено только по 1-2 штуки из породы (всего 11). Локализаций поражений 24. Правильно ли я понимаю: 1.Это описательное исследование (зависимость локализации поражения от породы, нет вмешательства, нет исхода) и поэтому контрольная группа не нужна (но так посоветовал профессор из Германии..)? 2.Поскольку это независимые номинальные переменные (есть/нет поражения в этой области тела у этой породы), я должна провести анализ таблиц сопряженности для всех пар признаков? 3.Тот же профессор посоветовал использовать поправку Бонферрони, но я не уверена, что она тут к месту.. Буду благодарна за помощь и советы. |
|
8.05.2018 - 13:03
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 46 Регистрация: 19.07.2013 Из: Украина, Харьков Пользователь №: 25002 |
А я тоже не очень понимаю, зачем все локализации в одну таблицу сваливать?
А если у одной и той же собаки были поражения и ушей, и лап, например, то как тогда такую многомерную таблицу можно составить? Сообщение отредактировал Статистик - 8.05.2018 - 13:04 |
|
8.05.2018 - 15:35
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
А я тоже не очень понимаю, зачем все локализации в одну таблицу сваливать? А если у одной и той же собаки были поражения и ушей, и лап, например, то как тогда такую многомерную таблицу можно составить? Вот поэтому вам и не быть в этой науке профессором, и не жить в Германии.) Но вы не расстраивайтесь. Просто прочтите ветку не с конца, а с начала. Здесь уже в пятом посте выяснилось (?), что волшебное число 24, которое топикстартеру насчитали коллеги, - это декартово произведение двух факторов "Локализация"х"Тип поражения". Из этого с необходимостью следует, что либо фактор "Локализация" имеет 8 градаций при 3 у "Типа поражения", либо 6х4, либо 12х2, либо все эти люди не понимают, что они делают, либо этого не понимаю я. Это полная группа элементарных исходов. Тогда можно, конечно, больных особей (а их будет уже меньше 88) раскинуть по такой вот трехмерной таблице. Никто не запрещает. Только число сильно меньше 88 надо разместить в 8*6*4=192 ячейках теперь уже трехмерной таблицы. Топикстартера уже спрашивали во 2 посте, как далеко он намерен продвинуться в анализе такой слабонасыщенной таблицы. Ответа не последовало. Круг замкнулся. Кроме того, многомерная таблица сопряженности - это кубик Рубика в том смысле, что если знаешь, как с ним обращаться, может быть когда-нибудь и соберешь. Это я к тому, что основным видом стат. анализа многомерной таблицы является ее логлинейная параметризация. А чтобы осмысленно провести логлинейный анализ многомерной таблицы, надо монографию Аптона "Анализ таблиц сопряженности" знать не просто наизусть, а лучше самого Аптона. |
|
8.05.2018 - 18:51
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 5.05.2018 Пользователь №: 31338 |
Вот поэтому вам и не быть в этой науке профессором, и не жить в Германии.) Но вы не расстраивайтесь. Просто прочтите ветку не с конца, а с начала. Здесь уже в пятом посте выяснилось (?), что волшебное число 24, которое топикстартеру насчитали коллеги, - это декартово произведение двух факторов "Локализация"х"Тип поражения". Из этого с необходимостью следует, что либо фактор "Локализация" имеет 8 градаций при 3 у "Типа поражения", либо 6х4, либо 12х2, либо все эти люди не понимают, что они делают, либо этого не понимаю я. Это полная группа элементарных исходов. Тогда можно, конечно, больных особей (а их будет уже меньше 88) раскинуть по такой вот трехмерной таблице. Никто не запрещает. Только число сильно меньше 88 надо разместить в 8*6*4=192 ячейках теперь уже трехмерной таблицы. Топикстартера уже спрашивали во 2 посте, как далеко он намерен продвинуться в анализе такой слабонасыщенной таблицы. Ответа не последовало. Круг замкнулся. Кроме того, многомерная таблица сопряженности - это кубик Рубика в том смысле, что если знаешь, как с ним обращаться, может быть когда-нибудь и соберешь. Это я к тому, что основным видом стат. анализа многомерной таблицы является ее логлинейная параметризация. А чтобы осмысленно провести логлинейный анализ многомерной таблицы, надо монографию Аптона "Анализ таблиц сопряженности" знать не просто наизусть, а лучше самого Аптона. Ох.. Коллеги разделили в разные группы - бактериальное воспаление ушей - грибковое воспаление ушей - комбинированное воспаление ушей - бак. воспаление лап - грибковое воспаление лап - комбинированное воспаление лап и т.д., всего 24 Поскольку исследовательский вопрос - локализация, а не тип воспаления, логично объединить их в группы: воспаление ушей, лап и т.д. Но поскольку уши с лапами никак не связаны, мне представляется неважным количество групп (24 или 5), они все равно должны оцениваться отдельно друг от друга, но во взаимосвязи с породой: Таблица 1. _________________________уши больные__________уши здоровые терьеры ______________________20__________________80 все остальные породы___________10___________________90 Таблица 2. __________________________лапы больные___________лапы здоровые терьеры __________________ все остальные______________ Всего 8 пород * 5 локализаций = 40 таблиц 2*2. Я уже несколько раз спрашивала, оправданно ли использовать для оценки зависимости таблицы сопряженности, и если нет, то каким методом воспользоваться. Еще я спрашивала, нужна ли здесь контрольная группа. И еще я спрашивала, уместна ли здесь поправка Бонферрони. Если бы я знала ответы на свои вопросы, я бы не создавала тему. За ответные вопросы спасибо, они заставляют изучать тему, но ответов пока нет.. ПыСы: профессор германский не статистик, а дерматолог. Мирового уровня в ветеринарной медицине. |
|
8.05.2018 - 21:38
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
...Я уже несколько раз спрашивала, оправданно ли использовать для оценки зависимости таблицы сопряженности, и если нет, то каким методом воспользоваться. Еще я спрашивала, нужна ли здесь контрольная группа. И еще я спрашивала, уместна ли здесь поправка Бонферрони. Если бы я знала ответы на свои вопросы, я бы не создавала тему. 1. Можно сделать так, что поправка Бонферрони не понадобится. Ясно, что это можно сделать только в том случае, если суметь проанализировать весь материал разом. 2. Контрольная группа не нужна. 3. Как уже отметили ogurtsov и 100$, таблица получается очень большая и слабонасыщенная, а это плохо. Во-первых потому, что число степеней свободы будет столь велико, что статистически значимыми смогут оказаться только очень сильные эффекты, а не факт что они будут. Во-вторых, будет большое число ячеек с нулями и малыми значениями частот, а значит будет проблема допустимого минимального ожидаемого и проблемность использования критериев, основанных на распределении хи-квадрат. Правда тот же Аптон, вслед за Гудменом, считает полезным добавить ко всем ячейкам константу 0,5. Но ясно, что когда к реальным данным добавляется нечто виртуальное это уже не очень хорошо. Поэтому большую таблицу перед анализом желательно свернуть, объединив сходные породы, локализации поражений и их типы. Вся сложность в том, чтобы сделать это обоснованно. 4. Я в таких случаях использую связку из нескольких методов. 4.1. Сначала - разведочные многомерные методы. Здесь подойдут анализ соответствий (correspondence analysis) и канонический анализ соответствий (canonical...). Про них нужно читать. У данных методов есть один недостаток, который в некоторых случаях существенен: они используют расстояние статистики хи-квадрат, которая получается с учётом ячеек таблицы с отсутствующими категориями (например, нет грибкового заболевания на ухе и нет на ноге). Таким образом в основе сходства категорий может оказаться не столько их совместная встречаемость, сколько отсутствие встречаемости. Поэтому полезно также попробовать многомерное шкалирование с использованием в качестве меры сходства индекса сходства Жаккара. Так или иначе, но полученные в результате ординационные диаграммы покажут ассоциации категорий. 4.2. Полученные диаграммы и ассоциации нужно интерпретировать исходя из знаний в предметной области. Это позволит проводить свёртку большой таблицы обоснованно, хотя и опираясь на результат разведочной техники. 4.3. Свернуть таблицу и в зависимости от числа входов анализировать методами типа хи-квадрат или логлинейным анализом. Статью с примером исследования по такой схеме прикрепил. Если захотите, можно сделать нечто подобное, но от вас потребуется выложить сюда данные, т.к. многомерные техники - штука не всегда однозначная + может ещё кто захочет их покрутить. Чтобы обезопасить данные информацию по породам лучше закодировать (порода 1, порода 2, ...). Если согласны, то я напишу как должна выглядеть таблица.
Прикрепленные файлы
|
|
8.05.2018 - 22:50
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Статью с примером исследования по такой схеме прикрепил. В статье на 133 с. затаился косметический дефект: 10^5.88=758 578, а не 75 858. Паче того: непонятно, как это для OR 6.69 ДИ [1.09 - 285.5] и для OR 2.46 ДИ [1.09 - 285.5]. При расчете ДИ берутся экспоненты: там малейшее изменение численности таблицы дает такие эффекты в верхней оценке ДИ, что диву даешься. Сообщение отредактировал 100$ - 8.05.2018 - 23:13 |
|
8.05.2018 - 23:32
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
В статье на 133 с. затаился косметический дефект: 10^5.88=758 578, а не 75 858. Есть такой дефект. Там ещё где-то косяк с RR находил. Свой pdf подправить можно, но в журнале уже никак(( >Елена Гогуа. Отсутствие связи лап с ушами - это пока заблуждение. Если анализ данных покажет это - будем такой гипотезы и придерживаться, а если покажет ассоциацию этих локализаций для каких-то типов или пород - нужно будет искать этому объяснения. Также локализаций не 24 - см. ниже. >passant. Таблица сложнее, упрощать не нужно: 8 пород х 5 локализаций х 4 типа поражения (отсутствует, грибковое, бактериальное, комбинированное). Т.е. входов три. Статистика хи-квадрат неаддитивна, точно на эффекты не разложить, поэтому только логлинейный анализ. Поскольку таблица получается наполовину пустой (77/160=0,48) анализировать исходную - плохая затея. |
|
9.05.2018 - 00:35
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
>passant. Таблица сложнее, упрощать не нужно: 8 пород х 5 локализаций х 4 типа поражения (отсутствует, грибковое, бактериальное, комбинированное). Т.е. входов три. Статистика хи-квадрат неаддитивна, точно на эффекты не разложить, поэтому только логлинейный анализ. Поскольку таблица получается наполовину пустой (77/160=0,48) анализировать исходную - плохая затея. Nokh, что-то я вас нынче не узнаю: фактор, измеренный по альтернативному признаку (Есть/Нет, Наличествует/Отсутствует) нельзя объявлять "типом" поражения и на равных включать в вектор (отсутствует, а потом присутствует в виде грибка, бактерий и их комбинации). Особи, для которых тип поражения="отсутствует" - это здоровые псы, которые к ветврачу не попадают, и для которых понятие "Локализация" не определено. Сообщение отредактировал 100$ - 9.05.2018 - 13:57 |
|
10.05.2018 - 01:07
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Nokh, что-то я вас нынче не узнаю: фактор, измеренный по альтернативному признаку (Есть/Нет, Наличествует/Отсутствует) нельзя объявлять "типом" поражения и на равных включать в вектор (отсутствует, а потом присутствует в виде грибка, бактерий и их комбинации). Особи, для которых тип поражения="отсутствует" - это здоровые псы, которые к ветврачу не попадают, и для которых понятие "Локализация" не определено. Зато вы всегда узнаваемы: цепляетесь ко всему и ко всем... Но когда ради правого дела, я готов потерпеть ;) Здоровые псы здесь действительно лишние. Ну тем сложнее. Получается таблица сопряжённости с четырьмя входами: 1) Порода - 8 категорий 2) Локализация поражения - 5 категорий 3) Тип поражения - 3 категории (грибковое, бактериальное, комбинированное). Комбинированное нужно для обработки таблицы некоторыми методами (типа логлинейного анализа), чтобы каждая собака попала в какую-то ячейку многомерной таблицы частот. Но для некоторых методов можно обойтись без него, т.к. это просто наличие и первого, и второго типа поражений. Если формировать матрицу данных построчно так, что каждая строка - отдельная собака, то "комбинированное" не понадобится, просто в колонках "грибковое" и "бактериальное" будут стоять единицы. 4) Наличие поражения - 2 категории (есть, нет) Получаем 8х5х3х2=240 ячеек, из которых заполнены 88 (36,7%). Это почти информационный вакуум. Однозначно нужно концентрировать информацию с опорой на ординационные техники. ? Вы каким софтом логлинейный делаете? Немного не так. 8 пород. 5 локализаций. От типа поражения ТС отказалась. Иш ты, отказалась! То что ТС от чего-то типа отказалась говорит о трёх вещах: одна - хорошая, одна - нейтральная и одна плохая. 1. Хорошая - что ТС чётко знает, что ей нужно. А то некоторые наберут данных, а что, для чего - полная беспомощность... Когда есть чёткое понимание цели - её можно достичь, пусть даже путём анализа миллиона таблиц 2х2. 2. Нейтральная (констатация факта): данные ТС дались слишком легко. Вот если, скажем, это были бы не пёсики, принесённые немецкому профессору, а бродячие собаки, которых для осмотра нужно было сперва найти, затем отловить и только затем осмотреть, исследователь хватался бы за всё что можно, лишь бы извлечь из с трудом добытого материала всю возможную информацию. А так, ну конечно: это - беру, это не беру... 3. Отказ от уже имеющихся в данных информации - это капитуляция. Если информация в данных есть - её нужно извлекать. Если не хватает квалификации - читать и спрашивать: форум ведь не молчит, скорее бурлит: вот уже и дурным запашком логистической регрессии повеяло... Извлекать нужно не только потому, что "нельзя добру пропадать". Бездумное объединение исходно различных категорий чревато парадоксом Симпсона и получением выводов, прямо противоположных реальной картине. Объединять можно, но с умом. Сообщение отредактировал nokh - 10.05.2018 - 01:15 |
|
10.05.2018 - 16:31
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Цитата Зато вы всегда узнаваемы: цепляетесь ко всему и ко всем... Но когда ради правого дела, я готов потерпеть Гы. Тоже мне, терпила . Да я еще даже и не начинал. Вот прям щас и начну. Цитата 3) Тип поражения - 3 категории (грибковое, бактериальное, комбинированное). Комбинированное нужно для обработки таблицы некоторыми методами (типа логлинейного анализа), чтобы каждая собака попала в какую-то ячейку многомерной таблицы частот. Но для некоторых методов можно обойтись без него, т.к. это просто наличие и первого, и второго типа поражений. Вижу, вы отпраздновали по всем правилам . Градация "Комбинированная" с необходимостью должна присутствовать в таблице. И дело здесь не только в том, что сочетанная патология может быть гораздо "злее", нежели грибок или бактерии по отдельности и требовать от врача иных схем лечения. Меня интересуют простые вероятностные рассуждения: пусть мы имеем выборку из трех собак, у одной из которых наблюдается грибок (причем вероятность наблюдать такую=p1), у второй бактериальное поражение (с вероятностью наблюдать его=р2) и у третьей - сочетанная патология ( с вероятностью р3). Тогда для нашей выборки эмпирические априорные вероятности наблюдать каждый из этих случаев р1=р2=р3=1/3 и р1+р2+р3=1 как учили. Пока паззл сходится. Если комбинированная патология - это по вашей логике одновременное наблюдение "двух в одном", то такая вероятность должна равняться р3=р1*р2, т.е. 1/3*1/3=1/9. Однако она равна 1/3 по наблюдаемым данным и 1/3+1/3+1/9 уже не равна 1. Следовательно, в общем случае вероятность наблюдать сочетанную патологию не определяется вероятностями грибка и бактерий и представляет собой самостоятельный феномен. Цитата Если формировать матрицу данных построчно так, что каждая строка - отдельная собака, то "комбинированное" не понадобится, просто в колонках "грибковое" и "бактериальное" будут стоять единицы В том-то и дело, что не будут. Ибо в данном случае "1"-это не индикатор события, а счетная переменная (т.е. объект наблюдения). В вашем варианте одна собака порождает строчную сумму равную 2. Именно поэтому для моего рассуждения (вышеприведенного примера) строчная сумма равнялась трем, при отказе от столбца "Комбинированная" она будет равна 2. Чтобы восстановить строчную сумму, оставшуюся собаку надо как-то "размазать" по колонкам "Грибок" и "Бактерии", а как? Добавить в каждый по 0,5, Или туда 0,6, а сюда - 0,4? Резюме: категорию "Комбинированная" оставляем. Цитата 4) Наличие поражения - 2 категории (есть, нет) Nokh, а зачем вы с упорством, достойным лучшего применения, пытаетесь прикрутить к этой несчастной вероятностно-статистической модели еще и дихотомию типа "Есть/Нет", "Жив/Мертв"? Мы наблюдаем только пораженных животных, у которых с единичной вероятностью есть хотя бы одно поражение. Если его нет - это здоровая шавка, которой некогда бегать по врачам. Вам что базовой таблице 8х5х3 нулей не хватает? Откажитесь от избыточного измерения и вам не придется ничего концентрировать. А то вы напоминаете незадачливого повара, который плеснул, не глядя, в котел лишнее ведро воды, получил концентрацию ухи на уровне "семь ведер - одна луковица" и теперь пытается раскочегарить огонь посильнее, чтобы лишняя влага побыстрее испарилась. Попутно вычерпывая ее руками. Резюме: 8х5х3. Цитата Однозначно нужно концентрировать информацию с опорой на ординационные техники. Ну, не зна-а-а-ю. Статистический метод определяется природой данных. Данные таблицы сопряженности - это результаты прямого подсчета, измеренные в абсолютной шкале. Есть сильное подозрение, что к ним в принципе неприменимы никакие ординационные техники, основная забота которых - сохранение топологии данных и минимальные искажения расстояний при проецировании. Насколько мне известно, понятие "расстояние" для для таблиц сопряженности не определено. Об этом четко пишут в комментариях к корреспондентскому анализу, и при этом говорят о том, что видимые ассоциации точек на графике можно трактовать в смысле близости только если они принадлежат к одному профилю: столбцов или строк. Цитата Вы каким софтом логлинейный делаете? Когда-то делал Статистикой 13. Там автоматически происходит селекция оптимальной модели. Alexwin1961 в своем блоге демонстрирует эту технику на R: https://r-statistics.livejournal.com/7168.html Но до логлинейщины в данном случае дело не дойдет: там же надо логарифмировать содержимое ячеек таблицы. Следовательно, нулевых ячеек там быть не должно. Значит, надо искать спасение в добавке 0,5 к каждой ячейке. Однако даже для таблицы 8х5 уже звучавшая оценка 88/40 имеет практически такой же "порядок малости", что и величина 0,5. Мы просто равномерно "размажем" все эффекты по этой шахматной доске и ничего более. Сообщение отредактировал 100$ - 10.05.2018 - 18:51 |
|