Зависимость локализации поражения от породы |
Здравствуйте, гость ( Вход | Регистрация )
Зависимость локализации поражения от породы |
6.05.2018 - 15:26
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 5.05.2018 Пользователь №: 31338 |
Здравствуйте. Я ветеринарный врач, увлечена клиническими исследованиями. Самоучка, так как в российской ветеринарной медицине этого направления пока нет. Поэтому прошу прощения за возможно глупые вопросы. Коллеги попросили помочь с исследованием: оценка породной предрасположенности к определенной локализации и характеру кожных поражений у собак. Есть 8 пород (в исследование включались породы, где было 3 и больше пациентов) - всего 77 собак, и в качестве контрольной группы собаки, которых было представлено только по 1-2 штуки из породы (всего 11). Локализаций поражений 24. Правильно ли я понимаю: 1.Это описательное исследование (зависимость локализации поражения от породы, нет вмешательства, нет исхода) и поэтому контрольная группа не нужна (но так посоветовал профессор из Германии..)? 2.Поскольку это независимые номинальные переменные (есть/нет поражения в этой области тела у этой породы), я должна провести анализ таблиц сопряженности для всех пар признаков? 3.Тот же профессор посоветовал использовать поправку Бонферрони, но я не уверена, что она тут к месту.. Буду благодарна за помощь и советы. |
|
8.05.2018 - 13:03
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 46 Регистрация: 19.07.2013 Из: Украина, Харьков Пользователь №: 25002 |
А я тоже не очень понимаю, зачем все локализации в одну таблицу сваливать?
А если у одной и той же собаки были поражения и ушей, и лап, например, то как тогда такую многомерную таблицу можно составить? Сообщение отредактировал Статистик - 8.05.2018 - 13:04 |
|
8.05.2018 - 15:35
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
А я тоже не очень понимаю, зачем все локализации в одну таблицу сваливать? А если у одной и той же собаки были поражения и ушей, и лап, например, то как тогда такую многомерную таблицу можно составить? Вот поэтому вам и не быть в этой науке профессором, и не жить в Германии.) Но вы не расстраивайтесь. Просто прочтите ветку не с конца, а с начала. Здесь уже в пятом посте выяснилось (?), что волшебное число 24, которое топикстартеру насчитали коллеги, - это декартово произведение двух факторов "Локализация"х"Тип поражения". Из этого с необходимостью следует, что либо фактор "Локализация" имеет 8 градаций при 3 у "Типа поражения", либо 6х4, либо 12х2, либо все эти люди не понимают, что они делают, либо этого не понимаю я. Это полная группа элементарных исходов. Тогда можно, конечно, больных особей (а их будет уже меньше 88) раскинуть по такой вот трехмерной таблице. Никто не запрещает. Только число сильно меньше 88 надо разместить в 8*6*4=192 ячейках теперь уже трехмерной таблицы. Топикстартера уже спрашивали во 2 посте, как далеко он намерен продвинуться в анализе такой слабонасыщенной таблицы. Ответа не последовало. Круг замкнулся. Кроме того, многомерная таблица сопряженности - это кубик Рубика в том смысле, что если знаешь, как с ним обращаться, может быть когда-нибудь и соберешь. Это я к тому, что основным видом стат. анализа многомерной таблицы является ее логлинейная параметризация. А чтобы осмысленно провести логлинейный анализ многомерной таблицы, надо монографию Аптона "Анализ таблиц сопряженности" знать не просто наизусть, а лучше самого Аптона. |
|
8.05.2018 - 18:51
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 5.05.2018 Пользователь №: 31338 |
Вот поэтому вам и не быть в этой науке профессором, и не жить в Германии.) Но вы не расстраивайтесь. Просто прочтите ветку не с конца, а с начала. Здесь уже в пятом посте выяснилось (?), что волшебное число 24, которое топикстартеру насчитали коллеги, - это декартово произведение двух факторов "Локализация"х"Тип поражения". Из этого с необходимостью следует, что либо фактор "Локализация" имеет 8 градаций при 3 у "Типа поражения", либо 6х4, либо 12х2, либо все эти люди не понимают, что они делают, либо этого не понимаю я. Это полная группа элементарных исходов. Тогда можно, конечно, больных особей (а их будет уже меньше 88) раскинуть по такой вот трехмерной таблице. Никто не запрещает. Только число сильно меньше 88 надо разместить в 8*6*4=192 ячейках теперь уже трехмерной таблицы. Топикстартера уже спрашивали во 2 посте, как далеко он намерен продвинуться в анализе такой слабонасыщенной таблицы. Ответа не последовало. Круг замкнулся. Кроме того, многомерная таблица сопряженности - это кубик Рубика в том смысле, что если знаешь, как с ним обращаться, может быть когда-нибудь и соберешь. Это я к тому, что основным видом стат. анализа многомерной таблицы является ее логлинейная параметризация. А чтобы осмысленно провести логлинейный анализ многомерной таблицы, надо монографию Аптона "Анализ таблиц сопряженности" знать не просто наизусть, а лучше самого Аптона. Ох.. Коллеги разделили в разные группы - бактериальное воспаление ушей - грибковое воспаление ушей - комбинированное воспаление ушей - бак. воспаление лап - грибковое воспаление лап - комбинированное воспаление лап и т.д., всего 24 Поскольку исследовательский вопрос - локализация, а не тип воспаления, логично объединить их в группы: воспаление ушей, лап и т.д. Но поскольку уши с лапами никак не связаны, мне представляется неважным количество групп (24 или 5), они все равно должны оцениваться отдельно друг от друга, но во взаимосвязи с породой: Таблица 1. _________________________уши больные__________уши здоровые терьеры ______________________20__________________80 все остальные породы___________10___________________90 Таблица 2. __________________________лапы больные___________лапы здоровые терьеры __________________ все остальные______________ Всего 8 пород * 5 локализаций = 40 таблиц 2*2. Я уже несколько раз спрашивала, оправданно ли использовать для оценки зависимости таблицы сопряженности, и если нет, то каким методом воспользоваться. Еще я спрашивала, нужна ли здесь контрольная группа. И еще я спрашивала, уместна ли здесь поправка Бонферрони. Если бы я знала ответы на свои вопросы, я бы не создавала тему. За ответные вопросы спасибо, они заставляют изучать тему, но ответов пока нет.. ПыСы: профессор германский не статистик, а дерматолог. Мирового уровня в ветеринарной медицине. |
|
8.05.2018 - 21:38
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
...Я уже несколько раз спрашивала, оправданно ли использовать для оценки зависимости таблицы сопряженности, и если нет, то каким методом воспользоваться. Еще я спрашивала, нужна ли здесь контрольная группа. И еще я спрашивала, уместна ли здесь поправка Бонферрони. Если бы я знала ответы на свои вопросы, я бы не создавала тему. 1. Можно сделать так, что поправка Бонферрони не понадобится. Ясно, что это можно сделать только в том случае, если суметь проанализировать весь материал разом. 2. Контрольная группа не нужна. 3. Как уже отметили ogurtsov и 100$, таблица получается очень большая и слабонасыщенная, а это плохо. Во-первых потому, что число степеней свободы будет столь велико, что статистически значимыми смогут оказаться только очень сильные эффекты, а не факт что они будут. Во-вторых, будет большое число ячеек с нулями и малыми значениями частот, а значит будет проблема допустимого минимального ожидаемого и проблемность использования критериев, основанных на распределении хи-квадрат. Правда тот же Аптон, вслед за Гудменом, считает полезным добавить ко всем ячейкам константу 0,5. Но ясно, что когда к реальным данным добавляется нечто виртуальное это уже не очень хорошо. Поэтому большую таблицу перед анализом желательно свернуть, объединив сходные породы, локализации поражений и их типы. Вся сложность в том, чтобы сделать это обоснованно. 4. Я в таких случаях использую связку из нескольких методов. 4.1. Сначала - разведочные многомерные методы. Здесь подойдут анализ соответствий (correspondence analysis) и канонический анализ соответствий (canonical...). Про них нужно читать. У данных методов есть один недостаток, который в некоторых случаях существенен: они используют расстояние статистики хи-квадрат, которая получается с учётом ячеек таблицы с отсутствующими категориями (например, нет грибкового заболевания на ухе и нет на ноге). Таким образом в основе сходства категорий может оказаться не столько их совместная встречаемость, сколько отсутствие встречаемости. Поэтому полезно также попробовать многомерное шкалирование с использованием в качестве меры сходства индекса сходства Жаккара. Так или иначе, но полученные в результате ординационные диаграммы покажут ассоциации категорий. 4.2. Полученные диаграммы и ассоциации нужно интерпретировать исходя из знаний в предметной области. Это позволит проводить свёртку большой таблицы обоснованно, хотя и опираясь на результат разведочной техники. 4.3. Свернуть таблицу и в зависимости от числа входов анализировать методами типа хи-квадрат или логлинейным анализом. Статью с примером исследования по такой схеме прикрепил. Если захотите, можно сделать нечто подобное, но от вас потребуется выложить сюда данные, т.к. многомерные техники - штука не всегда однозначная + может ещё кто захочет их покрутить. Чтобы обезопасить данные информацию по породам лучше закодировать (порода 1, порода 2, ...). Если согласны, то я напишу как должна выглядеть таблица.
Прикрепленные файлы
|
|
8.05.2018 - 22:50
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Статью с примером исследования по такой схеме прикрепил. В статье на 133 с. затаился косметический дефект: 10^5.88=758 578, а не 75 858. Паче того: непонятно, как это для OR 6.69 ДИ [1.09 - 285.5] и для OR 2.46 ДИ [1.09 - 285.5]. При расчете ДИ берутся экспоненты: там малейшее изменение численности таблицы дает такие эффекты в верхней оценке ДИ, что диву даешься. Сообщение отредактировал 100$ - 8.05.2018 - 23:13 |
|
8.05.2018 - 23:32
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
В статье на 133 с. затаился косметический дефект: 10^5.88=758 578, а не 75 858. Есть такой дефект. Там ещё где-то косяк с RR находил. Свой pdf подправить можно, но в журнале уже никак(( >Елена Гогуа. Отсутствие связи лап с ушами - это пока заблуждение. Если анализ данных покажет это - будем такой гипотезы и придерживаться, а если покажет ассоциацию этих локализаций для каких-то типов или пород - нужно будет искать этому объяснения. Также локализаций не 24 - см. ниже. >passant. Таблица сложнее, упрощать не нужно: 8 пород х 5 локализаций х 4 типа поражения (отсутствует, грибковое, бактериальное, комбинированное). Т.е. входов три. Статистика хи-квадрат неаддитивна, точно на эффекты не разложить, поэтому только логлинейный анализ. Поскольку таблица получается наполовину пустой (77/160=0,48) анализировать исходную - плохая затея. |
|
9.05.2018 - 00:35
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
>passant. Таблица сложнее, упрощать не нужно: 8 пород х 5 локализаций х 4 типа поражения (отсутствует, грибковое, бактериальное, комбинированное). Т.е. входов три. Статистика хи-квадрат неаддитивна, точно на эффекты не разложить, поэтому только логлинейный анализ. Поскольку таблица получается наполовину пустой (77/160=0,48) анализировать исходную - плохая затея. Nokh, что-то я вас нынче не узнаю: фактор, измеренный по альтернативному признаку (Есть/Нет, Наличествует/Отсутствует) нельзя объявлять "типом" поражения и на равных включать в вектор (отсутствует, а потом присутствует в виде грибка, бактерий и их комбинации). Особи, для которых тип поражения="отсутствует" - это здоровые псы, которые к ветврачу не попадают, и для которых понятие "Локализация" не определено. Сообщение отредактировал 100$ - 9.05.2018 - 13:57 |
|
10.05.2018 - 01:07
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Nokh, что-то я вас нынче не узнаю: фактор, измеренный по альтернативному признаку (Есть/Нет, Наличествует/Отсутствует) нельзя объявлять "типом" поражения и на равных включать в вектор (отсутствует, а потом присутствует в виде грибка, бактерий и их комбинации). Особи, для которых тип поражения="отсутствует" - это здоровые псы, которые к ветврачу не попадают, и для которых понятие "Локализация" не определено. Зато вы всегда узнаваемы: цепляетесь ко всему и ко всем... Но когда ради правого дела, я готов потерпеть ;) Здоровые псы здесь действительно лишние. Ну тем сложнее. Получается таблица сопряжённости с четырьмя входами: 1) Порода - 8 категорий 2) Локализация поражения - 5 категорий 3) Тип поражения - 3 категории (грибковое, бактериальное, комбинированное). Комбинированное нужно для обработки таблицы некоторыми методами (типа логлинейного анализа), чтобы каждая собака попала в какую-то ячейку многомерной таблицы частот. Но для некоторых методов можно обойтись без него, т.к. это просто наличие и первого, и второго типа поражений. Если формировать матрицу данных построчно так, что каждая строка - отдельная собака, то "комбинированное" не понадобится, просто в колонках "грибковое" и "бактериальное" будут стоять единицы. 4) Наличие поражения - 2 категории (есть, нет) Получаем 8х5х3х2=240 ячеек, из которых заполнены 88 (36,7%). Это почти информационный вакуум. Однозначно нужно концентрировать информацию с опорой на ординационные техники. ? Вы каким софтом логлинейный делаете? Немного не так. 8 пород. 5 локализаций. От типа поражения ТС отказалась. Иш ты, отказалась! То что ТС от чего-то типа отказалась говорит о трёх вещах: одна - хорошая, одна - нейтральная и одна плохая. 1. Хорошая - что ТС чётко знает, что ей нужно. А то некоторые наберут данных, а что, для чего - полная беспомощность... Когда есть чёткое понимание цели - её можно достичь, пусть даже путём анализа миллиона таблиц 2х2. 2. Нейтральная (констатация факта): данные ТС дались слишком легко. Вот если, скажем, это были бы не пёсики, принесённые немецкому профессору, а бродячие собаки, которых для осмотра нужно было сперва найти, затем отловить и только затем осмотреть, исследователь хватался бы за всё что можно, лишь бы извлечь из с трудом добытого материала всю возможную информацию. А так, ну конечно: это - беру, это не беру... 3. Отказ от уже имеющихся в данных информации - это капитуляция. Если информация в данных есть - её нужно извлекать. Если не хватает квалификации - читать и спрашивать: форум ведь не молчит, скорее бурлит: вот уже и дурным запашком логистической регрессии повеяло... Извлекать нужно не только потому, что "нельзя добру пропадать". Бездумное объединение исходно различных категорий чревато парадоксом Симпсона и получением выводов, прямо противоположных реальной картине. Объединять можно, но с умом. Сообщение отредактировал nokh - 10.05.2018 - 01:15 |
|