Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Зависимость локализации поражения от породы

Автор: Елена Гогуа 6.05.2018 - 15:26


Здравствуйте. Я ветеринарный врач, увлечена клиническими исследованиями. Самоучка, так как в российской ветеринарной медицине этого направления пока нет. Поэтому прошу прощения за возможно глупые вопросы.

Коллеги попросили помочь с исследованием: оценка породной предрасположенности к определенной локализации и характеру кожных поражений у собак. Есть 8 пород (в исследование включались породы, где было 3 и больше пациентов) - всего 77 собак, и в качестве контрольной группы собаки, которых было представлено только по 1-2 штуки из породы (всего 11). Локализаций поражений 24.

Правильно ли я понимаю:
1.Это описательное исследование (зависимость локализации поражения от породы, нет вмешательства, нет исхода) и поэтому контрольная группа не нужна (но так посоветовал профессор из Германии..)?
2.Поскольку это независимые номинальные переменные (есть/нет поражения в этой области тела у этой породы), я должна провести анализ таблиц сопряженности для всех пар признаков?
3.Тот же профессор посоветовал использовать поправку Бонферрони, но я не уверена, что она тут к месту..

Буду благодарна за помощь и советы.

Автор: ogurtsov 6.05.2018 - 16:27

У вас таблица сопряженности получается 24х8 (192 ячейки). Подумайте, можно ли сделать какие-то выводы при наличии всего 77 собак.

Автор: Елена Гогуа 6.05.2018 - 17:34

Цитата(ogurtsov @ 6.05.2018 - 16:27) *
У вас таблица сопряженности получается 24х8 (192 ячейки). Подумайте, можно ли сделать какие-то выводы при наличии всего 77 собак.



У меня всего 88 собак, в том числе 14 йоркширских терьеров. У 7 из них (50%) есть поражения в области ушей. При этом из всех остальных пород собак (74 штуки) поражения ушей есть у 11 (15%), p<0,05
Из тех же 88 собак 5 - таксы. У 3 из них локализация поражений - лапы. Из всех остальных собак (83) больные лапы у 5, p<0.05
У каждой породы может быть несколько локализаций поражений, например у лабрадоров и уши, и лапы, у французких бульдогов - морда, шея, лапы..

Если таблицы сопряженности неправильно использовать для каждой пары порода-локализация, то каким методом я должна воспользоваться для выявления зависимости?

Автор: 100$ 6.05.2018 - 19:10

Цитата(Елена Гогуа @ 6.05.2018 - 15:26) *
Коллеги попросили помочь с исследованием: оценка породной предрасположенности к определенной локализации и характеру кожных поражений у собак. Есть 8 пород (в исследование включались породы, где было 3 и больше пациентов) - всего 77 собак, и в качестве контрольной группы собаки, которых было представлено только по 1-2 штуки из породы (всего 11). Локализаций поражений 24.

Правильно ли я понимаю:
1.Это описательное исследование (зависимость локализации поражения от породы, нет вмешательства, нет исхода) и поэтому контрольная группа не нужна (но так посоветовал профессор из Германии..)?
2.Поскольку это независимые номинальные переменные (есть/нет поражения в этой области тела у этой породы), я должна провести анализ таблиц сопряженности для всех пар признаков?
3.Тот же профессор посоветовал использовать поправку Бонферрони, но я не уверена, что она тут к месту..


В целом вы все правильно понимаете. Поэтому в качестве самого первого шага стоит проверить гипотезу о том, что доля пораженных животных от породы к породе не меняется. Таблица сопряженности для 88 животных выглядит так:
______________________Больные___ Здоровые____Строчная сумма (Row sum)
Порода 1: Терьеры_________7_________ 7 ____________ 14
Порода 2: Таксы___________3__________2______________5
...
Порода 8:Фр. бульдоги
Итого: столбцовые суммы (Column sums)_________________88

При неотвержении H0 дальше вроде как и говорить не о чем.

При отвержении H0 нужно понимать, что если "Локализация" и "Характер поражения" - это разные факторы, то таблица сопряженности становится многомерной.
При этом если на тушке собаки насчитали аж 24 локализации, да еще пусть характер поражения - дихотомический, то 88 животных надо разбросать по 8*24*2=384 ячейкам многомерной таблицы.

Автор: Елена Гогуа 7.05.2018 - 15:58

Цитата(100$ @ 6.05.2018 - 19:10) *
В целом вы все правильно понимаете. Поэтому в качестве самого первого шага стоит проверить гипотезу о том, что доля пораженных животных от породы к породе не меняется. Таблица сопряженности для 88 животных выглядит так:
______________________Больные___ Здоровые____Строчная сумма (Row sum)
Порода 1: Терьеры_________7_________ 7 ____________ 14
Порода 2: Таксы___________3__________2______________5
...
Порода 8:Фр. бульдоги
Итого: столбцовые суммы (Column sums)_________________88

При неотвержении H0 дальше вроде как и говорить не о чем.

При отвержении H0 нужно понимать, что если "Локализация" и "Характер поражения" - это разные факторы, то таблица сопряженности становится многомерной.
При этом если на тушке собаки насчитали аж 24 локализации, да еще пусть характер поражения - дихотомический, то 88 животных надо разбросать по 8*24*2=384 ячейкам многомерной таблицы.


Спасибо большое за ответ.

Да, коллеги сформировали 24 группы и по локализации, и по характеру, из-за чего по некоторым признакам единичные данные. Их логично можно объединить до 5.
Н0 отвергла, отдельно по каждой локализации (уши, лапы, тело и т.д.).

Но мне по-прежнему не понятно, почему я должна объединять все локализации в одну таблицу, если они не связаны. Клинически мы наблюдаем, что если на приеме лабрадор, то почти всегда у него поражены уши и лапы, и редко тело. А если это терьер, то чаще всего поражены лапы, живот и шея, и редко уши. У меня нет цели исследовать зависимость ушей от лап, но зависимость ушей (или лап, или живота, или и лап и живота) от породы очень явная.
Так получается 5 таблиц 8*2 (8 пород * есть/нет) для каждой локализации.

Или нужно использовать другие методы для оценки зависимости? Какие тогда?

Автор: 100$ 7.05.2018 - 16:41

Цитата(Елена Гогуа @ 7.05.2018 - 15:58) *
Спасибо большое за ответ.

Да, коллеги сформировали 24 группы и по локализации, и по характеру, из-за чего по некоторым признакам единичные данные. Их логично можно объединить до 5.
Н0 отвергла, отдельно по каждой локализации (уши, лапы, тело и т.д.).

Но мне по-прежнему не понятно, почему я должна объединять все локализации в одну таблицу, если они не связаны. Клинически мы наблюдаем, что если на приеме лабрадор, то почти всегда у него поражены уши и лапы, и редко тело. А если это терьер, то чаще всего поражены лапы, живот и шея, и редко уши. У меня нет цели исследовать зависимость ушей от лап, но зависимость ушей (или лап, или живота, или и лап и живота) от породы очень явная.
Так получается 5 таблиц 8*2 (8 пород * есть/нет) для каждой локализации.

Или нужно использовать другие методы для оценки зависимости? Какие тогда?


Ничего не понял, но если нулевая гипотеза из первого этапа исследования отвергается, то далее логично больных особей раскидать по 5 локализациям (таблица получится 8 пород х 5 локализаций ("лапы","шея" и т.д)) и проверить ее. А что тут еще предпринять? При этом никаких "зависимостей от ушей и лап" не проверяется. Проверяется сопряженность одного мультиномиального признака "Порода" с 8 градациями и второго мультиномиального признака "Локализация" с 5 градациями. Только и всего.

В ветеринары, штоле, податься...

Автор: Статистик 8.05.2018 - 13:03

А я тоже не очень понимаю, зачем все локализации в одну таблицу сваливать?
А если у одной и той же собаки были поражения и ушей, и лап, например, то как тогда такую многомерную таблицу можно составить?

Автор: 100$ 8.05.2018 - 15:35

Цитата(Статистик @ 8.05.2018 - 13:03) *
А я тоже не очень понимаю, зачем все локализации в одну таблицу сваливать?
А если у одной и той же собаки были поражения и ушей, и лап, например, то как тогда такую многомерную таблицу можно составить?


Вот поэтому вам и не быть в этой науке профессором, и не жить в Германии.)

Но вы не расстраивайтесь. Просто прочтите ветку не с конца, а с начала. Здесь уже в пятом посте выяснилось (?), что волшебное число 24, которое топикстартеру насчитали коллеги, - это декартово произведение двух факторов "Локализация"х"Тип поражения". Из этого с необходимостью следует, что либо фактор "Локализация" имеет 8 градаций при 3 у "Типа поражения", либо 6х4, либо 12х2, либо все эти люди не понимают, что они делают, либо этого не понимаю я. Это полная группа элементарных исходов. Тогда можно, конечно, больных особей (а их будет уже меньше 88) раскинуть по такой вот трехмерной таблице. Никто не запрещает. Только число сильно меньше 88 надо разместить в 8*6*4=192 ячейках теперь уже трехмерной таблицы. Топикстартера уже спрашивали во 2 посте, как далеко он намерен продвинуться в анализе такой слабонасыщенной таблицы. Ответа не последовало. Круг замкнулся.
Кроме того, многомерная таблица сопряженности - это кубик Рубика в том смысле, что если знаешь, как с ним обращаться, может быть когда-нибудь и соберешь. Это я к тому, что основным видом стат. анализа многомерной таблицы является ее логлинейная параметризация. А чтобы осмысленно провести логлинейный анализ многомерной таблицы, надо монографию Аптона "Анализ таблиц сопряженности" знать не просто наизусть, а лучше самого Аптона.

Автор: Елена Гогуа 8.05.2018 - 18:51

Цитата(100$ @ 8.05.2018 - 15:35) *
Вот поэтому вам и не быть в этой науке профессором, и не жить в Германии.)

Но вы не расстраивайтесь. Просто прочтите ветку не с конца, а с начала. Здесь уже в пятом посте выяснилось (?), что волшебное число 24, которое топикстартеру насчитали коллеги, - это декартово произведение двух факторов "Локализация"х"Тип поражения". Из этого с необходимостью следует, что либо фактор "Локализация" имеет 8 градаций при 3 у "Типа поражения", либо 6х4, либо 12х2, либо все эти люди не понимают, что они делают, либо этого не понимаю я. Это полная группа элементарных исходов. Тогда можно, конечно, больных особей (а их будет уже меньше 88) раскинуть по такой вот трехмерной таблице. Никто не запрещает. Только число сильно меньше 88 надо разместить в 8*6*4=192 ячейках теперь уже трехмерной таблицы. Топикстартера уже спрашивали во 2 посте, как далеко он намерен продвинуться в анализе такой слабонасыщенной таблицы. Ответа не последовало. Круг замкнулся.
Кроме того, многомерная таблица сопряженности - это кубик Рубика в том смысле, что если знаешь, как с ним обращаться, может быть когда-нибудь и соберешь. Это я к тому, что основным видом стат. анализа многомерной таблицы является ее логлинейная параметризация. А чтобы осмысленно провести логлинейный анализ многомерной таблицы, надо монографию Аптона "Анализ таблиц сопряженности" знать не просто наизусть, а лучше самого Аптона.


Ох..
Коллеги разделили в разные группы
- бактериальное воспаление ушей
- грибковое воспаление ушей
- комбинированное воспаление ушей
- бак. воспаление лап
- грибковое воспаление лап
- комбинированное воспаление лап
и т.д., всего 24
Поскольку исследовательский вопрос - локализация, а не тип воспаления, логично объединить их в группы: воспаление ушей, лап и т.д. Но поскольку уши с лапами никак не связаны, мне представляется неважным количество групп (24 или 5), они все равно должны оцениваться отдельно друг от друга, но во взаимосвязи с породой:

Таблица 1.
_________________________уши больные__________уши здоровые

терьеры ______________________20__________________80

все остальные породы___________10___________________90


Таблица 2.
__________________________лапы больные___________лапы здоровые

терьеры __________________

все остальные______________

Всего 8 пород * 5 локализаций = 40 таблиц 2*2.

Я уже несколько раз спрашивала, оправданно ли использовать для оценки зависимости таблицы сопряженности, и если нет, то каким методом воспользоваться.
Еще я спрашивала, нужна ли здесь контрольная группа.
И еще я спрашивала, уместна ли здесь поправка Бонферрони.

Если бы я знала ответы на свои вопросы, я бы не создавала тему.

За ответные вопросы спасибо, они заставляют изучать тему, но ответов пока нет..

ПыСы: профессор германский не статистик, а дерматолог. Мирового уровня в ветеринарной медицине.




Автор: Статистик 8.05.2018 - 20:45

Цитата(100$ @ 8.05.2018 - 15:35) *
Вот поэтому вам и не быть в этой науке профессором, и не жить в Германии.)

Но вы не расстраивайтесь. Просто прочтите ветку не с конца, а с начала. Здесь уже в пятом посте выяснилось (?), что волшебное число 24, которое топикстартеру насчитали коллеги, - это декартово произведение двух факторов "Локализация"х"Тип поражения". Из этого с необходимостью следует, что либо фактор "Локализация" имеет 8 градаций при 3 у "Типа поражения", либо 6х4, либо 12х2, либо все эти люди не понимают, что они делают, либо этого не понимаю я. Это полная группа элементарных исходов. Тогда можно, конечно, больных особей (а их будет уже меньше 88) раскинуть по такой вот трехмерной таблице. Никто не запрещает. Только число сильно меньше 88 надо разместить в 8*6*4=192 ячейках теперь уже трехмерной таблицы. Топикстартера уже спрашивали во 2 посте, как далеко он намерен продвинуться в анализе такой слабонасыщенной таблицы. Ответа не последовало. Круг замкнулся.
Кроме того, многомерная таблица сопряженности - это кубик Рубика в том смысле, что если знаешь, как с ним обращаться, может быть когда-нибудь и соберешь. Это я к тому, что основным видом стат. анализа многомерной таблицы является ее логлинейная параметризация. А чтобы осмысленно провести логлинейный анализ многомерной таблицы, надо монографию Аптона "Анализ таблиц сопряженности" знать не просто наизусть, а лучше самого Аптона.


Я как раз ветку прочитала сначала и не один раз.
ТС уже сказала, что ей 24 градации на самом деле и не нужны. Фактически, ей интересна именно локализация, а не тип поражения, если я правильно ее поняла. Ей не важно, бактериальная это инфекция или грибковая, ей важно, где именно (локализация) было поражение (усы, лапы или хвост). Отсюда уже не 24 градации, а всего 5 осталось, если я правильно поняла.
И вроде как уже 88 собак нужно распределить в таблице 8 (прод)*5 (локлизиций), если бы не одно но...
ТС написала, что у одной и то же собаки может быть несколько локализаций поаржений. Отсюда не получится заполнить таблицу 8*5.
А дальше нужно отталкиваться от целей исследования. Если стоит вопрос, связана ли конкретная порода с конкретной локализацией поражения, то и нужно тогда составлять отедльные таблицы сопряженности для каждой из выбранных локализаций.

Автор: Статистик 8.05.2018 - 20:51

Цитата(Елена Гогуа @ 8.05.2018 - 18:51) *
Я уже несколько раз спрашивала, оправданно ли использовать для оценки зависимости таблицы сопряженности, и если нет, то каким методом воспользоваться.

мне кажется, что можно
но, боюсь, придут монстры статистики побьют меня ногами за мое мнение)))

Цитата(Елена Гогуа @ 8.05.2018 - 18:51) *
Еще я спрашивала, нужна ли здесь контрольная группа.

Я из первого поста не поняла, какие собаки составили контрольную группу.
И с какой целью была составлена контрольная группа? Ответ на какой вопрос Вы хотите получить?

Цитата(Елена Гогуа @ 8.05.2018 - 18:51) *
И еще я спрашивала, уместна ли здесь поправка Бонферрони.

сама постою-послушаю ответ на этот вопрос

Автор: 100$ 8.05.2018 - 21:34

Цитата(Елена Гогуа @ 8.05.2018 - 18:51) *
Ох..
Коллеги разделили в разные группы
- бактериальное воспаление ушей
- грибковое воспаление ушей
- комбинированное воспаление ушей
- бак. воспаление лап
- грибковое воспаление лап
- комбинированное воспаление лап
и т.д., всего 24
Поскольку исследовательский вопрос - локализация, а не тип воспаления, логично объединить их в группы: воспаление ушей, лап и т.д. Но поскольку уши с лапами никак не связаны, мне представляется неважным количество групп (24 или 5), они все равно должны оцениваться отдельно друг от друга, но во взаимосвязи с породой:

Таблица 1.
_________________________уши больные__________уши здоровые

терьеры ______________________20__________________80

все остальные породы___________10___________________90


Таблица 2.
__________________________лапы больные___________лапы здоровые

терьеры __________________

все остальные______________

Всего 8 пород * 5 локализаций = 40 таблиц 2*2.

Я уже несколько раз спрашивала, оправданно ли использовать для оценки зависимости таблицы сопряженности, и если нет, то каким методом воспользоваться.
Еще я спрашивала, нужна ли здесь контрольная группа.
И еще я спрашивала, уместна ли здесь поправка Бонферрони.

Если бы я знала ответы на свои вопросы, я бы не создавала тему.

За ответные вопросы спасибо, они заставляют изучать тему, но ответов пока нет..

ПыСы: профессор германский не статистик, а дерматолог. Мирового уровня в ветеринарной медицине.


Хорошо, отвечу на вопросы.
1. Контрольная группа не нужна. Это не исследование Case-Control.
2. Это исследование сводится к анализу таблиц сопряженности на первом и втором этапах.
3. Поправка Бонферрони не нужна. Это будет ясно из дальнейшего изложения.

Так вот, мы договорились, что третий фактор "Тип/характер воспаления" (с как минимум тремя градациями: грибковое, бактериальное, комбинированное) оставляем в покое.
Остаются два "Порода" и "Локализация". В факторе "Локализация" нельзя выделить градацию "Отсутствие локализации", т.е. в эту таблицу не могут попасть здоровые животные. Все, что вам надо сделать - это не множить таблицы сопряженности, а заполнить одну для 77 пораженных животных:

________________________ Морда____Шея______Уши______Лапы______Хвост___,,,______Итого
1. Таксы___________________ 2_______0_________1_________0_________0_______________3
2. Бультерьеры
...
8. Фр. Бульдоги___________________________________________________________________77

И все. Вуаля. Одна гипотеза - и никаких корректировок достигаемого уровня значимости.

Автор: nokh 8.05.2018 - 21:38

Цитата(Елена Гогуа @ 8.05.2018 - 20:51) *
...Я уже несколько раз спрашивала, оправданно ли использовать для оценки зависимости таблицы сопряженности, и если нет, то каким методом воспользоваться.
Еще я спрашивала, нужна ли здесь контрольная группа.
И еще я спрашивала, уместна ли здесь поправка Бонферрони.
Если бы я знала ответы на свои вопросы, я бы не создавала тему.

1. Можно сделать так, что поправка Бонферрони не понадобится. Ясно, что это можно сделать только в том случае, если суметь проанализировать весь материал разом.
2. Контрольная группа не нужна.
3. Как уже отметили ogurtsov и 100$, таблица получается очень большая и слабонасыщенная, а это плохо. Во-первых потому, что число степеней свободы будет столь велико, что статистически значимыми смогут оказаться только очень сильные эффекты, а не факт что они будут. Во-вторых, будет большое число ячеек с нулями и малыми значениями частот, а значит будет проблема допустимого минимального ожидаемого и проблемность использования критериев, основанных на распределении хи-квадрат. Правда тот же Аптон, вслед за Гудменом, считает полезным добавить ко всем ячейкам константу 0,5. Но ясно, что когда к реальным данным добавляется нечто виртуальное это уже не очень хорошо. Поэтому большую таблицу перед анализом желательно свернуть, объединив сходные породы, локализации поражений и их типы. Вся сложность в том, чтобы сделать это обоснованно.
4. Я в таких случаях использую связку из нескольких методов.
4.1. Сначала - разведочные многомерные методы. Здесь подойдут анализ соответствий (correspondence analysis) и канонический анализ соответствий (canonical...). Про них нужно читать. У данных методов есть один недостаток, который в некоторых случаях существенен: они используют расстояние статистики хи-квадрат, которая получается с учётом ячеек таблицы с отсутствующими категориями (например, нет грибкового заболевания на ухе и нет на ноге). Таким образом в основе сходства категорий может оказаться не столько их совместная встречаемость, сколько отсутствие встречаемости. Поэтому полезно также попробовать многомерное шкалирование с использованием в качестве меры сходства индекса сходства Жаккара. Так или иначе, но полученные в результате ординационные диаграммы покажут ассоциации категорий.
4.2. Полученные диаграммы и ассоциации нужно интерпретировать исходя из знаний в предметной области. Это позволит проводить свёртку большой таблицы обоснованно, хотя и опираясь на результат разведочной техники.
4.3. Свернуть таблицу и в зависимости от числа входов анализировать методами типа хи-квадрат или логлинейным анализом.
Статью с примером исследования по такой схеме прикрепил.

Если захотите, можно сделать нечто подобное, но от вас потребуется выложить сюда данные, т.к. многомерные техники - штука не всегда однозначная + может ещё кто захочет их покрутить. Чтобы обезопасить данные информацию по породам лучше закодировать (порода 1, порода 2, ...). Если согласны, то я напишу как должна выглядеть таблица.

 Нохрин_Д.Ю._и_др._Группы_крови_и_характер_2016.pdf ( 455,46 килобайт ) : 77
 

Автор: Елена Гогуа 8.05.2018 - 21:39

Статистик, спасибо)

Про контрольную группу - это совет профессора sad.gif

Возможно, он считает, что нужно использовать не таблицы сопряжения, а другой метод анализа (Бонферрони?).



Автор: passant 8.05.2018 - 22:01

Уважаемая Елена.

Не будучи ни врачом, ни тем более ветеринаром smile.gif , каждый раз удивляюсь, как вы, медики, умеете все уcусложнять и нагорамождать кучу всего там, где технарь исходно будет пытаться все разложить по полочкам. smile.gif
Давайте пройдемся по вашей задаче еще раз. Итак, цель вашего исследования - доказать, что локализация (уши, лапы, хвост) поражения связана с породой. И ничего больше - вы не хотите обучать машину распознавать породу по месту раны, вы не хотите предсказывать место локализации по породе, не хотите выявлять зависимость поражения лап от поражения головы. Ничего такого заумно-сложного. Всего лишь ответить на вопрос, зависит ли дислокация раны от породы.
Что для этого надо. Да всего-лишь составить таблицу. По строкам - породы, по столбцам дислокация. (Какие 40 таблиц???? Одна единственная таблица!!!). На пересечении - количество обнаруженных случаев данной локализации у собак данной породы. Потом берем конкретную породу (строчку в таблице), строим еще одну "виртуальную" строчку, куда заносим сумму случаев каждой локализации для всех оставшихся пород. Теперь вам надо ответить на вопрос, который математически звучит так: выборки представителей "вашей породы" и "всех других пород" взяты из одной и той-же генеральной совокупности случаев (гипотеза H0) или из разных (альтернативная гипотеза H1). Причем на сколько я понял, у вас задача еще проще, и заключается в том, что вы ищете ответы на вопросы типа "повреждения хвоста у терьера встречается так же часто, как у всех собак (гипотеза H0)". Понятие "контрольная группа" тут бессмысленна, вернее "контрольная группа" - это все собаки других пород (та самая виртуальная строчка).
Если надо доказать статистическое значимое различие локализаций между представителями разных но конкретных пород, то "виртуальную" строчку делать не надо, надо просто из таблицы вырезать две строчки, соответствующие тем породам, которые вас интересуют и решать описанную задачу относительно них.
Если подумать, то ваша задача ничем не отличается от такой задачи, как например, выяснить, женщины чаще болеют болезнью "Х", чем мужчины или нет. Или "голубой цвет глаз встречается одинаково часто у представителей белой, желтой и черной рас или нет".
Задача статистически тривиальна, другое дело что 3 (три!!!!) представителя породы, это конечно очень мало для сколько-нибудь значимых и обобщаемых результатов. И это, пожалуй, самый "пробойный" и труднозащищаемый пункт всего вашего исследования. (На что вам, кстати, уже неявно указали).
Теперь следующий вопрос. Откуда вдруг возникает "пара признаков". Опять-же если я правильно понял, то вы хотите установить, "а правда ли, что пинчеры чаще ОДНОВРЕМЕННО вредят себе усы и хвост чем собаки других пород"? Я не берусь комментировать, на сколько это осмысленный вопрос, но если это так, то самый простой путь - для каждой породы (строчки в вышеописанной таблице) вам надо добавить столбцы, в которые заносить количество тех самых одновременных локализаций. Все остальные рассуждения остаются теми-же.

Еще раз перечитав тему понял, что вы сами в сообщении http://forum.disser.ru/index.php?showtopic=4251&st=0&p=22948&#entry22948 вобщем-то корректно ответили на свои вопросы. А потом - чего-то испугались? И напрасно! rolleyes.gif
Удачи!

P.S. Поправка Бонферрони - это не "другой метод". Это всего-лишь дополнение к методу основному. Всего-лишь способ ужесточения порога значимости.

Автор: 100$ 8.05.2018 - 22:50

Цитата(nokh @ 8.05.2018 - 21:38) *
Статью с примером исследования по такой схеме прикрепил.


В статье на 133 с. затаился косметический дефект: 10^5.88=758 578, а не 75 858.
Паче того: непонятно, как это для OR 6.69 ДИ [1.09 - 285.5] и для OR 2.46 ДИ [1.09 - 285.5]. При расчете ДИ берутся экспоненты: там малейшее изменение численности таблицы дает такие эффекты в верхней оценке ДИ, что диву даешься.

Автор: nokh 8.05.2018 - 23:32

Цитата(100$ @ 9.05.2018 - 00:50) *
В статье на 133 с. затаился косметический дефект: 10^5.88=758 578, а не 75 858.

Есть такой дефект. Там ещё где-то косяк с RR находил. Свой pdf подправить можно, но в журнале уже никак((

>Елена Гогуа. Отсутствие связи лап с ушами - это пока заблуждение. Если анализ данных покажет это - будем такой гипотезы и придерживаться, а если покажет ассоциацию этих локализаций для каких-то типов или пород - нужно будет искать этому объяснения. Также локализаций не 24 - см. ниже.

>passant. Таблица сложнее, упрощать не нужно: 8 пород х 5 локализаций х 4 типа поражения (отсутствует, грибковое, бактериальное, комбинированное). Т.е. входов три. Статистика хи-квадрат неаддитивна, точно на эффекты не разложить, поэтому только логлинейный анализ. Поскольку таблица получается наполовину пустой (77/160=0,48) анализировать исходную - плохая затея.


Автор: passant 9.05.2018 - 00:18

Цитата(nokh @ 8.05.2018 - 23:32) *
>passant. Таблица сложнее, упрощать не нужно: 8 пород х 5 локализаций х 4 типа поражения (отсутствует, грибковое, бактериальное, комбинированное). Т.е. входов три. Статистика хи-квадрат неаддитивна, точно на эффекты не разложить, поэтому только логлинейный анализ. Поскольку таблица получается наполовину пустой (77/160=0,48) анализировать исходную - плохая затея.

Немного не так.
8 пород. 5 локализаций.
От типа поражения ТС отказалась.
Цитата(Елена Гогуа @ 8.05.2018 - 18:51) *
Поскольку исследовательский вопрос - локализация, а не тип воспаления, логично объединить их в группы: воспаление ушей, лап и т.д. Но поскольку уши с лапами никак не связаны...... они все равно должны оцениваться отдельно друг от друга, но во взаимосвязи с породой:

Итого в таблице 40 клеток.
У ТС 88 случаев (собачек) , т.е. не такая уж и пустая таблица получается. (88/40=2). Хотя очевидно, что несбалансирована, т.к. такс, например, всего 5 случаев (а хотелось бы ближе к 11).
На эффекты разлагать (см. вышеприведенную цитату) ТС целью как бы не ставит. Равно, как и поиск взаимосвязей между различными локализациями. (Впрочем, тут я допускаю, что мог чего-то не уловить). Так что пока - вполне классическая задача, а если количество "пациентов" увеличить - то и вообще, готов взять в качестве примера для студентов, хотя и не по профилю smile.gif .

Автор: 100$ 9.05.2018 - 00:35

Цитата(nokh @ 8.05.2018 - 23:32) *
>passant. Таблица сложнее, упрощать не нужно: 8 пород х 5 локализаций х 4 типа поражения (отсутствует, грибковое, бактериальное, комбинированное). Т.е. входов три. Статистика хи-квадрат неаддитивна, точно на эффекты не разложить, поэтому только логлинейный анализ. Поскольку таблица получается наполовину пустой (77/160=0,48) анализировать исходную - плохая затея.


Nokh, что-то я вас нынче не узнаю: фактор, измеренный по альтернативному признаку (Есть/Нет, Наличествует/Отсутствует) нельзя объявлять "типом" поражения и на равных включать в вектор (отсутствует, а потом присутствует в виде грибка, бактерий и их комбинации). Особи, для которых тип поражения="отсутствует" - это здоровые псы, которые к ветврачу не попадают, и для которых понятие "Локализация" не определено.


Автор: 100$ 9.05.2018 - 00:48

Цитата(passant @ 9.05.2018 - 00:18) *
Немного не так.
8 пород. 5 локализаций.
От типа поражения ТС отказалась.

Итого в таблице 40 клеток.
У ТС 88 случаев (собачек) , т.е. не такая уж и пустая таблица получается. (88/40=2). Хотя очевидно, что несбалансирована, т.к. такс, например, всего 5 случаев (а хотелось бы ближе к 11).


passant, а как вы дихотомическую переменную, имеющую биномиальное распределение "Отсутствует/Присутствует" сумели так ловко объединить с переменной, имеющей мультиномиальное распределение? Это ж прямо прорыв какой-то. Ловкость рук, и никакого мошенства.
Корректная оценка - 77/40=1,925.

Всё, парни. По домам.

Автор: passant 9.05.2018 - 13:19

Цитата(100$ @ 9.05.2018 - 00:48) *
passant, а как вы дихотомическую переменную, имеющую биномиальное распределение "Отсутствует/Присутствует" сумели так ловко объединить с переменной, имеющей мультиномиальное распределение? Это ж прямо прорыв какой-то. Ловкость рук, и никакого мошенства.
Корректная оценка - 77/40=1,925.


1. Не пойму, о чем речь, честно.
Исходно данные о локализации- а их пять, по месту - действительно имеют дихотомическую природу. "Есть порожение в данной точке"/"Нет поражения в данной точке".
Т.е. привели собачку, появилась запись следующего вида:
"Порода: "Сербернар",
Поражено ухо: "Да",
Поражены лапы: "Да",
Поражен живот: "Нет",
Поражена спина: "Да",
Поражен хвост: "Нет".
У ТС набралось 88 таких записей. Для дальнейшего анализа объединяем их в единую таблицу по породам. В таблице оказалось восемь строк. Одна строка - данные об одной из пород. Каждая из строк выглядит так: "X1 собачек данной породы имеют локализацию поражения "Ухо",..... "X5 собачек данной породы имеют локализацию поражения "Хвост". В итоге получаем Классическое исходное представление таблицы сопряженности. Где тут вы нашли необычное "объединение биноминальной с мультиномиальнй переменной", и "ловкость рук и никакого мошенства"???

Кто-то тут ссылался на Аптона. Ну так открываем его книгу, глава 3. Примеры там приведенные - с точностью до переименования переменных - совпадают с рассматриваемой в данной теме задачей. На основе описанной таблицы легко можно получить ответ на вопрос, "отличается ли частота встречаемости локализации A" у бультерьера и пинчера. Или "отличается ли частота встречаемости локализации B" у спаниеля и "среднестатистической " собаки.

Причем в книге Аптона разжевано, и как доверительные интервалы для оценок получать, и что делать, если хи-квадрат мера почему-то не устраивает. И даже, если бы вдруг кто-то заинтересовался не просто вопросом локализации поражения, а такой экзотикой, как высота места поражения относительно земли (я понимаю, что экстравагантно, но все-же) , т.е. захотел бы анализировать не номинальный, а порядковый признак, и то ответ можно найти в указанной книге. О чем вообще спор??? О каком "прорыве" вы говорите?? Разве что элементарная подсказка ТС, где взять давно известное решение ее задач и на какой авторитет ссылаться, если что.

2. Поясните пожалуйста, откуда у Вас взялась цифра 77, когда автор пишет:
Цитата(Елена Гогуа @ 6.05.2018 - 17:34) *
У меня всего 88 собак

Автор: 100$ 9.05.2018 - 13:50

Цитата(passant @ 9.05.2018 - 13:19) *
2. Поясните пожалуйста, откуда у Вас взялась цифра 77, когда автор пишет:


Да, passant, тут вы правы: я почему-то решил, что эти 11 собак -здоровые, а они тоже больные.

А что касается моего основного вопроса, то я имел в виду то, что моделируя каждую локализацию биномиальным распределением (Есть поражение в данной точке ("1") / нет поражения в данной точке ("0")),и получив для всех 88 случаев этот столбец из 1 и 0 мы не можем оценивать вероятность успеха просто разделив количество 1 на 88, т.к. особи разделены на 8 неднородных пород.
Поэтому я и предлагаю (видимо, не вполне понятно сформулировав) строить вероятностную модель порождения данных на основе мультиномиального распределения, не включая в пространство элементарных исходов вариант отсутствия патологии.

P.S. Все ваши букеты из вопросительных знаков возвращаю вам в целости и сохранности. Мне они не подошли.

Автор: leo_biostat 9.05.2018 - 22:00

Елена, hi.gif

Цитата(Елена Гогуа @ 8.05.2018 - 21:39) *
Про контрольную группу - это совет профессора sad.gif
Возможно, он считает, что нужно использовать не таблицы сопряжения, а другой метод анализа (Бонферрони?).

Профессор прав в том, что нужно использовать не только таблицы сопряжённости. Но и иные продуктивные методы.
Действительно, Ваша таблица сопряжённости непростая. В частности, наверняка во многих клетках расчётные частоты
гораздо меньше минимально допустимых частот. В частности, частот равных 5. И в этих случаях результаты анализа
не очень надёжны. Поэтому следует использовать метод Монте-Карло, анализируя 1 млн или 100 тысяч аналогичных таблиц.
И тогда получаем 99%-ные доверительные интервалы для достигнутого уровня статистической значимости.
Но это не конечный метод. Гораздо важнее проведение структуры анализа обнаруженной взаимосвязи пары признаков.
Можете прочитать пример с описанием такой структуры по адресу http://www.biometrica.tomsk.ru/logit_9.htm
Используя анализ структуры взаимосвязи, можно провести анализ новых таблиц сопряжённости, в которых последовательно
объединяются некоторые пары групп первой или второй группирующих переменных. Лет 30 назад я объяснил эту возможность
своему студенту-дипломнику. И он сделал по моему предложению эту дипломную работу. И защита его дипломной работы
была отличной. Все члены дипломного совета проголосовали "ЗА" с оценкой "Отлично". Такой принцип весьма полезен при
исследовании структуры взаимосвязи между парой группирующий признаков. И можно уменьшать количество анализируемых
клеток от сотен и тысяч до десятков и менее.

Второй аспект Вашего исследования. Маловероятно, что анализируемая база данных содержит лишь 2 группирующих признаков.
И тогда можно (и нужно!) применять не только парный анализ (таблицу сопряжённости), но и многомерные методы анализа.
В частности, весьма продуктивный метод логистической регрессии (см. http://www.biometrica.tomsk.ru/logit_0.htm)

P.S.
Если Вы желаете получать более продуктивную помощь от профи по биостатистике, то рекомендую выкладывать свою базу данных,
а также приводить свой ник в Скайпе. И тогда вместо длинных переписок можно будет кратко и ясно обсудить Ваши проблемы по Скайпу.
Если желаете более детально обсудить своё исследование, высылайте на мой адрес свой ник.

Успеха!

Автор: nokh 10.05.2018 - 01:07

Цитата(100$ @ 9.05.2018 - 02:35) *
Nokh, что-то я вас нынче не узнаю: фактор, измеренный по альтернативному признаку (Есть/Нет, Наличествует/Отсутствует) нельзя объявлять "типом" поражения и на равных включать в вектор (отсутствует, а потом присутствует в виде грибка, бактерий и их комбинации). Особи, для которых тип поражения="отсутствует" - это здоровые псы, которые к ветврачу не попадают, и для которых понятие "Локализация" не определено.

Зато вы всегда узнаваемы: цепляетесь ко всему и ко всем... Но когда ради правого дела, я готов потерпеть ;) Здоровые псы здесь действительно лишние. Ну тем сложнее. Получается таблица сопряжённости с четырьмя входами:
1) Порода - 8 категорий
2) Локализация поражения - 5 категорий
3) Тип поражения - 3 категории (грибковое, бактериальное, комбинированное). Комбинированное нужно для обработки таблицы некоторыми методами (типа логлинейного анализа), чтобы каждая собака попала в какую-то ячейку многомерной таблицы частот. Но для некоторых методов можно обойтись без него, т.к. это просто наличие и первого, и второго типа поражений. Если формировать матрицу данных построчно так, что каждая строка - отдельная собака, то "комбинированное" не понадобится, просто в колонках "грибковое" и "бактериальное" будут стоять единицы.
4) Наличие поражения - 2 категории (есть, нет)
Получаем 8х5х3х2=240 ячеек, из которых заполнены 88 (36,7%). Это почти информационный вакуум. Однозначно нужно концентрировать информацию с опорой на ординационные техники.

? Вы каким софтом логлинейный делаете?

Цитата(passant @ 9.05.2018 - 02:18) *
Немного не так.
8 пород. 5 локализаций.
От типа поражения ТС отказалась.

Иш ты, отказалась! То что ТС от чего-то типа отказалась говорит о трёх вещах: одна - хорошая, одна - нейтральная и одна плохая.
1. Хорошая - что ТС чётко знает, что ей нужно. А то некоторые наберут данных, а что, для чего - полная беспомощность... Когда есть чёткое понимание цели - её можно достичь, пусть даже путём анализа миллиона таблиц 2х2.
2. Нейтральная (констатация факта): данные ТС дались слишком легко. Вот если, скажем, это были бы не пёсики, принесённые немецкому профессору, а бродячие собаки, которых для осмотра нужно было сперва найти, затем отловить и только затем осмотреть, исследователь хватался бы за всё что можно, лишь бы извлечь из с трудом добытого материала всю возможную информацию. А так, ну конечно: это - беру, это не беру...
3. Отказ от уже имеющихся в данных информации - это капитуляция. Если информация в данных есть - её нужно извлекать. Если не хватает квалификации - читать и спрашивать: форум ведь не молчит, скорее бурлит: вот уже и дурным запашком логистической регрессии повеяло... Извлекать нужно не только потому, что "нельзя добру пропадать". Бездумное объединение исходно различных категорий чревато парадоксом Симпсона и получением выводов, прямо противоположных реальной картине. Объединять можно, но с умом.

Автор: Статистик 10.05.2018 - 12:00

Хм, читаю, читаю ответи и не понимаю, почему никто не обращает внимания, что у одной собаки может быть 2-3 локализации?
А раз так, то предлагаемые таблицы сопряженности попросту строить нельзя.

ТС сразу написала, что ее интересует, связана ли именно локализация с породой. И я считаю, что нет ничего плохого в том, что она решила не учитывать тип поражения. Если тип поражения ее не интересует, зачем она будет за собой тянуть "ненужные" для ее исследования данные?
Как я понимаю, она хочет доказать, что у каждой пороы есть свои "слабые" места. А для этого исследования она может не учиывать тип поражения.
Если она захочет исследовать зависимость частоты типа поражения от породы, она тогда может не учитывать локализацию. Это просто будет другая упрощенная модель.

Автор: 100$ 10.05.2018 - 16:31

Цитата
Зато вы всегда узнаваемы: цепляетесь ко всему и ко всем... Но когда ради правого дела, я готов потерпеть wink.gif


Гы. Тоже мне, терпила smile.gif. Да я еще даже и не начинал. Вот прям щас и начну.

Цитата
3) Тип поражения - 3 категории (грибковое, бактериальное, комбинированное). Комбинированное нужно для обработки таблицы некоторыми методами (типа логлинейного анализа), чтобы каждая собака попала в какую-то ячейку многомерной таблицы частот. Но для некоторых методов можно обойтись без него, т.к. это просто наличие и первого, и второго типа поражений.


Вижу, вы отпраздновали по всем правилам smile.gif.

Градация "Комбинированная" с необходимостью должна присутствовать в таблице. И дело здесь не только в том, что сочетанная патология может быть гораздо "злее", нежели грибок или бактерии по отдельности и требовать от врача иных схем лечения. Меня интересуют простые вероятностные рассуждения: пусть мы имеем выборку из трех собак, у одной из которых наблюдается грибок (причем вероятность наблюдать такую=p1), у второй бактериальное поражение (с вероятностью наблюдать его=р2) и у третьей - сочетанная патология ( с вероятностью р3). Тогда для нашей выборки эмпирические априорные вероятности наблюдать каждый из этих случаев р1=р2=р3=1/3 и р1+р2+р3=1 как учили. Пока паззл сходится. Если комбинированная патология - это по вашей логике одновременное наблюдение "двух в одном", то такая вероятность должна равняться р3=р1*р2, т.е. 1/3*1/3=1/9. Однако она равна 1/3 по наблюдаемым данным и 1/3+1/3+1/9 уже не равна 1. Следовательно, в общем случае вероятность наблюдать сочетанную патологию не определяется вероятностями грибка и бактерий и представляет собой самостоятельный феномен.

Цитата
Если формировать матрицу данных построчно так, что каждая строка - отдельная собака, то "комбинированное" не понадобится, просто в колонках "грибковое" и "бактериальное" будут стоять единицы


В том-то и дело, что не будут. Ибо в данном случае "1"-это не индикатор события, а счетная переменная (т.е. объект наблюдения). В вашем варианте одна собака порождает строчную сумму равную 2.

Именно поэтому для моего рассуждения (вышеприведенного примера) строчная сумма равнялась трем, при отказе от столбца "Комбинированная" она будет равна 2. Чтобы восстановить строчную сумму, оставшуюся собаку надо как-то "размазать" по колонкам "Грибок" и "Бактерии", а как? Добавить в каждый по 0,5, Или туда 0,6, а сюда - 0,4?
Резюме: категорию "Комбинированная" оставляем.

Цитата
4) Наличие поражения - 2 категории (есть, нет)


Nokh, а зачем вы с упорством, достойным лучшего применения, пытаетесь прикрутить к этой несчастной вероятностно-статистической модели еще и дихотомию типа "Есть/Нет", "Жив/Мертв"? Мы наблюдаем только пораженных животных, у которых с единичной вероятностью есть хотя бы одно поражение. Если его нет - это здоровая шавка, которой некогда бегать по врачам. Вам что базовой таблице 8х5х3 нулей не хватает? smile.gif

Откажитесь от избыточного измерения и вам не придется ничего концентрировать. А то вы напоминаете незадачливого повара, который плеснул, не глядя, в котел лишнее ведро воды, получил концентрацию ухи на уровне "семь ведер - одна луковица" и теперь пытается раскочегарить огонь посильнее, чтобы лишняя влага побыстрее испарилась. Попутно вычерпывая ее руками. smile.gif
Резюме: 8х5х3.

Цитата
Однозначно нужно концентрировать информацию с опорой на ординационные техники.


Ну, не зна-а-а-ю. Статистический метод определяется природой данных. Данные таблицы сопряженности - это результаты прямого подсчета, измеренные в абсолютной шкале. Есть сильное подозрение, что к ним в принципе неприменимы никакие ординационные техники, основная забота которых - сохранение топологии данных и минимальные искажения расстояний при проецировании. Насколько мне известно, понятие "расстояние" для для таблиц сопряженности не определено. Об этом четко пишут в комментариях к корреспондентскому анализу, и при этом говорят о том, что видимые ассоциации точек на графике можно трактовать в смысле близости только если они принадлежат к одному профилю: столбцов или строк.

Цитата
Вы каким софтом логлинейный делаете?


Когда-то делал Статистикой 13. Там автоматически происходит селекция оптимальной модели. Alexwin1961 в своем блоге демонстрирует эту технику на R:
https://r-statistics.livejournal.com/7168.html
Но до логлинейщины в данном случае дело не дойдет: там же надо логарифмировать содержимое ячеек таблицы. Следовательно, нулевых ячеек там быть не должно. Значит, надо искать спасение в добавке 0,5 к каждой ячейке. Однако даже для таблицы 8х5 уже звучавшая оценка 88/40 имеет практически такой же "порядок малости", что и величина 0,5. Мы просто равномерно "размажем" все эффекты по этой шахматной доске и ничего более.

Автор: 100$ 10.05.2018 - 17:35

Цитата(Статистик @ 10.05.2018 - 12:00) *
Хм, читаю, читаю ответи и не понимаю, почему никто не обращает внимания, что у одной собаки может быть 2-3 локализации?
А раз так, то предлагаемые таблицы сопряженности попросту строить нельзя.


Вестимо. В таком случае единицей наблюдения будет не собака, а поражение, и если 88 собак принесли с собой 400 лишаев, то таблицу будем строить для этих 400 случаев.

Автор: 100$ 11.05.2018 - 16:51

Елена, а если вы еще не утратили интерес к этой теме, просветите меня, пожалуйста, на предмет того, а могут ли на одной собаке одновременно наблюдаться два или все три типа поражений? А то я ни разу не дерматолог, и патологии страшнее бородавок отродясь не видал.

Автор: Елена Гогуа 13.05.2018 - 12:04

Уважаемые специалисты, спасибо огромное за активный отклик по моей теме! Интереса к ней я, конечно, не утратила smile.gif Много очень дел навалилось..

Я уточню с врачами, что именно их интересует (а то вдруг я неправильно поняла), отредактирую базу данных и здесь прикреплю.


Автор: 100$ 13.05.2018 - 13:38

Цитата(Елена Гогуа @ 13.05.2018 - 12:04) *
Уважаемые специалисты, спасибо огромное за активный отклик по моей теме! Интереса к ней я, конечно, не утратила smile.gif Много очень дел навалилось..

Я уточню с врачами, что именно их интересует (а то вдруг я неправильно поняла), отредактирую базу данных и здесь прикреплю.


Так вам в этой истории отведена роль испорченного телефона?

И, чтоб два раза не бежать, уточните у них заодно: как нам надо будет обрабатывать такой дважды парный орган как лапы?
Н-р, поражена одна лапа - ставим в локализацию "Лапы" единичку, поражены все 4 - тоже "1"? Иначе говоря, надо ли будет принимать во внимание степень поражения? Или только факт поражения?

Автор: DoctorStat 20.05.2018 - 11:36

Кажется, это заметил passant: 8 пород (строк), 5 локализаций (столбцов) ? получается одна таблица сопряженности 8*5 = 40 ячеек. Число случаев (собак) = 88. Когда у собаки одно поражение, средние числа заполнения таблицы = 88/40=2. Минимальные числа в ячейках будут заведомо меньше средних чисел, значит метод хи-квадрат проверки независимости не подойдет. А вот точный критерий Фишера, свободный от ограничений минимальных значений в ячейках, поможет ответить на вопрос: зависит ли локализация поражения от породы собак.

Автор: Олег Кравец 23.05.2018 - 06:53

[moderator on] треп на грани потер.

Автор: p2004r 23.05.2018 - 10:33

Собственно вот подробный мануал в котором есть рачет размера наблюдаемого эффекта и доверительного интервала  analiz_nominalnyh_dannyh_nezavisimye_nablyudeniya.pdf ( 1,45 мегабайт ) : 84
.

Автор: Елена Гогуа 26.08.2018 - 14:01

Я прошу прощения, что так надолго пропала.

Напишу подробнее, что происходит.
Российские ветеринарные врачи сформулировали гипотезу, что локализация кожных поражений у собак и тип инфекции (бактериальная, грибковая, смешанная) взаимосвязаны с породой. Исследование проспективное, собак набирали около года по протоколу. Все это исследование проходит при участии профессора из Германии. Это именно участие и помощь, он не статистик и не должен анализировать данные. Он помогает советами, так как имеет больший опыт.

Я прикрепила таблицу с данными.

Всего 88 собак, породные группы формировались, если собак этой породы было 3 и более. Получилось 8 породных групп плюс 11 собак разных пород.
Локализаций поражений всего 8 (лапы, уши, морда, живот, спина и т.д.). У одной собаки может быть несколько пораженных областей. В свою очередь, каждое поражение может быть бактериальное ИЛИ грибковое ИЛИ смешанное. Исходя из этого получилось 8*3 = 24 переменные (зона_1_бакт, зона_1_грибк, зона_1_смеш, зона_2_бакт, и т.д.). Кроме того, рассматривали типы инфекции (бакт, грибк, смеш) без учета локализации. Например, у одной породы почти все поражения были грибковыми, у другой смешанными, у третьей - вообще не было инфекций (да, есть породы, у которых зуд и подтвержденный диагноз есть, но вторичной инфекции нет). Всего получилось 8 + 24 + 4 = 36 переменных (в таблице, мне кажется, понятней).

Так вот. Я по каждой паре порода*переменная проводила анализ таблиц сопряженности. Статистически значимые результаты совпадали с клиническими наблюдениями дерматологов (ну это к слову).

Немецкий профессор вчера написал, что при множественных сравнениях одних и тех же данных есть вероятность значимых результатов просто случайная, и необходимо использовать коррекцию Бонферрони (которая, конечно, все эти значимости сводит на нет).

Мне вся эта задачка очень интересна, но не хватает знаний и опыта smile.gif


Буду очень благодарна за ваши мнения.

 breed_localization.xlsx ( 20,37 килобайт ) : 8
 

Автор: p2004r 27.08.2018 - 22:30

1) Неправильно это придумывать самому уровни факторов и потом такую искусственную конструкцию распердоливать еще на дамми переменные. По зонам тоже не нужное такое кодирование (Все это игрища пустые, простое svd показывает реальная размерность такого датасета намного меньше.)

Есть два показателя "бинарных", условно _грибок_ и _бактерия_ (в обоих "нули", вот и ситуация когда "нет", в обоих единица, значит ситуация "оба").

2) Ну а породы наоборот надо на дамми разложить, раз связь именно с ними надо показать.

Эрго:

Получается наличие прострой структуры размерностью 4 по данным с зонами поражений. Но что то лениво мне еще и все зоны описывать в нормальную кодировку (грибок+бактерия в зоне).

Если смотреть только по обобщенным данным, то увы мощности данных не хватает что бы доказать наличие простой структуры. Но корреляционную картину можно сколько угодно интерпретировать smile.gif

Склонны к грибам породы 2 и 6. К бактериям склонна порода 1. Несклонна к бактериям порода 4. Склонность к бактериям или грибам независимы друг от друга для всех пород (ну можно что то ловить у 5й пытаться, она вроде как "ко всему умеренно не склонна").

Автор: Елена Гогуа 29.08.2018 - 12:51

1.Дизайн исследования предполагает оценку взаимосвязи породы и типов воспаления, породы и локализаций, породы и типов воспаления в разных локализациях.
Мне не очень понятно, что значит "самому придумывать уровни факторов" и почему конструкция искусственная. Именно эти переменные (точнее, их взаимосвязь с породой) интересуют исследователей.
С клинической точки зрения неверно комбинацию бактерии+грибы оценивать как простую сумму. Каждый из этих 3 типов воспаления (бактериальное, грибковое, комбинированное) - самостоятельный параметр. По крайней мере, дизайном исследования именно это подразумевается. То есть это примерно то же самое, как обозначить, например, наличие хеликобактера в желудке и гастрита за единицы, а язву желудка - как сумму двух единиц (пример корявый, да).

2.Так породы на дамми и разложены, нет? Принадлежность к интересуемой породе - 1, все остальные - 0.

Автор: p2004r 31.08.2018 - 22:48

Цитата(Елена Гогуа @ 29.08.2018 - 12:51) *
1.Дизайн исследования предполагает оценку взаимосвязи породы и типов воспаления, породы и локализаций, породы и типов воспаления в разных локализациях.
Мне не очень понятно, что значит "самому придумывать уровни факторов" и почему конструкция искусственная. Именно эти переменные (точнее, их взаимосвязь с породой) интересуют исследователей.
С клинической точки зрения неверно комбинацию бактерии+грибы оценивать как простую сумму. Каждый из этих 3 типов воспаления (бактериальное, грибковое, комбинированное) - самостоятельный параметр. По крайней мере, дизайном исследования именно это подразумевается. То есть это примерно то же самое, как обозначить, например, наличие хеликобактера в желудке и гастрита за единицы, а язву желудка - как сумму двух единиц (пример корявый, да).

2.Так породы на дамми и разложены, нет? Принадлежность к интересуемой породе - 1, все остальные - 0.


1. Не надо путать клиническую и математическую постановку. Все вот эти лишние столбики в суммарной статистике поражения благоглупости.

Есть два независимых бинарных фактора -- "наличие грибка" и "наличие бактерий" без избыточности все описывающие, и никаких "грибок + бактерия" и "ничего нет" добавлятть не нужно. Что то такое дописывать в данные это и называется "самому придумывать уровни". Никаких степеней свободы в описание выборки эти взаимозависимые переменные не добавляют, а значит ни о каких "самостоятельных параметрах" фантазировать просто нет оснований. Ну не может например одновременно быть "наличие грибка" и "грибок+бактерия" в придуманной вами кодировке, а значит нет никакого "самостоятельного параметра" "грибок + бактерия".

Перекодировать все эти введенные area_i_X во вменяемый вид (бинарные area_i_yearn и area_i_yeast) я простите не нанимался (это не интересная чисто техническая работа). Для общей статистики без локализации поражения данные трансформировал и озвучил результат в предыдущем посте.

2. Породы в таблице во втором столбце исходно как breed_i закодированы. Это никак не тянет на 0-1.

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)