Цитата
Зато вы всегда узнаваемы: цепляетесь ко всему и ко всем... Но когда ради правого дела, я готов потерпеть

Гы. Тоже мне, терпила

. Да я еще даже и не начинал. Вот прям щас и начну.
Цитата
3) Тип поражения - 3 категории (грибковое, бактериальное, комбинированное). Комбинированное нужно для обработки таблицы некоторыми методами (типа логлинейного анализа), чтобы каждая собака попала в какую-то ячейку многомерной таблицы частот. Но для некоторых методов можно обойтись без него, т.к. это просто наличие и первого, и второго типа поражений.
Вижу, вы отпраздновали по всем правилам

.
Градация "Комбинированная" с необходимостью должна присутствовать в таблице. И дело здесь не только в том, что сочетанная патология может быть гораздо "злее", нежели грибок или бактерии по отдельности и требовать от врача иных схем лечения. Меня интересуют простые вероятностные рассуждения: пусть мы имеем выборку из трех собак, у одной из которых наблюдается грибок (причем вероятность наблюдать такую=p1), у второй бактериальное поражение (с вероятностью наблюдать его=р2) и у третьей - сочетанная патология ( с вероятностью р3). Тогда для нашей выборки эмпирические априорные вероятности наблюдать каждый из этих случаев р1=р2=р3=1/3 и р1+р2+р3=1 как учили. Пока паззл сходится. Если комбинированная патология - это по вашей логике одновременное наблюдение "двух в одном", то такая вероятность должна равняться р3=р1*р2, т.е. 1/3*1/3=1/9. Однако она равна 1/3 по наблюдаемым данным и 1/3+1/3+1/9 уже не равна 1. Следовательно, в общем случае вероятность наблюдать сочетанную патологию не определяется вероятностями грибка и бактерий и представляет собой самостоятельный феномен.
Цитата
Если формировать матрицу данных построчно так, что каждая строка - отдельная собака, то "комбинированное" не понадобится, просто в колонках "грибковое" и "бактериальное" будут стоять единицы
В том-то и дело, что не будут. Ибо в данном случае "1"-это не индикатор события, а счетная переменная (т.е. объект наблюдения). В вашем варианте одна собака порождает строчную сумму равную 2.
Именно поэтому для моего рассуждения (вышеприведенного примера) строчная сумма равнялась трем, при отказе от столбца "Комбинированная" она будет равна 2. Чтобы восстановить строчную сумму, оставшуюся собаку надо как-то "размазать" по колонкам "Грибок" и "Бактерии", а как? Добавить в каждый по 0,5, Или туда 0,6, а сюда - 0,4?
Резюме: категорию "Комбинированная" оставляем.
Цитата
4) Наличие поражения - 2 категории (есть, нет)
Nokh, а зачем вы с упорством, достойным лучшего применения, пытаетесь прикрутить к этой несчастной вероятностно-статистической модели еще и дихотомию типа "Есть/Нет", "Жив/Мертв"? Мы наблюдаем только пораженных животных, у которых с единичной вероятностью есть хотя бы одно поражение. Если его нет - это здоровая шавка, которой некогда бегать по врачам. Вам что базовой таблице 8х5х3 нулей не хватает?
Откажитесь от избыточного измерения и вам не придется ничего концентрировать. А то вы напоминаете незадачливого повара, который плеснул, не глядя, в котел лишнее ведро воды, получил концентрацию ухи на уровне "семь ведер - одна луковица" и теперь пытается раскочегарить огонь посильнее, чтобы лишняя влага побыстрее испарилась. Попутно вычерпывая ее руками.

Резюме: 8х5х3.
Цитата
Однозначно нужно концентрировать информацию с опорой на ординационные техники.
Ну, не зна-а-а-ю. Статистический метод определяется природой данных. Данные таблицы сопряженности - это результаты прямого подсчета, измеренные в абсолютной шкале. Есть сильное подозрение, что к ним в принципе неприменимы никакие ординационные техники, основная забота которых - сохранение топологии данных и минимальные искажения расстояний при проецировании. Насколько мне известно, понятие "расстояние" для для таблиц сопряженности не определено. Об этом четко пишут в комментариях к корреспондентскому анализу, и при этом говорят о том, что видимые ассоциации точек на графике можно трактовать в смысле близости только если они принадлежат к одному профилю: столбцов или строк.
Цитата
Вы каким софтом логлинейный делаете?
Когда-то делал Статистикой 13. Там автоматически происходит селекция оптимальной модели. Alexwin1961 в своем блоге демонстрирует эту технику на R:
https://r-statistics.livejournal.com/7168.html Но до логлинейщины в данном случае дело не дойдет: там же надо логарифмировать содержимое ячеек таблицы. Следовательно, нулевых ячеек там быть не должно. Значит, надо искать спасение в добавке 0,5 к каждой ячейке. Однако даже для таблицы 8х5 уже звучавшая оценка 88/40 имеет практически такой же "порядок малости", что и величина 0,5. Мы просто равномерно "размажем" все эффекты по этой шахматной доске и ничего более.