Форум врачей-аспирантов

Robotnik

16.05.2017 - 22:50

Здравствуйте, уважаемые форумчане!
Прошу прощения за беспокойство.

Как бы это странно не звучало, но голову сломал из-за того, что не смог определить, какими являются признаки: качественными или количественными?
Исходные данные такие:
Целью всей работы является получение возможности при анализе случая определить к какому из двух событий он относится, т.е. дифференциальная диагностика между двумя альтернативными событиями. Для этого исследуются две группы, включающие в себя наблюдения, где доказано, что было событие 1 (первая группа) и событие 2 (2 группа).
И вот, в качестве примера:
Я построил два ряда, состоящих из целых 12 чисел, характеризующих распределение наблюдений в обеих группах в зависимости от месяца года:

В январе количество наблюдений в первой группе - 25, во второй 47;
В феврале количество наблюдений в первой группе - 33, во второй - 25 и т.д. по всем месяцам.

В итоге у меня имеется два ряда из 12 чисел, каждый из которых характеризует первую и вторую группы. У меня стоит цель проверить, имеется ли статистически значимая разница между этими показателями.
Так вот, эти два ряда цифр я могу оценивать, как количественные и, соответственно, применять для их сравнения статистические критерии для количественных признаков (Стьюдент, Манн-Уитни и т.п.) или же воспринимать их как качественные и применять иные критерии (Хи-квадрат, точный тест Фишера и т.п.).

Заранее благодарю за ответы.
P.S.: я понимаю, что вопрос глупый, но таким вот уродился я не шибко грамотным(

nokh

17.05.2017 - 00:36

Цитата(Robotnik @ 17.05.2017 - 00:50)

... В итоге у меня имеется два ряда из 12 чисел, каждый из которых характеризует первую и вторую группы. У меня стоит цель проверить, имеется ли статистически значимая разница между этими показателями.
Так вот, эти два ряда цифр я могу оценивать, как количественные и, соответственно, применять для их сравнения статистические критерии для количественных признаков (Стьюдент, Манн-Уитни и т.п.) или же воспринимать их как качественные и применять иные критерии (Хи-квадрат, точный тест Фишера и т.п.)

По поводу диагностики пока непонятно..., а с данными - полный порядок. У вас таблица из 2х строк и 12 колонок (ну или 2х колонок и 12 строк:) , в ячейках находятся частоты. Типичная таблица сопряжённости, которую можно обсчитать хи-квадратом и подобными критериями. Если различия будут значимыми - далее нужно разбираться за счёт каких ячеек она преимущественно проявилась. Это делается с помощью расчёта скорректированных стандартизованных остатков (остатков Хабермана). Всё это легко посчитать в PAST.

Robotnik

17.05.2017 - 01:52

Цитата(nokh @ 17.05.2017 - 00:36)

По поводу диагностики пока непонятно..., а с данными - полный порядок. У вас таблица из 2х строк и 12 колонок (ну или 2х колонок и 12 строк:) , в ячейках находятся частоты. Типичная таблица сопряжённости, которую можно обсчитать хи-квадратом и подобными критериями. Если различия будут значимыми - далее нужно разбираться за счёт каких ячеек она преимущественно проявилась. Это делается с помощью расчёта скорректированных стандартизованных остатков (остатков Хабермана). Всё это легко посчитать в PAST.

Насчёт самой диагностики - можно не заморачиваться. Это я просто написал, как введение))
Спасибо большое за оперативный ответ.
Если Вы не против, то ещё один вопрос.
Как обстоят дела, если имеется сразу несколько выборок? В указанном мною выше примере выборки две, а если их шесть?
Приведу опять пример:
Есть у меня таблица (прикрепил её к этому посту), в которую я вложил данные о количественной неоднородности телесных повреждений, обнаруженных у жертв сексуального насилия, с учётом их локализации, то есть, имеется 40 наблюдений, где было всего одно повреждение на голове, 23 наблюдения, где 2 повреждения на голове, 27 наблюдений, где одно повреждение на туловище и т.д. Подскажите мне, как мне проверить наличие/отсутствие статистической значимости между, скажем, первым столбцом и вторым, т.е. между наблюдениями, где повреждения обнаруживались в количестве "1" и в количестве "2"?
Дело в том, что я сначала применил критерий Краскела-Уоллиса, а затем попарно сравнил все выборки с помощью критерия Манна-Уитни (с учётом нового уровня статистической значимости, естественно), но теперь что-то не очень уверен в правильности выбранных мной критериев.

Ещё раз прошу прощения за назойливые вопросы - просто работы было сделано много, но вероятность того, что она выполнена неверно расстраивает(
Нажмите для просмотра прикрепленного файла

leo_biostat

17.05.2017 - 10:50

Цитата(Robotnik @ 17.05.2017 - 01:52)

Насчёт самой диагностики - можно не заморачиваться. Это я просто написал, как введение))
Спасибо большое за оперативный ответ.
Если Вы не против, то ещё один вопрос.
Как обстоят дела, если имеется сразу несколько выборок? В указанном мною выше примере выборки две, а если их шесть?
Приведу опять пример:
Есть у меня таблица (прикрепил её к этому посту), в которую я вложил данные о количественной неоднородности телесных повреждений, обнаруженных у жертв сексуального насилия, с учётом их локализации, то есть, имеется 40 наблюдений, где было всего одно повреждение на голове, 23 наблюдения, где 2 повреждения на голове, 27 наблюдений, где одно повреждение на туловище и т.д. Подскажите мне, как мне проверить наличие/отсутствие статистической значимости между, скажем, первым столбцом и вторым, т.е. между наблюдениями, где повреждения обнаруживались в количестве "1" и в количестве "2"?
Дело в том, что я сначала применил критерий Краскела-Уоллиса, а затем попарно сравнил все выборки с помощью критерия Манна-Уитни (с учётом нового уровня статистической значимости, естественно), но теперь что-то не очень уверен в правильности выбранных мной критериев.

Ещё раз прошу прощения за назойливые вопросы - просто работы было сделано много, но вероятность того, что она выполнена неверно расстраивает(
Нажмите для просмотра прикрепленного файла

Robotnik,

!

Уверен, что обсуждаемые варианты анализа (таблицы сопряжённости и сравнение количественных показателей), это лишь небольшое количество планируемых методов и направлений анализа этого интересного массива данных. Уверен в этом потому, что анализ сложных баз данных простыми методами анализа, не даёт глубокого, полного и очень полезного результата для достижения поставленной цели исследования. Также как практикующий врач, принимая больного пациента, не задаёт ему 1-2 вопроса, и не направляет его на получение 1-2 видов анализа. Поскольку при малом количестве информации маловероятно достаточно точно идентифицировать заболевание или патологию, и, соответственно, назначить продуктивное и полезное лечение. Приведу простой пример. Я скачал Ваш частотный массив, и сделал анализ таблицы сопряжённости в PAST. Результат этого анализа прикреплён (файл PAST_FREQ.jpg ). Все 3 метода анализа дают достигнутый уровень значимости P=0,02, что говорит о наличии взаимосвязи между количествами повреждений. Однако это вовсе не означает, что данная взаимосвязь распространяется на все ВИДЫ ПОВРЕЖДЕНИЙ. При заказах в анализе подобных зависимостей, я и мои коллеги всегда вычисляем и вклады в эту зависимость каждой из отдельных клеток (комбинации градаций двух признаков). Этим самым можно оценить, в каких типах повреждений есть связи интенсивные, а в каких - очень слабые, либо вообще отсутствуют. Фактически это говорит о том, что помимо анализа таблицы сопряжённости размерностью 7*2, следует проводить и анализы таблиц с размерностями 2*2. Естественно, это увеличивает объём проводимых анализов. В исследовании телесных повреждений, обнаруженных у жертв сексуального насилия, наверняка фиксируется более 7 качественных признаков. Скорее всего, есть немало и иных признаков. А в таком случае целесообразно, учитывая весь имеющийся набор признаков, использовать и набор разных многомерных методов анализа. Априори не могу порекомендовать какие конкретно методы следует применить в этом исследовании. Поскольку для этого нужно иметь саму базу данных со всеми фиксируемыми признаками. Уверен, что используемая Вами база данных достаточно большая. А потому и можно применить к ней большое количество продуктивных методов статистического анализа. Набор этих методов, естественно, будет определяться целями исследования.

Желаю успешного продолжения этого полезного исследования!

Robotnik

17.05.2017 - 12:46

leo_biostat
Спасибо Вам большое за развёрнутый ответ.
Если Вы не против, я уточню для себя - я правильно понимаю, что в моём случае сравнивать выборки нужно именно с помощью Хи-квадрата, а не Манна-Уитни? И как быть с фактом множественного сравнения - нужно ли применять поправку Бонферонни или же везде оставлять критический уровень значимости 0,05?
P.S.: и ещё: сравнил сейчас все выборки из моей таблицы с помощью хи-квадрат и получилось, что ни в одной паре сравнений не обнаружена статистическая значимость различий (с учётом поправки Бонферонни, естественно). Такое вполне может быть?

100$

17.05.2017 - 14:35

Цитата(Robotnik @ 17.05.2017 - 12:46)

Бонферонни

Пожалуйста, не пишите больше так эту фамилию. Он - Карло-Эмилио Бонферрони.

nokh

17.05.2017 - 21:43

Цитата(100$ @ 17.05.2017 - 16:35)

Пожалуйста, не пишите больше так эту фамилию. Он - Карло-Эмилио Бонферрони.

Пора вводить поправку Карлоса Сесара Сальвадора Араньи Кастанеды: на точку сборки в другой реальности. Говоришь людям что делать, а они - про поправку Бонферрони...

100$

17.05.2017 - 23:10

Цитата(nokh @ 17.05.2017 - 21:43)

Пора вводить поправку Карлоса Сесара Сальвадора Араньи Кастанеды: на точку сборки в другой реальности. Говоришь людям что делать, а они - про поправку Бонферрони...

Неблагодарные...

leo_biostat

21.05.2017 - 09:41

Цитата(Robotnik @ 17.05.2017 - 12:46)

leo_biostat
Спасибо Вам большое за развёрнутый ответ.
Если Вы не против, я уточню для себя - я правильно понимаю, что в моём случае сравнивать выборки нужно именно с помощью Хи-квадрата, а не Манна-Уитни? И как быть с фактом множественного сравнения - нужно ли применять поправку Бонферонни или же везде оставлять критический уровень значимости 0,05?
P.S.: и ещё: сравнил сейчас все выборки из моей таблицы с помощью хи-квадрат и получилось, что ни в одной паре сравнений не обнаружена статистическая значимость различий (с учётом поправки Бонферонни, естественно). Такое вполне может быть?

Robotnik,

!

Чтобы получить надёжные ответы на подобные вопросы, высылайте на мой личный мэйл свой массив данных (в формате EXCEL), с его описанием, и описанием цели исследования, и я напишу Вам весь список рекомендуемых методов анализа. А некоторые примеры даже сделаю.

Успеха Вам в исследованиях!

nokh

21.05.2017 - 22:16

Цитата(100$ @ 18.05.2017 - 01:10)

Неблагодарные...

Скорее - невнимательные... Сразу же написал про согласованные стандартизованные остатки Хабермана (Adjusted standardized residuals). Ну это чтобы не делать из одной большой таблицы сопряжённости миллион таблиц 2х2 - как тут рекламирующий свои услуги предприниматель рекомендует. И про отклонения Фримана - Тьюки (Freeman-Tukey deviaties) на форуме писалось неоднократно.

logvin

22.05.2017 - 18:42

Цитата(nokh @ 21.05.2017 - 23:16)

рекламирующий свои услуги предприниматель

Форум врачей-аспирантов создан не для того, чтобы быть рекламной площадкой.
Лучше размещать активную рекламу не в темах форума, а рекламных сетях (Яндекс.Директ, Google AdSense).

leo_biostat

23.05.2017 - 15:45

Цитата(Robotnik @ 17.05.2017 - 12:46)

leo_biostat
Спасибо Вам большое за развёрнутый ответ.
Если Вы не против, я уточню для себя - я правильно понимаю, что в моём случае сравнивать выборки нужно именно с помощью Хи-квадрата, а не Манна-Уитни? И как быть с фактом множественного сравнения - нужно ли применять поправку Бонферонни или же везде оставлять критический уровень значимости 0,05?
P.S.: и ещё: сравнил сейчас все выборки из моей таблицы с помощью хи-квадрат и получилось, что ни в одной паре сравнений не обнаружена статистическая значимость различий (с учётом поправки Бонферонни, естественно). Такое вполне может быть?

Robotnik,

!

Неясно, что означает "в моём случае". Относительно критериев Хи-квадрат Манна-Уитни. Точнее, сейчас этот последний критерий чаще называют Манна-Уитни-Вилкоксона. Поясняю, что критерий Хи-квадрат используется не в одном алгоритме, а во многих. А критерий Манна-Уитни-Вилкоксона является ранговым критерием. Поэтому выбор используемого критерия зависит от вида анализируемых признаков.

Вернусь к Вашему файлу "Таблица.xlsx". Чтобы продемонстрировать полезность более детального анализа данной таблицы сопряжённости, привожу результат анализа этой таблицы в файле "Image 2.png". Как видим, имеется статистически значимая взаимосвязь между этой парой признаков. Напоминаю, что в интенсивность этой взаимосвязи отдельные клетки этой таблицы вносят разные вклады. В частности, этот вклад конкретной клетки зависит от разности между фактической частотой и ожидаемой (расчётной). Зная детали данного метода, можно установить процент вклада каждой клетки таблицы в установленную взаимосвязь. В файле "Image 4.png" показаны отсортированные по уменьшению вклада все клетки таблицы. Как видим. 16,7% этой связи обуславливает клетка "Туловище"+ ">5". И первые 7 комбинаций этих двух признаков, из 7*6=42 клеток этой таблицы, обеспечивают 54,30% интенсивности взаимосвязи. Исходя из этой информации, можно реконструировать эту таблицу так, чтобы установить более важные комбинации градаций признаков.

Желаю успешного продолжения данного исследования!

leo_biostat

23.05.2017 - 16:29

Цитата(logvin @ 22.05.2017 - 18:42)

Форум врачей-аспирантов создан не для того, чтобы быть рекламной площадкой.
Лучше размещать активную рекламу не в темах форума, а рекламных сетях (Яндекс.Директ, Google AdSense).

[ личная переписка удалена модератором]

От модератора: дискуссия о понятии рекламы закрыта.