Версия для печати темы
Форум врачей-аспирантов _ Медицинская статистика _ Тип признака
Автор: Robotnik 16.05.2017 - 22:50
Здравствуйте, уважаемые форумчане!
Прошу прощения за беспокойство.
Как бы это странно не звучало, но голову сломал из-за того, что не смог определить, какими являются признаки: качественными или количественными?
Исходные данные такие:
Целью всей работы является получение возможности при анализе случая определить к какому из двух событий он относится, т.е. дифференциальная диагностика между двумя альтернативными событиями. Для этого исследуются две группы, включающие в себя наблюдения, где доказано, что было событие 1 (первая группа) и событие 2 (2 группа).
И вот, в качестве примера:
Я построил два ряда, состоящих из целых 12 чисел, характеризующих распределение наблюдений в обеих группах в зависимости от месяца года:
- В январе количество наблюдений в первой группе - 25, во второй 47;
- В феврале количество наблюдений в первой группе - 33, во второй - 25 и т.д. по всем месяцам.
В итоге у меня имеется два ряда из 12 чисел, каждый из которых характеризует первую и вторую группы. У меня стоит цель проверить, имеется ли статистически значимая разница между этими показателями.
Так вот, эти два ряда цифр я могу оценивать, как количественные и, соответственно, применять для их сравнения статистические критерии для количественных признаков (Стьюдент, Манн-Уитни и т.п.) или же воспринимать их как качественные и применять иные критерии (Хи-квадрат, точный тест Фишера и т.п.).
Заранее благодарю за ответы.
P.S.: я понимаю, что вопрос глупый, но таким вот уродился я не шибко грамотным(
Автор: nokh 17.05.2017 - 00:36
Цитата(Robotnik @ 17.05.2017 - 00:50)
... В итоге у меня имеется два ряда из 12 чисел, каждый из которых характеризует первую и вторую группы. У меня стоит цель проверить, имеется ли статистически значимая разница между этими показателями.
Так вот, эти два ряда цифр я могу оценивать, как количественные и, соответственно, применять для их сравнения статистические критерии для количественных признаков (Стьюдент, Манн-Уитни и т.п.) или же воспринимать их как качественные и применять иные критерии (Хи-квадрат, точный тест Фишера и т.п.)
По поводу диагностики пока непонятно..., а с данными - полный порядок. У вас таблица из 2х строк и 12 колонок (ну или 2х колонок и 12 строк:) , в ячейках находятся частоты. Типичная таблица сопряжённости, которую можно обсчитать хи-квадратом и подобными критериями. Если различия будут значимыми - далее нужно разбираться за счёт каких ячеек она преимущественно проявилась. Это делается с помощью расчёта скорректированных стандартизованных остатков (остатков Хабермана). Всё это легко посчитать в PAST.
Автор: Robotnik 17.05.2017 - 01:52
Цитата(nokh @ 17.05.2017 - 00:36)
По поводу диагностики пока непонятно..., а с данными - полный порядок. У вас таблица из 2х строк и 12 колонок (ну или 2х колонок и 12 строк:) , в ячейках находятся частоты. Типичная таблица сопряжённости, которую можно обсчитать хи-квадратом и подобными критериями. Если различия будут значимыми - далее нужно разбираться за счёт каких ячеек она преимущественно проявилась. Это делается с помощью расчёта скорректированных стандартизованных остатков (остатков Хабермана). Всё это легко посчитать в PAST.
Насчёт самой диагностики - можно не заморачиваться. Это я просто написал, как введение))
Спасибо большое за оперативный ответ.
Если Вы не против, то ещё один вопрос.
Как обстоят дела, если имеется сразу несколько выборок? В указанном мною выше примере выборки две, а если их шесть?
Приведу опять пример:
Есть у меня таблица (прикрепил её к этому посту), в которую я вложил данные о количественной неоднородности телесных повреждений, обнаруженных у жертв сексуального насилия, с учётом их локализации, то есть, имеется 40 наблюдений, где было всего одно повреждение на голове, 23 наблюдения, где 2 повреждения на голове, 27 наблюдений, где одно повреждение на туловище и т.д. Подскажите мне, как мне проверить наличие/отсутствие статистической значимости между, скажем, первым столбцом и вторым, т.е. между наблюдениями, где повреждения обнаруживались в количестве "1" и в количестве "2"?
Дело в том, что я сначала применил критерий Краскела-Уоллиса, а затем попарно сравнил все выборки с помощью критерия Манна-Уитни (с учётом нового уровня статистической значимости, естественно), но теперь что-то не очень уверен в правильности выбранных мной критериев.
Ещё раз прошу прощения за назойливые вопросы - просто работы было сделано много, но вероятность того, что она выполнена неверно расстраивает(
Таблица.xlsx ( 8,78 килобайт )
: 246
Автор: leo_biostat 17.05.2017 - 10:50
Цитата(Robotnik @ 17.05.2017 - 01:52)
Насчёт самой диагностики - можно не заморачиваться. Это я просто написал, как введение))
Спасибо большое за оперативный ответ.
Если Вы не против, то ещё один вопрос.
Как обстоят дела, если имеется сразу несколько выборок? В указанном мною выше примере выборки две, а если их шесть?
Приведу опять пример:
Есть у меня таблица (прикрепил её к этому посту), в которую я вложил данные о количественной неоднородности телесных повреждений, обнаруженных у жертв сексуального насилия, с учётом их локализации, то есть, имеется 40 наблюдений, где было всего одно повреждение на голове, 23 наблюдения, где 2 повреждения на голове, 27 наблюдений, где одно повреждение на туловище и т.д. Подскажите мне, как мне проверить наличие/отсутствие статистической значимости между, скажем, первым столбцом и вторым, т.е. между наблюдениями, где повреждения обнаруживались в количестве "1" и в количестве "2"?
Дело в том, что я сначала применил критерий Краскела-Уоллиса, а затем попарно сравнил все выборки с помощью критерия Манна-Уитни (с учётом нового уровня статистической значимости, естественно), но теперь что-то не очень уверен в правильности выбранных мной критериев.
Ещё раз прошу прощения за назойливые вопросы - просто работы было сделано много, но вероятность того, что она выполнена неверно расстраивает(
Таблица.xlsx ( 8,78 килобайт )
: 246Robotnik,
!
Уверен, что обсуждаемые варианты анализа (таблицы сопряжённости и сравнение количественных показателей), это лишь небольшое количество планируемых методов и направлений анализа этого интересного массива данных. Уверен в этом потому, что анализ сложных баз данных простыми методами анализа, не даёт глубокого, полного и очень полезного результата для достижения поставленной цели исследования. Также как практикующий врач, принимая больного пациента, не задаёт ему 1-2 вопроса, и не направляет его на получение 1-2 видов анализа. Поскольку при малом количестве информации маловероятно достаточно точно идентифицировать заболевание или патологию, и, соответственно, назначить продуктивное и полезное лечение. Приведу простой пример. Я скачал Ваш частотный массив, и сделал анализ таблицы сопряжённости в PAST. Результат этого анализа прикреплён (файл PAST_FREQ.jpg ). Все 3 метода анализа дают достигнутый уровень значимости P=0,02, что говорит о наличии взаимосвязи между количествами повреждений. Однако это вовсе не означает, что данная взаимосвязь распространяется на все
ВИДЫ ПОВРЕЖДЕНИЙ. При заказах в анализе подобных зависимостей, я и мои коллеги всегда вычисляем и вклады в эту зависимость каждой из отдельных клеток (комбинации градаций двух признаков). Этим самым можно оценить, в каких типах повреждений есть связи интенсивные, а в каких - очень слабые, либо вообще отсутствуют. Фактически это говорит о том, что помимо анализа таблицы сопряжённости размерностью 7*2, следует проводить и анализы таблиц с размерностями 2*2. Естественно, это увеличивает объём проводимых анализов. В исследовании телесных повреждений, обнаруженных у жертв сексуального насилия, наверняка фиксируется более 7 качественных признаков. Скорее всего, есть немало и иных признаков. А в таком случае целесообразно, учитывая весь имеющийся набор признаков, использовать и набор разных многомерных методов анализа. Априори не могу порекомендовать какие конкретно методы следует применить в этом исследовании. Поскольку для этого нужно иметь саму базу данных со всеми фиксируемыми признаками. Уверен, что используемая Вами база данных достаточно большая. А потому и можно применить к ней большое количество продуктивных методов статистического анализа. Набор этих методов, естественно, будет определяться целями исследования.
Желаю успешного продолжения этого полезного исследования!
Автор: Robotnik 17.05.2017 - 12:46
leo_biostat
Спасибо Вам большое за развёрнутый ответ.
Если Вы не против, я уточню для себя - я правильно понимаю, что в моём случае сравнивать выборки нужно именно с помощью Хи-квадрата, а не Манна-Уитни? И как быть с фактом множественного сравнения - нужно ли применять поправку Бонферонни или же везде оставлять критический уровень значимости 0,05?
P.S.: и ещё: сравнил сейчас все выборки из моей таблицы с помощью хи-квадрат и получилось, что ни в одной паре сравнений не обнаружена статистическая значимость различий (с учётом поправки Бонферонни, естественно). Такое вполне может быть?
Автор: 100$ 17.05.2017 - 14:35
Цитата(Robotnik @ 17.05.2017 - 12:46)
Бонферонни
Пожалуйста, не пишите больше так эту фамилию. Он - Карло-Эмилио Бонферрони.
Автор: nokh 17.05.2017 - 21:43
Цитата(100$ @ 17.05.2017 - 16:35)
Пожалуйста, не пишите больше так эту фамилию. Он - Карло-Эмилио Бонферрони.
Пора вводить поправку Карлоса Сесара Сальвадора Араньи Кастанеды: на точку сборки в другой реальности. Говоришь людям что делать, а они - про поправку Бонферрони...
Автор: 100$ 17.05.2017 - 23:10
Цитата(nokh @ 17.05.2017 - 21:43)
Пора вводить поправку Карлоса Сесара Сальвадора Араньи Кастанеды: на точку сборки в другой реальности. Говоришь людям что делать, а они - про поправку Бонферрони...
Неблагодарные...
Автор: leo_biostat 21.05.2017 - 09:41
Цитата(Robotnik @ 17.05.2017 - 12:46)
leo_biostat
Спасибо Вам большое за развёрнутый ответ.
Если Вы не против, я уточню для себя - я правильно понимаю, что в моём случае сравнивать выборки нужно именно с помощью Хи-квадрата, а не Манна-Уитни? И как быть с фактом множественного сравнения - нужно ли применять поправку Бонферонни или же везде оставлять критический уровень значимости 0,05?
P.S.: и ещё: сравнил сейчас все выборки из моей таблицы с помощью хи-квадрат и получилось, что ни в одной паре сравнений не обнаружена статистическая значимость различий (с учётом поправки Бонферонни, естественно). Такое вполне может быть?
Robotnik,
!
Чтобы получить надёжные ответы на подобные вопросы, высылайте на мой личный мэйл свой массив данных (в формате EXCEL), с его описанием, и описанием цели исследования, и я напишу Вам весь список рекомендуемых методов анализа. А некоторые примеры даже сделаю.
Успеха Вам в исследованиях!
Автор: nokh 21.05.2017 - 22:16
Цитата(100$ @ 18.05.2017 - 01:10)
Неблагодарные...
Скорее - невнимательные... Сразу же написал про согласованные стандартизованные остатки Хабермана (Adjusted standardized residuals). Ну это чтобы не делать из одной большой таблицы сопряжённости миллион таблиц 2х2 - как тут рекламирующий свои услуги предприниматель рекомендует. И про отклонения Фримана - Тьюки (Freeman-Tukey deviaties) на форуме писалось неоднократно.
Автор: logvin 22.05.2017 - 18:42
Цитата(nokh @ 21.05.2017 - 23:16)
рекламирующий свои услуги предприниматель
Форум врачей-аспирантов создан не для того, чтобы быть рекламной площадкой.
Лучше размещать активную рекламу не в темах форума, а рекламных сетях (Яндекс.Директ, Google AdSense).
Автор: leo_biostat 23.05.2017 - 15:45
Цитата(Robotnik @ 17.05.2017 - 12:46)
leo_biostat
Спасибо Вам большое за развёрнутый ответ.
Если Вы не против, я уточню для себя - я правильно понимаю, что в моём случае сравнивать выборки нужно именно с помощью Хи-квадрата, а не Манна-Уитни? И как быть с фактом множественного сравнения - нужно ли применять поправку Бонферонни или же везде оставлять критический уровень значимости 0,05?
P.S.: и ещё: сравнил сейчас все выборки из моей таблицы с помощью хи-квадрат и получилось, что ни в одной паре сравнений не обнаружена статистическая значимость различий (с учётом поправки Бонферонни, естественно). Такое вполне может быть?
Robotnik,
!
Неясно, что означает "в моём случае". Относительно критериев Хи-квадрат Манна-Уитни. Точнее, сейчас этот последний критерий чаще называют Манна-Уитни-Вилкоксона. Поясняю, что критерий Хи-квадрат используется не в одном алгоритме, а во многих. А критерий Манна-Уитни-Вилкоксона является ранговым критерием. Поэтому выбор используемого критерия зависит от вида анализируемых признаков.
Вернусь к Вашему файлу "
Таблица.xlsx". Чтобы продемонстрировать полезность более детального анализа данной таблицы сопряжённости, привожу результат анализа этой таблицы в файле "
Image 2.png". Как видим, имеется статистически значимая взаимосвязь между этой парой признаков. Напоминаю, что в интенсивность этой взаимосвязи отдельные клетки этой таблицы вносят разные вклады. В частности, этот вклад конкретной клетки зависит от разности между фактической частотой и ожидаемой (расчётной). Зная детали данного метода, можно установить процент вклада каждой клетки таблицы в установленную взаимосвязь. В файле "
Image 4.png" показаны отсортированные по уменьшению вклада все клетки таблицы. Как видим. 16,7% этой связи обуславливает клетка
"Туловище"+ ">5". И первые 7 комбинаций этих двух признаков, из 7*6=42 клеток этой таблицы, обеспечивают 54,30% интенсивности взаимосвязи. Исходя из этой информации, можно реконструировать эту таблицу так, чтобы установить более важные комбинации градаций признаков.
Желаю успешного продолжения данного исследования!
Автор: leo_biostat 23.05.2017 - 16:29
Цитата(logvin @ 22.05.2017 - 18:42)
Форум врачей-аспирантов создан не для того, чтобы быть рекламной площадкой.
Лучше размещать активную рекламу не в темах форума, а рекламных сетях (Яндекс.Директ, Google AdSense).
[ личная переписка удалена модератором]От модератора: дискуссия о понятии рекламы закрыта.
Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)