Полная версия этой страницы:
Показатели соотношения
Добрый день.
Прошу прощения за дурацкий вопрос, но нигде не смогла найти: можно ли как-нибудь оценить значимость различий показателей соотношения. Например, число коек на 10000 населения в городе N равно 73, а в городе K ? 56 (притом известно и число коек и численность населения), можно ли сказать, что в городе N коек на 10000 человек статистичсеки значимо больше, чем в городе K, по какому-либо критерию.
Заранее огромное спасибо.
Цитата(Stefa @ 6.06.2011 - 06:52)

Добрый день.
Прошу прощения за дурацкий вопрос, но нигде не смогла найти: можно ли как-нибудь оценить значимость различий показателей соотношения. Например, число коек на 10000 населения в городе N равно 73, а в городе K ? 56 (притом известно и число коек и численность населения), можно ли сказать, что в городе N коек на 10000 человек статистичсеки значимо больше, чем в городе K, по какому-либо критерию.
Заранее огромное спасибо.
А при чём тут статистика? Или какая то из исходных величин (число населения, число коек) определены с погрешностью?
DoctorStat
6.06.2011 - 10:11
Цитата(Stefa @ 6.06.2011 - 08:52)

можно ли как-нибудь оценить значимость различий показателей соотношения
Этот вопрос обсуждался на форуме бесконечное число раз. Он подробно описан в библии по статистике для медиков: Гланц "Медико-биологическая статистика". Называется ваша задача: сравнение долей. Существует множество критериев ее оценки:
1. Стандартное нормальное распределение
2. Хи-квадрат
3. Точный критерий Фишера
Откройте учебники и читайте, читайте, читайте... От чтения книг кол-во ума прибавляется статистически значимо
Спасибо за ответы, про сравнение долей я думала, но непонятно, доля чего от чего, доля "кроватей от количества людей"? Волнует вопрос обоснованности применения критериев для сравнения долей в данном случае. Как-то странно выглядит подобная четырехпольная таблица:
Город | Кол-во кроватей | Численность жителей
K | 2500 | 4000000-2500
N | 5000 | 5000000-5000
Цитата(p2004r @ 6.06.2011 - 12:59)

А при чём тут статистика? Или какая то из исходных величин (число населения, число коек) определены с погрешностью?
Присоединяюсь. Речь идёт о генеральных совокупностях, а не о выборках из них. Т.е. вопрос примерно из серии: Ване 10 лет, Мане - 12; насколько статистически значимо то, что Маня старше Вани?
DrgLena
6.06.2011 - 13:06
Ваш вопрос не так прост, как показалось некоторым, миллионные города в четырехпольные таблицы не загоняют. Ваша задача сравнения обеспечения койками аналогична сравнению распространенности какого-либо заболевания, например на 10000 населения. Посмотрите дискуссию на этом форуме от 17.09.2010.
"Доверительный интервал к распространенности заболевания". Эта дискуссия как раз и возникла от того, что ни в указанной библии, ни в других источниках нет внятной информации о том как сравнить индексы распространенности или обеспеченности. Этот форум своего рода бестселлер.
DoctorStat
6.06.2011 - 16:38
Цитата(DrgLena @ 6.06.2011 - 14:06)

Ваш вопрос не так прост, как показалось некоторым, миллионные города в четырехпольные таблицы не загоняют
Т.е. вы хотите сказать, что если распространенность гриппа в Москве на одного человека (доля заболевших) оказалась статистически значимо больше, чем в Киеве, то на 1тыс. человек (доля*1000) это уже не так?
DrgLena
6.06.2011 - 23:09
Так. Распространенность заболевания на одного человека или на 100 или на 10000 ? не имеет значения, но эта доля из всего населения. Важно как представлять данные.
Также как и обеспеченность койками, из примера автора поста 2500 на 4000000 и 5000 на 5000000 во втором городе. Вы предлагаете хи квадрат, заполните таблицу, получите значение хи квадрат=375; р=0,00000. Супер! Но при расчете точного критерия Фишера, который вы также рекомендуете, компьютер просто сойдет с ума, если будет считать факториалы по формуле из библии. А теперь попробуем изменить число коек в первом городе до 3800. По хи квадрат также различия статистически значимы хи кв=5,74; р=0,0167. Опять все довольны. Но вернемся к исходным койкам на 10000 населения, в измененном примере получим 9,5 и 10,0 . При сравнении распространенности заболевания в зарубежных источниках приводят данные с десятыми, и 95% ДИ в том же формате. Но, обеспеченность койками в русскоязычных источниках приводят до целых коек, при округлении получаем 10 и 10, но обеспеченность койками в двух городах статистически значимо различается.
Кроме того, есть еще один аргумент против использования критериев, в пользу представления с данных с 95%ДИ - это необходимость представления данных по многим регионам. Не очень логично проводить сравнения по критерию хи кв. между каждой парой городов или между всеми странами СНГ.
Цитата(DrgLena @ 7.06.2011 - 00:09)

Так. Распространенность заболевания на одного человека или на 100 или на 10000 ? не имеет значения, но эта доля из всего населения. Важно как представлять данные.
Считайте эпидемиологические показатели по исходным данным (без приведения к 1000 или 100000 и т.п.).
Цитата(DrgLena @ 7.06.2011 - 00:09)

Также как и обеспеченность койками, из примера автора поста 2500 на 4000000 и 5000 на 5000000 во втором городе. Вы предлагаете хи квадрат, заполните таблицу, получите значение хи квадрат=375; р=0,00000. Супер! Но при расчете точного критерия Фишера, который вы также рекомендуете, компьютер просто сойдет с ума, если будет считать факториалы по формуле из библии.
Факториалы не нужно считать. Нужно привести формулу к виду, не включающему факториалы.
DrgLena
7.06.2011 - 09:24
Есть определеные стандарты представления эпидемиологических данных. На 10000 населения принято приводить распространенность для большинства заболеваний, но для некоторых приводят и на 1000. В одном из не старых учебных пособий за 2006 год приводят данные о распространенности наркомании с 1985 по 1998 при этом учеников просят просто графически представить рост наркоманов. В этом пособии это называют- интенсивный показатель. Данные не привожу, они ошибочны (скорее всего не на 100000, а на 10000), а пособие могу назвать, академики писали.
Дело не в том по каким формулам или программам считать, о каком точном критерии может идти речь, если в четырехпольной таблице миллионные числа неточно подсчитанные. Неужели кому то известно точное население города? какая здесь вообще разница, какой критерий, хи кв или точный критерий Фишера, что так важно скольно нулей после запятой вы получите при таком сравнении? Ни то ни друго просто не нужно считать.
Цитата(DrgLena @ 7.06.2011 - 09:24)

Есть определеные стандарты представления эпидемиологических данных. На 10000 населения принято приводить распространенность
Да, это верно. Рассчитав распространенность на основе индекса, вы получите то же значение. Однако ДИ будут другими, не соответствующими истине. Поэтому считать показатели нужно на основе исходных данных. Требуют приводить индексы - приводите индексы.
Цитата(DrgLena @ 6.06.2011 - 12:06)

Ваш вопрос не так прост, как показалось некоторым, миллионные города в четырехпольные таблицы не загоняют. Ваша задача сравнения обеспечения койками аналогична сравнению распространенности какого-либо заболевания, например на 10000 населения. Посмотрите дискуссию на этом форуме от 17.09.2010.
"Доверительный интервал к распространенности заболевания". Эта дискуссия как раз и возникла от того, что ни в указанной библии, ни в других источниках нет внятной информации о том как сравнить индексы распространенности или обеспеченности. Этот форум своего рода бестселлер.
Если у нас есть выборка регионов по которой есть распределение параметра --- число коек в регионе на 1000, то да можно считать какую то статистику. В поставленном топик стартером виде вопрос не имеет смысла. Не имея выборки регионов и ничего не зная о дисперсии величины что то сравнивать? Исходя из каких предположений? "Нормальности распределения коек"? Присутствия всех регионов в единой генеральной совокупности?
17.09.2010 есть только тема "Курсы по статистике" в ней ничего нет... ааа... 21.09.2010
Применяем любезно указанный калькулятор --- значит можно утверждать, что на самом деле истинное значение числа коек на 10000 у топикстартера колеблется от 58.1035116874625 до 91.6804082571846 с вероятностью 1/20 вывалится за эти границы? Не слишком ли смелый вывод?
Никакой реальной выборки размером в 10000 населения не производилось, а тупо поделили сумму коек на население. А весь метод основан на рассуждении что выборка случайна и мы определяет доверительный интервал в целом для совокупности.
Наверное нужно подставлять регион целиком в калькулятор, тогда получим доверительный интервал для генеральной совокупности регионов (из которых взят данный) в целом?
0.000600983005969374 , 0.000649976157358772 для K
0.000972676521450246 , 0.00102809023314127 для N
Эрго --- города из генсовокупностей с различными средними.
Правильно?
DrgLena
7.06.2011 - 14:57
Цитата(p2004r @ 7.06.2011 - 12:47)

Правильно?

Нет,
лучше оставайтесь на своей первой позиции, что статистика тут вовсе не причем.
Цитата(DrgLena @ 7.06.2011 - 13:57)

Нет,
лучше оставайтесь на своей первой позиции, что статистика тут вовсе не причем.
Хахаха да Вы злой доктор

Что ж предельно кратко... пояснений я так понял не ждать?
В первоначальной формулировке "чего то там на 10000 тысяч" никакой статистики и рядом не лежало, о чем я честно и написал.
В варианте с численность населения региона в целом смысл можно от нужды изобразить. Хотя видеть доверительный интервал у такой величины как койко-место несколько удивительно. Да и выборок никаких случайных при разбиении на регионы все равно не происходит. Но раз глобус выдали...

PS Да и судя по дискуссии хоть не один "неправ" оказался
DrgLena
7.06.2011 - 18:43
Между двумя крайними позициями, ?никакой статистики и рядом не лежало? и использованием точного критерия Фишера, я высказала и обосновала свою. А вы можете подумать над мыслью о том, зачем вообще проценты сравнивать, всегда ли для вас 8% будет статистически значимо меньше 10%. Это не сравнение двух детей 8 и 10 лет.
Цитата(DrgLena @ 7.06.2011 - 17:43)

Между двумя крайними позициями, ?никакой статистики и рядом не лежало? и использованием точного критерия Фишера, я высказала и обосновала свою. А вы можете подумать над мыслью о том, зачем вообще проценты сравнивать, всегда ли для вас 8% будет статистически значимо меньше 10%. Это не сравнение двух детей 8 и 10 лет.
Это не я говорил про года детей. Я сказал что в "койкоместах на 10000" статистики нет, это простой процент.
А вот случай когда есть набор городов (или регионов) и распределения в них чего то вполне можно представить.
Иначе говоря есть популяция всей страны, есть общее кол-во коек (измерены оба показателя с конечной точностью). Есть некое разбиение всей популяции на регионы. Известно сколько людей и коек попало при разбиении в каждый из регион.
Обсуждаемая процедура состоит в том, что предполагая койки случайно распределёнными (во бред, а?

) в популяции всей страны построить распределения кол-ва коек попадающих в каждый из регионов размеры в людях которых заданы. Получив распределения койкомест в каждом регионе нетрудно построить и доверительные интервалы.
Более разумного ничего не приходит в голову. Или всё не так на самом деле?
DrgLena
7.06.2011 - 20:37
Цитата(p2004r @ 7.06.2011 - 20:11)

Я сказал что в "койкоместах на 10000" статистики нет, это простой процент.
Это ваше глубокое заблуждение, в котором вы упорствуете даже после того , как я просила вас ответить на вопрос о сравнении всего лишь двух простых процентов.
Цитата(p2004r @ 7.06.2011 - 20:11)

А вот случай когда есть набор городов (или регионов) и распределения в них чего то вполне можно представить.
Вам не нужно оценивать весь набор городов и давать среднюю обеспеченность койками в стране, пока есть только два города. Пусть это будут простые проценты, сравните их.
Цитата(DrgLena @ 7.06.2011 - 19:37)

Это ваше глубокое заблуждение, в котором вы упорствуете даже после того , как я просила вас ответить на вопрос о сравнении всего лишь двух простых процентов.
Вам не нужно оценивать весь набор городов и давать среднюю обеспеченность койками в стране, пока есть только два города. Пусть это будут простые проценты, сравните их.
Для процентов нельзя определить уровень достоверности в различиях. Проценты, взятые сами по себе, не дают возможности делать статистически достоверные выводы. Нужно знать размер выборок в которых были посчитаны проценты.
Две группы неизвестного размера для которых известно только процент наличия чего то в них сравнить не получится. Например 50% в выборке из 2 объектов (но мы этого не знаем), пытаемся сравнить с 50% в выборке размером в 100 объектов (но мы не знаем что в выборке 100).
А сравнивать городами целиком вполне получится, только не понятно насколько имеет смысл для такой величины как койкоместа. Не могу только предугадать будет ли случай одной выборки из конечной генсовокупности давать тоже распределение искомого параметра, что и случай выборки из бесконечной генсовкупности.
"Город + остальная страна размер которой известен и в которой мы получаем оценку параметра" и "город + бесконечная совокупность в которой мы получаем оценку интересующего нас параметра"
В посте ? 6 произошла подмена одной задачи на другую и дальнейшая дискуссия протекает исходя из того, какую задачу решают участники. Убеждён, что сформулированная автором темы задача в корне отличается от анализа распространённости заболевания. При анализе заболеваемости речь действительно идёт о %, промилле или случаях на 10 тыс. Потому что в этом случае речь идёт об одном объекте исследования - человеке. Раз есть человеки больные и здоровые можно рассчитать долю больных в общем числе и выразить её удобным способом. В задаче Stef'ы речь идёт о двух разных объектах: койках и людях. Ни для одного объекта мы не можем рассчитать долю - о долях речь вообще не идёт. Есть некий город, в нём есть какое-то абсолютное число деревьев, машин, бродячих собак и койко-мест. Это - генеральные совокупности. Есть другой город с теми же объектами - генеральными совокупностями. Все эти данные - полные, самодостаточные, никакие из них не являются частью других. При желании мы можем вычислить некие отношения, удобные для сравнительной характеристики городов в условиях их разнокачественности. Например, рассчитать в каждом городе число собак на человека, число деревьев на машину, число койко-мест на человека или на 10 тыс. человек. Полученные величины будут не долями, они будут индексами. Индексы относятся к количественным данным и т.о. очень похожи на возраст. Разница только в том, что индексы измерены в шкале отношений, а возраст - в абсолютной шкале. Но в ходе статистического анализа с ними работают одинаково. По койко-местам: один город - один индекс, два города - 2 индекса. Как два возраста. Если мы наберём достаточную выборку индексов по разным городам, то сможем подключить статистический анализ. Например, построить распределение индексов, в случае полимодальности определить число мод, провести разделение смеси распределений, охарактеризовать каждую выделенную однородную группу и сказать, что один город попал в один класс, другой - в другой класс. Пока всё что можно сделать с двумя имеющимися индексами (число койко-мест на 10 тыс. человек) методами статистики это рассчитать показатели описательной статистики, например - среднее с ошибкой.
DrgLena
7.06.2011 - 22:36
Объяснения логически понятны.
Но утверждая, что один индекс больше другого мы должны учитывать ошибку с которой получен каждый индекс. Есть понятие ошибка разности отношений, при этом как получено отношение делением людей на людей или коек на людей на ошибку не влияет. Могу ошибаться.
Цитата(DrgLena @ 7.06.2011 - 21:36)

Верно, но известно и количество коек и население городов, сравнивайте два города.
Я перевел в отношения сравнил калькулятором с указанной Вами ссылки (http://www.wessa.net/rwasp_hypothesisprop1.wasp#output). Интервалы доверительные 95% писал выше. Города-выборки из бесконечных генсовокупностей с разными средними.
Ну хорошо берем их еще и в сумме --- 0.000817005371666137 , 0.000849661228333863
9000000 к 250000000 не знаю насколько корректно считать генсовокупность бесконечной. Ну и койкоместа приравнять случайно распределенному заболеванию тоже.
Скорее это некий расчет (без учета длительности лечения) должного числа коек для определенного уровня заболеваемости (в нашем случае среднего числа перманентно больных) требующего стационарного лечения. Ну чтоб местов хватило.
DrgLena
7.06.2011 - 22:58
Я исправила ответ, т.к. он совпал по времени с ответом nokh
Цитата(DrgLena @ 8.06.2011 - 01:36)

Объяснения логически понятны.
Но утверждая, что один индекс больше другого мы должны учитывать ошибку с которой получен каждый индекс. Есть понятие ошибка разности отношений, при этом как получено отношение делением людей на людей или коек на людей на ошибку не влияет. Могу ошибаться.
Думаю, что раз индекс - не доля, значит - обычная дробь. В числителе - число койко-мест, в знаменателе - число людей. Типа как сравнить 2/3 и 3/5. 2/3 > 3/5
DrgLena
7.06.2011 - 23:22
Спасибо, это убеждает!
Для просмотра полной версии этой страницы, пожалуйста,
пройдите по ссылке.