Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Помогите вычислить процент, необходимо дать оценку процентному распределению явлений (объектов)
Ident
сообщение 21.08.2017 - 01:08
Сообщение #1


Дух форума
*

Группа: Пользователи
Сообщений: 8
Регистрация: 9.02.2013
Из: Баку
Пользователь №: 24615



Здравствуйте, уважаемые форумчане. Как-то даже неловко заходить раз в пятилетку с вопросом. Но как учит С.Гланц -- не стесняйтесь спрашивать). Не могли бы Вы мне помочь с решением, возможно даже очень простой, задачи с процентами. Даже не решить, а подсказать метод или источник где можно найти способ решения. Суть проблемы такова. Вначале взгляните на рисунок:

Прикрепленное изображение


Так вот. Различные наблюдатели в разных населённых пунктах (условно городах) регистрировали определённые объекты. Объекты классифицированы и обозначены буквами алфавита, регистрировалась их частота в процентах. Сколько всего городов наблюдали указано во втором столбце. Города не повторялись и у каждого наблюдателя был как-бы свой регион. Те объекты, которые не подходили под классификацию регистрировались как "другие" и в таблице не указаны. Поэтому, например, в третьей строке сумма всех процентов 31, то есть 69 не удалось отнести к какому-либо виду. А в третьей строке, наоборот, все объекты подходили под классификацию и в сумме дают 100%. Но цель не в этом. Надо выяснить сколько приблизительно объектов какого-либо типа приходится в целом на страну. В последней строке есть графа %-ты в среднем, вычисленные для объектов вида Д. Так вот, если вычислить такую цифру для всех типов объектов, то в сумме они оказываются более 100%. То есть средние значения процентов не подходят. В целом населённых пунктов (условно городов) по стране очень много, но суммарная цифра уже рассмотренных является как-бы достаточной выборкой для каких-либо выводов. Как исходя из этих данных можно хотя бы как-то высказаться о приблизительном проценте конкретного объекта в N-ом городе (или группе городов). Можно ли как-то аппроксимировать эти значения, чтобы сумма средних процентов была 100%? Я понимаю, был бы график, то можно было бы сгладить его регрессионной функцией или при помощи полинома. Но в данном случае надо выявить тенденцию в виде распределения по долям. Возможно задача банальная, просто я не встречался. Рад был бы узнать Ваше мнение на этот счёт. Заранее благодарю.
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
leo_biostat
сообщение 21.08.2017 - 08:36
Сообщение #2


Дух форума
*

Группа: Пользователи
Сообщений: 66
Регистрация: 23.11.2016
Пользователь №: 28953



Цитата(Ident @ 21.08.2017 - 01:08) *
Здравствуйте, уважаемые форумчане. ... Не могли бы Вы мне помочь с решением, возможно даже очень простой, задачи с процентами. .... Рад был бы узнать Ваше мнение на этот счёт. Заранее благодарю.


Моё мнение можете прочитать по адресу http://www.biometrica.tomsk.ru/percent_00.htm
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ident
сообщение 21.08.2017 - 14:46
Сообщение #3


Дух форума
*

Группа: Пользователи
Сообщений: 8
Регистрация: 9.02.2013
Из: Баку
Пользователь №: 24615



Цитата(leo_biostat @ 21.08.2017 - 09:36) *
Моё мнение можете прочитать по адресу http://www.biometrica.tomsk.ru/percent_00.htm


Спасибо большое, что откликнулись. Очень интересно почитать мнение профессионала. Ещё на заре интернет-эры, лет может 20 назад читал статью о прощании с Лысенковщиной, так что с трактовкой проблемы знаком. С Вами полностью согласен, что "медикам следует обращаться за помощью к профессиональным статистикам. Подобным же образом и профессиональные статистики обращаются к медикам, когда у них возникают личные проблемы анализа состояния их здоровья". К сожалению в данном конкретном случае проект не коммерческий и я как-бы помогаю)) Буду очень признателен совету, какой метод здесь можно применить. Скажу откровенно, что ситуацию здесь усугубляет и то обстоятельство, что рассматривается вообще-то биологическая проблема на стыке с социологией. Я будучи врачом по образованию сам слабо разбираюсь в данной постановке. Иначе попытался что-то упростить, сгруппировать, рандомизировать что-ли. Если позволите и если Вам интересно могу более подробно написать в ЛС, что это за проблема и причину моего альтруизма в данном деле)). Честно говоря, был бы рад знакомству и вне контекста рассматриваемого на форуме вопроса)
С наилучшими пожеланиями.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 21.08.2017 - 15:48
Сообщение #4


Дух форума
*

Группа: Пользователи
Сообщений: 1002
Регистрация: 26.08.2010
Пользователь №: 22699



Масштабируете каждого из наблюдателей на страну целиком, потом находите среднюю оценку по всем наблюдателям. Масштабировать лучше всего перевыборками из расчета на население страны. Тогда получиться в результате куча "таблично заданных" распределений, которые в принципе можно просто теми же перевыборками свести к единой оценке.

Схем перевыборок возможно несколько, тут надо пробовать и думать что лучше отражает условия наблюдения.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 21.08.2017 - 19:42
Сообщение #5


Дух форума
*

Группа: Пользователи
Сообщений: 1011
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Ident @ 21.08.2017 - 03:08) *
... Различные наблюдатели в разных населённых пунктах (условно городах) регистрировали определённые объекты. Объекты классифицированы и обозначены буквами алфавита, регистрировалась их частота в процентах. Сколько всего городов наблюдали указано во втором столбце. Города не повторялись и у каждого наблюдателя был как-бы свой регион. Те объекты, которые не подходили под классификацию регистрировались как "другие" и в таблице не указаны. Поэтому, например, в третьей строке сумма всех процентов 31, то есть 69 не удалось отнести к какому-либо виду. А в третьей строке, наоборот, все объекты подходили под классификацию и в сумме дают 100%. Но цель не в этом. Надо выяснить сколько приблизительно объектов какого-либо типа приходится в целом на страну. В последней строке есть графа %-ты в среднем, вычисленные для объектов вида Д. Так вот, если вычислить такую цифру для всех типов объектов, то в сумме они оказываются более 100%. То есть средние значения процентов не подходят. В целом населённых пунктов (условно городов) по стране очень много, но суммарная цифра уже рассмотренных является как-бы достаточной выборкой для каких-либо выводов. Как исходя из этих данных можно хотя бы как-то высказаться о приблизительном проценте конкретного объекта в N-ом городе (или группе городов). Можно ли как-то аппроксимировать эти значения, чтобы сумма средних процентов была 100%? Я понимаю, был бы график, то можно было бы сгладить его регрессионной функцией или при помощи полинома. Но в данном случае надо выявить тенденцию в виде распределения по долям. Возможно задача банальная, просто я не встречался. Рад был бы узнать Ваше мнение на этот счёт. Заранее благодарю.

1. У Маши было 4 яблока, у Пети - 2 яблока, а у Коли - ни одного (0 яблок). Сколько в среднем яблок было у детей? Согласно вашей логике - (4+2)/2=3. А Коля - неудачник и нам не нужен. Правильный ответ: (4+2+0)/3=2. Поэтому во всех колонках (ну или во всех, где есть хотя бы одно значение) вместо пустых ячеек проставьте нули.

2. Сходная ошибка: раз "Другие" объекты фиксировались и учитывались при расчёте процентов (!), колонка "Другие" должна с необходимостью присутствовать в таблице. Поэтому добавьте такую колонку и рассчитайте % в ней.

3. Ну а теперь можно находить средние. Прикрепил файл с расчётом. Т.о. "задача банальная, просто я не встречался"

4. Сразу бросается в глаза, что данные сильно неоднородны (это можно пытаться доказать статистически, имея полные данные в штуках, а не в % ). Поэтому, строго говоря, сомнительна сама правомочность нахождения средних по всей стране. Возможно, правильнее будет разбить регионы на более однородные группы и посчитать средние уже в них. Если в качестве расстояния между регионами использовать соотношение процентов разных объектов, то можно применить кластерный анализ с использованием в качестве индекса сходства корреляции, например - Спирмена. Поскольку для n=11 и альфа=0,05 критическое значение коэффициента корреляции Спирмена = 0,527, все ветвления на дендрограмме, большие этого числа, можно считать неслучайными (это - упрощение, но близко к правде). Можно его же использовать для выделения кластеров. Режем ветви на уровне 0,527. Получается 4 непохожих друг на друга группы регионов: (9), (8), (3+6), (остальные).

Сообщение отредактировал nokh - 21.08.2017 - 19:52
Прикрепленные файлы
Прикрепленный файл  percent.rar ( 4,74 килобайт ) Кол-во скачиваний: 17
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ident
сообщение 22.08.2017 - 21:47
Сообщение #6


Дух форума
*

Группа: Пользователи
Сообщений: 8
Регистрация: 9.02.2013
Из: Баку
Пользователь №: 24615



Цитата(p2004r @ 21.08.2017 - 16:48) *
Масштабируете каждого из наблюдателей на страну целиком, потом находите среднюю оценку по всем наблюдателям. Масштабировать лучше всего перевыборками из расчета на население страны. Тогда получиться в результате куча "таблично заданных" распределений, которые в принципе можно просто теми же перевыборками свести к единой оценке. Схем перевыборок возможно несколько, тут надо пробовать и думать что лучше отражает условия наблюдения.

Спасибо большое, что откликнулись. Задача сложная, думаю надо будет выслушать все возможные советы.

Цитата(nokh @ 21.08.2017 - 20:42) *
Сразу бросается в глаза, что данные сильно неоднородны (это можно пытаться доказать статистически, имея полные данные в штуках, а не в % ). Поэтому, строго говоря, сомнительна сама правомочность нахождения средних по всей стране. Возможно, правильнее будет разбить регионы на более однородные группы и посчитать средние уже в них.

Спасибо огромное. Вызываетесь помочь мне уже второй раз и даёте дельные советы. Выслушав советы форумчан склоняюсь к тому, что надо изменить задачи в исследовании, разбив его на отдельные фрагменты, как Вы и советуете. Спасибо ещё раз.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему