Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

3 страниц V   1 2 3 >  
Добавить ответ в эту темуОткрыть тему
> Помогите вычислить процент, необходимо дать оценку процентному распределению явлений (объектов)
Ident
сообщение 21.08.2017 - 01:08
Сообщение #1





Группа: Пользователи
Сообщений: 18
Регистрация: 9.02.2013
Из: Баку
Пользователь №: 24615



Здравствуйте, уважаемые форумчане. Как-то даже неловко заходить раз в пятилетку с вопросом. Но как учит С.Гланц -- не стесняйтесь спрашивать). Не могли бы Вы мне помочь с решением, возможно даже очень простой, задачи с процентами. Даже не решить, а подсказать метод или источник где можно найти способ решения. Суть проблемы такова. Вначале взгляните на рисунок:

Прикрепленное изображение


Так вот. Различные наблюдатели в разных населённых пунктах (условно городах) регистрировали определённые объекты. Объекты классифицированы и обозначены буквами алфавита, регистрировалась их частота в процентах. Сколько всего городов наблюдали указано во втором столбце. Города не повторялись и у каждого наблюдателя был как-бы свой регион. Те объекты, которые не подходили под классификацию регистрировались как "другие" и в таблице не указаны. Поэтому, например, в третьей строке сумма всех процентов 31, то есть 69 не удалось отнести к какому-либо виду. А в третьей строке, наоборот, все объекты подходили под классификацию и в сумме дают 100%. Но цель не в этом. Надо выяснить сколько приблизительно объектов какого-либо типа приходится в целом на страну. В последней строке есть графа %-ты в среднем, вычисленные для объектов вида Д. Так вот, если вычислить такую цифру для всех типов объектов, то в сумме они оказываются более 100%. То есть средние значения процентов не подходят. В целом населённых пунктов (условно городов) по стране очень много, но суммарная цифра уже рассмотренных является как-бы достаточной выборкой для каких-либо выводов. Как исходя из этих данных можно хотя бы как-то высказаться о приблизительном проценте конкретного объекта в N-ом городе (или группе городов). Можно ли как-то аппроксимировать эти значения, чтобы сумма средних процентов была 100%? Я понимаю, был бы график, то можно было бы сгладить его регрессионной функцией или при помощи полинома. Но в данном случае надо выявить тенденцию в виде распределения по долям. Возможно задача банальная, просто я не встречался. Рад был бы узнать Ваше мнение на этот счёт. Заранее благодарю.
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
leo_biostat
сообщение 21.08.2017 - 08:36
Сообщение #2





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953



Цитата(Ident @ 21.08.2017 - 01:08) *
Здравствуйте, уважаемые форумчане. ... Не могли бы Вы мне помочь с решением, возможно даже очень простой, задачи с процентами. .... Рад был бы узнать Ваше мнение на этот счёт. Заранее благодарю.


Моё мнение можете прочитать по адресу http://www.biometrica.tomsk.ru/percent_00.htm
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ident
сообщение 21.08.2017 - 14:46
Сообщение #3





Группа: Пользователи
Сообщений: 18
Регистрация: 9.02.2013
Из: Баку
Пользователь №: 24615



Цитата(leo_biostat @ 21.08.2017 - 09:36) *
Моё мнение можете прочитать по адресу http://www.biometrica.tomsk.ru/percent_00.htm


Спасибо большое, что откликнулись. Очень интересно почитать мнение профессионала. Ещё на заре интернет-эры, лет может 20 назад читал статью о прощании с Лысенковщиной, так что с трактовкой проблемы знаком. С Вами полностью согласен, что "медикам следует обращаться за помощью к профессиональным статистикам. Подобным же образом и профессиональные статистики обращаются к медикам, когда у них возникают личные проблемы анализа состояния их здоровья". К сожалению в данном конкретном случае проект не коммерческий и я как-бы помогаю)) Буду очень признателен совету, какой метод здесь можно применить. Скажу откровенно, что ситуацию здесь усугубляет и то обстоятельство, что рассматривается вообще-то биологическая проблема на стыке с социологией. Я будучи врачом по образованию сам слабо разбираюсь в данной постановке. Иначе попытался что-то упростить, сгруппировать, рандомизировать что-ли. Если позволите и если Вам интересно могу более подробно написать в ЛС, что это за проблема и причину моего альтруизма в данном деле)). Честно говоря, был бы рад знакомству и вне контекста рассматриваемого на форуме вопроса)
С наилучшими пожеланиями.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 21.08.2017 - 15:48
Сообщение #4





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Масштабируете каждого из наблюдателей на страну целиком, потом находите среднюю оценку по всем наблюдателям. Масштабировать лучше всего перевыборками из расчета на население страны. Тогда получиться в результате куча "таблично заданных" распределений, которые в принципе можно просто теми же перевыборками свести к единой оценке.

Схем перевыборок возможно несколько, тут надо пробовать и думать что лучше отражает условия наблюдения.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 21.08.2017 - 19:42
Сообщение #5





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Ident @ 21.08.2017 - 03:08) *
... Различные наблюдатели в разных населённых пунктах (условно городах) регистрировали определённые объекты. Объекты классифицированы и обозначены буквами алфавита, регистрировалась их частота в процентах. Сколько всего городов наблюдали указано во втором столбце. Города не повторялись и у каждого наблюдателя был как-бы свой регион. Те объекты, которые не подходили под классификацию регистрировались как "другие" и в таблице не указаны. Поэтому, например, в третьей строке сумма всех процентов 31, то есть 69 не удалось отнести к какому-либо виду. А в третьей строке, наоборот, все объекты подходили под классификацию и в сумме дают 100%. Но цель не в этом. Надо выяснить сколько приблизительно объектов какого-либо типа приходится в целом на страну. В последней строке есть графа %-ты в среднем, вычисленные для объектов вида Д. Так вот, если вычислить такую цифру для всех типов объектов, то в сумме они оказываются более 100%. То есть средние значения процентов не подходят. В целом населённых пунктов (условно городов) по стране очень много, но суммарная цифра уже рассмотренных является как-бы достаточной выборкой для каких-либо выводов. Как исходя из этих данных можно хотя бы как-то высказаться о приблизительном проценте конкретного объекта в N-ом городе (или группе городов). Можно ли как-то аппроксимировать эти значения, чтобы сумма средних процентов была 100%? Я понимаю, был бы график, то можно было бы сгладить его регрессионной функцией или при помощи полинома. Но в данном случае надо выявить тенденцию в виде распределения по долям. Возможно задача банальная, просто я не встречался. Рад был бы узнать Ваше мнение на этот счёт. Заранее благодарю.

1. У Маши было 4 яблока, у Пети - 2 яблока, а у Коли - ни одного (0 яблок). Сколько в среднем яблок было у детей? Согласно вашей логике - (4+2)/2=3. А Коля - неудачник и нам не нужен. Правильный ответ: (4+2+0)/3=2. Поэтому во всех колонках (ну или во всех, где есть хотя бы одно значение) вместо пустых ячеек проставьте нули.

2. Сходная ошибка: раз "Другие" объекты фиксировались и учитывались при расчёте процентов (!), колонка "Другие" должна с необходимостью присутствовать в таблице. Поэтому добавьте такую колонку и рассчитайте % в ней.

3. Ну а теперь можно находить средние. Прикрепил файл с расчётом. Т.о. "задача банальная, просто я не встречался"

4. Сразу бросается в глаза, что данные сильно неоднородны (это можно пытаться доказать статистически, имея полные данные в штуках, а не в % ). Поэтому, строго говоря, сомнительна сама правомочность нахождения средних по всей стране. Возможно, правильнее будет разбить регионы на более однородные группы и посчитать средние уже в них. Если в качестве расстояния между регионами использовать соотношение процентов разных объектов, то можно применить кластерный анализ с использованием в качестве индекса сходства корреляции, например - Спирмена. Поскольку для n=11 и альфа=0,05 критическое значение коэффициента корреляции Спирмена = 0,527, все ветвления на дендрограмме, большие этого числа, можно считать неслучайными (это - упрощение, но близко к правде). Можно его же использовать для выделения кластеров. Режем ветви на уровне 0,527. Получается 4 непохожих друг на друга группы регионов: (9), (8), (3+6), (остальные).

Сообщение отредактировал nokh - 21.08.2017 - 19:52
Прикрепленные файлы
Прикрепленный файл  percent.rar ( 4,74 килобайт ) Кол-во скачиваний: 681
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ident
сообщение 22.08.2017 - 21:47
Сообщение #6





Группа: Пользователи
Сообщений: 18
Регистрация: 9.02.2013
Из: Баку
Пользователь №: 24615



Цитата(p2004r @ 21.08.2017 - 16:48) *
Масштабируете каждого из наблюдателей на страну целиком, потом находите среднюю оценку по всем наблюдателям. Масштабировать лучше всего перевыборками из расчета на население страны. Тогда получиться в результате куча "таблично заданных" распределений, которые в принципе можно просто теми же перевыборками свести к единой оценке. Схем перевыборок возможно несколько, тут надо пробовать и думать что лучше отражает условия наблюдения.

Спасибо большое, что откликнулись. Задача сложная, думаю надо будет выслушать все возможные советы.

Цитата(nokh @ 21.08.2017 - 20:42) *
Сразу бросается в глаза, что данные сильно неоднородны (это можно пытаться доказать статистически, имея полные данные в штуках, а не в % ). Поэтому, строго говоря, сомнительна сама правомочность нахождения средних по всей стране. Возможно, правильнее будет разбить регионы на более однородные группы и посчитать средние уже в них.

Спасибо огромное. Вызываетесь помочь мне уже второй раз и даёте дельные советы. Выслушав советы форумчан склоняюсь к тому, что надо изменить задачи в исследовании, разбив его на отдельные фрагменты, как Вы и советуете. Спасибо ещё раз.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ident
сообщение 12.08.2018 - 15:51
Сообщение #7





Группа: Пользователи
Сообщений: 18
Регистрация: 9.02.2013
Из: Баку
Пользователь №: 24615



Доброго дня всем, уважаемые коллеги. Чтобы не создавать новую тему, задам свой нескромный вопрос здесь, ибо не шибко интересный он на мой взгляд). Собственно фабула: при всех прочих равных условиях в каком-то регионе облачность сегодня оборачивалась в 70% случаев дождём завтра; точно также высокое атм.давление сегодня приводило (или совпадало, не суть) к дождю завтра в 80% случаев; вместе с тем понижение температуры сегодня, приводило к дождю завтра только в 40% случаев (но тоже связанный с явлением фактор). То есть имеем допустим 10 таких факторов, которые с разной вероятностью (или в процентном отношении) связаны с дождём. Проверить корреляцию этих событий (предикторов) между собой нет возможности. Я так понимаю, что суммарная оценка этих факторов должна дать более точный прогноз по дождю). Но как это реализовать unknw.gif ? Кроме того есть факторы с большим весом (например, облачность и атм.давление) и возможно реальна такая модель, когда будет достаточно наблюдения всего 5-6 таких весомых признаков, чтобы высказаться о грядущем дожде. То есть менее значимые факторы, как-бы, дополнительные, на тот случай когда регистрация одного-двух более весомых предикторов окажется невозможной.
С уважением, Идент.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 13.08.2018 - 00:15
Сообщение #8





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Ident @ 12.08.2018 - 15:51) *
Доброго дня всем, уважаемые коллеги. Чтобы не создавать новую тему, задам свой нескромный вопрос здесь, ибо не шибко интересный он на мой взгляд). Собственно фабула: при всех прочих равных условиях в каком-то регионе облачность сегодня оборачивалась в 70% случаев дождём завтра; точно также высокое атм.давление сегодня приводило (или совпадало, не суть) к дождю завтра в 80% случаев; вместе с тем понижение температуры сегодня, приводило к дождю завтра только в 40% случаев (но тоже связанный с явлением фактор). То есть имеем допустим 10 таких факторов, которые с разной вероятностью (или в процентном отношении) связаны с дождём. Проверить корреляцию этих событий (предикторов) между собой нет возможности. Я так понимаю, что суммарная оценка этих факторов должна дать более точный прогноз по дождю). Но как это реализовать unknw.gif ? Кроме того есть факторы с большим весом (например, облачность и атм.давление) и возможно реальна такая модель, когда будет достаточно наблюдения всего 5-6 таких весомых признаков, чтобы высказаться о грядущем дожде. То есть менее значимые факторы, как-бы, дополнительные, на тот случай когда регистрация одного-двух более весомых предикторов окажется невозможной.
С уважением, Идент.


Если это вся информация, которой вы располагаете, то задача не имеет решения. Патамушта условная вероятность P(дождь|облачность, давление) не выражается через условные вероятности P(дождь|облачность) и P(дождь|давление). Тут нужно знать еще много чего.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ident
сообщение 13.08.2018 - 18:00
Сообщение #9





Группа: Пользователи
Сообщений: 18
Регистрация: 9.02.2013
Из: Баку
Пользователь №: 24615




Если это вся информация, которой вы располагаете, то задача не имеет решения. Патамушта условная вероятность P(дождь|облачность, давление) не выражается через условные вероятности P(дождь|облачность) и P(дождь|давление). Тут нужно знать еще много чего.

Вас понял, спасибо. То есть считаете, что вне формата теоремы Байеса придумать что-то здесь не получится.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 13.08.2018 - 22:52
Сообщение #10





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Определенно.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ident
сообщение 14.08.2018 - 21:23
Сообщение #11





Группа: Пользователи
Сообщений: 18
Регистрация: 9.02.2013
Из: Баку
Пользователь №: 24615



Определенно.

Я всё таки более оптимистичен в своих ожиданиях, ибо что-то подобное медики решали, правда, не совсем "традиционными" в таких случаях математическими приёмами (в работе, которую я читал, вскользь упоминалось об аппарате размытой логики). Честно говоря, в описанном мной случае пример с дождём очень неудачный вышел. Мой косяк, каюсь). Постараюсь передать суть в несколько другом изложении: Геолог ищет минералы. На данной территории встречается 20 разных минералов (или допустим 50, не суть, просто отмечаю, что небольшая цифра в целом). Каждый минерал имеет описание свойств, но не совсем конкретное. Например, если это мел, то цвет не указывается точно белый, а говорится, мол, чаще белый (допустим в 75%), реже бежевый (20%) и иногда светло-серый (5%). И таких вот физических свойств (кроме цвета, там плотность, блеск, форма и т.д.) у каждого камня допустим 10-12 (не более). Геолога интересует только мел, поэтому свойства других минералов ему не интересны. Обнаружив очередной камень, он фиксирует свои визуальные наблюдения насчёт цвета, плотности и т.д. Понятно, что человек как-то (может даже иррационально) сразу распознаёт искомый объект, не зацикливаясь на логике, но в данном случае интересен именно алгоритм поиска, а не какие-то минералы)). Теперь собственно задача. У геолога два потока информации ? один академический из книги о меле, а другой из его записей. Есть ли способ оценить меру близости между этими данными? То есть можно ли построить мат.модель, которая на основании подобных данных сможет выдавать процент (вероятность) соответствия наблюдаемых показателей уже известным. Результат модели необязательно должен быть в конкретных цифрах. Приемлемы могут быть ответы и такого рода, например ? 1)точно мел, 2)скорее всего, мел, 3)не исключено, что мел, 4) скорее всего не мел, 5)точно не мел. То есть в виде степени соответствия или исключения. Вот как-бы такая задача. Заранее благодарен за мнения.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ident
сообщение 14.08.2018 - 21:29
Сообщение #12





Группа: Пользователи
Сообщений: 18
Регистрация: 9.02.2013
Из: Баку
Пользователь №: 24615



Цитата(Ident @ 14.08.2018 - 22:23) *
Определенно.

Я всё таки более оптимистичен в своих ожиданиях, ибо что-то подобное медики решали, правда, не совсем "традиционными" в таких случаях математическими приёмами (в работе, которую я читал, вскользь упоминалось об аппарате размытой логики). Честно говоря, в описанном мной случае пример с дождём очень неудачный вышел. Мой косяк, каюсь). Постараюсь передать суть в несколько другом изложении: Геолог ищет минералы. На данной территории встречается 20 разных минералов (или допустим 50, не суть, просто отмечаю, что небольшая цифра в целом). Каждый минерал имеет описание свойств, но не совсем конкретное. Например, если это мел, то цвет не указывается точно белый, а говорится, мол, чаще белый (допустим в 75%), реже бежевый (20%) и иногда светло-серый (5%). И таких вот физических свойств (кроме цвета, там плотность, блеск, форма и т.д.) у каждого камня допустим 10-12 (не более). Геолога интересует только мел, поэтому свойства других минералов ему не интересны. Обнаружив очередной камень, он фиксирует свои визуальные наблюдения насчёт цвета, плотности и т.д. Понятно, что человек как-то (может даже иррационально) сразу распознаёт искомый объект, не зацикливаясь на логике, но в данном случае интересен именно алгоритм поиска, а не какие-то минералы)). Теперь собственно задача. У геолога два потока информации ? один академический из книги о меле, а другой из его записей. Есть ли способ оценить меру близости между этими данными? То есть можно ли построить мат.модель, которая на основании подобных данных сможет выдавать процент (вероятность) соответствия наблюдаемых показателей уже известным. Результат модели необязательно должен быть в конкретных цифрах. Приемлемы могут быть ответы и такого рода, например ? 1)точно мел, 2)скорее всего, мел, 3)не исключено, что мел, 4) скорее всего не мел, 5)точно не мел. То есть в виде степени соответствия или исключения. Вот как-бы такая задача. Заранее благодарен за мнения.

Очень интересно узнать мнение уважаемого Nokha).

Сообщение отредактировал Ident - 14.08.2018 - 21:31
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 14.08.2018 - 21:56
Сообщение #13





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(Ident @ 14.08.2018 - 21:23) *
. Есть ли способ оценить меру близости между этими данными? То есть можно ли построить мат.модель, которая на основании подобных данных сможет выдавать процент (вероятность) соответствия наблюдаемых показателей уже известным. Результат модели необязательно должен быть в конкретных цифрах. Приемлемы могут быть ответы и такого рода, например ? 1)точно мел, 2)скорее всего, мел, 3)не исключено, что мел, 4) скорее всего не мел, 5)точно не мел. То есть в виде степени соответствия или исключения. Вот как-бы такая задача. Заранее благодарен за мнения.

Очень интересно узнать мнение уважаемого Nokha).

Я хоть и не уважаемый Nokha, но робко попытаюсь высказать свое мнение, пока его нет :-)

Это называется "задача классификации" и сопряженная к ней "задача кластеризации". Вполне изученные разделы Machine Learning. Там определяется и степень близости (меры сходства), и способы работы в многомерном признаковом пространстве. Исследуются различные алгоритмы (замечу - алгоритмы классификации и кластеризации бывают не только метрическими, но и логическими, основанными на деревьях решений, основанными на плотностях, на байесовской моделе и пр. зоопарк). Ну и напоследок - имеется целое направление, которое строит нечеткие классификаторы или нечеткие кластеры (т.е. с использованием упомянутой Вами теории нечетких множеств). А также - классификаторы с ранговыми шкалами, что и соответствует задаче, которую собственно вы и описали в своем сообщении.

Сообщение отредактировал passant - 14.08.2018 - 22:09
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 14.08.2018 - 22:44
Сообщение #14





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



>Ident,

нет ничего проще: вся нечеткая теория основана на том, что имеется лингвистическая переменная с градациями от "Так точно" до "А хрен его знает, товарищ майор!". Строите для нее функцию принадлежности, в функцию заряжаете эмпирические данные и получаете искомую степень принадлежности в виде попадания в одну из градаций.
Вот только теория вероятностей и теория нечетких множеств - две разные теории.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ident
сообщение 15.08.2018 - 14:46
Сообщение #15





Группа: Пользователи
Сообщений: 18
Регистрация: 9.02.2013
Из: Баку
Пользователь №: 24615



Цитата(passant @ 14.08.2018 - 22:56) *
Я хоть и не уважаемый Nokha, но робко попытаюсь высказать свое мнение, пока его нет :-)

Это называется "задача классификации" и сопряженная к ней "задача кластеризации". Вполне изученные разделы Machine Learning. Там определяется и степень близости (меры сходства), и способы работы в многомерном признаковом пространстве. Исследуются различные алгоритмы (замечу - алгоритмы классификации и кластеризации бывают не только метрическими, но и логическими, основанными на деревьях решений, основанными на плотностях, на байесовской моделе и пр. зоопарк). Ну и напоследок - имеется целое направление, которое строит нечеткие классификаторы или нечеткие кластеры (т.е. с использованием упомянутой Вами теории нечетких множеств). А также - классификаторы с ранговыми шкалами, что и соответствует задаче, которую собственно вы и описали в своем сообщении.



Цитата(100$ @ 14.08.2018 - 23:44) *
>Ident,

нет ничего проще: вся нечеткая теория основана на том, что имеется лингвистическая переменная с градациями от "Так точно" до "А хрен его знает, товарищ майор!". Строите для нее функцию принадлежности, в функцию заряжаете эмпирические данные и получаете искомую степень принадлежности в виде попадания в одну из градаций.
Вот только теория вероятностей и теория нечетких множеств - две разные теории.


Спасибо большое, намного теплее). Не подскажите книжку, сайт и т.д., где есть примеры решения таких задач. Заранее благодарен.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

3 страниц V   1 2 3 >
Добавить ответ в эту темуОткрыть тему