Здравствуйте, гость ( Вход | Регистрация )
21.08.2017 - 01:08
Сообщение
#1
|
||
|
Группа: Пользователи Сообщений: 18 Регистрация: 9.02.2013 Из: Баку Пользователь №: 24615 |
Здравствуйте, уважаемые форумчане. Как-то даже неловко заходить раз в пятилетку с вопросом. Но как учит С.Гланц -- не стесняйтесь спрашивать). Не могли бы Вы мне помочь с решением, возможно даже очень простой, задачи с процентами. Даже не решить, а подсказать метод или источник где можно найти способ решения. Суть проблемы такова. Вначале взгляните на рисунок:
Так вот. Различные наблюдатели в разных населённых пунктах (условно городах) регистрировали определённые объекты. Объекты классифицированы и обозначены буквами алфавита, регистрировалась их частота в процентах. Сколько всего городов наблюдали указано во втором столбце. Города не повторялись и у каждого наблюдателя был как-бы свой регион. Те объекты, которые не подходили под классификацию регистрировались как "другие" и в таблице не указаны. Поэтому, например, в третьей строке сумма всех процентов 31, то есть 69 не удалось отнести к какому-либо виду. А в третьей строке, наоборот, все объекты подходили под классификацию и в сумме дают 100%. Но цель не в этом. Надо выяснить сколько приблизительно объектов какого-либо типа приходится в целом на страну. В последней строке есть графа %-ты в среднем, вычисленные для объектов вида Д. Так вот, если вычислить такую цифру для всех типов объектов, то в сумме они оказываются более 100%. То есть средние значения процентов не подходят. В целом населённых пунктов (условно городов) по стране очень много, но суммарная цифра уже рассмотренных является как-бы достаточной выборкой для каких-либо выводов. Как исходя из этих данных можно хотя бы как-то высказаться о приблизительном проценте конкретного объекта в N-ом городе (или группе городов). Можно ли как-то аппроксимировать эти значения, чтобы сумма средних процентов была 100%? Я понимаю, был бы график, то можно было бы сгладить его регрессионной функцией или при помощи полинома. Но в данном случае надо выявить тенденцию в виде распределения по долям. Возможно задача банальная, просто я не встречался. Рад был бы узнать Ваше мнение на этот счёт. Заранее благодарю. |
|
|
|
![]() |
![]() |
![]() |
15.08.2018 - 14:46
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 18 Регистрация: 9.02.2013 Из: Баку Пользователь №: 24615 |
Я хоть и не уважаемый Nokha, но робко попытаюсь высказать свое мнение, пока его нет :-) Это называется "задача классификации" и сопряженная к ней "задача кластеризации". Вполне изученные разделы Machine Learning. Там определяется и степень близости (меры сходства), и способы работы в многомерном признаковом пространстве. Исследуются различные алгоритмы (замечу - алгоритмы классификации и кластеризации бывают не только метрическими, но и логическими, основанными на деревьях решений, основанными на плотностях, на байесовской моделе и пр. зоопарк). Ну и напоследок - имеется целое направление, которое строит нечеткие классификаторы или нечеткие кластеры (т.е. с использованием упомянутой Вами теории нечетких множеств). А также - классификаторы с ранговыми шкалами, что и соответствует задаче, которую собственно вы и описали в своем сообщении. >Ident, нет ничего проще: вся нечеткая теория основана на том, что имеется лингвистическая переменная с градациями от "Так точно" до "А хрен его знает, товарищ майор!". Строите для нее функцию принадлежности, в функцию заряжаете эмпирические данные и получаете искомую степень принадлежности в виде попадания в одну из градаций. Вот только теория вероятностей и теория нечетких множеств - две разные теории. Спасибо большое, намного теплее). Не подскажите книжку, сайт и т.д., где есть примеры решения таких задач. Заранее благодарен. |
|
|
![]() |
![]() |
15.08.2018 - 18:13
Сообщение
#3
|
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
... Не подскажите книжку, сайт и т.д., где есть примеры решения таких задач. Заранее благодарен. Пример решения: если нечто выглядит, как утка, ходит вперевалочку, как утка, и крякает, как утка, то с большой вероятностью это и есть утка. Шутка). А по поводу функций принадлежности вам сюда Сообщение отредактировал 100$ - 15.08.2018 - 18:14 |
|
|
![]() |
![]() |
15.08.2018 - 18:49
Сообщение
#4
|
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
А по поводу функций принадлежности вам сюда Ну, от функций принадлежностей до классификации на основе нечетких правил еще как до Луны.... ну, вы поняли Если уж куда направлять свой взор по теме (нечеткая классификация и кластеризация), то скорее вот сюда, сюда, или сюда.. Только вот прежде, чем углубляться в дебри, ТС стоило бы для начала ознакомиться с азами раздела науки, которую он хотел бы задействовать в своих исследованиях. Мне так кажется (С) Сообщение отредактировал passant - 15.08.2018 - 18:52 |
|
|
![]() |
![]() |
15.08.2018 - 19:57
Сообщение
#5
|
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Ну, от функций принадлежностей до классификации на основе нечетких правил еще как до Луны.... ну, вы поняли Не знаю, passant, не знаю, но, по-видимому, Луна, ближе, чем вы думаете: вот взять, например, вторую ссылку в вашем перечне (pdf-файл известий ЮФУ). В ней аж целых два соавтора наперебой рассказывают сначала о многокритериальном выборе, а затем - задушевно описывают кластеризацию методом нечетких k-средних, придуманную Данном в далеком 1973 году. (Это - ф-ция fanny{cluster} в R). Ладно, что сходимость этого метода в общем случае не доказана: Бездек установил только, что она достаточно медленная. Но ведь исходную матрицу принадлежностей к кластерам надо же откуда-то взять: алгоритм стартует из матрицы принадлежностей, состоящей из либо случайных чисел, либо их стоит определить именно на основе функций принадлежности, либо разглядеть на потолке. |
|
|
![]() |
![]() |
Ident Помогите вычислить процент 21.08.2017 - 01:08
leo_biostat Цитата(Ident @ 21.08.2017 - 01:08) З... 21.08.2017 - 08:36
Ident Цитата(leo_biostat @ 21.08.2017 - 09... 21.08.2017 - 14:46
p2004r Масштабируете каждого из наблюдателей на страну це... 21.08.2017 - 15:48
nokh Цитата(Ident @ 21.08.2017 - 03:08) .... 21.08.2017 - 19:42
Ident Цитата(p2004r @ 21.08.2017 - 16:48) ... 22.08.2017 - 21:47
Ident Доброго дня всем, уважаемые коллеги. Чтобы не созд... 12.08.2018 - 15:51
100$ Цитата(Ident @ 12.08.2018 - 15:51) Д... 13.08.2018 - 00:15
Ident Если это вся информация, которой вы располагаете, ... 13.08.2018 - 18:00
100$ Определенно. 13.08.2018 - 22:52
Ident Определенно.
Я всё таки более оптимистичен в с... 14.08.2018 - 21:23
Ident Цитата(Ident @ 14.08.2018 - 22:23) О... 14.08.2018 - 21:29
passant Цитата(Ident @ 14.08.2018 - 21:23) .... 14.08.2018 - 21:56
100$ >Ident,
нет ничего проще: вся нечеткая теория ... 14.08.2018 - 22:44
Статистик Цитата(100$ @ 14.08.2018 - 22:4... 17.08.2018 - 11:31
100$ Цитата(Статистик @ 17.08.2018 - 11:3... 17.08.2018 - 12:21
Статистик Цитата(100$ @ 17.08.2018 - 12:2... 20.08.2018 - 12:53
100$ Цитата(Статистик @ 20.08.2018 - 12:5... 20.08.2018 - 14:20
Статистик Цитата(100$ @ 20.08.2018 - 14:2... 20.08.2018 - 18:11
100$ ЦитатаС точки зрения применяемости (с прикладной т... 20.08.2018 - 20:59
Статистик Цитата(100$ @ 20.08.2018 - 20:5... 21.08.2018 - 11:00
100$ Цитата(Статистик @ 21.08.2018 - 11:0... 21.08.2018 - 12:44
passant Цитата(Ident @ 15.08.2018 - 14:46) С... 15.08.2018 - 17:32
Ident [quote name='passant' date='15.08.2018... 18.08.2018 - 17:25
100$ ЦитатаЯ медик, но задача которую я решаю не совсем... 18.08.2018 - 23:05
Ident Цитата(100$ @ 19.08.2018 - 00:0... 19.08.2018 - 23:06
100$ Цитата(Ident @ 19.08.2018 - 23:06) Б... 20.08.2018 - 00:35
Ident Цитата(100$ @ 20.08.2018 - 01:3... 20.08.2018 - 13:40
100$ Цитата(Ident @ 20.08.2018 - 13:40) В... 20.08.2018 - 14:25
Ident Приветствую уважаемых участников темы в эти нестаб... 28.06.2020 - 16:05
passant Цитата(Ident @ 28.06.2020 - 16:05) П... 28.06.2020 - 16:51
Ident [quote name='passant' date='28.06.2020... 10.07.2020 - 00:46![]() ![]() |