Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Помогите вычислить процент

Автор: Ident 21.08.2017 - 01:08

Здравствуйте, уважаемые форумчане. Как-то даже неловко заходить раз в пятилетку с вопросом. Но как учит С.Гланц -- не стесняйтесь спрашивать). Не могли бы Вы мне помочь с решением, возможно даже очень простой, задачи с процентами. Даже не решить, а подсказать метод или источник где можно найти способ решения. Суть проблемы такова. Вначале взгляните на рисунок:



Так вот. Различные наблюдатели в разных населённых пунктах (условно городах) регистрировали определённые объекты. Объекты классифицированы и обозначены буквами алфавита, регистрировалась их частота в процентах. Сколько всего городов наблюдали указано во втором столбце. Города не повторялись и у каждого наблюдателя был как-бы свой регион. Те объекты, которые не подходили под классификацию регистрировались как "другие" и в таблице не указаны. Поэтому, например, в третьей строке сумма всех процентов 31, то есть 69 не удалось отнести к какому-либо виду. А в третьей строке, наоборот, все объекты подходили под классификацию и в сумме дают 100%. Но цель не в этом. Надо выяснить сколько приблизительно объектов какого-либо типа приходится в целом на страну. В последней строке есть графа %-ты в среднем, вычисленные для объектов вида Д. Так вот, если вычислить такую цифру для всех типов объектов, то в сумме они оказываются более 100%. То есть средние значения процентов не подходят. В целом населённых пунктов (условно городов) по стране очень много, но суммарная цифра уже рассмотренных является как-бы достаточной выборкой для каких-либо выводов. Как исходя из этих данных можно хотя бы как-то высказаться о приблизительном проценте конкретного объекта в N-ом городе (или группе городов). Можно ли как-то аппроксимировать эти значения, чтобы сумма средних процентов была 100%? Я понимаю, был бы график, то можно было бы сгладить его регрессионной функцией или при помощи полинома. Но в данном случае надо выявить тенденцию в виде распределения по долям. Возможно задача банальная, просто я не встречался. Рад был бы узнать Ваше мнение на этот счёт. Заранее благодарю.

 

Автор: leo_biostat 21.08.2017 - 08:36

Цитата(Ident @ 21.08.2017 - 01:08) *
Здравствуйте, уважаемые форумчане. ... Не могли бы Вы мне помочь с решением, возможно даже очень простой, задачи с процентами. .... Рад был бы узнать Ваше мнение на этот счёт. Заранее благодарю.


Моё мнение можете прочитать по адресу http://www.biometrica.tomsk.ru/percent_00.htm

Автор: Ident 21.08.2017 - 14:46

Цитата(leo_biostat @ 21.08.2017 - 09:36) *
Моё мнение можете прочитать по адресу http://www.biometrica.tomsk.ru/percent_00.htm


Спасибо большое, что откликнулись. Очень интересно почитать мнение профессионала. Ещё на заре интернет-эры, лет может 20 назад читал статью о прощании с Лысенковщиной, так что с трактовкой проблемы знаком. С Вами полностью согласен, что "медикам следует обращаться за помощью к профессиональным статистикам. Подобным же образом и профессиональные статистики обращаются к медикам, когда у них возникают личные проблемы анализа состояния их здоровья". К сожалению в данном конкретном случае проект не коммерческий и я как-бы помогаю)) Буду очень признателен совету, какой метод здесь можно применить. Скажу откровенно, что ситуацию здесь усугубляет и то обстоятельство, что рассматривается вообще-то биологическая проблема на стыке с социологией. Я будучи врачом по образованию сам слабо разбираюсь в данной постановке. Иначе попытался что-то упростить, сгруппировать, рандомизировать что-ли. Если позволите и если Вам интересно могу более подробно написать в ЛС, что это за проблема и причину моего альтруизма в данном деле)). Честно говоря, был бы рад знакомству и вне контекста рассматриваемого на форуме вопроса)
С наилучшими пожеланиями.

Автор: p2004r 21.08.2017 - 15:48

Масштабируете каждого из наблюдателей на страну целиком, потом находите среднюю оценку по всем наблюдателям. Масштабировать лучше всего перевыборками из расчета на население страны. Тогда получиться в результате куча "таблично заданных" распределений, которые в принципе можно просто теми же перевыборками свести к единой оценке.

Схем перевыборок возможно несколько, тут надо пробовать и думать что лучше отражает условия наблюдения.

Автор: nokh 21.08.2017 - 19:42

Цитата(Ident @ 21.08.2017 - 03:08) *
... Различные наблюдатели в разных населённых пунктах (условно городах) регистрировали определённые объекты. Объекты классифицированы и обозначены буквами алфавита, регистрировалась их частота в процентах. Сколько всего городов наблюдали указано во втором столбце. Города не повторялись и у каждого наблюдателя был как-бы свой регион. Те объекты, которые не подходили под классификацию регистрировались как "другие" и в таблице не указаны. Поэтому, например, в третьей строке сумма всех процентов 31, то есть 69 не удалось отнести к какому-либо виду. А в третьей строке, наоборот, все объекты подходили под классификацию и в сумме дают 100%. Но цель не в этом. Надо выяснить сколько приблизительно объектов какого-либо типа приходится в целом на страну. В последней строке есть графа %-ты в среднем, вычисленные для объектов вида Д. Так вот, если вычислить такую цифру для всех типов объектов, то в сумме они оказываются более 100%. То есть средние значения процентов не подходят. В целом населённых пунктов (условно городов) по стране очень много, но суммарная цифра уже рассмотренных является как-бы достаточной выборкой для каких-либо выводов. Как исходя из этих данных можно хотя бы как-то высказаться о приблизительном проценте конкретного объекта в N-ом городе (или группе городов). Можно ли как-то аппроксимировать эти значения, чтобы сумма средних процентов была 100%? Я понимаю, был бы график, то можно было бы сгладить его регрессионной функцией или при помощи полинома. Но в данном случае надо выявить тенденцию в виде распределения по долям. Возможно задача банальная, просто я не встречался. Рад был бы узнать Ваше мнение на этот счёт. Заранее благодарю.

1. У Маши было 4 яблока, у Пети - 2 яблока, а у Коли - ни одного (0 яблок). Сколько в среднем яблок было у детей? Согласно вашей логике - (4+2)/2=3. А Коля - неудачник и нам не нужен. Правильный ответ: (4+2+0)/3=2. Поэтому во всех колонках (ну или во всех, где есть хотя бы одно значение) вместо пустых ячеек проставьте нули.

2. Сходная ошибка: раз "Другие" объекты фиксировались и учитывались при расчёте процентов (!), колонка "Другие" должна с необходимостью присутствовать в таблице. Поэтому добавьте такую колонку и рассчитайте % в ней.

3. Ну а теперь можно находить средние. Прикрепил файл с расчётом. Т.о. "задача банальная, просто я не встречался"

4. Сразу бросается в глаза, что данные сильно неоднородны (это можно пытаться доказать статистически, имея полные данные в штуках, а не в % ). Поэтому, строго говоря, сомнительна сама правомочность нахождения средних по всей стране. Возможно, правильнее будет разбить регионы на более однородные группы и посчитать средние уже в них. Если в качестве расстояния между регионами использовать соотношение процентов разных объектов, то можно применить кластерный анализ с использованием в качестве индекса сходства корреляции, например - Спирмена. Поскольку для n=11 и альфа=0,05 критическое значение коэффициента корреляции Спирмена = 0,527, все ветвления на дендрограмме, большие этого числа, можно считать неслучайными (это - упрощение, но близко к правде). Можно его же использовать для выделения кластеров. Режем ветви на уровне 0,527. Получается 4 непохожих друг на друга группы регионов: (9), (8), (3+6), (остальные).

 percent.rar ( 4,74 килобайт ) : 681
 

Автор: Ident 22.08.2017 - 21:47

Цитата(p2004r @ 21.08.2017 - 16:48) *
Масштабируете каждого из наблюдателей на страну целиком, потом находите среднюю оценку по всем наблюдателям. Масштабировать лучше всего перевыборками из расчета на население страны. Тогда получиться в результате куча "таблично заданных" распределений, которые в принципе можно просто теми же перевыборками свести к единой оценке. Схем перевыборок возможно несколько, тут надо пробовать и думать что лучше отражает условия наблюдения.

Спасибо большое, что откликнулись. Задача сложная, думаю надо будет выслушать все возможные советы.

Цитата(nokh @ 21.08.2017 - 20:42) *
Сразу бросается в глаза, что данные сильно неоднородны (это можно пытаться доказать статистически, имея полные данные в штуках, а не в % ). Поэтому, строго говоря, сомнительна сама правомочность нахождения средних по всей стране. Возможно, правильнее будет разбить регионы на более однородные группы и посчитать средние уже в них.

Спасибо огромное. Вызываетесь помочь мне уже второй раз и даёте дельные советы. Выслушав советы форумчан склоняюсь к тому, что надо изменить задачи в исследовании, разбив его на отдельные фрагменты, как Вы и советуете. Спасибо ещё раз.

Автор: Ident 12.08.2018 - 15:51

Доброго дня всем, уважаемые коллеги. Чтобы не создавать новую тему, задам свой нескромный вопрос здесь, ибо не шибко интересный он на мой взгляд). Собственно фабула: при всех прочих равных условиях в каком-то регионе облачность сегодня оборачивалась в 70% случаев дождём завтра; точно также высокое атм.давление сегодня приводило (или совпадало, не суть) к дождю завтра в 80% случаев; вместе с тем понижение температуры сегодня, приводило к дождю завтра только в 40% случаев (но тоже связанный с явлением фактор). То есть имеем допустим 10 таких факторов, которые с разной вероятностью (или в процентном отношении) связаны с дождём. Проверить корреляцию этих событий (предикторов) между собой нет возможности. Я так понимаю, что суммарная оценка этих факторов должна дать более точный прогноз по дождю). Но как это реализовать unknw.gif ? Кроме того есть факторы с большим весом (например, облачность и атм.давление) и возможно реальна такая модель, когда будет достаточно наблюдения всего 5-6 таких весомых признаков, чтобы высказаться о грядущем дожде. То есть менее значимые факторы, как-бы, дополнительные, на тот случай когда регистрация одного-двух более весомых предикторов окажется невозможной.
С уважением, Идент.

Автор: 100$ 13.08.2018 - 00:15

Цитата(Ident @ 12.08.2018 - 15:51) *
Доброго дня всем, уважаемые коллеги. Чтобы не создавать новую тему, задам свой нескромный вопрос здесь, ибо не шибко интересный он на мой взгляд). Собственно фабула: при всех прочих равных условиях в каком-то регионе облачность сегодня оборачивалась в 70% случаев дождём завтра; точно также высокое атм.давление сегодня приводило (или совпадало, не суть) к дождю завтра в 80% случаев; вместе с тем понижение температуры сегодня, приводило к дождю завтра только в 40% случаев (но тоже связанный с явлением фактор). То есть имеем допустим 10 таких факторов, которые с разной вероятностью (или в процентном отношении) связаны с дождём. Проверить корреляцию этих событий (предикторов) между собой нет возможности. Я так понимаю, что суммарная оценка этих факторов должна дать более точный прогноз по дождю). Но как это реализовать unknw.gif ? Кроме того есть факторы с большим весом (например, облачность и атм.давление) и возможно реальна такая модель, когда будет достаточно наблюдения всего 5-6 таких весомых признаков, чтобы высказаться о грядущем дожде. То есть менее значимые факторы, как-бы, дополнительные, на тот случай когда регистрация одного-двух более весомых предикторов окажется невозможной.
С уважением, Идент.


Если это вся информация, которой вы располагаете, то задача не имеет решения. Патамушта условная вероятность P(дождь|облачность, давление) не выражается через условные вероятности P(дождь|облачность) и P(дождь|давление). Тут нужно знать еще много чего.

Автор: Ident 13.08.2018 - 18:00


Если это вся информация, которой вы располагаете, то задача не имеет решения. Патамушта условная вероятность P(дождь|облачность, давление) не выражается через условные вероятности P(дождь|облачность) и P(дождь|давление). Тут нужно знать еще много чего.

Вас понял, спасибо. То есть считаете, что вне формата теоремы Байеса придумать что-то здесь не получится.

Автор: 100$ 13.08.2018 - 22:52

Определенно.

Автор: Ident 14.08.2018 - 21:23

Определенно.

Я всё таки более оптимистичен в своих ожиданиях, ибо что-то подобное медики решали, правда, не совсем "традиционными" в таких случаях математическими приёмами (в работе, которую я читал, вскользь упоминалось об аппарате размытой логики). Честно говоря, в описанном мной случае пример с дождём очень неудачный вышел. Мой косяк, каюсь). Постараюсь передать суть в несколько другом изложении: Геолог ищет минералы. На данной территории встречается 20 разных минералов (или допустим 50, не суть, просто отмечаю, что небольшая цифра в целом). Каждый минерал имеет описание свойств, но не совсем конкретное. Например, если это мел, то цвет не указывается точно белый, а говорится, мол, чаще белый (допустим в 75%), реже бежевый (20%) и иногда светло-серый (5%). И таких вот физических свойств (кроме цвета, там плотность, блеск, форма и т.д.) у каждого камня допустим 10-12 (не более). Геолога интересует только мел, поэтому свойства других минералов ему не интересны. Обнаружив очередной камень, он фиксирует свои визуальные наблюдения насчёт цвета, плотности и т.д. Понятно, что человек как-то (может даже иррационально) сразу распознаёт искомый объект, не зацикливаясь на логике, но в данном случае интересен именно алгоритм поиска, а не какие-то минералы)). Теперь собственно задача. У геолога два потока информации ? один академический из книги о меле, а другой из его записей. Есть ли способ оценить меру близости между этими данными? То есть можно ли построить мат.модель, которая на основании подобных данных сможет выдавать процент (вероятность) соответствия наблюдаемых показателей уже известным. Результат модели необязательно должен быть в конкретных цифрах. Приемлемы могут быть ответы и такого рода, например ? 1)точно мел, 2)скорее всего, мел, 3)не исключено, что мел, 4) скорее всего не мел, 5)точно не мел. То есть в виде степени соответствия или исключения. Вот как-бы такая задача. Заранее благодарен за мнения.

Автор: Ident 14.08.2018 - 21:29

Цитата(Ident @ 14.08.2018 - 22:23) *
Определенно.

Я всё таки более оптимистичен в своих ожиданиях, ибо что-то подобное медики решали, правда, не совсем "традиционными" в таких случаях математическими приёмами (в работе, которую я читал, вскользь упоминалось об аппарате размытой логики). Честно говоря, в описанном мной случае пример с дождём очень неудачный вышел. Мой косяк, каюсь). Постараюсь передать суть в несколько другом изложении: Геолог ищет минералы. На данной территории встречается 20 разных минералов (или допустим 50, не суть, просто отмечаю, что небольшая цифра в целом). Каждый минерал имеет описание свойств, но не совсем конкретное. Например, если это мел, то цвет не указывается точно белый, а говорится, мол, чаще белый (допустим в 75%), реже бежевый (20%) и иногда светло-серый (5%). И таких вот физических свойств (кроме цвета, там плотность, блеск, форма и т.д.) у каждого камня допустим 10-12 (не более). Геолога интересует только мел, поэтому свойства других минералов ему не интересны. Обнаружив очередной камень, он фиксирует свои визуальные наблюдения насчёт цвета, плотности и т.д. Понятно, что человек как-то (может даже иррационально) сразу распознаёт искомый объект, не зацикливаясь на логике, но в данном случае интересен именно алгоритм поиска, а не какие-то минералы)). Теперь собственно задача. У геолога два потока информации ? один академический из книги о меле, а другой из его записей. Есть ли способ оценить меру близости между этими данными? То есть можно ли построить мат.модель, которая на основании подобных данных сможет выдавать процент (вероятность) соответствия наблюдаемых показателей уже известным. Результат модели необязательно должен быть в конкретных цифрах. Приемлемы могут быть ответы и такого рода, например ? 1)точно мел, 2)скорее всего, мел, 3)не исключено, что мел, 4) скорее всего не мел, 5)точно не мел. То есть в виде степени соответствия или исключения. Вот как-бы такая задача. Заранее благодарен за мнения.

Очень интересно узнать мнение уважаемого Nokha).

Автор: passant 14.08.2018 - 21:56

Цитата(Ident @ 14.08.2018 - 21:23) *
. Есть ли способ оценить меру близости между этими данными? То есть можно ли построить мат.модель, которая на основании подобных данных сможет выдавать процент (вероятность) соответствия наблюдаемых показателей уже известным. Результат модели необязательно должен быть в конкретных цифрах. Приемлемы могут быть ответы и такого рода, например ? 1)точно мел, 2)скорее всего, мел, 3)не исключено, что мел, 4) скорее всего не мел, 5)точно не мел. То есть в виде степени соответствия или исключения. Вот как-бы такая задача. Заранее благодарен за мнения.

Очень интересно узнать мнение уважаемого Nokha).

Я хоть и не уважаемый Nokha, но робко попытаюсь высказать свое мнение, пока его нет :-)

Это называется "задача классификации" и сопряженная к ней "задача кластеризации". Вполне изученные разделы Machine Learning. Там определяется и степень близости (меры сходства), и способы работы в многомерном признаковом пространстве. Исследуются различные алгоритмы (замечу - алгоритмы классификации и кластеризации бывают не только метрическими, но и логическими, основанными на деревьях решений, основанными на плотностях, на байесовской моделе и пр. зоопарк). Ну и напоследок - имеется целое направление, которое строит нечеткие классификаторы или нечеткие кластеры (т.е. с использованием упомянутой Вами теории нечетких множеств). А также - классификаторы с ранговыми шкалами, что и соответствует задаче, которую собственно вы и описали в своем сообщении.

Автор: 100$ 14.08.2018 - 22:44

>Ident,

нет ничего проще: вся нечеткая теория основана на том, что имеется лингвистическая переменная с градациями от "Так точно" до "А хрен его знает, товарищ майор!". Строите для нее функцию принадлежности, в функцию заряжаете эмпирические данные и получаете искомую степень принадлежности в виде попадания в одну из градаций.
Вот только теория вероятностей и теория нечетких множеств - две разные теории.

Автор: Ident 15.08.2018 - 14:46

Цитата(passant @ 14.08.2018 - 22:56) *
Я хоть и не уважаемый Nokha, но робко попытаюсь высказать свое мнение, пока его нет :-)

Это называется "задача классификации" и сопряженная к ней "задача кластеризации". Вполне изученные разделы Machine Learning. Там определяется и степень близости (меры сходства), и способы работы в многомерном признаковом пространстве. Исследуются различные алгоритмы (замечу - алгоритмы классификации и кластеризации бывают не только метрическими, но и логическими, основанными на деревьях решений, основанными на плотностях, на байесовской моделе и пр. зоопарк). Ну и напоследок - имеется целое направление, которое строит нечеткие классификаторы или нечеткие кластеры (т.е. с использованием упомянутой Вами теории нечетких множеств). А также - классификаторы с ранговыми шкалами, что и соответствует задаче, которую собственно вы и описали в своем сообщении.



Цитата(100$ @ 14.08.2018 - 23:44) *
>Ident,

нет ничего проще: вся нечеткая теория основана на том, что имеется лингвистическая переменная с градациями от "Так точно" до "А хрен его знает, товарищ майор!". Строите для нее функцию принадлежности, в функцию заряжаете эмпирические данные и получаете искомую степень принадлежности в виде попадания в одну из градаций.
Вот только теория вероятностей и теория нечетких множеств - две разные теории.


Спасибо большое, намного теплее). Не подскажите книжку, сайт и т.д., где есть примеры решения таких задач. Заранее благодарен.

Автор: passant 15.08.2018 - 17:32

Цитата(Ident @ 15.08.2018 - 14:46) *
Спасибо большое, намного теплее). Не подскажите книжку, сайт и т.д., где есть примеры решения таких задач. Заранее благодарен.

Даже не знаю, что вам насоветовать... Книг, интернет ссылок, видеокурсов по тематике так много, а копировать сюда что-то из Гугла - тоскливо. И непонятно, что вас конкретно интересует - ML, теория нечетких множеств, реализация на R, на Python? Для медиков? Для экономистов?
Начал писать список, дошел до 25 источников из тех, что у меня на диске - но стер. Оставлю лишь самые базовые.
Для общего развития
- Флах Машинное обучение - наука и искусство построения алгоритмов
Фундаментальные основы.
- Ким Факторный, дискриминантный и факторный анализ
- Мандель Кластерный анализ
- Айвазян Прикладная статистика. Классификация и снижение размерности.
Современные подходы
- Барсегян Анализ данных и процессов
- Орлов Математические методы теории классификации
Для поклонников R
- Шитиков Мастицкий Классификация, регрессия и другие алгоритмы Data Mining с использованием R
Кое-что по нечетким множествам
- Павлов Принятие решений в условиях нечеткой информации
- Гончаров,Кластеризация на основе нечетких отношений. Алгоритм Fuzzy Relation Clastering
- Конышева Основы теории нечетких множеств. Для Бакалавров и специалистов
Есть даже для медиков - в соответственно адаптированном варианте
- Реброва Статистический анализ медицинских данных
- Лапач Статистические методы в медико-биологических исследованиях с использованием EXCEL
- Кочетов Методы статистической обработки медицинских данных
и т.д. до бесконечности. Все легко находится в сети :-)
Будут вопросы - задавайте

Автор: 100$ 15.08.2018 - 18:13

Цитата(Ident @ 15.08.2018 - 14:46) *
... Не подскажите книжку, сайт и т.д., где есть примеры решения таких задач. Заранее благодарен.


Пример решения: если нечто выглядит, как утка, ходит вперевалочку, как утка, и крякает, как утка, то с большой вероятностью это и есть утка. Шутка).

А по поводу функций принадлежности вам http://nrsu.bstu.ru/chap22.html

Автор: passant 15.08.2018 - 18:49

Цитата(100$ @ 15.08.2018 - 18:13) *
А по поводу функций принадлежности вам http://nrsu.bstu.ru/chap22.html

Ну, от функций принадлежностей до классификации на основе нечетких правил еще как до Луны.... ну, вы поняли rolleyes.gif
Если уж куда направлять свой взор по теме (нечеткая классификация и кластеризация), то скорее вот http://matlab.exponenta.ru/fuzzylogic/book1/1_7_5_5.php, http://izv-tn.tti.sfedu.ru/wp-content/uploads/2010/1/23.pdf или http://masters.donntu.org/2015/fknt/krayniy/library/article02.pdf. Только вот прежде, чем углубляться в дебри, ТС стоило бы для начала ознакомиться с азами раздела науки, которую он хотел бы задействовать в своих исследованиях. Мне так кажется (С) angel.gif

Автор: 100$ 15.08.2018 - 19:57

Цитата(passant @ 15.08.2018 - 18:49) *
Ну, от функций принадлежностей до классификации на основе нечетких правил еще как до Луны.... ну, вы поняли rolleyes.gif


Не знаю, passant, не знаю, но, по-видимому, Луна, ближе, чем вы думаете: вот взять, например, вторую ссылку в вашем перечне (pdf-файл известий ЮФУ). В ней аж целых два соавтора наперебой рассказывают сначала о многокритериальном выборе, а затем - задушевно описывают кластеризацию методом нечетких k-средних, придуманную Данном в далеком 1973 году.
(Это - ф-ция fanny{cluster} в R). Ладно, что сходимость этого метода в общем случае не доказана: Бездек установил только, что она достаточно медленная. Но ведь исходную матрицу принадлежностей к кластерам надо же откуда-то взять: алгоритм стартует из матрицы принадлежностей, состоящей из либо случайных чисел, либо их стоит определить именно на основе функций принадлежности, либо разглядеть на потолке.

Автор: Статистик 17.08.2018 - 11:31

Цитата(100$ @ 14.08.2018 - 22:44) *
Вот только теория вероятностей и теория нечетких множеств - две разные теории.

А вот тут я бы поспорила. Есть научные труды, показывающие тесную связь между этими теориями.

Автор: 100$ 17.08.2018 - 12:21

Цитата(Статистик @ 17.08.2018 - 11:31) *
А вот тут я бы поспорила. Есть научные труды, показывающие тесную связь между этими теориями.


Я вас внимательно слушаю.

Автор: Ident 18.08.2018 - 17:25

[quote name='passant' date='15.08.2018 - 19:49' post='23252']
Ну, от функций принадлежностей до классификации на основе нечетких правил еще как до Луны....

[quote name='100$' date='15.08.2018 - 20:57' post='23253']
Не знаю, passant, не знаю, но, по-видимому, Луна, ближе, чем вы думаете:

Спасибо за ответы (впечатляет и небольшая полемика вокруг высказанных мыслей насчёт неё). Но после них у меня тоже ситуация вроде как с Луной) До первого полёта на спутник кто-то из рук. лунного проекта амер. говорил "Привезите мне хотя бы один реголит и я скажу из чего была создана вселенная". Когда привезли он только развёл руками "Увы, вопросов теперь стало ещё больше")). Я полностью разделяю мнение passant, что стоит для начала ознакомиться с азами раздела науки. Но боюсь не тот случай)) Я тут пытался вникнуть в азбуку нечетких классификаций, но увы... Вспомнил, что на восприятие и понимание азов биометрии когда-то ушёл целый семестр с занятиями 3 раза в неделю. Боюсь не осилю. Я медик, но задача которую я решаю не совсем клиническая. В принципе я её описал. Имеется набор признаков характеризующих явление или предмет. Правда характеристики только такого рода, например: известно, что мел в 80% белый, в 70% пористый, в 60% хрупкий и т.д. (около 10 признаков). То есть нечёткие. Обнаружив предмет, допустим белый, не пористый, но хрупкий и т.д. могу ли я оценить степень близости его к мелу? Понятно, что исключить смогу, если он чёрный, не пористый и крепкий. Как товарищи, хорошо разбирающиеся в мире цифр, можете ли мне подсказать как Вы её стали решать? Кластерный анализ, классификация на основе нечетких отношений и т.д. и т.п.? С предложенным способом решения, как-бы уже готовой теоремой, возможно, я не буду уже испытывать таких трудностей. Заранее благодарен.

Автор: 100$ 18.08.2018 - 23:05

Цитата
Я медик, но задача которую я решаю не совсем клиническая. В принципе я её описал. Имеется набор признаков характеризующих явление или предмет. Правда характеристики только такого рода, например: известно, что мел в 80% белый, в 70% пористый, в 60% хрупкий и т.д. (около 10 признаков). То есть нечёткие. Обнаружив предмет, допустим белый, не пористый, но хрупкий и т.д. могу ли я оценить степень близости его к мелу? Понятно, что исключить смогу, если он чёрный, не пористый и крепкий. Как товарищи, хорошо разбирающиеся в мире цифр, можете ли мне подсказать как Вы её стали решать? Кластерный анализ, классификация на основе нечетких отношений и т.д. и т.п.? С предложенным способом решения, как-бы уже готовой теоремой, возможно, я не буду уже испытывать таких трудностей. Заранее благодарен.


Здесь нет единственно возможного решения. Я бы предпочел алгоритмы обучения с учителем (кластеризация - это без учителя).

Автор: Ident 19.08.2018 - 23:06

Цитата(100$ @ 19.08.2018 - 00:05) *
Здесь нет единственно возможного решения. Я бы предпочел алгоритмы обучения с учителем (кластеризация - это без учителя).

Да, думаю Вы правы. Просмотрел некоторые работы А.П.Ротштейна и С.Д.Штовбы, по идентификациям нелинейных зависимостей, что-то понимаю)), но глубоко лезть боюсь -- завязну). Было бы проще, будь прога какая-то, где можно было подобрать функцию принадлежности, ну и дальше, как Вы выразились, в функцию зарядить эмпирические данные и получить искомую степень принадлежности в виде попадания в градации. Упомянутые авторы пишут, что в среде Матлаб можно строить такие функции. Вы сталкивались с чем-то подобным? Выражаясь проще, можно ли самому разобраться с такими софтами при решении подобных задач или тут без кибернетиков не обойтись?

Автор: 100$ 20.08.2018 - 00:35

Цитата(Ident @ 19.08.2018 - 23:06) *
Было бы проще, будь прога какая-то, где можно было подобрать функцию принадлежности,... Упомянутые авторы пишут, что в среде Матлаб можно строить такие функции. Вы сталкивались с чем-то подобным? Выражаясь проще, можно ли самому разобраться с такими софтами при решении подобных задач или тут без кибернетиков не обойтись?


Причем здесь какие-то софты, Матлабы, завлабы, кибернетики, анальгетики etc., о мудрейший Идент? Вы по моей ссылке прогуляйтесь. Там под каждым графиком функции принадлежности есть поля для параметров, играясь с которыми можно посмотреть на "степень кривизны" этих функций. Также приведено их аналитическое описание, по которому можно их посчитать хоть на калькуляторе. Первоклассник - и тот не облажается. Вот и моделируйте степень белизны, пористости, хрупкости своего минерала чем-нибудь S-образным, а потом подставляйте в логистическую регрессию и моделируйте логарифм отношения "вероятность наступления события/1-Вероятность наступления события". И тогда уже не вы будете "пить за кибернетикив", а оне за вас.

Автор: Статистик 20.08.2018 - 12:53

Цитата(100$ @ 17.08.2018 - 12:21) *
Я вас внимательно слушаю.

Когда я писала докторскую диссертацию и искала материалы по своей теме, натыкалась на работы по этой теме. Но т.к. это не совсем область моего научного труда, то ссылки я не сохраняла.
Для Вас, например, нашла для ознакомления следующее
http://www.aup.ru/books/m163/1_4_6.htm
https://cyberleninka.ru/article/n/teoriya-nechetkih-mnozhestv-chast-teorii-veroyatnostey
https://www.researchgate.net/publication/270395750_Teoria_veroatnostej_i_teoria_necetkih_mnozestv_L_Zade_razlicia_i_shodstvo
и даже вот такое есть
https://wp.hse.ru/data/2013/05/30/1284842010/WP2_2013_02_f.pdf

Если Вы действительно интересуетесь этим вопросом, то поищите докторские работы по физ.мат. наукам.
Хотя в прикладном смысле на уровне этого форума можно считать эти теории самостоятельными разными теориями.

Автор: Ident 20.08.2018 - 13:40

Цитата(100$ @ 20.08.2018 - 01:35) *
Причем здесь какие-то софты, Матлабы, завлабы, кибернетики, анальгетики etc., о мудрейший Идент? Вы по моей ссылке прогуляйтесь. Там под каждым графиком функции принадлежности есть поля для параметров, играясь с которыми можно посмотреть на "степень кривизны" этих функций. Также приведено их аналитическое описание, по которому можно их посчитать хоть на калькуляторе. Первоклассник - и тот не облажается. Вот и моделируйте степень белизны, пористости, хрупкости своего минерала чем-нибудь S-образным, а потом подставляйте в логистическую регрессию и моделируйте логарифм отношения "вероятность наступления события/1-Вероятность наступления события". И тогда уже не вы будете "пить за кибернетикив", а оне за вас.

Всё верно, досточтимый Бенджамин), просто я сюда не ходил, а там ходил)) Спасибо за ссылку, думаю, что я получил надёжную дорожную карту и уже разрулю. Но если случиться заблудиться, то постучусь, Вы уж не обессудьте ;) Спасибо ещё раз большое и удачи.

Автор: 100$ 20.08.2018 - 14:20

Цитата(Статистик @ 20.08.2018 - 12:53) *
Когда я писала докторскую диссертацию и искала материалы по своей теме, натыкалась на работы по этой теме. Но т.к. это не совсем область моего научного труда, то ссылки я не сохраняла.
Для Вас, например, нашла для ознакомления следующее
http://www.aup.ru/books/m163/1_4_6.htm
https://cyberleninka.ru/article/n/teoriya-nechetkih-mnozhestv-chast-teorii-veroyatnostey
https://www.researchgate.net/publication/270395750_Teoria_veroatnostej_i_teoria_necetkih_mnozestv_L_Zade_razlicia_i_shodstvo
и даже вот такое есть
https://wp.hse.ru/data/2013/05/30/1284842010/WP2_2013_02_f.pdf

Если Вы действительно интересуетесь этим вопросом, то поищите докторские работы по физ.мат. наукам.
Хотя в прикладном смысле на уровне этого форума можно считать эти теории самостоятельными разными теориями.


Предварительные итоги разговора:
100$: - Яйца - это продукт животного происхождения, а помидоры прикочевали к нам из растительного мира, похоже, это разные вещи.
Статистик: - А вот тут я бы поспорила, поскольку из них можно состряпать яичницу с помидорами!

А если чуть серьезнее, то я пока так и не понял из всех этих замечательных статей (кто ж не читал проф. Орлова?), как из утверждений типа "Минерал скорее белый, чем нет" и "Минерал скорее пористый, чем нет" получить вывод "Братцы, дык это ж мел!".
Ушел работать над собой.

Автор: 100$ 20.08.2018 - 14:25

Цитата(Ident @ 20.08.2018 - 13:40) *
Всё верно, досточтимый Бенджамин), просто я сюда не ходил, а там ходил)) Спасибо за ссылку, думаю, что я получил надёжную дорожную карту и уже разрулю. Но если случиться заблудиться, то постучусь, Вы уж не обессудьте wink.gif Спасибо ещё раз большое и удачи.


И вам успехов. Держите нас в курсе. "Стучите, и откроется вам" (с)

Автор: Статистик 20.08.2018 - 18:11

Цитата(100$ @ 20.08.2018 - 14:20) *
Предварительные итоги разговора:
100$: - Яйца - это продукт животного происхождения, а помидоры прикочевали к нам из растительного мира, похоже, это разные вещи.
Статистик: - А вот тут я бы поспорила, поскольку из них можно состряпать яичницу с помидорами!

А если чуть серьезнее, то я пока так и не понял из всех этих замечательных статей (кто ж не читал проф. Орлова?), как из утверждений типа "Минерал скорее белый, чем нет" и "Минерал скорее пористый, чем нет" получить вывод "Братцы, дык это ж мел!".
Ушел работать над собой.

Если серьезно, то пример не очень.
Я бы сравнила это как отношение между классической механикой Ньютона и теорией относительности.
С точки зрения применяемости (с прикладной точки зрения) вроде как разные теории, а по факту - одно частный случай другого при определенных обстоятельствах.
Но, думаю, в контексте данного форума и конкретно этой темы не стоит заморачиваться. Пусть это будут 2 абсолютно разные теории.

Автор: 100$ 20.08.2018 - 20:59


Цитата
С точки зрения применяемости (с прикладной точки зрения) вроде как разные теории, а по факту - одно частный случай другого при определенных обстоятельствах.


Вы как-то уж очень нечетко выражаетесь: эту цитату надо понимать так, что Ньютоновская механика - частный случай ОТО и СТО? С прикладной точки зрения - разные, а на нормативном уровне - одинаковые, что ли? Я безо всякой задней мысли бескорыстно интересуюсь, если что. Патамушта "при определенных обстоятельствах" хирург - это просто мясник, а просто мясник - хирург. Только эти "определенные обстоятельства" должны найти отражение в системе аксиом.

Цитата
Но, думаю, в контексте данного форума и конкретно этой темы не стоит заморачиваться. Пусть это будут 2 абсолютно разные теории.


Конечно, не стоит. Просто научите нас на основе нечеткого признакового описания объекта делать вероятностные выводы. Без заморочек. Век помнить будем.

Автор: Статистик 21.08.2018 - 11:00

Цитата(100$ @ 20.08.2018 - 20:59) *
Вы как-то уж очень нечетко выражаетесь: эту цитату надо понимать так, что Ньютоновская механика - частный случай ОТО и СТО? С прикладной точки зрения - разные, а на нормативном уровне - одинаковые, что ли? Я безо всякой задней мысли бескорыстно интересуюсь, если что. Патамушта "при определенных обстоятельствах" хирург - это просто мясник, а просто мясник - хирург. Только эти "определенные обстоятельства" должны найти отражение в системе аксиом.

Вот не писала я того, что это одно и то же. Не передергивайте.

Цитата(100$ @ 20.08.2018 - 20:59) *
Конечно, не стоит. Просто научите нас на основе нечеткого признакового описания объекта делать вероятностные выводы. Без заморочек. Век помнить будем.

Не могу, если исходить из того, что теория нечетких множест является частью теории вероятности.

P.S. Предлагаю закончить флуд в этой теме. Я высказала свою точку зрения. Вы с ней не согласились. Каждый имеет право на собственное мнение. У меня сейчс нет возможности искать те труды, из которых я вычитала высказанную выше мысль. Если Вам действительно интересно, Вы можете сами поискать. Если задача доказать, что я говорю ерунду, то я даже готова с Вами согласиться. От меня не убудет)) Возможно, это особенность моего восприятия. Мне всегда нравилось находить общее в разных теориях. И, кстати, это очень сильно помогает осваивать новые знания.

Автор: 100$ 21.08.2018 - 12:44

Цитата(Статистик @ 21.08.2018 - 11:00) *
Предлагаю закончить флуд в этой теме.


Заканчивайте. И побыстрее.

Автор: Ident 28.06.2020 - 16:05

Приветствую уважаемых участников темы в эти нестабильно-вирусные времена. Простите за очередное беспокойство и долгое отсутствие). Как видите свободного времени не всегда хватает, чтобы закончить начатое. Я так и не решил ту задачу с мелом. Много всяких проблем возникает, не до задач, вы уж поймите. Уважаемый Бенджамин и Passant подсказывали как решать, но я так и не разобрался. Буду очень благодарен, если кто из участников более подробно опишет, что делать с мелом))

Автор: passant 28.06.2020 - 16:51

Цитата(Ident @ 28.06.2020 - 16:05) *
Приветствую уважаемых участников темы в эти нестабильно-вирусные времена. Простите за очередное беспокойство и долгое отсутствие). Как видите свободного времени не всегда хватает, чтобы закончить начатое. Я так и не решил ту задачу с мелом. Много всяких проблем возникает, не до задач, вы уж поймите. Уважаемый Бенджамин и Passant подсказывали как решать, но я так и не разобрался. Буду очень благодарен, если кто из участников более подробно опишет, что делать с мелом))

Вы думаете, что за прошедшие два года наука продвинулась так далеко, что предыдущие советы-мнения утратили свою актуальность? Отнюдь. И по сути, добавить-то больше нечего. Попробуйте все-таки разобраться, а вот если что конкретное по дороге станет преградой - давайте думать вместе, как ее преодолеть.
А "подробно описать", так, что-бы ее понял тот, кто за два года не нашел времени разобраться - это надо написать пару десятков, а может и больше страниц объяснений. Только обидно. что потом вы опять пропадете на два года и вернетесь с очередной просьбой "объясните мне все".

Автор: Ident 10.07.2020 - 00:46

[quote name='passant' date='28.06.2020 - 17:51' post='25858']
Спасибо, что дали повод задуматься) Я действительно был не прав, и даже не знаю, что сказать в своё оправдание. Думал, что участники форума, кто имеет математическое образование легко решают такие задачи и им просто недосуг долго возиться с нашими вопросами и заниматься долгими разъяснениями. Я врач по профессии и еле разбираюсь в м-б статистике, а тут такие дебри (самостоятельно пытался ознакомиться с литературой, что Вы советовали, но не осилил - видимо нужен репетитор). Вы уж простите, ибо не ведал, что тема моя действительно интересна и её надо доводить до конца. Честно говоря это не тема диссертации или прочей научной работы, и я как-бы хотел проверить свои наблюдения каким-либо доступным математическим аппаратом. Возможно отсутствие сильной мотивации и явилось причиной сегодняшнего статус-кво. Но в любом случае понимаю, что поступал некорректно и вряд ли заслуживаю прощения. Обещаю впредь быть предельно внимательным.

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)