оптимальная кластеризация больших данных

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

оптимальная кластеризация больших данных

Де бин Анатолий Просмотр профиля	15.08.2014 - 21:15 Сообщение #1
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	Добрый день. Спасибо администрации за идею создания такого полезного форума. Мой вопрос не столь по медицине, сколь из области маркетинга. Я провожу одно исследование. Не вдаваясь в подробности, цель исследования это изучить какие запросы яндексом воспринимаются как семантически близкие. Как я стал это делать. Я сам программист больше, я написал парсер. Работает он так. Ввожу запрос N1, яндекс в ответ дает какие-то ответы запрос?1 ответ?1 ответ?2 ... потом в роли ключевого выступают эти ответы. ответ?1 ответN ответN ответN получается примерно такое. Т.е. по сути все транспонируется. Далее , я стал высчитывать расстояние. Обратите внимание от фразы ремонт компьютеров столбец A1 до фразы ремонт ноутбуков 1 шаг. А от фразы ремонт ноутбуков столбец d1 до фразы ремонт компьютеров тоже 1 шаг. вычитаем расстояние по модулю. 1-1=0 Но на самом деле 0 я равнял к единицы. Эти запросы стоят очень близко. вообще до 10 шагов это считается недалеко друг от друга запросы. Чтобы высчитать эти шаги, я написал макрос. Получаем такой результат. Типа квадратная матрица. Решил спрограммировать граф, но там бешенная каша. Хотелось бы попросить помощи, а именно как лучше мне кластеризовать мои данные . Любой макрос сам напишу.Но меня интересует мнение математиков-профессионалов о том, как лучше визуализировать -кластеризовать мои данные, чтобы не было такое каши. Чтобы была четкая наглядность какие понятие(запросы) близки друг к другу. Буду благодарен за любую подсказку. Прикрепленные файлы ответ.rar ( 69,8 килобайт ) Кол-во скачиваний: 293 макрос.rar ( 171,79 килобайт ) Кол-во скачиваний: 298 корр.граф.rar ( 614,35 килобайт ) Кол-во скачиваний: 290

Ответов

anserovtv Просмотр профиля	28.08.2014 - 20:25 Сообщение #2
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927	Эту ссылку с информацией о том, как примерно устроена автоматическая кодировка, я давно давал. http://www.basegroup.ru/download/demoprg/hamming/ Цитата Сети Хэмминга представляют собой одну из разновидностей нейронных сетей. Принцип работы сетей Хэмминга базируется на определении расстояния Хэмминга между объектами и нахождении наиболее близкого. Хэмминговым расстоянием называется число отличающихся битов в двух бинарных векторах. Для кодирования букв в цифры в нашем случае используется ASCII код, хотя можно использовать и другие методы кодирования. Более того, хорошо подобрав систему кодирования, можно значительно улучшить качество распознавания. Для автоматической кодировки используются специальные программы, одной из которых (скорее всего самой простой) является программа FuzzySearch. Почему бы вам не изучить возможности пакетов, о которых я писал: SAS Text Analytics, IBM SPSS Modeler? Эти пакеты гораздо сложнее (и дороже) разных STATISTICA. Я бы даже и не стал сравнивать. Решение сложной задачи не может быть простым. Существуют и другие программы и пакеты для текстовой аналитики / http://www.sworld.com.ua/simpoz3/3.pdf Google Correlate, Intelligent Miner for Text (IBM) , TextAnalyst, WebAnalyst (Мегапьютер Интеллидженс) ,Text Miner (SAS) , SemioMap (Semio Corp.) , Oracle Text (Oracle) , Knowledge Server (Autonomy) , Galaktika-ZOOM (корпорация "Галактика") ,InfoStream (Информационный центр "ЭЛВИ) Цитата Типичные задачи Text Mining включают категоризацию, кластеризацию текстов, извлечение концептов и объектов, создание таксономий, смысловой анализ, обобщение документации и моделирование объектов, то есть установление связей между различными известными объектами. P.S.Интересен пример применения Text Miner в медицине: в одной из американских национальных здравоохранительных организаций было собрано свыше 10 тыс. врачебных записей о заболеваниях сердца, собранных из клиник по всей стране. Анализируя эти данные с помощью Text Miner, специалисты обнаружили некоторые административные нарушения в отчетности, а также смогли определить взаимосвязь между сердечно-сосудистыми заболеваниями и другими недугами, которые не были определены традиционными методами. http://www.sworld.com.ua/simpoz3/3.pdf Сообщение отредактировал anserovtv - 10.09.2014 - 11:43

Сообщений в этой теме

Де бин Анатолий оптимальная кластеризация больших данных 15.08.2014 - 21:15

anserovtv Ваши функции не являются метриками. В данном случа... 16.08.2014 - 19:25

nokh Цитата(Де бин Анатолий @ 16.08.2014 - 00... 17.08.2014 - 19:24

Де бин Анатолий anserovtv, спасибо Вам, статья полезная. nokh Код ... 17.08.2014 - 22:29

p2004r Ну и что "желтый цвет" должен "симв... 18.08.2014 - 17:15

nokh Какие "фразы", какие "шаги"?... 17.08.2014 - 22:58

anserovtv Де бин Анатолий! Вы не понимаете всю сложност... 18.08.2014 - 07:45

Де бин Анатолий на выходных подробнее отвечу. а касательно последн... 20.08.2014 - 10:26

p2004r Цитата(Де бин Анатолий @ 20.08.2014 - 10... 20.08.2014 - 13:37

Де бин Анатолий Выходные настали. Простите, что не мог на буднях о... 23.08.2014 - 23:17

p2004r Цитата(Де бин Анатолий @ 23.08.2014 - 23... 24.08.2014 - 10:23

anserovtv Эту ссылку с информацией о том, как примерно у... 28.08.2014 - 20:25

« Предыдущая тема · Медицинская статистика · Следующая тема »

Режим отображения: Переключить на: Стандартный · Переключить на: Линейный · Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум