Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> оптимальная кластеризация больших данных
Де бин Анатолий
сообщение 15.08.2014 - 21:15
Сообщение #1





Группа: Пользователи
Сообщений: 25
Регистрация: 15.08.2014
Пользователь №: 26591



Добрый день. Спасибо администрации за идею создания такого полезного форума. Мой вопрос не столь по медицине, сколь из области маркетинга. Я провожу одно исследование. Не вдаваясь в подробности, цель исследования это изучить какие запросы яндексом воспринимаются как семантически близкие. Как я стал это делать. Я сам программист больше, я написал парсер. Работает он так. Ввожу запрос N1, яндекс в ответ дает какие-то ответы
запрос?1
ответ?1
ответ?2
...
потом в роли ключевого выступают эти ответы.
ответ?1
ответN
ответN
ответN
получается примерно такое. Т.е. по сути все транспонируется.

Далее , я стал высчитывать расстояние. Обратите внимание от фразы ремонт компьютеров столбец A1 до фразы ремонт ноутбуков 1 шаг. А от фразы ремонт ноутбуков столбец d1 до фразы ремонт компьютеров тоже 1 шаг. вычитаем расстояние по модулю. 1-1=0 Но на самом деле 0 я равнял к единицы. Эти запросы стоят очень близко. вообще до 10 шагов это считается недалеко друг от друга запросы. Чтобы высчитать эти шаги, я написал макрос. Получаем такой результат. Типа квадратная матрица.
Решил спрограммировать граф, но там бешенная каша.

Хотелось бы попросить помощи, а именно как лучше мне кластеризовать мои данные . Любой макрос сам напишу.Но меня интересует мнение математиков-профессионалов о том, как лучше визуализировать -кластеризовать мои данные, чтобы не было такое каши. Чтобы была четкая наглядность какие понятие(запросы) близки друг к другу.
Буду благодарен за любую подсказку.


Прикрепленные файлы
Прикрепленный файл  ответ.rar ( 69,8 килобайт ) Кол-во скачиваний: 293
Прикрепленный файл  макрос.rar ( 171,79 килобайт ) Кол-во скачиваний: 298
Прикрепленный файл  корр.граф.rar ( 614,35 килобайт ) Кол-во скачиваний: 290
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
anserovtv
сообщение 28.08.2014 - 20:25
Сообщение #2





Группа: Пользователи
Сообщений: 219
Регистрация: 4.06.2013
Из: Тверь
Пользователь №: 24927



Эту ссылку с информацией о том, как примерно устроена автоматическая кодировка, я давно давал. http://www.basegroup.ru/download/demoprg/hamming/
Цитата Сети Хэмминга представляют собой одну из разновидностей нейронных сетей. Принцип работы сетей Хэмминга базируется на определении расстояния Хэмминга между объектами и нахождении наиболее близкого. Хэмминговым расстоянием называется число отличающихся битов в двух бинарных векторах. Для кодирования букв в цифры в нашем случае используется ASCII код, хотя можно использовать и другие методы кодирования. Более того, хорошо подобрав систему кодирования, можно значительно улучшить качество распознавания.
Для автоматической кодировки используются специальные программы, одной из которых (скорее всего самой простой) является программа FuzzySearch.
Почему бы вам не изучить возможности пакетов, о которых я писал: SAS Text Analytics, IBM SPSS Modeler? Эти пакеты гораздо сложнее (и дороже) разных STATISTICA. Я бы даже и не стал сравнивать.
Решение сложной задачи не может быть простым.
Существуют и другие программы и пакеты для текстовой аналитики / http://www.sworld.com.ua/simpoz3/3.pdf
Google Correlate, Intelligent Miner for Text (IBM) , TextAnalyst, WebAnalyst (Мегапьютер Интеллидженс) ,Text Miner (SAS) , SemioMap (Semio Corp.) , Oracle Text (Oracle) , Knowledge Server (Autonomy) , Galaktika-ZOOM (корпорация "Галактика") ,InfoStream (Информационный центр "ЭЛВИ)
Цитата
Типичные задачи Text Mining включают категоризацию, кластеризацию текстов, извлечение концептов и объектов, создание таксономий, смысловой анализ, обобщение документации и моделирование объектов, то есть установление связей между различными известными объектами.
P.S.Интересен пример применения Text Miner в медицине: в одной из американских национальных здравоохранительных организаций было собрано свыше 10 тыс. врачебных записей о заболеваниях сердца, собранных из клиник по всей стране. Анализируя эти данные с помощью Text Miner, специалисты обнаружили некоторые административные нарушения в отчетности, а также смогли определить взаимосвязь между сердечно-сосудистыми заболеваниями и другими недугами, которые не были определены традиционными методами.
http://www.sworld.com.ua/simpoz3/3.pdf

Сообщение отредактировал anserovtv - 10.09.2014 - 11:43
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему