Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> оптимальная кластеризация больших данных
Де бин Анатолий
сообщение 15.08.2014 - 21:15
Сообщение #1





Группа: Пользователи
Сообщений: 25
Регистрация: 15.08.2014
Пользователь №: 26591



Добрый день. Спасибо администрации за идею создания такого полезного форума. Мой вопрос не столь по медицине, сколь из области маркетинга. Я провожу одно исследование. Не вдаваясь в подробности, цель исследования это изучить какие запросы яндексом воспринимаются как семантически близкие. Как я стал это делать. Я сам программист больше, я написал парсер. Работает он так. Ввожу запрос N1, яндекс в ответ дает какие-то ответы
запрос?1
ответ?1
ответ?2
...
потом в роли ключевого выступают эти ответы.
ответ?1
ответN
ответN
ответN
получается примерно такое. Т.е. по сути все транспонируется.

Далее , я стал высчитывать расстояние. Обратите внимание от фразы ремонт компьютеров столбец A1 до фразы ремонт ноутбуков 1 шаг. А от фразы ремонт ноутбуков столбец d1 до фразы ремонт компьютеров тоже 1 шаг. вычитаем расстояние по модулю. 1-1=0 Но на самом деле 0 я равнял к единицы. Эти запросы стоят очень близко. вообще до 10 шагов это считается недалеко друг от друга запросы. Чтобы высчитать эти шаги, я написал макрос. Получаем такой результат. Типа квадратная матрица.
Решил спрограммировать граф, но там бешенная каша.

Хотелось бы попросить помощи, а именно как лучше мне кластеризовать мои данные . Любой макрос сам напишу.Но меня интересует мнение математиков-профессионалов о том, как лучше визуализировать -кластеризовать мои данные, чтобы не было такое каши. Чтобы была четкая наглядность какие понятие(запросы) близки друг к другу.
Буду благодарен за любую подсказку.


Прикрепленные файлы
Прикрепленный файл  ответ.rar ( 69,8 килобайт ) Кол-во скачиваний: 293
Прикрепленный файл  макрос.rar ( 171,79 килобайт ) Кол-во скачиваний: 298
Прикрепленный файл  корр.граф.rar ( 614,35 килобайт ) Кол-во скачиваний: 289
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
anserovtv
сообщение 18.08.2014 - 07:45
Сообщение #2





Группа: Пользователи
Сообщений: 219
Регистрация: 4.06.2013
Из: Тверь
Пользователь №: 24927



Де бин Анатолий!
Вы не понимаете всю сложность поставленной перед вами задачи.
Чтобы использовать стандартное ПО, нужно иметь возможность автоматической специальной перекодировки текстовой информации в числовую.
Полагаю, что этот путь - тупиковый, а визуализация результатов в смысле МШ, КА неактуальна.
В настоящее время существует специальное ПО для анализа текстовой информации /Text Mining/:
SAS Text Analytics, IBM SPSS Modeler и др.

Это технологии ИАД - интеллектуального анализа данных.
SAS Text Analytics автоматически определяет ключевые слова и тематику сообщений, производит семантический разбор текста и анализирует контекст...
http://www.sas.com/ru_ru/software/analytic...---------------
http://www.dp.ru/a/2010/05/15/IBM_dobudet_dlja_korporaci/
Почти уверен в том, что при этом используются методы , о которых я писал выше в сообщении #2.
Я этим пока не занимался. Данное ПО стоит огромных денег и для его установки и работы нужны специальные технические условия.
P.S. Скорее всего ваша задача является стандартной в текстовой аналитике и давно уже решена и реализована в каком-нибудь пакете Text Mining
(и с совсем другой терминологией).

Сообщение отредактировал anserovtv - 19.08.2014 - 06:33
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему