Здравствуйте, гость ( Вход | Регистрация )
15.08.2014 - 21:15
Сообщение
#1
|
|
|
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591 |
Добрый день. Спасибо администрации за идею создания такого полезного форума. Мой вопрос не столь по медицине, сколь из области маркетинга. Я провожу одно исследование. Не вдаваясь в подробности, цель исследования это изучить какие запросы яндексом воспринимаются как семантически близкие. Как я стал это делать. Я сам программист больше, я написал парсер. Работает он так. Ввожу запрос N1, яндекс в ответ дает какие-то ответы
запрос?1 ответ?1 ответ?2 ... потом в роли ключевого выступают эти ответы. ответ?1 ответN ответN ответN получается примерно такое. Т.е. по сути все транспонируется. Далее , я стал высчитывать расстояние. Обратите внимание от фразы ремонт компьютеров столбец A1 до фразы ремонт ноутбуков 1 шаг. А от фразы ремонт ноутбуков столбец d1 до фразы ремонт компьютеров тоже 1 шаг. вычитаем расстояние по модулю. 1-1=0 Но на самом деле 0 я равнял к единицы. Эти запросы стоят очень близко. вообще до 10 шагов это считается недалеко друг от друга запросы. Чтобы высчитать эти шаги, я написал макрос. Получаем такой результат. Типа квадратная матрица. Решил спрограммировать граф, но там бешенная каша. Хотелось бы попросить помощи, а именно как лучше мне кластеризовать мои данные . Любой макрос сам напишу.Но меня интересует мнение математиков-профессионалов о том, как лучше визуализировать -кластеризовать мои данные, чтобы не было такое каши. Чтобы была четкая наглядность какие понятие(запросы) близки друг к другу. Буду благодарен за любую подсказку.
Прикрепленные файлы
ответ.rar ( 69,8 килобайт )
Кол-во скачиваний: 293
макрос.rar ( 171,79 килобайт )
Кол-во скачиваний: 298
корр.граф.rar ( 614,35 килобайт )
Кол-во скачиваний: 289 |
|
|
![]() |
![]() |
![]() |
16.08.2014 - 19:25
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Ваши функции не являются метриками.
В данном случае применяются совсем другие (и очень сложные!) методы - нечеткий поиск (нечеткая логика). Используют специальные нейронные сети - сети Хэмминга и специальные метрики с кодировкой. http://habrahabr.ru/post/114997/ Существуют несложные бесплатные программы типа FuzzySearch / приложение к аналитической платформе Deductor/, демонстрирующие на простых примерах идеи данного метода. Программу FuzzySearch легко скачать и установить. Автоматически создаете словарь, т.е. открываете из программы текстовый файл Word нужного типа (обычный текст, расширение txt ) и выполняете нечеткий поиск нужного "слова" в словаре. Программа работает и с буквами (русскими, латинскими) и с цифрами. http://www.basegroup.ru/download/demoprg/hamming/ P.S. Почти уверен в том, что время написания и отладки программы с уровнем, сравнимым с уровнем программ , применяемых в поисковых системах , можно смело измерять в годах. Сообщение отредактировал anserovtv - 17.08.2014 - 16:06 |
|
|
![]() |
![]() |
Де бин Анатолий оптимальная кластеризация больших данных 15.08.2014 - 21:15
nokh Цитата(Де бин Анатолий @ 16.08.2014 - 00... 17.08.2014 - 19:24
Де бин Анатолий anserovtv, спасибо Вам, статья полезная.
nokh
Код ... 17.08.2014 - 22:29
p2004r Ну и что "желтый цвет" должен "симв... 18.08.2014 - 17:15
nokh Какие "фразы", какие "шаги"?... 17.08.2014 - 22:58
anserovtv Де бин Анатолий!
Вы не понимаете всю сложност... 18.08.2014 - 07:45
Де бин Анатолий на выходных подробнее отвечу. а касательно последн... 20.08.2014 - 10:26
p2004r Цитата(Де бин Анатолий @ 20.08.2014 - 10... 20.08.2014 - 13:37
Де бин Анатолий Выходные настали. Простите, что не мог на буднях о... 23.08.2014 - 23:17
p2004r Цитата(Де бин Анатолий @ 23.08.2014 - 23... 24.08.2014 - 10:23
anserovtv Эту ссылку с информацией о том, как примерно у... 28.08.2014 - 20:25![]() ![]() |