Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> оптимальная кластеризация больших данных
Де бин Анатолий
сообщение 15.08.2014 - 21:15
Сообщение #1





Группа: Пользователи
Сообщений: 25
Регистрация: 15.08.2014
Пользователь №: 26591



Добрый день. Спасибо администрации за идею создания такого полезного форума. Мой вопрос не столь по медицине, сколь из области маркетинга. Я провожу одно исследование. Не вдаваясь в подробности, цель исследования это изучить какие запросы яндексом воспринимаются как семантически близкие. Как я стал это делать. Я сам программист больше, я написал парсер. Работает он так. Ввожу запрос N1, яндекс в ответ дает какие-то ответы
запрос?1
ответ?1
ответ?2
...
потом в роли ключевого выступают эти ответы.
ответ?1
ответN
ответN
ответN
получается примерно такое. Т.е. по сути все транспонируется.

Далее , я стал высчитывать расстояние. Обратите внимание от фразы ремонт компьютеров столбец A1 до фразы ремонт ноутбуков 1 шаг. А от фразы ремонт ноутбуков столбец d1 до фразы ремонт компьютеров тоже 1 шаг. вычитаем расстояние по модулю. 1-1=0 Но на самом деле 0 я равнял к единицы. Эти запросы стоят очень близко. вообще до 10 шагов это считается недалеко друг от друга запросы. Чтобы высчитать эти шаги, я написал макрос. Получаем такой результат. Типа квадратная матрица.
Решил спрограммировать граф, но там бешенная каша.

Хотелось бы попросить помощи, а именно как лучше мне кластеризовать мои данные . Любой макрос сам напишу.Но меня интересует мнение математиков-профессионалов о том, как лучше визуализировать -кластеризовать мои данные, чтобы не было такое каши. Чтобы была четкая наглядность какие понятие(запросы) близки друг к другу.
Буду благодарен за любую подсказку.


Прикрепленные файлы
Прикрепленный файл  ответ.rar ( 69,8 килобайт ) Кол-во скачиваний: 281
Прикрепленный файл  макрос.rar ( 171,79 килобайт ) Кол-во скачиваний: 290
Прикрепленный файл  корр.граф.rar ( 614,35 килобайт ) Кол-во скачиваний: 278
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
Де бин Анатолий
сообщение 17.08.2014 - 22:29
Сообщение #2





Группа: Пользователи
Сообщений: 25
Регистрация: 15.08.2014
Пользователь №: 26591



anserovtv, спасибо Вам, статья полезная.
nokh
Код
Организация данных. Ваши исходные данные организованы таким образом, что никто из посещающих ресурс специалистов не сможет ими воспользоваться. Думаю, что если бы вы выложили кусочек своих данных устроенных иначе, то имели бы уже пару-тройку готовых вариантов решения или рецептов:). В столбцах должны быть атрибуты, которые вы хотите в итоге описать и кластеризовать (хотя кластеризовать можно и случаи по профилям совстречаемости атрибутов), а в строчках - случаи. Пока не совсем понял, что у вас является случаем, скорее всего это конкретные интернет-ресурсы, которые вы с программой мониторите на предмет поиска совстречаемости атрибутов. Такая матрица данных должна содержать только 0 (атрибут не встречается в данном случае) или 1 (встречается). Такую матрицу можно обработать большим числом уже готовых методов, имеющихся в разных статистических пакетах, выбрать наиболее удачные и запрограммировать их уже прицельно - если цель состоит в написании собственного макроса или программы. Если же это исследовательская работа, рациональнее заставить работать макрос только над сбором данных, а анализировать их каком-нибудь в профессиональном и уже давно отлаженном пакете.


Там по сути данные как для многомерного шкалирования.
может в картинках будет понятнее.
вот то что было напарсено
1. вы видите в столбце А какие-то фразы, а потом ,если присмотреться, эти фразы транспонированы. И уже каждая фраза стала сама запросом от которого идут ответы
Я думаю с этим ясно.
D1 ремонт ноутбуков, D4 компьютерная помощь 3 шага.
G1 компьютерная помощь G3 ремонт ноутбуков
3 шага- 2 шага =1 шаг. т.е. запросы стоят близко.

кашеобразный граф, наверное уже видели.


смотрим матрицу
типичный пример данных для КА или МШ

Согласен, что вся исследовательская работа на моих макросах, но какое уже отлаженное ПО сможет мне дать визуализацию. Визуализировать большое кол-во данных это непростая задача. Матрица тут 375х375


Плюс попутно решаю задачу и классификации текстов. У меня есть 6000 документов. в каждом запрос какой-то и к нему по 50 снипетов. Задача исходя из этих данных также посмотреть какие запросы похожи семантически. Можно ли эту задачу решить в среде statistica 10 или тут нужно отдельное ПО.

Сообщение отредактировал Де бин Анатолий - 17.08.2014 - 22:31
Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему