оптимальная кластеризация больших данных

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

оптимальная кластеризация больших данных

Де бин Анатолий Просмотр профиля	15.08.2014 - 21:15 Сообщение #1
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	Добрый день. Спасибо администрации за идею создания такого полезного форума. Мой вопрос не столь по медицине, сколь из области маркетинга. Я провожу одно исследование. Не вдаваясь в подробности, цель исследования это изучить какие запросы яндексом воспринимаются как семантически близкие. Как я стал это делать. Я сам программист больше, я написал парсер. Работает он так. Ввожу запрос N1, яндекс в ответ дает какие-то ответы запрос?1 ответ?1 ответ?2 ... потом в роли ключевого выступают эти ответы. ответ?1 ответN ответN ответN получается примерно такое. Т.е. по сути все транспонируется. Далее , я стал высчитывать расстояние. Обратите внимание от фразы ремонт компьютеров столбец A1 до фразы ремонт ноутбуков 1 шаг. А от фразы ремонт ноутбуков столбец d1 до фразы ремонт компьютеров тоже 1 шаг. вычитаем расстояние по модулю. 1-1=0 Но на самом деле 0 я равнял к единицы. Эти запросы стоят очень близко. вообще до 10 шагов это считается недалеко друг от друга запросы. Чтобы высчитать эти шаги, я написал макрос. Получаем такой результат. Типа квадратная матрица. Решил спрограммировать граф, но там бешенная каша. Хотелось бы попросить помощи, а именно как лучше мне кластеризовать мои данные . Любой макрос сам напишу.Но меня интересует мнение математиков-профессионалов о том, как лучше визуализировать -кластеризовать мои данные, чтобы не было такое каши. Чтобы была четкая наглядность какие понятие(запросы) близки друг к другу. Буду благодарен за любую подсказку. Прикрепленные файлы ответ.rar ( 69,8 килобайт ) Кол-во скачиваний: 293 макрос.rar ( 171,79 килобайт ) Кол-во скачиваний: 298 корр.граф.rar ( 614,35 килобайт ) Кол-во скачиваний: 289

Ответов

anserovtv Просмотр профиля	18.08.2014 - 07:45 Сообщение #2
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927	Де бин Анатолий! Вы не понимаете всю сложность поставленной перед вами задачи. Чтобы использовать стандартное ПО, нужно иметь возможность автоматической специальной перекодировки текстовой информации в числовую. Полагаю, что этот путь - тупиковый, а визуализация результатов в смысле МШ, КА неактуальна. В настоящее время существует специальное ПО для анализа текстовой информации /Text Mining/: SAS Text Analytics, IBM SPSS Modeler и др. Это технологии ИАД - интеллектуального анализа данных. SAS Text Analytics автоматически определяет ключевые слова и тематику сообщений, производит семантический разбор текста и анализирует контекст... http://www.sas.com/ru_ru/software/analytic...--------------- http://www.dp.ru/a/2010/05/15/IBM_dobudet_dlja_korporaci/ Почти уверен в том, что при этом используются методы , о которых я писал выше в сообщении #2. Я этим пока не занимался. Данное ПО стоит огромных денег и для его установки и работы нужны специальные технические условия. P.S. Скорее всего ваша задача является стандартной в текстовой аналитике и давно уже решена и реализована в каком-нибудь пакете Text Mining (и с совсем другой терминологией). Сообщение отредактировал anserovtv - 19.08.2014 - 06:33

Сообщений в этой теме

Де бин Анатолий оптимальная кластеризация больших данных 15.08.2014 - 21:15

anserovtv Ваши функции не являются метриками. В данном случа... 16.08.2014 - 19:25

nokh Цитата(Де бин Анатолий @ 16.08.2014 - 00... 17.08.2014 - 19:24

Де бин Анатолий anserovtv, спасибо Вам, статья полезная. nokh Код ... 17.08.2014 - 22:29

p2004r Ну и что "желтый цвет" должен "симв... 18.08.2014 - 17:15

nokh Какие "фразы", какие "шаги"?... 17.08.2014 - 22:58

anserovtv Де бин Анатолий! Вы не понимаете всю сложност... 18.08.2014 - 07:45

Де бин Анатолий на выходных подробнее отвечу. а касательно последн... 20.08.2014 - 10:26

p2004r Цитата(Де бин Анатолий @ 20.08.2014 - 10... 20.08.2014 - 13:37

Де бин Анатолий Выходные настали. Простите, что не мог на буднях о... 23.08.2014 - 23:17

p2004r Цитата(Де бин Анатолий @ 23.08.2014 - 23... 24.08.2014 - 10:23

anserovtv Эту ссылку с информацией о том, как примерно у... 28.08.2014 - 20:25

« Предыдущая тема · Медицинская статистика · Следующая тема »

Режим отображения: Переключить на: Стандартный · Переключить на: Линейный · Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум