Выходные настали. Простите, что не мог на буднях ответить. Разрываюсь. Итак давайте начнем отвечать. Хотелось бы начать ответ пользователю
Nokh, хоть он решил временно уйти в сторонку. Потому что не столь я Вас не услышал, сколь мы оба друг друга не услышали.
Я проанализировал Ваш пост.
Я понял вашу идею по поводу организации данных. Я Вас услышал
Цитата
2. Меры расстояния. Это очень серьёзно. Если два атрибута встречаются вместе (единицы в строке), то здесь всё более-менее понятно - это уже ассоциация. А если не встречаются (нули в строке)?
эта фраза соприкасается с вопросом пользователя
p2004r Желтым цветом в моем макросе обозначается как раз-таки отсутствии ассоциации или совстречаемости запросов. Т.е. на запрос X1 выдается ответ X2, Но когда Х2 становится сам запросом ответ X1 не появляется. это желтое. Я потом убрал строчку в макросе, чтобы не мозолила глаза, пусть просто будет пустая клетка
Цитата
Будем мы считать отсутствие совместной встречаемости за сходство и в какой степени? Или не будем?
не будем
Цитата
Для семантического анализа более подходят другие методы обработки данных, типа анализа главных координат, многомерного шкалирования, ну или хотя бы тот же анализ соответствий. Каждое измерение нового редуцированного пространства имеет вполне поддающуюся осмыслению интерпретацию: одни атрибуты группируются вместе по одним причинам, другие - по другим... Кластерный анализ не удобен для осмысления, т.к. расстояния по всем семантическим размерностям усредняются и кластер на дендрограмме мы вольны трактовать в меру своей (не)компетенции. Именно поэтому я склоняюсь к использованию готовых пакетов для анализа данных, подобных вашим: зачем изобретать велосипед, когда уже есть весь арсенал транспорта?
Тут задача из серии big data . На счет КА согласен тут он не уместен. Хотя бы потому что дендрограмма получится сверх огромной, её не проанализируешь. Может я плохо старался на мат.статистике, но помоему такие поп.пакеты как spss,statistica,sas не любят когда в них загружают много данных и речь я веду не о кейсах, их сколь угодно, я больше о переменных. атрибуты, как вы их называете.
Что это значит? А это значит, что я и подумал, что мне надо какой-то свой алгоритм разработать, но на базе известных! Мы программеры ленивый народ) Нам не хочется что-то редуцировать, нам хочется один раз сделать алгоритм и пользоваться, т.к. такие задачи будут часто! Пускай он и будет включать сам редуцирование. Т.е. мне надо понять,что в таких случаях делают, а потом уже писать код.
Ну и ещё по поводу организации данных. Всегда как нас учили необходимо сначала разбираться какая у нас шкала. С одной стороны, если принюхаться, то можно подумать, что мои данные в номинативной шкале. Но все-таки я думаю они в ранговой шкале. Я не смотрю на них как на качественные признаки. Я смотрю на них как удаленность друг от друга. Кто вообще стоит рядом, а кто-то очень далеко.
В плане вашего предположения по организации данных, мне тогда вообще всю методологию менять надо было. Но согласитесь интересно понять почему когда я вижу X1 и получаю ответ Y ,а когда ввожу Y не получаю Х1 ? Почему вдруг с обратной стороны яндекс не считает, что эти ответы чем то близки?
Единственное, где я Вас возможно и не услышал, так это то, как вы себе кейсы предствляете. Т.к. столбцы всегда будут такими как есть сейчас.
Цитата
Вы не понимаете всю сложность поставленной перед вами задачи.
ещё как понимаю, иначе бы не просил помочь как такие задачи решаются
Цитата
Полагаю, что этот путь - тупиковый, а визуализация результатов в смысле МШ, КА неактуальна.
и здесь не спорю
Цитата
Чтобы использовать стандартное ПО, нужно иметь возможность автоматической специальной перекодировки текстовой информации в числовую.
так скажите как это делать.собственно для меня это и был начала поста этого. чаша Грааля так сказать. как кодировать то
Цитата
P.S. Скорее всего ваша задача является стандартной в текстовой аналитике и давно уже решена и реализована в каком-нибудь пакете Text Mining
приведите пример этого пакета. Я знаю в статистика есть модуль текст майнинга.но он ограниченный . Кластеризовать тексты он не может
его исходные данные
это набор текстов и обязательно столбец, где указано относится текст к этой теме или нет. А что если мне не нужно обучать прогу, чтобы на базе текстов она потом могла определить будут ли следующие тексты относится к этой теме или нет.
пример тут, я читал, не подходит
http://statosphere.ru/blog/136-statistica-...-miner----.htmlМоя задача это впихать мои 6000 файлов в программу и чтобы она исходя из запросов и снипетов к ним в каждом файле могла сама найти те запросы, которые семантически близки друг к другу.
Цитата
Ну и что "желтый цвет" должен "символизировать" в distance matrix?
думаю вы получили ответ на этот вопрос.
Цитата
Если это метрика, то в _каждой_ ячейке должно стоять число. Раз ничего нет, то расстояние равно бесконечности (или какому то разумно большому числу).
а вот на этот вопрос у меня нет ответа, т.к. если совстречаемости фраз нет, то ячейка пустая(желтая) и что делать тогда ? Как работать с пропущенными данными? Столбец удалять нельзя, там может быть много совстречаемости этой переменной с другой.,строчку тоже ну удалишь , т.к. там может быть тоже много совстречаемости со след.переменными.