Результаты поиска

Де бин Анатолий Просмотр профиля Найти сообщения пользователя	Отправлено: 28.07.2018 - 17:01
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	Простите, что с не медицинской тематикой лезу, а больше с дизайном эксперимента в маркетинге. Проводя аналитику по сетям кафешек, мы обнаружили странную вещь, что на мытье посуды, тратится очень много ресурсов, а именно: времени, зарплат работникам, затрат на закупку моющего средства и воды. Есть идея, которую я хочу проверить, что моющее средство не оптимально и надо выбрать среди сотней моющих средств на рынке наилучшее в этих условиях. Я не знаю как мне спроектировать план исследования, т.е. начать надо с методологии анализа имеющего средства и сравнения его с другими средствами. Какими мне нужно руководствоваться критериями, метриками, какие признаки исследовать, как собирать данные, уверен тут будет вероятностная математическая модель Если есть какие-то идеи с чего начать план анализа, буду рад каждой.
	Форум: Разное · Просмотр сообщения: #23187 · Ответов: 0 · Просмотров: 2320

Подскажите со стат.методом

Де бин Анатолий Просмотр профиля Найти сообщения пользователя	Отправлено: 16.10.2017 - 12:41
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	Код Это задача в целом стандартная и описывается паттерном "many to one". Решение тоже стандартное -- грузиться library(keras) и описывается сетка с LSTM (хот для такого размера выборки GRU) слоем который и сворачивает историю прибора в вектор стандартной длины. На выходе предиктор "авария есть -- аварии нет". На входе список с историями приборов + всякая его нормализация. установил библиотечку keras нашел в хелпе описание Код layer_conv_lstm_2d {keras} R Documentation Convolutional LSTM. Description It is similar to an LSTM layer, but the input transformations and recurrent transformations are both convolutional. Usage layer_conv_lstm_2d(object, filters, kernel_size, strides = c(1L, 1L), padding = "valid", data_format = NULL, dilation_rate = c(1L, 1L), activation = "tanh", recurrent_activation = "hard_sigmoid", use_bias = TRUE, kernel_initializer = "glorot_uniform", recurrent_initializer = "orthogonal", bias_initializer = "zeros", unit_forget_bias = TRUE, kernel_regularizer = NULL, recurrent_regularizer = NULL, bias_regularizer = NULL, activity_regularizer = NULL, kernel_constraint = NULL, recurrent_constraint = NULL, bias_constraint = NULL, return_sequences = FALSE, go_backwards = FALSE, stateful = FALSE, dropout = 0, recurrent_dropout = 0, batch_size = NULL, name = NULL, trainable = NULL, weights = NULL, input_shape = NULL) А прикладного примера в хелпе нет, обычно он есть. Мне без него сложно перенести идею на мои данные. в роле object мой датасет должен быть? setwd(mydir) mydat=read.csv(mydat)
	Форум: Медицинская статистика · Просмотр сообщения: #21997 · Ответов: 9 · Просмотров: 10041

Подскажите со стат.методом

Де бин Анатолий Просмотр профиля Найти сообщения пользователя	Отправлено: 12.10.2017 - 13:33
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	Приветствую. , пожалуйста, мне тут метод выбрать в такой задаче. У меня есть данные по 80 приборам, по каждому циклу, для каждого прибор, разные датчики дают указание. Как я могу предложить на основании этих данных, что прибор неисправен? Какой статистический метод я должен использовать? Прибор считается вышедшим из строя, если больше измерений по нему нет. Например, есть измерения по циклам 1-151. Значит, что на 152 цикле прибор вышел из строя. Может ли тут помочь анализ выживаемости? Прикрепленные файлы mydat.zip ( 586,63 килобайт ) Кол-во скачиваний: 222
	Форум: Медицинская статистика · Просмотр сообщения: #21977 · Ответов: 9 · Просмотров: 10041

Гетероскедастичность в spss

Де бин Анатолий Просмотр профиля Найти сообщения пользователя	Отправлено: 18.06.2016 - 22:19
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	100$, разобрался с Уайтом. Независимость случайной величины это хорошо или плохо? Если плохо, то как избавиться от А/корр-ции
	Форум: Медицинская статистика · Просмотр сообщения: #19864 · Ответов: 6 · Просмотров: 12054

Гетероскедастичность в spss

Де бин Анатолий Просмотр профиля Найти сообщения пользователя	Отправлено: 15.06.2016 - 16:16
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	100$, а можно Вас попросить кинуть сюда пример расчета в эксель? Я правильно понял, что мы просто берем остатки после регрессии(по "подозрительному регрессору") и делаем корреляцию по Спирману с ними, если она положительная(кстати какой коэффициент считает достаточным,чтобы говорить о гетероскедастичности?), то делаем вывод о гетероскедастичности? Ещё вопрос об автокорреляциях, скажите же, я верно понял, что автокорреляция, это корреляция со временным рядом, но на лаг назад. Т.е. есть 12 месяцев, 12-1=11 месяцев, и я ряд на к-лаг назад коррелирую с исходным рядом. Так почему же нужно избавляться от автокорреляций.
	Форум: Медицинская статистика · Просмотр сообщения: #19859 · Ответов: 6 · Просмотров: 12054

Гетероскедастичность в spss

Де бин Анатолий Просмотр профиля Найти сообщения пользователя	Отправлено: 10.06.2016 - 14:47
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	Здравствуйте. Не подскажите, как в spss посмотреть наличие гетероскедастичности , не только используя графики рассеяния в регрессионном анализе, а в частности интересует реализация теста Уайта. Есть такое или как быть? Также на вики https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%...%B5%D0%BD%D0%B0 говорится, что можно проверить через тест Спирмана. Я знаю про ранговые корреляции Спирмана, но в данном случае, я как не читаю, не понимаю что требуется. Как они через корреляции это определяют?
	Форум: Медицинская статистика · Просмотр сообщения: #19838 · Ответов: 6 · Просмотров: 12054

Вопрос о методологии исследования

Де бин Анатолий Просмотр профиля Найти сообщения пользователя	Отправлено: 14.10.2015 - 15:04
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	В самую точку! Спасибо.
	Форум: Медицинская статистика · Просмотр сообщения: #18855 · Ответов: 2 · Просмотров: 4723

Вопрос о методологии исследования

Де бин Анатолий Просмотр профиля Найти сообщения пользователя	Отправлено: 14.10.2015 - 10:34
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	Необходимо изучить спрос покупателей, а лучше сказать, что они покупают совместно с одним товаром. Например, купил мобильный телефон, ну обычно покупают чехол, ну это простой и ясный пример. Случае посложнее, когда много наименований товара. Как выяснить вот эту вот последовательность притенения товара после покупки первого. Мои мысли это использовать кросстабы и что- то из data mining например, правило ассоциаций. Но тогда вопрос как же правильно оформить набор данных. Как всегда буду благодарен за помощь.
	Форум: Медицинская статистика · Просмотр сообщения: #18853 · Ответов: 2 · Просмотров: 4723

Среднее значение с огромным стандартным отклонением

Де бин Анатолий Просмотр профиля Найти сообщения пользователя	Отправлено: 17.09.2015 - 10:21
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	Ещё чуть-чуть уточню. Говоря о перевыборках , Вы имеете ввиду вот это? http://www.statmethods.net/stats/resampling.html
	Форум: Медицинская статистика · Просмотр сообщения: #18782 · Ответов: 5 · Просмотров: 6848

Среднее значение с огромным стандартным отклонением

Де бин Анатолий Просмотр профиля Найти сообщения пользователя	Отправлено: 15.09.2015 - 10:18
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	p2004r, Вы имеете ввиду сделать трансформацию Бокс-Кокса? Насчет перевыборок пока не въехал, что Вы имеете ввиду. Уточните пожалуйста)
	Форум: Медицинская статистика · Просмотр сообщения: #18774 · Ответов: 5 · Просмотров: 6848

Среднее значение с огромным стандартным отклонением

Де бин Анатолий Просмотр профиля Найти сообщения пользователя	Отправлено: 14.09.2015 - 17:19
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	Подскажите, пожалуйста, столкнулся со странной ситуацией. По одному параметру у меня минимальное значение 0 Максимальное 4000 среднее 5,2 но сигма =11 т.е. 5,2+-11, иными словами разброс от -5,8 до 16,2, но откуда минусовые значения, если в данных меньше нуля точно ничего нет.
	Форум: Медицинская статистика · Просмотр сообщения: #18768 · Ответов: 5 · Просмотров: 6848

почему в SPSS и Statistica разные ре-ты

Де бин Анатолий

Отправлено: 28.04.2015 - 13:57

Группа: Пользователи
Сообщений: 25
Регистрация: 15.08.2014
Пользователь №: 26591

по поводу первого вопроса
ну вот скрин
Мы можем как-то проинтерпретировать это расстояние? что оно значит?

По поводу второго вопроса. Есть ли в R такая возможность, просмотреть матрицу. Если покажите код с меня простава;)

И можно про алгоритмы выбора оптимального числа кластеров? В SPSS или хотя бы в R есть библиотечки?

Эскизы прикрепленных изображений

Форум: Медицинская статистика · Просмотр сообщения: #18430 · Ответов: 7 · Просмотров: 8088

почему в SPSS и Statistica разные ре-ты

Де бин Анатолий Просмотр профиля Найти сообщения пользователя	Отправлено: 28.04.2015 - 12:58
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	1. А как мне интерпретировать вот допустим: наблюдение 1 кластер 2 расстояние =9046523457,445 какой я могу сделать вывод из этого расстояния. Оно подлежит интерпретации 2.Есть ли метод в статистики, который сам определяет требуется ли нормализация или нет. 3.Если в кластере одно наблюдение можно ли этот кластер считать как полноценный?
	Форум: Медицинская статистика · Просмотр сообщения: #18427 · Ответов: 7 · Просмотров: 8088

почему в SPSS и Statistica разные ре-ты

Де бин Анатолий Просмотр профиля Найти сообщения пользователя	Отправлено: 28.04.2015 - 12:02
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	не, у меня совпал 3 раза) А надо данные нормализовывать?
	Форум: Медицинская статистика · Просмотр сообщения: #18424 · Ответов: 7 · Просмотров: 8088

почему в SPSS и Statistica разные ре-ты

Де бин Анатолий Просмотр профиля Найти сообщения пользователя	Отправлено: 28.04.2015 - 11:06
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	Ещё вопросик из экономики. Сделал быстрый кластерный анализ к-мин. Но группы попавшие в 4 кластера в спсс и статистика не совпадают. Вот эксель файл. Там вкладки с результатами кластеризации в спсс и статистика. Из-за чего это? И такой вопрос. На первой вкладке исходные данные. Надо ли эти цифры как-то нормализовывать или оставить как есть,а то они большие, речь о миллионных суммах? Прикрепленные файлы Spreadsheet1.rar ( 119,34 килобайт ) Кол-во скачиваний: 239
	Форум: Медицинская статистика · Просмотр сообщения: #18421 · Ответов: 7 · Просмотров: 8088

Как правильно сделать форекаст на товары

Де бин Анатолий Просмотр профиля Найти сообщения пользователя	Отправлено: 21.04.2015 - 13:45
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	Я знаю, как работает нейронная сеть, а может в ЛС ссылку дадите и это не будет рекламой. 100$, я, кажется, понял, вы имеете ввиду симплексный подход. А почему Вы математику и статистику различаете. И там и там вычисления. Математика ведь основа статистики. По крайней мере нейронные сети это та же статистика, но там много математики. Но в любом случае, вроде направления движения я понял. Спс.
	Форум: Медицинская статистика · Просмотр сообщения: #18405 · Ответов: 9 · Просмотров: 9788

Как правильно сделать форекаст на товары

Де бин Анатолий Просмотр профиля Найти сообщения пользователя	Отправлено: 21.04.2015 - 10:42
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	Разноплановые ответы:) а можно ли при помощи feature engineering как-то сформировать потребительскую корзину и сделать как-то по ней кластеризацию с целью выделения сегментов товаров? anserovtv, а можно хоть как-то ознакомиться с тем как работают эти программы? 100$, а в SPSS есть возможность линейного программирования?
	Форум: Медицинская статистика · Просмотр сообщения: #18402 · Ответов: 9 · Просмотров: 9788

Как правильно сделать форекаст на товары

Де бин Анатолий Просмотр профиля Найти сообщения пользователя	Отправлено: 19.04.2015 - 13:12
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	Хотя форум больше по медицинской статистике, но тут очень много умный людей, которые знают любую статистику. Есть такая задача. Поставщик Х поставляет товары с артикулами А,B,C,D,E,F.. и так далее. Каждые полгода идет новая коллекция и надо снова закупать.(пусть это будут платья) уже артикулы G,H,I,J,K.... По каждому артикулу от предыдущей коллекции от A-F имеется в SQL такая инфа пол (всего их может быть до 9: юношеская для мальчика, юношеская для девушек, взрослая для мужчин, взрослая для женщин....) -цвет -цена -размер -сколько было заказов -какие остатки -статистика продаж каждый день Зная такую информацию, как можно спрогнозировать сколько единиц каждого из артикулов стоит заказать? Как правильно действовать? Буду рад любому совету.
	Форум: Медицинская статистика · Просмотр сообщения: #18386 · Ответов: 9 · Просмотров: 9788

Как проанализировать отсутствие интереса.

Де бин Анатолий Просмотр профиля Найти сообщения пользователя	Отправлено: 6.11.2014 - 14:06
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	Столкнулся с такой проблемой. Написал приложение, запустил бета-тест платный(приложение рассчитано на категорию людей, которые могут заплатить 1500-2000р. за него), но что-то клиентов мало.Какие мне нужны данные, чтобы проанализировать в чем тут дело?
	Форум: Медицинская статистика · Просмотр сообщения: #17680 · Ответов: 0 · Просмотров: 2192

rapid miner, кто работал?

Де бин Анатолий Просмотр профиля Найти сообщения пользователя	Отправлено: 14.09.2014 - 22:45
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	Извините, если надоел rapid miner - хорошая софтина для анализа текста, я его полностью изучил, все понятно, кроме одного: Что там с русским языком? В частности tokenize (разбивка на лексемы). Там только на английском языке, стоп-слова также. Можно там кто-то прикрутить русский язык или быть может есть какое-то расширение. Вообще было бы здорово, если бы кто-то знал, как там накрутить рус. яз.
	Форум: Медицинская статистика · Просмотр сообщения: #17486 · Ответов: 1 · Просмотров: 4863

оптимальная кластеризация больших данных

Де бин Анатолий Просмотр профиля Найти сообщения пользователя	Отправлено: 23.08.2014 - 23:17
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	Выходные настали. Простите, что не мог на буднях ответить. Разрываюсь. Итак давайте начнем отвечать. Хотелось бы начать ответ пользователю Nokh, хоть он решил временно уйти в сторонку. Потому что не столь я Вас не услышал, сколь мы оба друг друга не услышали. Я проанализировал Ваш пост. Я понял вашу идею по поводу организации данных. Я Вас услышал Цитата 2. Меры расстояния. Это очень серьёзно. Если два атрибута встречаются вместе (единицы в строке), то здесь всё более-менее понятно - это уже ассоциация. А если не встречаются (нули в строке)? эта фраза соприкасается с вопросом пользователя p2004r Желтым цветом в моем макросе обозначается как раз-таки отсутствии ассоциации или совстречаемости запросов. Т.е. на запрос X1 выдается ответ X2, Но когда Х2 становится сам запросом ответ X1 не появляется. это желтое. Я потом убрал строчку в макросе, чтобы не мозолила глаза, пусть просто будет пустая клетка Цитата Будем мы считать отсутствие совместной встречаемости за сходство и в какой степени? Или не будем? не будем Цитата Для семантического анализа более подходят другие методы обработки данных, типа анализа главных координат, многомерного шкалирования, ну или хотя бы тот же анализ соответствий. Каждое измерение нового редуцированного пространства имеет вполне поддающуюся осмыслению интерпретацию: одни атрибуты группируются вместе по одним причинам, другие - по другим... Кластерный анализ не удобен для осмысления, т.к. расстояния по всем семантическим размерностям усредняются и кластер на дендрограмме мы вольны трактовать в меру своей (не)компетенции. Именно поэтому я склоняюсь к использованию готовых пакетов для анализа данных, подобных вашим: зачем изобретать велосипед, когда уже есть весь арсенал транспорта? Тут задача из серии big data . На счет КА согласен тут он не уместен. Хотя бы потому что дендрограмма получится сверх огромной, её не проанализируешь. Может я плохо старался на мат.статистике, но помоему такие поп.пакеты как spss,statistica,sas не любят когда в них загружают много данных и речь я веду не о кейсах, их сколь угодно, я больше о переменных. атрибуты, как вы их называете. Что это значит? А это значит, что я и подумал, что мне надо какой-то свой алгоритм разработать, но на базе известных! Мы программеры ленивый народ) Нам не хочется что-то редуцировать, нам хочется один раз сделать алгоритм и пользоваться, т.к. такие задачи будут часто! Пускай он и будет включать сам редуцирование. Т.е. мне надо понять,что в таких случаях делают, а потом уже писать код. Ну и ещё по поводу организации данных. Всегда как нас учили необходимо сначала разбираться какая у нас шкала. С одной стороны, если принюхаться, то можно подумать, что мои данные в номинативной шкале. Но все-таки я думаю они в ранговой шкале. Я не смотрю на них как на качественные признаки. Я смотрю на них как удаленность друг от друга. Кто вообще стоит рядом, а кто-то очень далеко. В плане вашего предположения по организации данных, мне тогда вообще всю методологию менять надо было. Но согласитесь интересно понять почему когда я вижу X1 и получаю ответ Y ,а когда ввожу Y не получаю Х1 ? Почему вдруг с обратной стороны яндекс не считает, что эти ответы чем то близки? Единственное, где я Вас возможно и не услышал, так это то, как вы себе кейсы предствляете. Т.к. столбцы всегда будут такими как есть сейчас. Цитата Вы не понимаете всю сложность поставленной перед вами задачи. ещё как понимаю, иначе бы не просил помочь как такие задачи решаются Цитата Полагаю, что этот путь - тупиковый, а визуализация результатов в смысле МШ, КА неактуальна. и здесь не спорю Цитата Чтобы использовать стандартное ПО, нужно иметь возможность автоматической специальной перекодировки текстовой информации в числовую. так скажите как это делать.собственно для меня это и был начала поста этого. чаша Грааля так сказать. как кодировать то Цитата P.S. Скорее всего ваша задача является стандартной в текстовой аналитике и давно уже решена и реализована в каком-нибудь пакете Text Mining приведите пример этого пакета. Я знаю в статистика есть модуль текст майнинга.но он ограниченный . Кластеризовать тексты он не может его исходные данные это набор текстов и обязательно столбец, где указано относится текст к этой теме или нет. А что если мне не нужно обучать прогу, чтобы на базе текстов она потом могла определить будут ли следующие тексты относится к этой теме или нет. пример тут, я читал, не подходит http://statosphere.ru/blog/136-statistica-...-miner----.html Моя задача это впихать мои 6000 файлов в программу и чтобы она исходя из запросов и снипетов к ним в каждом файле могла сама найти те запросы, которые семантически близки друг к другу. Цитата Ну и что "желтый цвет" должен "символизировать" в distance matrix? думаю вы получили ответ на этот вопрос. Цитата Если это метрика, то в _каждой_ ячейке должно стоять число. Раз ничего нет, то расстояние равно бесконечности (или какому то разумно большому числу). а вот на этот вопрос у меня нет ответа, т.к. если совстречаемости фраз нет, то ячейка пустая(желтая) и что делать тогда ? Как работать с пропущенными данными? Столбец удалять нельзя, там может быть много совстречаемости этой переменной с другой.,строчку тоже ну удалишь , т.к. там может быть тоже много совстречаемости со след.переменными.
	Форум: Медицинская статистика · Просмотр сообщения: #17449 · Ответов: 11 · Просмотров: 12296

оптимальная кластеризация больших данных

Де бин Анатолий Просмотр профиля Найти сообщения пользователя	Отправлено: 20.08.2014 - 10:26
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	на выходных подробнее отвечу. а касательно последнего вопроса. желтый цвет можно убрать, я его делал с целью типа постуя ячейка. совстречаемости между запросами нет. но потом оставил это идею.
	Форум: Медицинская статистика · Просмотр сообщения: #17432 · Ответов: 11 · Просмотров: 12296

оптимальная кластеризация больших данных

Де бин Анатолий

Отправлено: 17.08.2014 - 22:29

Группа: Пользователи
Сообщений: 25
Регистрация: 15.08.2014
Пользователь №: 26591

anserovtv, спасибо Вам, статья полезная.
nokh

Код

Организация данных. Ваши исходные данные организованы таким образом, что никто из посещающих ресурс специалистов не сможет ими воспользоваться. Думаю, что если бы вы выложили кусочек своих данных устроенных иначе, то имели бы уже пару-тройку готовых вариантов решения или рецептов:). В столбцах должны быть атрибуты, которые вы хотите в итоге описать и кластеризовать (хотя кластеризовать можно и случаи по профилям совстречаемости атрибутов), а в строчках - случаи. Пока не совсем понял, что у вас является случаем, скорее всего это конкретные интернет-ресурсы, которые вы с программой мониторите на предмет поиска совстречаемости атрибутов. Такая матрица данных должна содержать только 0 (атрибут не встречается в данном случае) или 1 (встречается). Такую матрицу можно обработать большим числом уже готовых методов, имеющихся в разных статистических пакетах, выбрать наиболее удачные и запрограммировать их уже прицельно - если цель состоит в написании собственного макроса или программы. Если же это исследовательская работа, рациональнее заставить работать макрос только над сбором данных, а анализировать их каком-нибудь в профессиональном и уже давно отлаженном пакете.

Там по сути данные как для многомерного шкалирования.
может в картинках будет понятнее.
вот то что было напарсено
1. вы видите в столбце А какие-то фразы, а потом ,если присмотреться, эти фразы транспонированы. И уже каждая фраза стала сама запросом от которого идут ответы
Я думаю с этим ясно.
D1 ремонт ноутбуков, D4 компьютерная помощь 3 шага.
G1 компьютерная помощь G3 ремонт ноутбуков
3 шага- 2 шага =1 шаг. т.е. запросы стоят близко.

кашеобразный граф, наверное уже видели.

смотрим матрицу
типичный пример данных для КА или МШ

Согласен, что вся исследовательская работа на моих макросах, но какое уже отлаженное ПО сможет мне дать визуализацию. Визуализировать большое кол-во данных это непростая задача. Матрица тут 375х375

Плюс попутно решаю задачу и классификации текстов. У меня есть 6000 документов. в каждом запрос какой-то и к нему по 50 снипетов. Задача исходя из этих данных также посмотреть какие запросы похожи семантически. Можно ли эту задачу решить в среде statistica 10 или тут нужно отдельное ПО.

Эскизы прикрепленных изображений

Форум: Медицинская статистика · Просмотр сообщения: #17424 · Ответов: 11 · Просмотров: 12296

оптимальная кластеризация больших данных

Де бин Анатолий Просмотр профиля Найти сообщения пользователя	Отправлено: 15.08.2014 - 21:15
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591	Добрый день. Спасибо администрации за идею создания такого полезного форума. Мой вопрос не столь по медицине, сколь из области маркетинга. Я провожу одно исследование. Не вдаваясь в подробности, цель исследования это изучить какие запросы яндексом воспринимаются как семантически близкие. Как я стал это делать. Я сам программист больше, я написал парсер. Работает он так. Ввожу запрос N1, яндекс в ответ дает какие-то ответы запрос?1 ответ?1 ответ?2 ... потом в роли ключевого выступают эти ответы. ответ?1 ответN ответN ответN получается примерно такое. Т.е. по сути все транспонируется. Далее , я стал высчитывать расстояние. Обратите внимание от фразы ремонт компьютеров столбец A1 до фразы ремонт ноутбуков 1 шаг. А от фразы ремонт ноутбуков столбец d1 до фразы ремонт компьютеров тоже 1 шаг. вычитаем расстояние по модулю. 1-1=0 Но на самом деле 0 я равнял к единицы. Эти запросы стоят очень близко. вообще до 10 шагов это считается недалеко друг от друга запросы. Чтобы высчитать эти шаги, я написал макрос. Получаем такой результат. Типа квадратная матрица. Решил спрограммировать граф, но там бешенная каша. Хотелось бы попросить помощи, а именно как лучше мне кластеризовать мои данные . Любой макрос сам напишу.Но меня интересует мнение математиков-профессионалов о том, как лучше визуализировать -кластеризовать мои данные, чтобы не было такое каши. Чтобы была четкая наглядность какие понятие(запросы) близки друг к другу. Буду благодарен за любую подсказку. Прикрепленные файлы ответ.rar ( 69,8 килобайт ) Кол-во скачиваний: 243 макрос.rar ( 171,79 килобайт ) Кол-во скачиваний: 249 корр.граф.rar ( 614,35 килобайт ) Кол-во скачиваний: 241
	Форум: Медицинская статистика · Просмотр сообщения: #17417 · Ответов: 11 · Просмотров: 12296

Открытая тема (есть новые ответы)

Открытая тема (нет новых ответов)

Горячая тема (есть новые ответы)

Горячая тема (нет новых ответов)

Опрос (есть новые голоса)

Опрос (нет новых голосов)

Закрытая тема

Тема перемещена