Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Методология анализа данных

Автор: scholar 28.01.2018 - 23:15

Добрый день, искал форум где помогают по статистическим методам, нашел ваш. У меня есть большая просьба к опытным математикам и статистикам, чтобы подтолкнуть меня к идее, какие я могу проверить гипотезы, используя данные, собранные из социальной сети.
У меня есть следующие данные с 40 переменными (26 переменных с пабликами и 14 с демографическими переменными). Например.

У меня есть 26 разных групп (1 человек подписался на этот паблик, 0 человек не подписался на этот паблик. Эти паблики имеют разную направленность.)
Например

бизнес (1 подписка, 0 не подписан)

У меня есть несколько десятков тысяч наблюдений.
Скажите, пожалуйста, на основе таких данных, что мы можем сделать, какие гипотезы можно поставить и проверить.
Все, что я решил, это просто проверить гипотезу о том, что группы похожи друг на друга в одном и том же пространстве. Т.е. выполнить анализ соответствий по группам, но все же что-то можно извлечь из данных для извлечения?
Поскольку исходная цель не была установлена, есть данные, из которых что-то нужно извлечь, поэтому я прошу профессиональных математиков и статистиков помочь мне подумать о том, что можно извлечь из этих данных.
Спасибо.

Автор: passant 29.01.2018 - 01:58

На самом деле вопрос перевернут с ног на голову. "Профессиональные математики и статистики" не придумывают задачи. Они только помогают специалистам в конкретных доменах (прикладных областях знаний) решать задачи этих областей. Не даром наука о данных предполагает триедиство - "стат.методы/датамайнинг+программный инжиниринг+знание в домене". И даже пример этого форума показывают, что задачи ставят медики-биологи, а математики-статистики только помогают им их решать. Так что если Вы уж "назвались груздем" - то есть специалистом по анализу - то осваивайте те задачи, которые характерны для вашей области, в данном случае - для анализа социальных сетей.
Вообще-то "анализ социальных сетей" - это отдельная специальность, которой обучают в ВУЗе. И нахрапом там - как впрочем и в других областях - многого не достигнешь. А так, на вскидку, из ваших данных можно вытянуть, например, информацию о том, зависит-ли интересы пользователя от определенных демографических и социологических данных и их комбинаций. Информацию о том, что люди из одной группы склонны к участию в каких-то других. Или как интересы человека изменяются со временем. Или сколько детей имеют люди определенной профессии. Даже эти игрушечные примеры могут оказаться весьма интересны для маркетологов. Например для того, что-бы в конечном счете построить некоторую рекомендательную систему.
Так что - спрашивайте в первую очередь тех, кто заказал вам исследование. Или сами "въезжайте" в тему. А уж потом "математики и статистики" смогут вам чем-то помочь.
Удачи.

Автор: leo_biostat 29.01.2018 - 10:41

Цитата(scholar @ 28.01.2018 - 23:15)

Добрый день, искал форум где помогают по статистическим методам, нашел ваш. У меня есть большая просьба к опытным математикам и статистикам, чтобы подтолкнуть меня к идее, какие я могу проверить гипотезы, используя данные, собранные из социальной сети.
У меня есть следующие данные с 40 переменными (26 переменных с пабликами и 14 с демографическими переменными).
..................

У меня есть несколько десятков тысяч наблюдений.
Скажите, пожалуйста, на основе таких данных, что мы можем сделать, какие гипотезы можно поставить и проверить.
Все, что я решил, это просто проверить гипотезу о том, что группы похожи друг на друга в одном и том же пространстве. Т.е. выполнить анализ соответствий по группам, но все же что-то можно извлечь из данных для извлечения?
Поскольку исходная цель не была установлена, есть данные, из которых что-то нужно извлечь, поэтому я прошу профессиональных математиков и статистиков помочь мне подумать о том, что можно извлечь из этих данных.
Спасибо.

Коллега,

!

Посмотрел вашу Базу Данных. Браво! Отличная БД. Сужу так по этой БД потому, что занимаясь стат. анализом подобных БД более 30 лет, это самая большая БД.
Чаще всего у социологов подобные БД объёмом не более 1-2 тысяч.
Теперь о том, что же можно извлечь из такой отличной БД. Сразу хочу обратить внимание на то, что объёмы извлекаемой информации с помощью разных стат. методов
имеют 2 варианта.

Первый вариант определяется теми задачами, которые конкретно формулирует сам исследователь. Например, его интересует задачи описания
взаимосвязей между собой отдельных признаков, а также различия уже имеющих групп сравнения. В этом случае объём исследования относительно невелик.
Хотя и при этом объём результатов исследования будет определяться ещё и тем, кто конкретно будет проводить этот анализ. Так непрофессиональный
статистик будет использовать самые простые методы анализа. Например, при анализе таблиц сопряжённости будет получать лишь ответ на вопрос, есть ли у пары
качественных, группирующих признаков, между ними взаимосвязь. Тогда как профессионал в статистике для этой задачи может ещё определить и интенсивности
этой связи, СТРУКТУРУ ЭТОЙ СВЯЗИ, возможности изменения количества группировок в анализируемых признаках, и т.д.

Второй вариант определяется пониманием исполнителем этого анализа ВСЕХ возможных методов анализа подобной БД. Опять же объём этих потенциальных
методов будет определяться уровнем профессионализма этого исполнителя.

Теперь о том, что я порекомендую по анализу этой отличной БД.
Во-первых, рекомендую провести кластерный анализ. Т.к. результаты последующих методов анализа могут быть зависимыми от того, а насколько были однородны
и близки обследованные территории, пациенты, да и сами исследователи (не всегда само исследование, опросы, проводит лишь один исследователь).
И поэтому нужно определить, имеются ли скрытые группировки, и насколько эти группировки аномальны относительно друг друга. Варианты этого анализ могут быть разные.
Во-вторых, рекомендую провести анализ таблиц сопряжённости для всех пар группирующих признаков.
Во-третьих, рекомендую провести сравнение групповых параметров по всем количественных признакам. Причём предварительно провести анализ вида самих распределений.
Результат этого анализа поможет выбрать нужные методы и критерии сравнения параметров.
Во-четвёртых, рекомендую провести корреляционный анализ.
Ну и далее следует провести обязательно метод логистической регрессии (см. http://www.biometrica.tomsk.ru/logit_0.htm)
При этом в логистической регрессии использовать разные варианты наборов потенциальных предикторов. И с помощью анализа таблицы сопряжённости провести оценку фактических и прогнозных
распределений сравниваемых групп. Повторю, что в этом случае можно оценить не только уровень связи этой пары признаков (факт и прогноз), но и СТРУКТУРУ СВЯЗИ.

И последнее пожелание. Обязательно сделать графики парных распределений по количественным признакам. Отмечая при этом наблюдения разными группирующими признаками.
Это поможет лучше понять все остальные результаты.

Желаю успеха!

Автор: 100$ 29.01.2018 - 14:27

Школяр,
я полностью согласен с предыдущими ораторами в том, что столь невнятная постановка(?) вопроса ("А вот у меня есть база данных, чего бы мне захотеть, глядя на нее, как на новые ворота") в принципе не может породить никакого продуктивного обсуждения.
В качестве упражнения в занудстве могу лишь заметить, что базовая хотелка Data Mining'а - поиск нетривиальных знаний в базах данных. Так что вам не худо бы решить, что в вашем случае является нетривиальными знаниями: может быть уверенность в том, что все эти десятки тысяч записей в базе данных в марте 18 г. пойдут на избирательные участки, а не в партизанский отряд / с вилами на Кремль? (нужное подчеркнуть, ненужное зачеркнуть). Или построение очередного бессмысленного графа, из которого ничего не будет понятно, зато красиво? В-общем, думайте. Как додумаетесь до чего-нибудь интересного - сразу к нам.

"Будет новая беда-
Прямиком спеши сюда.
Чай, мы тут в лесу не звери,
Чай, поможем завсегда" (с) Л. Филатов.

Автор: scholar 29.01.2018 - 14:48

Спасибо за ответы. Вопрос к leo_biostat.
Вы пишите.

Цитата

Тогда как профессионал в статистике для этой задачи может ещё и определить интенсивности
этой связи, СТРУКТУРУ ЭТОЙ СВЯЗИ, возможности изменения количества группировок в анализируемых признаках, и т.д.

Как мне изучить структуру связи двух качественных признаков, после таблицы сопряженности

Цитата

При этом в логистической регрессии использовать разные варианты наборов потенциальных предикторов. И с помощью анализа таблицы сопряжённости провести оценку фактических и прогнозных
распределений сравниваемых групп. Повторю, что в этом случае можно оценить не только уровень связи этой пары признаков (факт и прогноз), но и СТРУКТУРУ СВЯЗИ.

Здесь тоже непонятно, логистическая регрессия предсказывает вероятность наступления события, но зависима переменная там обычно уже задана.
А как мне её из этих данных получить?

Автор: leo_biostat 29.01.2018 - 15:43

Цитата(scholar @ 29.01.2018 - 14:48)

Спасибо за ответы. Вопрос к leo_biostat.
Вы пишите.

Как мне изучить структуру связи двух качественных признаков, после таблицы сопряженности

Здесь тоже непонятно, логистическая регрессия предсказывает вероятность наступления события, но зависима переменная там обычно уже задана.
А как мне её из этих данных получить?

Увы, эти аспекты доступны лишь профессиональным статистикам. Т.к. для их реализации нужно очень хорошо знать теории всех эти методов.
Если желаете подробнее обсудить эти вопросы, то можете вызвать меня по Скайпу.
Мой ник
leo_1911