Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Методология анализа данных
scholar
сообщение 28.01.2018 - 23:15
Сообщение #1


Дух форума
*

Группа: Пользователи
Сообщений: 7
Регистрация: 28.01.2018
Пользователь №: 30897



Добрый день, искал форум где помогают по статистическим методам, нашел ваш. У меня есть большая просьба к опытным математикам и статистикам, чтобы подтолкнуть меня к идее, какие я могу проверить гипотезы, используя данные, собранные из социальной сети.
У меня есть следующие данные с 40 переменными (26 переменных с пабликами и 14 с демографическими переменными). Например.

подписан ли человек в группе 1? Категориальный переменная
подписан ли человек в группе 2? Категориальный переменная
подписан ли человек в группе 3? Категориальный переменная
...
подписан ли человек в группе 26? Категориальный переменная
пол(кат.пер)
Возраст (метрическая переменная)
Семейное положение (метрическая пер.)
Есть дети? (категориальная переменная)
Род занятий (категориальная переменная)
количество фотоальбомов (метрическая)
кол-во видео метрическая переменная
количество аудиозаписей
кол-во фото метрическая переменная
Друзья метрическая переменная
Подписчики метрическая переменная
Сообщения метрическая переменная
Группы (сообщества + интересные страницы) метрическая переменная
У меня есть 26 разных групп (1 человек подписался на этот паблик, 0 человек не подписался на этот паблик. Эти паблики имеют разную направленность.)
Например

бизнес (1 подписка, 0 не подписан)
видеоконтент ((1 подписка, 0 не подписан))
геополитика (1 подписка, 0 не подписан)
гороскопы (1 подписка, 0 не подписан)
семьи и дома (1 подписка, 0 без подписки)
защита животных (1 подписка, 0 не подписан)
знаменитости (1 подписка, 0 не подписан)
игры (1 подписка, 0 не подписан)
иностранные языки (1 подписка, 0 не подписан)
литература (1 подписка, 0 не подписан)
...

В итоге данные выглядят так:
прикрепил

У меня есть несколько десятков тысяч наблюдений.
Скажите, пожалуйста, на основе таких данных, что мы можем сделать, какие гипотезы можно поставить и проверить.
Все, что я решил, это просто проверить гипотезу о том, что группы похожи друг на друга в одном и том же пространстве. Т.е. выполнить анализ соответствий по группам, но все же что-то можно извлечь из данных для извлечения?
Поскольку исходная цель не была установлена, есть данные, из которых что-то нужно извлечь, поэтому я прошу профессиональных математиков и статистиков помочь мне подумать о том, что можно извлечь из этих данных.
Спасибо.

Сообщение отредактировал scholar - 29.01.2018 - 14:52
Прикрепленные файлы
Прикрепленный файл  dannye.zip ( 1,23 мегабайт ) Кол-во скачиваний: 8
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 29.01.2018 - 01:58
Сообщение #2


Дух форума
*

Группа: Пользователи
Сообщений: 90
Регистрация: 27.04.2016
Пользователь №: 28223



На самом деле вопрос перевернут с ног на голову. "Профессиональные математики и статистики" не придумывают задачи. Они только помогают специалистам в конкретных доменах (прикладных областях знаний) решать задачи этих областей. Не даром наука о данных предполагает триедиство - "стат.методы/датамайнинг+программный инжиниринг+знание в домене". И даже пример этого форума показывают, что задачи ставят медики-биологи, а математики-статистики только помогают им их решать. Так что если Вы уж "назвались груздем" - то есть специалистом по анализу - то осваивайте те задачи, которые характерны для вашей области, в данном случае - для анализа социальных сетей.
Вообще-то "анализ социальных сетей" - это отдельная специальность, которой обучают в ВУЗе. И нахрапом там - как впрочем и в других областях - многого не достигнешь. А так, на вскидку, из ваших данных можно вытянуть, например, информацию о том, зависит-ли интересы пользователя от определенных демографических и социологических данных и их комбинаций. Информацию о том, что люди из одной группы склонны к участию в каких-то других. Или как интересы человека изменяются со временем. Или сколько детей имеют люди определенной профессии. Даже эти игрушечные примеры могут оказаться весьма интересны для маркетологов. Например для того, что-бы в конечном счете построить некоторую рекомендательную систему.
Так что - спрашивайте в первую очередь тех, кто заказал вам исследование. Или сами "въезжайте" в тему. А уж потом "математики и статистики" смогут вам чем-то помочь.
Удачи.

Сообщение отредактировал passant - 29.01.2018 - 01:59
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
leo_biostat
сообщение 29.01.2018 - 10:41
Сообщение #3


Дух форума
*

Группа: Пользователи
Сообщений: 85
Регистрация: 23.11.2016
Пользователь №: 28953



Цитата(scholar @ 28.01.2018 - 23:15) *
Добрый день, искал форум где помогают по статистическим методам, нашел ваш. У меня есть большая просьба к опытным математикам и статистикам, чтобы подтолкнуть меня к идее, какие я могу проверить гипотезы, используя данные, собранные из социальной сети.
У меня есть следующие данные с 40 переменными (26 переменных с пабликами и 14 с демографическими переменными).
..................

У меня есть несколько десятков тысяч наблюдений.
Скажите, пожалуйста, на основе таких данных, что мы можем сделать, какие гипотезы можно поставить и проверить.
Все, что я решил, это просто проверить гипотезу о том, что группы похожи друг на друга в одном и том же пространстве. Т.е. выполнить анализ соответствий по группам, но все же что-то можно извлечь из данных для извлечения?
Поскольку исходная цель не была установлена, есть данные, из которых что-то нужно извлечь, поэтому я прошу профессиональных математиков и статистиков помочь мне подумать о том, что можно извлечь из этих данных.
Спасибо.



Коллега, hi.gif!

Посмотрел вашу Базу Данных. Браво! Отличная БД. Сужу так по этой БД потому, что занимаясь стат. анализом подобных БД более 30 лет, это самая большая БД.
Чаще всего у социологов подобные БД объёмом не более 1-2 тысяч.
Теперь о том, что же можно извлечь из такой отличной БД. Сразу хочу обратить внимание на то, что объёмы извлекаемой информации с помощью разных стат. методов
имеют 2 варианта.

Первый вариант определяется теми задачами, которые конкретно формулирует сам исследователь. Например, его интересует задачи описания
взаимосвязей между собой отдельных признаков, а также различия уже имеющих групп сравнения. В этом случае объём исследования относительно невелик.
Хотя и при этом объём результатов исследования будет определяться ещё и тем, кто конкретно будет проводить этот анализ. Так непрофессиональный
статистик будет использовать самые простые методы анализа. Например, при анализе таблиц сопряжённости будет получать лишь ответ на вопрос, есть ли у пары
качественных, группирующих признаков, между ними взаимосвязь. Тогда как профессионал в статистике для этой задачи может ещё определить и интенсивности
этой связи, СТРУКТУРУ ЭТОЙ СВЯЗИ, возможности изменения количества группировок в анализируемых признаках, и т.д.

Второй вариант определяется пониманием исполнителем этого анализа ВСЕХ возможных методов анализа подобной БД. Опять же объём этих потенциальных
методов будет определяться уровнем профессионализма этого исполнителя.

Теперь о том, что я порекомендую по анализу этой отличной БД.
Во-первых, рекомендую провести кластерный анализ. Т.к. результаты последующих методов анализа могут быть зависимыми от того, а насколько были однородны
и близки обследованные территории, пациенты, да и сами исследователи (не всегда само исследование, опросы, проводит лишь один исследователь).
И поэтому нужно определить, имеются ли скрытые группировки, и насколько эти группировки аномальны относительно друг друга. Варианты этого анализ могут быть разные.
Во-вторых, рекомендую провести анализ таблиц сопряжённости для всех пар группирующих признаков.
Во-третьих, рекомендую провести сравнение групповых параметров по всем количественных признакам. Причём предварительно провести анализ вида самих распределений.
Результат этого анализа поможет выбрать нужные методы и критерии сравнения параметров.
Во-четвёртых, рекомендую провести корреляционный анализ.
Ну и далее следует провести обязательно метод логистической регрессии (см. http://www.biometrica.tomsk.ru/logit_0.htm)
При этом в логистической регрессии использовать разные варианты наборов потенциальных предикторов. И с помощью анализа таблицы сопряжённости провести оценку фактических и прогнозных
распределений сравниваемых групп. Повторю, что в этом случае можно оценить не только уровень связи этой пары признаков (факт и прогноз), но и СТРУКТУРУ СВЯЗИ.

И последнее пожелание. Обязательно сделать графики парных распределений по количественным признакам. Отмечая при этом наблюдения разными группирующими признаками.
Это поможет лучше понять все остальные результаты.

Желаю успеха!

Сообщение отредактировал leo_biostat - 29.01.2018 - 22:40
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 29.01.2018 - 14:27
Сообщение #4


Дух форума
*

Группа: Пользователи
Сообщений: 586
Регистрация: 23.08.2010
Пользователь №: 22694



Школяр,
я полностью согласен с предыдущими ораторами в том, что столь невнятная постановка(?) вопроса ("А вот у меня есть база данных, чего бы мне захотеть, глядя на нее, как на новые ворота") в принципе не может породить никакого продуктивного обсуждения.
В качестве упражнения в занудстве могу лишь заметить, что базовая хотелка Data Mining'а - поиск нетривиальных знаний в базах данных. Так что вам не худо бы решить, что в вашем случае является нетривиальными знаниями: может быть уверенность в том, что все эти десятки тысяч записей в базе данных в марте 18 г. пойдут на избирательные участки, а не в партизанский отряд / с вилами на Кремль? (нужное подчеркнуть, ненужное зачеркнуть). Или построение очередного бессмысленного графа, из которого ничего не будет понятно, зато красиво? В-общем, думайте. Как додумаетесь до чего-нибудь интересного - сразу к нам.

"Будет новая беда-
Прямиком спеши сюда.
Чай, мы тут в лесу не звери,
Чай, поможем завсегда" (с) Л. Филатов.

Сообщение отредактировал 100$ - 29.01.2018 - 14:35
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
scholar
сообщение 29.01.2018 - 14:48
Сообщение #5


Дух форума
*

Группа: Пользователи
Сообщений: 7
Регистрация: 28.01.2018
Пользователь №: 30897



Спасибо за ответы. Вопрос к leo_biostat.
Вы пишите.
Цитата
Тогда как профессионал в статистике для этой задачи может ещё и определить интенсивности
этой связи, СТРУКТУРУ ЭТОЙ СВЯЗИ, возможности изменения количества группировок в анализируемых признаках, и т.д.

Как мне изучить структуру связи двух качественных признаков, после таблицы сопряженности
Цитата
При этом в логистической регрессии использовать разные варианты наборов потенциальных предикторов. И с помощью анализа таблицы сопряжённости провести оценку фактических и прогнозных
распределений сравниваемых групп. Повторю, что в этом случае можно оценить не только уровень связи этой пары признаков (факт и прогноз), но и СТРУКТУРУ СВЯЗИ.

Здесь тоже непонятно, логистическая регрессия предсказывает вероятность наступления события, но зависима переменная там обычно уже задана.
А как мне её из этих данных получить?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
leo_biostat
сообщение 29.01.2018 - 15:43
Сообщение #6


Дух форума
*

Группа: Пользователи
Сообщений: 85
Регистрация: 23.11.2016
Пользователь №: 28953



Цитата(scholar @ 29.01.2018 - 14:48) *
Спасибо за ответы. Вопрос к leo_biostat.
Вы пишите.

Как мне изучить структуру связи двух качественных признаков, после таблицы сопряженности

Здесь тоже непонятно, логистическая регрессия предсказывает вероятность наступления события, но зависима переменная там обычно уже задана.
А как мне её из этих данных получить?


Увы, эти аспекты доступны лишь профессиональным статистикам. Т.к. для их реализации нужно очень хорошо знать теории всех эти методов.
Если желаете подробнее обсудить эти вопросы, то можете вызвать меня по Скайпу.
Мой ник
leo_1911

Сообщение отредактировал leo_biostat - 29.01.2018 - 17:14
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему