Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Методология анализа данных
scholar
сообщение 28.01.2018 - 23:15
Сообщение #1





Группа: Пользователи
Сообщений: 14
Регистрация: 28.01.2018
Пользователь №: 30897



Добрый день, искал форум где помогают по статистическим методам, нашел ваш. У меня есть большая просьба к опытным математикам и статистикам, чтобы подтолкнуть меня к идее, какие я могу проверить гипотезы, используя данные, собранные из социальной сети.
У меня есть следующие данные с 40 переменными (26 переменных с пабликами и 14 с демографическими переменными). Например.

У меня есть 26 разных групп (1 человек подписался на этот паблик, 0 человек не подписался на этот паблик. Эти паблики имеют разную направленность.)
Например

бизнес (1 подписка, 0 не подписан)



У меня есть несколько десятков тысяч наблюдений.
Скажите, пожалуйста, на основе таких данных, что мы можем сделать, какие гипотезы можно поставить и проверить.
Все, что я решил, это просто проверить гипотезу о том, что группы похожи друг на друга в одном и том же пространстве. Т.е. выполнить анализ соответствий по группам, но все же что-то можно извлечь из данных для извлечения?
Поскольку исходная цель не была установлена, есть данные, из которых что-то нужно извлечь, поэтому я прошу профессиональных математиков и статистиков помочь мне подумать о том, что можно извлечь из этих данных.
Спасибо.

Сообщение отредактировал scholar - 24.02.2018 - 18:56
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
leo_biostat
сообщение 29.01.2018 - 10:41
Сообщение #2





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953



Цитата(scholar @ 28.01.2018 - 23:15) *
Добрый день, искал форум где помогают по статистическим методам, нашел ваш. У меня есть большая просьба к опытным математикам и статистикам, чтобы подтолкнуть меня к идее, какие я могу проверить гипотезы, используя данные, собранные из социальной сети.
У меня есть следующие данные с 40 переменными (26 переменных с пабликами и 14 с демографическими переменными).
..................

У меня есть несколько десятков тысяч наблюдений.
Скажите, пожалуйста, на основе таких данных, что мы можем сделать, какие гипотезы можно поставить и проверить.
Все, что я решил, это просто проверить гипотезу о том, что группы похожи друг на друга в одном и том же пространстве. Т.е. выполнить анализ соответствий по группам, но все же что-то можно извлечь из данных для извлечения?
Поскольку исходная цель не была установлена, есть данные, из которых что-то нужно извлечь, поэтому я прошу профессиональных математиков и статистиков помочь мне подумать о том, что можно извлечь из этих данных.
Спасибо.



Коллега, hi.gif!

Посмотрел вашу Базу Данных. Браво! Отличная БД. Сужу так по этой БД потому, что занимаясь стат. анализом подобных БД более 30 лет, это самая большая БД.
Чаще всего у социологов подобные БД объёмом не более 1-2 тысяч.
Теперь о том, что же можно извлечь из такой отличной БД. Сразу хочу обратить внимание на то, что объёмы извлекаемой информации с помощью разных стат. методов
имеют 2 варианта.

Первый вариант определяется теми задачами, которые конкретно формулирует сам исследователь. Например, его интересует задачи описания
взаимосвязей между собой отдельных признаков, а также различия уже имеющих групп сравнения. В этом случае объём исследования относительно невелик.
Хотя и при этом объём результатов исследования будет определяться ещё и тем, кто конкретно будет проводить этот анализ. Так непрофессиональный
статистик будет использовать самые простые методы анализа. Например, при анализе таблиц сопряжённости будет получать лишь ответ на вопрос, есть ли у пары
качественных, группирующих признаков, между ними взаимосвязь. Тогда как профессионал в статистике для этой задачи может ещё определить и интенсивности
этой связи, СТРУКТУРУ ЭТОЙ СВЯЗИ, возможности изменения количества группировок в анализируемых признаках, и т.д.

Второй вариант определяется пониманием исполнителем этого анализа ВСЕХ возможных методов анализа подобной БД. Опять же объём этих потенциальных
методов будет определяться уровнем профессионализма этого исполнителя.

Теперь о том, что я порекомендую по анализу этой отличной БД.
Во-первых, рекомендую провести кластерный анализ. Т.к. результаты последующих методов анализа могут быть зависимыми от того, а насколько были однородны
и близки обследованные территории, пациенты, да и сами исследователи (не всегда само исследование, опросы, проводит лишь один исследователь).
И поэтому нужно определить, имеются ли скрытые группировки, и насколько эти группировки аномальны относительно друг друга. Варианты этого анализ могут быть разные.
Во-вторых, рекомендую провести анализ таблиц сопряжённости для всех пар группирующих признаков.
Во-третьих, рекомендую провести сравнение групповых параметров по всем количественных признакам. Причём предварительно провести анализ вида самих распределений.
Результат этого анализа поможет выбрать нужные методы и критерии сравнения параметров.
Во-четвёртых, рекомендую провести корреляционный анализ.
Ну и далее следует провести обязательно метод логистической регрессии (см. http://www.biometrica.tomsk.ru/logit_0.htm)
При этом в логистической регрессии использовать разные варианты наборов потенциальных предикторов. И с помощью анализа таблицы сопряжённости провести оценку фактических и прогнозных
распределений сравниваемых групп. Повторю, что в этом случае можно оценить не только уровень связи этой пары признаков (факт и прогноз), но и СТРУКТУРУ СВЯЗИ.

И последнее пожелание. Обязательно сделать графики парных распределений по количественным признакам. Отмечая при этом наблюдения разными группирующими признаками.
Это поможет лучше понять все остальные результаты.

Желаю успеха!

Сообщение отредактировал leo_biostat - 29.01.2018 - 22:40
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему