Цитата(scholar @ 28.01.2018 - 23:15)

Добрый день, искал форум где помогают по статистическим методам, нашел ваш. У меня есть большая просьба к опытным математикам и статистикам, чтобы подтолкнуть меня к идее, какие я могу проверить гипотезы, используя данные, собранные из социальной сети.
У меня есть следующие данные с 40 переменными (26 переменных с пабликами и 14 с демографическими переменными).
..................
У меня есть несколько десятков тысяч наблюдений.
Скажите, пожалуйста, на основе таких данных, что мы можем сделать, какие гипотезы можно поставить и проверить.
Все, что я решил, это просто проверить гипотезу о том, что группы похожи друг на друга в одном и том же пространстве. Т.е. выполнить анализ соответствий по группам, но все же что-то можно извлечь из данных для извлечения?
Поскольку исходная цель не была установлена, есть данные, из которых что-то нужно извлечь, поэтому я прошу профессиональных математиков и статистиков помочь мне подумать о том, что можно извлечь из этих данных.
Спасибо.
Коллега,

!
Посмотрел вашу Базу Данных. Браво! Отличная БД. Сужу так по этой БД потому, что занимаясь стат. анализом подобных БД более 30 лет, это самая большая БД.
Чаще всего у социологов подобные БД объёмом не более 1-2 тысяч.
Теперь о том, что же можно извлечь из такой отличной БД. Сразу хочу обратить внимание на то, что объёмы извлекаемой информации с помощью разных стат. методов
имеют 2 варианта.
Первый вариант определяется теми задачами, которые конкретно формулирует сам исследователь. Например, его интересует задачи описания
взаимосвязей между собой отдельных признаков, а также различия уже имеющих групп сравнения. В этом случае объём исследования относительно невелик.
Хотя и при этом объём результатов исследования будет определяться ещё и тем, кто конкретно будет проводить этот анализ. Так непрофессиональный
статистик будет использовать самые простые методы анализа. Например, при анализе таблиц сопряжённости будет получать лишь ответ на вопрос, есть ли у пары
качественных, группирующих признаков, между ними взаимосвязь. Тогда как профессионал в статистике для этой задачи может ещё определить и интенсивности
этой связи,
СТРУКТУРУ ЭТОЙ СВЯЗИ, возможности изменения количества группировок в анализируемых признаках, и т.д.
Второй вариант определяется пониманием исполнителем этого анализа ВСЕХ возможных методов анализа подобной БД. Опять же объём этих потенциальных
методов будет определяться уровнем профессионализма этого исполнителя.
Теперь о том, что я порекомендую по анализу этой отличной БД.
Во-первых, рекомендую провести кластерный анализ. Т.к. результаты последующих методов анализа могут быть зависимыми от того, а насколько были однородны
и близки обследованные территории, пациенты, да и сами исследователи (не всегда само исследование, опросы, проводит лишь один исследователь).
И поэтому нужно определить, имеются ли скрытые группировки, и насколько эти группировки аномальны относительно друг друга. Варианты этого анализ могут быть разные.
Во-вторых, рекомендую провести анализ таблиц сопряжённости для всех пар группирующих признаков.
Во-третьих, рекомендую провести сравнение групповых параметров по всем количественных признакам. Причём предварительно провести анализ вида самих распределений.
Результат этого анализа поможет выбрать нужные методы и критерии сравнения параметров.
Во-четвёртых, рекомендую провести корреляционный анализ.
Ну и далее следует провести обязательно метод логистической регрессии (см.
http://www.biometrica.tomsk.ru/logit_0.htm)
При этом в логистической регрессии использовать разные варианты наборов потенциальных предикторов. И с помощью анализа таблицы сопряжённости провести оценку фактических и прогнозных
распределений сравниваемых групп. Повторю, что в этом случае можно оценить не только уровень связи этой пары признаков (факт и прогноз), но и
СТРУКТУРУ СВЯЗИ. И последнее пожелание. Обязательно сделать графики парных распределений по количественным признакам. Отмечая при этом наблюдения разными группирующими признаками.
Это поможет лучше понять все остальные результаты.
Желаю успеха!