Методология анализа данных - Форум врачей-аспирантов

Методология анализа данных

scholar Просмотр профиля	28.01.2018 - 23:15 Сообщение #1
Группа: Пользователи Сообщений: 14 Регистрация: 28.01.2018 Пользователь №: 30897	Добрый день, искал форум где помогают по статистическим методам, нашел ваш. У меня есть большая просьба к опытным математикам и статистикам, чтобы подтолкнуть меня к идее, какие я могу проверить гипотезы, используя данные, собранные из социальной сети. У меня есть следующие данные с 40 переменными (26 переменных с пабликами и 14 с демографическими переменными). Например. У меня есть 26 разных групп (1 человек подписался на этот паблик, 0 человек не подписался на этот паблик. Эти паблики имеют разную направленность.) Например бизнес (1 подписка, 0 не подписан) У меня есть несколько десятков тысяч наблюдений. Скажите, пожалуйста, на основе таких данных, что мы можем сделать, какие гипотезы можно поставить и проверить. Все, что я решил, это просто проверить гипотезу о том, что группы похожи друг на друга в одном и том же пространстве. Т.е. выполнить анализ соответствий по группам, но все же что-то можно извлечь из данных для извлечения? Поскольку исходная цель не была установлена, есть данные, из которых что-то нужно извлечь, поэтому я прошу профессиональных математиков и статистиков помочь мне подумать о том, что можно извлечь из этих данных. Спасибо. Сообщение отредактировал scholar - 24.02.2018 - 18:56

Ответов

leo_biostat Просмотр профиля	29.01.2018 - 10:41 Сообщение #2
Группа: Пользователи Сообщений: 105 Регистрация: 23.11.2016 Пользователь №: 28953	Цитата(scholar @ 28.01.2018 - 23:15) Добрый день, искал форум где помогают по статистическим методам, нашел ваш. У меня есть большая просьба к опытным математикам и статистикам, чтобы подтолкнуть меня к идее, какие я могу проверить гипотезы, используя данные, собранные из социальной сети. У меня есть следующие данные с 40 переменными (26 переменных с пабликами и 14 с демографическими переменными). .................. У меня есть несколько десятков тысяч наблюдений. Скажите, пожалуйста, на основе таких данных, что мы можем сделать, какие гипотезы можно поставить и проверить. Все, что я решил, это просто проверить гипотезу о том, что группы похожи друг на друга в одном и том же пространстве. Т.е. выполнить анализ соответствий по группам, но все же что-то можно извлечь из данных для извлечения? Поскольку исходная цель не была установлена, есть данные, из которых что-то нужно извлечь, поэтому я прошу профессиональных математиков и статистиков помочь мне подумать о том, что можно извлечь из этих данных. Спасибо. Коллега, ! Посмотрел вашу Базу Данных. Браво! Отличная БД. Сужу так по этой БД потому, что занимаясь стат. анализом подобных БД более 30 лет, это самая большая БД. Чаще всего у социологов подобные БД объёмом не более 1-2 тысяч. Теперь о том, что же можно извлечь из такой отличной БД. Сразу хочу обратить внимание на то, что объёмы извлекаемой информации с помощью разных стат. методов имеют 2 варианта. Первый вариант определяется теми задачами, которые конкретно формулирует сам исследователь. Например, его интересует задачи описания взаимосвязей между собой отдельных признаков, а также различия уже имеющих групп сравнения. В этом случае объём исследования относительно невелик. Хотя и при этом объём результатов исследования будет определяться ещё и тем, кто конкретно будет проводить этот анализ. Так непрофессиональный статистик будет использовать самые простые методы анализа. Например, при анализе таблиц сопряжённости будет получать лишь ответ на вопрос, есть ли у пары качественных, группирующих признаков, между ними взаимосвязь. Тогда как профессионал в статистике для этой задачи может ещё определить и интенсивности этой связи, СТРУКТУРУ ЭТОЙ СВЯЗИ, возможности изменения количества группировок в анализируемых признаках, и т.д. Второй вариант определяется пониманием исполнителем этого анализа ВСЕХ возможных методов анализа подобной БД. Опять же объём этих потенциальных методов будет определяться уровнем профессионализма этого исполнителя. Теперь о том, что я порекомендую по анализу этой отличной БД. Во-первых, рекомендую провести кластерный анализ. Т.к. результаты последующих методов анализа могут быть зависимыми от того, а насколько были однородны и близки обследованные территории, пациенты, да и сами исследователи (не всегда само исследование, опросы, проводит лишь один исследователь). И поэтому нужно определить, имеются ли скрытые группировки, и насколько эти группировки аномальны относительно друг друга. Варианты этого анализ могут быть разные. Во-вторых, рекомендую провести анализ таблиц сопряжённости для всех пар группирующих признаков. Во-третьих, рекомендую провести сравнение групповых параметров по всем количественных признакам. Причём предварительно провести анализ вида самих распределений. Результат этого анализа поможет выбрать нужные методы и критерии сравнения параметров. Во-четвёртых, рекомендую провести корреляционный анализ. Ну и далее следует провести обязательно метод логистической регрессии (см. http://www.biometrica.tomsk.ru/logit_0.htm) При этом в логистической регрессии использовать разные варианты наборов потенциальных предикторов. И с помощью анализа таблицы сопряжённости провести оценку фактических и прогнозных распределений сравниваемых групп. Повторю, что в этом случае можно оценить не только уровень связи этой пары признаков (факт и прогноз), но и СТРУКТУРУ СВЯЗИ. И последнее пожелание. Обязательно сделать графики парных распределений по количественным признакам. Отмечая при этом наблюдения разными группирующими признаками. Это поможет лучше понять все остальные результаты. Желаю успеха! Сообщение отредактировал leo_biostat - 29.01.2018 - 22:40

Сообщений в этой теме

scholar Методология анализа данных 28.01.2018 - 23:15

passant На самом деле вопрос перевернут с ног на голову. ... 29.01.2018 - 01:58

leo_biostat Цитата(scholar @ 28.01.2018 - 23:15)... 29.01.2018 - 10:41

100$ Школяр, я полностью согласен с предыдущими оратора... 29.01.2018 - 14:27

scholar Спасибо за ответы. Вопрос к leo_biostat. Вы пишите... 29.01.2018 - 14:48

leo_biostat Цитата(scholar @ 29.01.2018 - 14:48)... 29.01.2018 - 15:43

« Предыдущая тема · Медицинская статистика · Следующая тема »