![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 30.08.2011 Пользователь №: 23261 ![]() |
Коллеги, у меня случился приступ кретинизма и сомнений.
Прошу помочь в двух вопросах. 1. На руках данные - скорость наступления события N (две переменных, начало = 0, конец = t, цензурированных и пропущенных нет, событие N наступило для всех наблюдений, других эпизодов наблюдений нет, окно наблюдения также не опредлено). Задача - оценить скорость наступления события N для разных групп обследуемых. Заказчик честно утверждает, что это Kaplan-Meier estimation+piecewise constant exponential models. Я столь же честно смотрю на данные и думаю, что все-таки нужно использовать только ANOVA, без бессмсыленных изысков анализа выживаемости. Прав ли я? 2. надо проверить связь двух переменных (или оценить влияние) - одна дихотомическая, вторая ранговая, порядка 10 градаций. Из методов в голову приходит только традиционная ранговая корреляция r-Спирмена. Но меня внезапно стали терзать смутные сомнения, может - есть еще что более подходящее задаче. Чем бы вы воспользовались? В обоих случаях выборка - несколько тысяч наблюдений. |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 30.08.2011 Пользователь №: 23261 ![]() |
2DrgLena
несколько заболел, поэтому не сразу отвечаю. Спасибо за Ваш ответ. По задаче ? мне нужно проследить, как я уже говорил, влияние уровня образования на время поиска первой работы. Однако нужны данные не по всем эпизодам. Мне кажется, что необходимо трансформировать данные из long формата в wide (в файле примера данных оба формата представлены). Время поиска работы я определяю как значение переменной Begin в том эпизоде, когда переменная Job впервые принимает значение ?1?. А уровень образования ? это значение переменной Edu_level в последнем эпизоде (до эпизода начала работы), когда переменная Edu принимает значение ?1?. И потом, на переструктурированных данных, проверять гипотезу уже методами дисперсионного анализа. Эпизоды не равноценны, так как сконструированы на основе биографических данных. Многие из них носят технический характер и созданы для того, чтобы в переменных времени (begin/end) не было разрывов. Именно поэтому я считаю, что мы не имеем возможности пользоваться анализами, характерными для time-series data - нет строгого временного окна наблюдения, нет цензурированности данных (вероятность поиска работы для всех респондентов равна 1 - в конце концов, находят все. вопрос в том, как быстро). файл примера данных лежит здесь: http://sb-group.info/example.xls (форум не дает мне загружать в сообщении файлы подобного типа) По командам Stata ? подозреваю, что необходимо использовать вложенные циклы (foreach/forvalues), или просто писать программу с использованием счетчика while. Но я достаточно слабый программист, и затрудняюсь с алгоритмом. И, впринципе, не уверен, что рою в нужном направлении. Буду рад, если сможете чем-либо помочь ? хотя бы скажете, какими инструментами следует решать эту проблему. Спасибо! |
|
![]() |
![]() |
![]() ![]() |