![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 30.08.2011 Пользователь №: 23261 ![]() |
Коллеги, у меня случился приступ кретинизма и сомнений.
Прошу помочь в двух вопросах. 1. На руках данные - скорость наступления события N (две переменных, начало = 0, конец = t, цензурированных и пропущенных нет, событие N наступило для всех наблюдений, других эпизодов наблюдений нет, окно наблюдения также не опредлено). Задача - оценить скорость наступления события N для разных групп обследуемых. Заказчик честно утверждает, что это Kaplan-Meier estimation+piecewise constant exponential models. Я столь же честно смотрю на данные и думаю, что все-таки нужно использовать только ANOVA, без бессмсыленных изысков анализа выживаемости. Прав ли я? 2. надо проверить связь двух переменных (или оценить влияние) - одна дихотомическая, вторая ранговая, порядка 10 градаций. Из методов в голову приходит только традиционная ранговая корреляция r-Спирмена. Но меня внезапно стали терзать смутные сомнения, может - есть еще что более подходящее задаче. Чем бы вы воспользовались? В обоих случаях выборка - несколько тысяч наблюдений. |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 30.08.2011 Пользователь №: 23261 ![]() |
2 DrgLena.
спасибо за ответ. Данные имеют структуру, похожую на ту, которая на картинке: 1. Номер респондента. Несколько строк могут быть посвящены одному респонденту, потому что данные по нескольким эпизодам. 2. Age ? год рождения респондента 3. Номер эпизода. Отрезок времени, за который произошло какое-то изменение, по сравнению с предыдущим ? нашел работу, пошел в вуз, уволился и т.д. Эпизоды неравноценны, так, например у первого респондента второй эпизод, в несколько месяцев ? технический, как заполнение разрыва в данных (по каким причинам ? неизвестно ? либо данные утеряны, либо респондент не заполнял опросник и т.д.; специальной метки, обозначающей такие эпизоды, нет). 4. Begin/End ? начало и конец эпизодов, измерение в месяцах, 0 ? январь того года, когда респондент стал совершеннолетним 5. Edu ? получал ли какое-нибудь образование респондент в этот эпизод. Градаций уровней образования ? около 11, в отдельной переменной, я их не стал указывать. ?-1? - не принимал участие (не получал образования) 6. Job ? работал ли в этот эпизод (?-1? - не работал) Моя задача ? определить, как влияет уровень образования на время поиска первой работы. Соответственно, подозреваю, надо трансформировать базу данных в простой одновходовидый вид (из long в wide), когда одна строка ? один респондент. А временем поиска работы будет либо показатель ?End? эпизода, перед первым эпизодом для каждого респондента, когда он впервые находит работу. Либо ?Begin-1? эпизода, когда Job впервые принимает значение ?1?. Точно так же надо указать значения Edu на этот момент. Данные по прочим эпизодам, которые не касаются первой работы (и, возможно, второй работы) ? отсечь. Всего порядка 6 тысяч респондентов, 5-76 эпизодов по каждому (более 90 тысяч строк в исходной базе данных), по 60 переменным. И все это сделать надо, очень желательно ? средствами Stata. Не считая того, что я, все-таки, не считаю, что тут есть смысл использовать требуемые заказчиком Kaplan-Meier estimations/piecewise models, так как для меня неочевидно, что это survival data. Признаться, я в растерянности. Что скажете, что на Ваш взгляд, следует делать? |
|
![]() |
![]() |
![]() ![]() |