Цитата(mamalita @ 13.04.2012 - 20:29)

[С переменными: количество метастазов не совсем ясно, т.е. они были до операции или выявлены после?]
Метастазы были выявлены до операции. Прогрессия конечно же после операции. 1 - прогрессия есть 0 - прогрессии нет. Сроки разные потому что были выбывшие по неизвестным причинам пациенты (цензуированные данные). Все размеры суммарные и количество взяты до операции.
Ясно, значит все, кроме прогрессии и сроков до выявления прогрессии относится к данным до операции.
Цитата(mamalita @ 13.04.2012 - 20:29)

То что суммарное количество не совпадает для меня новость, может быть при копировании что-то не так было. Давайте от V10 пока абстрагируемся (я пересмотрю данные поищу ошибку).
Где-то действительно закрались ошибки, т.к. если например, взять ячейку J5, то в ней указано количество 5, а в ячейках E5 = 5, F5 = 1 и G5 = 1, что в сумме должно дать 7, а никак не 5.
Цитата(mamalita @ 13.04.2012 - 20:29)

И наконец задачи следующие 1. выявить факторы наиболее значимо влияющие на безсобытийную выживаемость (событие - прогрессия),
Можно.
Цитата(mamalita @ 13.04.2012 - 20:29)

время развития прогрессии - с этим я вроде бы справилась.
Тоже разрешимо
Цитата(mamalita @ 13.04.2012 - 20:29)

2. по полученной зависимости иметь возможность прогнозировать среднее предполагаемое время жизни без прогрессии для каждого конкретного пациента (хотелось бы как в логистической регрессии получить некое уравнение, при подстановке в которое значений предикторов получать это самое время).
Только в данной задаче адекватно время не получать, а задавать в качестве таймерного события.
Цитата(mamalita @ 13.04.2012 - 20:29)

В идеале хотелось бы оценить потом эту модель на другой выборке с вытекающими отсюда последствиями. Например, столько -то правильных предсказаний, столько неправильных, специфичность, чувствительность. Но тут я не знаю возможно ли подобное.
Это уже не идеал, а тест на эргодичность. Если математическая модель строится для неэргодичной среды, то вне выборки она может дать статистически незначимые результаты, т.е. эксперимент будет нерепродуицируем.
Цитата(mamalita @ 13.04.2012 - 20:29)

Например у нас пациент прожил без прогрессии 3 месяца а модель предсказывает 7 месяцев - это правильное предсказание или нет, а у другого который прожил 3 месяца - предсказывает 18 месяцев - ну это понятно будет неправильно.
Неправильно предсказывать точное время вероятностных событий если они недостоверны. Например, из немного другой области, скажем в спорте, можно с помощью распределения Пуассона при известной среднестатистической забиваемости командой количества мячей в чужие ворота за 90 минут матча, рассчитать вероятность того что эта же команда в следующем матче не забьет ни одного гола либо вероятность того, что она забьет 10 мячей. Причем распределение Пуассона статистически значимо и в хоккее и в футболе. Точно также и в данном случае, можно только по факторам вычислить вероятность того, что пациент проживет без рецидива некий наперед заданный срок, например, месяц, два месяца, квартал, полугодие или год. Такова особенность теории вероятностей и статистики - оперировать вероятностными величинами для событий, а не конкретными сроками от одного события до другого. Сколько пройдет времени у конкретного пациента до рецидива точно вычислить невозможно.
Чтобы было проще понять, почему так происходит, подбросьте 10 раз монету. Она может выпасть орлом и 10 раз подряд и решкой 10 раз подряд. Вероятности для вышеуказанных обоих событий при условии правильной монеты равны 1 / 1024. Т.е. предсказать сколько раз подряд монета может выпасть орлом в следующей серии подбрасываний невозможно, но угадать либо не угадать с той или иной вероятностью можно.
Цитата(mamalita @ 13.04.2012 - 20:29)

Может быть должны быть какие-то доверительные интервалы по которым ориентироваться на правильность предсказаний.
Еще момент как проверить: вообще применима ли к моим данным регрессия Кокса? (должно соблюдаться условие пропорциональности риска - как проверить)
Спасибо!!!
Любую модель можно перепроверить на эргодичность только на независимой выборке и только после такой проверки уже решать вопросы применимости или неприменимости. Тем паче что один и тот же метод математического моделирования может иметь несколько допустимых решений (например, в задаче оптимизации на отдельно взятой выборке может быть несколько экстремумов и лишь один или более из них эргодичны независимо от выборки, а можеть быть, что и ни одного эргодичного не будет выявлено).
В общем и в целом все понятно, за исключением некоторых ошибок и неточностей в исходных данных. А ошибки в исходных - не есть хорошо, т.к. запросто можно обнаружить черную кошку в темной комнате, несмотря на то, что ее там никогда не было.