Цитата(100$ @ 13.01.2017 - 23:23)

ТС ->
Можно сделать несколько финтов ушами:
1. взять 50 чел из начальной сотни, (которые впоследствии явятся ч/з полгода) и сравнить их с оставшимися 100-50=50 чел (которые впоследствии не пришли) критерием Смирнова. Критерий Смирнова состоятельный - покажет любое отличие в функциях распределения. Если нулевая гипотеза не отвергается - выборки однородны, и их можно (задним числом

) объединить в одну, равную 100 чел.
2. По выборке объемом 50 чел из начальной сотни, (которые впоследствии явятся ч/з полгода), определить среднее и сигму, после чего проверить критерием Колмогорова принадлежность выборки в 100 чел к распределению (н-р, нормальному) с определенными таким образом параметрами. Вроде бы некогда асимпотическую корректность такой процедуры ( при проверке простой гипотезы) обосновал Дж. Дарбин (J. Durbin). Если нулевая гипотеза не отвергается, тоже можем считать выборки однородными и объединять в одну.
3. Проверить однородность выборок (50:50) из первой сотни Манном - Уитни. Н-р, гипотезу сдвига.
Иначе нет ответов на вопрос - а почему это выборка объемом 50 чел из генеральной совокупности в 100 чел должна отличаться от ген.совокупности? Она (выборка) что - нерепрезентативна? Каковы априорные основания считать, что в ней существует подвыборка, отличающаяся, н-р, параметрами сдвига и /или масштаба? Ведь вы не знали заранее, кто явится ч/з полгода, а кто нет? и т.д. Вы обязательно засыпетесь.
Думаю, что 1 пункт и 3 мне могут подойти. Ориентируясь на свою программу SPSS есть технические вопросы:
1 пункт " взять 50 человек из начальной сотни", критерий смирнова - это, я так понимаю, одновыборочный критерий колмогорова-смирнова?! Но в программе SPSS я могу задать параметры этого критерия или для 100 или для 50 из 100 и выбрать проверяемое распределение. Как же тогда сравнить 50 из 100 и 100 непосредственно? И это распределение будет только для количественных данных, а как же быть с качественными?
3 пункт -Если я Вас правильно поняла- критерием Манна-уитни я должна сравнить 50 человек из 100, которые затем явятся повторно, с 50 человеками из 100, кот потом не явятся? И выявить таким образом статистически значимые отличия.
Если 3 пункт действительно правильно мною понят, то тогда такой пример:
Например, средняя з/п по кафеде (от лаборантов до зав.каф) 20 т.р.
Нужно узнать, есть ли отличия з/п. лаборантов от средней з/п по кафедре. Если я буду сравнивать 50 лаборантов с 50-ю остальными членами кафедры, то это не будет сравнением со средней з/п (лаборанты автоматически туда просто не входят).
В этом случае, как я понимаю, нужно сравнить з/п. лаборантов (n=50) со средними показателями кафедры (n=100) (куда входят и сами лаборанты).
Мне кажется, мой случай наподобие. Есть те самые лаборанты( в моем случае 50чел, кот повторно приедут) и есть целая кафедра с лаборантами вместе (все 100 исходных человек).
Повторюсь, если я правильно понимаю 3 пункт, то у меня были 2 варианта подсчетов, когда я сравниваю 50 и 50, 50 и 100. И отличия по этим 50 от остальных 50 и от 100 получились практически одинаковыми. Но получаемые показатели м-уитни меня смущают ;) Ведь сравниваем абсолютные значения качественных признаков, а не %. Т.е. по абсолютным значениям все ок, а по этим же % .........возникает вопрос
С прогнозом рецидива Вы правы, действительно мне это нужно.