Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Сравнение зависимых выборок разного объема

Автор: september_e.yu@mail.ru 4.01.2017 - 19:55

Коллеги! Тема уже поднималась ранее, НО!!! все равно необходимо разъяснение

Первая госпитализация 100 человек, жалобы и АД смотрим до (точка А1) и после лечения (точка А2) и холестерин только до лечения (А1)

Вторая госпитализация через 6 месяцев обследуем только 30 человек из 100, жалобы и АД смотрим до (точка А3) и после лечения (точка А4) и холестерин только до лечения (А3)

ВОПРОС :
1) как сравнить жалобы и АД в точке А2 (n=100) и в точке А3 (n=30)

2) как сравнить холестерин в точке А1 (n=100) и А3 (n=30), если исследование холестерина в точке А2 и А4 не проводилось

3) как все это анализировать для нормального и ненормального распределения признака

Использую программу SPSS

моя почта september_e.yu@mail.ru

Автор: nokh 7.01.2017 - 23:02

Цитата(september_e.yu@mail.ru @ 4.01.2017 - 21:55) *
Коллеги! Тема уже поднималась ранее, НО!!! все равно необходимо разъяснение
Первая госпитализация 100 человек, жалобы и АД смотрим до (точка А1) и после лечения (точка А2) и холестерин только до лечения (А1)
Вторая госпитализация через 6 месяцев обследуем только 30 человек из 100, жалобы и АД смотрим до (точка А3) и после лечения (точка А4) и холестерин только до лечения (А3)
ВОПРОС :
1) как сравнить жалобы и АД в точке А2 (n=100) и в точке А3 (n=30)
2) как сравнить холестерин в точке А1 (n=100) и А3 (n=30), если исследование холестерина в точке А2 и А4 не проводилось
3) как все это анализировать для нормального и ненормального распределения признака
Использую программу SPSS
моя почта september_e.yu@mail.ru

На этом форуме не любят халявщиков, поэтому пока вы не поясните своё "НО!!!" грамотной помощи можно и не дождаться. Под пояснением я имею в виду то, чем вас не устроили стандартные методы для сравнения зависимых выборок и/или какие именно, а также чем не устроили рекомендации в "уже поднимавшейся теме". Иначе можете подождать:
1) Либо какого-нибудь новичка, который знает один метод и искренне вам его и посоветует.
2) Либо какого-нибудь статистического хищника, который возьмётся решить вашу проблему на платной основе, впарив попутно ещё штук 20 ненужных тестов (ну типа для всестороннего изучения вопроса).

Автор: september_e.yu@mail.ru 10.01.2017 - 18:08

Цитата(nokh @ 8.01.2017 - 00:02) *
На этом форуме не любят халявщиков, поэтому пока вы не поясните своё "НО!!!" грамотной помощи можно и не дождаться. Под пояснением я имею в виду то, чем вас не устроили стандартные методы для сравнения зависимых выборок и/или какие именно, а также чем не устроили рекомендации в "уже поднимавшейся теме". Иначе можете подождать:
1) Либо какого-нибудь новичка, который знает один метод и искренне вам его и посоветует.
2) Либо какого-нибудь статистического хищника, который возьмётся решить вашу проблему на платной основе, впарив попутно ещё штук 20 ненужных тестов (ну типа для всестороннего изучения вопроса).




У меня в работе катамнез (основная госпитализация и повторное обследование через 6 месяцев). Из 100 пациентов основной группы повторно обследовала только 50. Эти группы зависимые и в них имеются парные показатели. Как сравнивать показатели основной группы (n=100) до лечения и после лечения я знаю (Уилкоксон и стьюдент для парных- по распределению соответственно)
А как мне сравнить 100 человек основной группы и 50 человек, обследованных в катамнезе. Ни уилкоксон, ни стьюдент для парных не подходят, т.к. сравнивают только пары значений (это основная преграда).
Врать,что в катамнезе явились все 100 человек, невозможно. Т.е. 50 человек из катамнеза выпадают.

ПОЭТОМУ:

У меня задача сравнить 100 человек основной группы и 50 человек катамнеза при условии, что это зависимые группы, зависимые показатели качественные и коЛичественные.


PS. сравнивать только по 50 человек в на протяжении всех госпитализаций я не могу, т.к. это обедняет всю клиническую картину.

Автор: passant 10.01.2017 - 20:26

Цитата(september_e.yu@mail.ru @ 10.01.2017 - 17:08) *
PS. сравнивать только по 50 человек в на протяжении всех госпитализаций я не могу, т.к. это обедняет всю клиническую картину.

Простите, но мне, как не врачу непонятно, что значит "обедняет". 50 человек при двух госпитализациях - это и есть Ваша реальная "клиническая картина". Остальное - домыслы. Конечно, при условии, что вы хотите провести сравнение именно зависимых выборок. Если откажетесь от этого требования - можно сравнивать 100 с 50. Но это будет уже совсем другое исследование.
Решайте.

Автор: nokh 10.01.2017 - 22:54

Цитата(september_e.yu@mail.ru @ 10.01.2017 - 20:08) *
У меня в работе катамнез (основная госпитализация и повторное обследование через 6 месяцев). Из 100 пациентов основной группы повторно обследовала только 50. Эти группы зависимые и в них имеются парные показатели. Как сравнивать показатели основной группы (n=100) до лечения и после лечения я знаю (Уилкоксон и стьюдент для парных- по распределению соответственно)
А как мне сравнить 100 человек основной группы и 50 человек, обследованных в катамнезе. Ни уилкоксон, ни стьюдент для парных не подходят, т.к. сравнивают только пары значений (это основная преграда).
Врать,что в катамнезе явились все 100 человек, невозможно. Т.е. 50 человек из катамнеза выпадают.

ПОЭТОМУ:
У меня задача сравнить 100 человек основной группы и 50 человек катамнеза при условии, что это зависимые группы, зависимые показатели качественные и коЛичественные.
PS. сравнивать только по 50 человек в на протяжении всех госпитализаций я не могу, т.к. это обедняет всю клиническую картину.

Начну с конца. По поводу "обеднения клинической картины" - заблуждение, как вам уже ответили выше. С точки зрения и клиники, и научного подхода в целом именно зависимые выборки - самое ценное в ваших данных. Даже если бы было 500 "до" и только 50 "после". У вас есть информация о 50 конкретных людях на двух сроках, т.е. каждый человек имеет как бы свой собственный контроль. Рассчитав разность между значениями через 6 месяцев "после" и в первом исследовании "до" вы получите оценку величины эффекта для КАЖДОГО человека! Далее с этой информацией можно работать. Например, рассчитать среднее значение или медиану этой разности, рассчитать доверительные интервалы или квартили, построить распределение разности и оценить его форму, проверить на выбросы если потребуется... Определить значимость различий до-после с помощью критериев или по доверительному интервалу разности (содержит он ноль или нет). Если есть внешние критерии успешности лечения - можно наложить эти критерии на наблюдаемую картину и оценить степень эффективности лечения в %. Привлекая дополнительные сведения о пациентах можно попытаться определить почему одни среагировали на лечение лучше чем другие. А может кто-то вообще не среагировал, а только хуже стало. И.т.д. Возможностей именно клинической интерпретации - масса.

Теперь рассмотрим, какую информацию вы можете получить, сравнивая 100 "до" с 50 "после". Во-первых, здесь потребуется использовать неклассические методы сравнения. Либо (1) рандомизационные (перестановочные) критерии - не знаю есть ли такие в SPSS. Либо (2) косвенно - через оценку доверительных интервалов в этих выборках - перекрываются или нет. ДИ желательно построить бутстрепом - он есть в SPSS, в т.ч. метод ВСа. Например получится, что различия в средних статистически значимы. Вопрос: насколько эти различия обусловлены именно клиническим воздействием, а насколько - случайной изменчивостью ввиду различий в наборах пациентов? Вы не ответите на этот вопрос, как и в случае любых независимых выборок (если при планировании исследования изначально не ставилась задача разложить эту изменчивость на компоненты и данные не собирались специально под эту задачу). Пусть по какому-то важному показателю через 6 месяцев стало, в среднем, статистически значимо меньше. Что вы как врач, знакомый с основами доказательной медицины, сможете сказать КАЖДОМУ КОНКРЕТНОМУ своему пациенту? Пациенту, которого не очень-то заботят остальные 49 человек... Типа, "ребята у всех вас В СРЕДНЕМ стало статистически значимо лучше, а значит и ты как-то в эту картину вписался; живи-радуйся"?

Чтобы не терять информацию, её нужно качественнее собирать. 50% цензурированных наблюдений за полгода - очень много. Заинтересованные в качестве исследования врачи обычно вызванивают и как-то находят большинство потерявшихся, но живых пациентов... Если работать с тем что есть, то я бы разбил описание исследования на 2 части.
Первая часть - по 100 "до": кто такие, с чем пришли, возраст, пол, какие осложнения и т.д. как любят врачи: надо-не надо, но анамнез - святое. Дайте по этой группе только хорошую описательную статистику и инфографику. Не беда если скучно покажется - помните, что по крайней мере в России лучше цитируются самые примитивные работы или примитивные части работы, обычно представляющие лишь некие сведения: этот уровень понимания доступен всем, до него не нужно дорастать...
Вторая часть - сравнение собственно зависимых выборок. Для колич. признаков - критерии которые вы назвали, для качественных - Макнемар. Ну или посовременнее подходы найти. Плюс описательная статистика и расклад по разности "до-после" с попыткой выхода на интерпретацию различий в величине эффекта: 50 человек не 15-20 - можно что-то и нащупать, объяснить...

Автор: september_e.yu@mail.ru 11.01.2017 - 18:13

Цитата(passant @ 10.01.2017 - 21:26) *
Простите, но мне, как не врачу непонятно, что значит "обедняет". 50 человек при двух госпитализациях - это и есть Ваша реальная "клиническая картина". Остальное - домыслы. Конечно, при условии, что вы хотите провести сравнение именно зависимых выборок. Если откажетесь от этого требования - можно сравнивать 100 с 50. Но это будет уже совсем другое исследование.
Решайте.




Ну Вы подошли к цели, сравнению 100 и 50. Что посоветуете?

Автор: passant 11.01.2017 - 18:23

Цитата(september_e.yu@mail.ru @ 11.01.2017 - 17:13) *
Ну Вы подошли к цели, сравнению 100 и 50. Что посоветуете?

Возвращаемся к тому, с чего начинали: "чем вас не устроили стандартные методы". Другими словами - А чем вас не устраивает более чем подробное разъяснение уважаемого nokh приведенное в предыдущем развернутом сообщении?

Автор: september_e.yu@mail.ru 11.01.2017 - 18:28

Цитата(nokh @ 10.01.2017 - 23:54) *
Начну с конца. По поводу "обеднения клинической картины" - заблуждение, как вам уже ответили выше. С точки зрения и клиники, и научного подхода в целом именно зависимые выборки - самое ценное в ваших данных. Даже если бы было 500 "до" и только 50 "после". У вас есть информация о 50 конкретных людях на двух сроках, т.е. каждый человек имеет как бы свой собственный контроль. Рассчитав разность между значениями через 6 месяцев "после" и в первом исследовании "до" вы получите оценку величины эффекта для КАЖДОГО человека! Далее с этой информацией можно работать. Например, рассчитать среднее значение или медиану этой разности, рассчитать доверительные интервалы или квартили, построить распределение разности и оценить его форму, проверить на выбросы если потребуется... Определить значимость различий до-после с помощью критериев или по доверительному интервалу разности (содержит он ноль или нет). Если есть внешние критерии успешности лечения - можно наложить эти критерии на наблюдаемую картину и оценить степень эффективности лечения в %. Привлекая дополнительные сведения о пациентах можно попытаться определить почему одни среагировали на лечение лучше чем другие. А может кто-то вообще не среагировал, а только хуже стало. И.т.д. Возможностей именно клинической интерпретации - масса.

Теперь рассмотрим, какую информацию вы можете получить, сравнивая 100 "до" с 50 "после". Во-первых, здесь потребуется использовать неклассические методы сравнения. Либо (1) рандомизационные (перестановочные) критерии - не знаю есть ли такие в SPSS. Либо (2) косвенно - через оценку доверительных интервалов в этих выборках - перекрываются или нет. ДИ желательно построить бутстрепом - он есть в SPSS, в т.ч. метод ВСа. Например получится, что различия в средних статистически значимы. Вопрос: насколько эти различия обусловлены именно клиническим воздействием, а насколько - случайной изменчивостью ввиду различий в наборах пациентов? Вы не ответите на этот вопрос, как и в случае любых независимых выборок (если при планировании исследования изначально не ставилась задача разложить эту изменчивость на компоненты и данные не собирались специально под эту задачу). Пусть по какому-то важному показателю через 6 месяцев стало, в среднем, статистически значимо меньше. Что вы как врач, знакомый с основами доказательной медицины, сможете сказать КАЖДОМУ КОНКРЕТНОМУ своему пациенту? Пациенту, которого не очень-то заботят остальные 49 человек... Типа, "ребята у всех вас В СРЕДНЕМ стало статистически значимо лучше, а значит и ты как-то в эту картину вписался; живи-радуйся"?

Чтобы не терять информацию, её нужно качественнее собирать. 50% цензурированных наблюдений за полгода - очень много. Заинтересованные в качестве исследования врачи обычно вызванивают и как-то находят большинство потерявшихся, но живых пациентов... Если работать с тем что есть, то я бы разбил описание исследования на 2 части.
Первая часть - по 100 "до": кто такие, с чем пришли, возраст, пол, какие осложнения и т.д. как любят врачи: надо-не надо, но анамнез - святое. Дайте по этой группе только хорошую описательную статистику и инфографику. Не беда если скучно покажется - помните, что по крайней мере в России лучше цитируются самые примитивные работы или примитивные части работы, обычно представляющие лишь некие сведения: этот уровень понимания доступен всем, до него не нужно дорастать...
Вторая часть - сравнение собственно зависимых выборок. Для колич. признаков - критерии которые вы назвали, для качественных - Макнемар. Ну или посовременнее подходы найти. Плюс описательная статистика и расклад по разности "до-после" с попыткой выхода на интерпретацию различий в величине эффекта: 50 человек не 15-20 - можно что-то и нащупать, объяснить...



Спасибо Вам за ответ!!!
1)В принципе я так и даю характеристику своим 100 человекам до лечения, затем оцениваю результат после.
2) По такому же принципу катамнез из 50 чел.
3)Потом пытаюсь найти особенности именно у этих 50, когда они были еще в составе 100 (Использую Манна-Уитни).
4)Был у меня вариант, когда прослеживала эти 50 человек в обеих госпитализациях (Четко использовала Уилкоксона) и мне это было понятно, четко парные зависимые значения.
Но задание у меня сравнить именно 100 и 50. Это сравнение меня очень мучает (ведь по современным данным под таблицами нужно указывать используемый критерий А что написано пером, ..... то при неправильно выбранном показателе заклюют).
Вроде Уилкоксон не подходит, пары "выпадают". М-уитни-не возьмешь - т.к. анализируем зависимые показатели
5)Еще я сравнивала жалобы 100 человек основной группы до лечения и 50 катамнеза до лечения- применяла М-уитни (на мой взгляд он подходит)

О бутстрепе почитаю. ДУмаю, для меня это возможный выход. Поищу в своей программе, если будут вопросы, я, с Вашего позволения, напишу.

Автор: september_e.yu@mail.ru 11.01.2017 - 18:33

Цитата(passant @ 11.01.2017 - 19:23) *
Возвращаемся к тому, с чего начинали: "чем вас не устроили стандартные методы". Другими словами - А чем вас не устраивает более чем подробное разъяснение уважаемого nokh приведенное в предыдущем развернутом сообщении?



Меня, наоборот, устраивает. О бутстрепе я почитаю поищу в своей программе. Думаю, что для меня это возможный выход.

Автор: september_e.yu@mail.ru 11.01.2017 - 18:41

Цитата(passant @ 11.01.2017 - 19:23) *
Возвращаемся к тому, с чего начинали: "чем вас не устроили стандартные методы". Другими словами - А чем вас не устраивает более чем подробное разъяснение уважаемого nokh приведенное в предыдущем развернутом сообщении?



Я как раз стараюсь использовать простые методы оценки, стьюдент, уилкокосон, манна-уитни, корреляцию Спирмена, четко представляя, как с этими критериями обращаться. Смущало лишь 100 и 50, при условии, что они зависимые. Ищу такой же простой и понятный критерий. А таблицы сопряженности с определнием точного критерия Фишера для этих 100 и 50 нельзя взять?


Автор: passant 11.01.2017 - 21:58

Цитата(september_e.yu@mail.ru @ 11.01.2017 - 17:41) *
Смущало лишь 100 и 50, при условии, что они зависимые.

Да независимы они у Вас, независимы! Как только сказали, что обязаны рассматривать именно схему 100-50, - про зависимость срезу забываем! Есть группа из 100 человек и другая группа - из 50 человек. И сравниваем эти группы между собой - как НЕЗАВИСИМЫЕ выборки. Да, при этом много информации Вы потеряли - эта расплата за переход от схемы 50-50 зависимых измерений, к схеме 100-50 независимых.
А раз выборки рассматриваются как независимые, то используются любые подходящие критерии. От Стьюдента (для независимых выборок - если вы уверены в нормальности распределения) до Maнна-Уитни, Вилкоксона для непарных выборок, Kolmogorov-Smirnov Z-test, Вальда-Вольфовитца, Мойзеса. Смотря что оцениваете.

Автор: september_e.yu@mail.ru 12.01.2017 - 15:20

Цитата(passant @ 11.01.2017 - 22:58) *
Да независимы они у Вас, независимы! Как только сказали, что обязаны рассматривать именно схему 100-50, - про зависимость срезу забываем! Есть группа из 100 человек и другая группа - из 50 человек. И сравниваем эти группы между собой - как НЕЗАВИСИМЫЕ выборки. Да, при этом много информации Вы потеряли - эта расплата за переход от схемы 50-50 зависимых измерений, к схеме 100-50 независимых.
А раз выборки рассматриваются как независимые, то используются любые подходящие критерии. От Стьюдента (для независимых выборок - если вы уверены в нормальности распределения) до Maнна-Уитни, Вилкоксона для непарных выборок, Kolmogorov-Smirnov Z-test, Вальда-Вольфовитца, Мойзеса. Смотря что оцениваете.



Passant, Вы уж меня простите, а как это "про зависимость сразу забываем" мне объяснить статистически грамотно, если спросят. А еще лучше, где это написано?

Автор: 100$ 12.01.2017 - 16:23

Цитата(september_e.yu@mail.ru @ 12.01.2017 - 15:20) *
Passant, Вы уж меня простите, а как это "про зависимость сразу забываем" мне объяснить статистически грамотно, если спросят. А еще лучше, где это написано?


/Справочно/

Основой статистической обработки результатов эксперимента является грамотно спланированный эксперимент. Если в эксперименте наблюдается пара чисел, выборки считаются связанными. Если же все это время испытуемые выбывали из эксперимента по независящим от экспериментатора причинам, это называется не "эксперимент", а "факир был пьян, и фокус не удался".

Поэтому в вашей ситуации разумно сделать вид, что полгода между двумя обследованиями - достаточно продолжительный период, позволяющий пренебречь возможной коррелированностью результатов, и изучать эти две выборки как независимые, н-р, критерием Манна - Уитни.

Иначе единственный вопрос, который могут вам задать - "Какого черта"? Ну, вы поняли.

Автор: DrgLena 12.01.2017 - 16:35

Цитата(DrgLena @ 8.01.2017 - 10:51) *
зависимых выборок разного объема не бывают, хоть какой то учебник нужно открыть, или в сети поискать, если занимаетесь научными исследованиями.

https://ru.wikipedia.org/wiki/%D0%92%D1%8B%D0%B1%D0%BE%D1%80%D0%BA%D0%B0

Если первые измерения сделаны у 100 больных, а через какое то время повторно явились только 30, то узнать как изменился показатель, например после лечения, можно только у этих 30. При этом данные должны быть организованы соответствующим образом,чтобы можно было учесть именно связанность наблюдений

Прочтите, наконец, ОПРЕДЕЛЕНИЕ в ссылке, которую я вам предоставила с соседней ветке, что такое связаные выборки. Вы можете вообще не пользоваться этим незнакомым вам понятием. И про критерии тоже можете не заморачиваться, какой для связанных выборок, а какой не для связаных. Анализируйте просто доли больных. До лечения из 100 больных голова болела у 80 (% и 95%ДИ), а после лечения есть данные только у 50 и у 10 из них голова продолжала болеть( % и 95%ДИ). Просто сравните эти доли (рекомендация одноразовая, не рекомендуется тем, кто понимает, что такое связаные выборки) smile.gif. Для тех кто понимает, рекомендую использовать для моего примера критерий Мак-Немара для СВЯЗАНЫХ выборок, что предусматривает анализ разности относительных частот наличия признака до и после лечения.

Автор: DrgLena 12.01.2017 - 16:43

Цитата(100$ @ 12.01.2017 - 16:23) *
/Справочно/
Если в эксперименте наблюдается пара чисел, выборки считаются связанными.

Вот, это точно должно помочь umnik.gif

Автор: passant 12.01.2017 - 17:18

Цитата(september_e.yu@mail.ru @ 12.01.2017 - 14:20) *
Passant, Вы уж меня простите, а как это "про зависимость сразу забываем" мне объяснить статистически грамотно, если спросят. А еще лучше, где это написано?

Математическое определение:
"Если можно установить гомоморфную пару (то есть, когда каждому случаю из выборки X соответствует один и только один случай из выборки Y и наоборот) для каждого случая в двух выборках, такие выборки называются зависимыми".
Другими словами и более просто: Для того, что бы выборки были зависимым - надо установить ВЗАИМНО-ОДНОЗНАЧНОЕ соответствие между всеми их элементами. При неравных количествах элементов в множествах установить такое соответствие невозможно. Значит, ваши выборки 100-50 не могут быть зависимыми ПО ОПРЕДЕЛЕНИЮ. И неважно, что в них фигурируют одни и те-же люди.
Кто не поймет - посылайте..... учить математику. Можно начинать с 8-го класса средней школы или когда там сейчас рассказывают, что такое множество. rolleyes.gif
Как раз спрашивать или думать, что выборки, подобные Вашей, зависимы - абсолютно "статистически НЕграмотно" (по Вашей терминологии).

Автор: passant 12.01.2017 - 17:33

Цитата(100$ @ 12.01.2017 - 15:23) *
Поэтому в вашей ситуации разумно сделать вид, что полгода между двумя обследованиями - достаточно продолжительный период, позволяющий пренебречь возможной коррелированностью результатов, и изучать эти две выборки как независимые, н-р, критерием Манна - Уитни.

Все правильно, но хочу только чуть-чуть дополнить. Что-бы ни у кого из "аспирантов" не возникло иллюзий.
Даже если между двумя обследованиями прошли сутки, но на вторые сутки на осмотр явилось только 50 пациентов из 100 - эти выборки все равно будут независимыми. С статистической точки зрения, разумеется.

Автор: september_e.yu@mail.ru 12.01.2017 - 17:38

Цитата(DrgLena @ 12.01.2017 - 17:35) *
Прочтите, наконец, ОПРЕДЕЛЕНИЕ в ссылке, которую я вам предоставила с соседней ветке, что такое связаные выборки. Вы можете вообще не пользоваться этим незнакомым вам понятием. И про критерии тоже можете не заморачиваться, какой для связанных выборок, а какой не для связаных. Анализируйте просто доли больных. До лечения из 100 больных голова болела у 80 (% и 95%ДИ), а после лечения есть данные только у 50 и у 10 из них голова продолжала болеть( % и 95%ДИ). Просто сравните эти доли (рекомендация одноразовая, не рекомендуется тем, кто понимает, что такое связаные выборки) smile.gif. Для тех кто понимает, рекомендую использовать для моего примера критерий Мак-Немара для СВЯЗАНЫХ выборок, что предусматривает анализ разности относительных частот наличия признака до и после лечения.


Товарищи, спасибо за объяснения (и о 8 классе тоже)))!!! Без грамотной помощи сложно. Сложно, когда некому подсказать.

Автор: nokh 12.01.2017 - 20:48

Цитата(passant @ 12.01.2017 - 19:18) *
Математическое определение:
"Если можно установить гомоморфную пару (то есть, когда каждому случаю из выборки X соответствует один и только один случай из выборки Y и наоборот) для каждого случая в двух выборках, такие выборки называются зависимыми".
Другими словами и более просто: Для того, что бы выборки были зависимым - надо установить ВЗАИМНО-ОДНОЗНАЧНОЕ соответствие между всеми их элементами. При неравных количествах элементов в множествах установить такое соответствие невозможно. Значит, ваши выборки 100-50 не могут быть зависимыми ПО ОПРЕДЕЛЕНИЮ. И неважно, что в них фигурируют одни и те-же люди.

Сомневаюсь, что всё так просто. Критерии для независимых выборок требуют этой самой независимости, а в рассматриваемом случае "100-50" первая выборка содержит половину элементов второй. Т.е. выборки "частично зависимы".
В той же википедии, например, в качестве требования критерия Стьюдента сказано: "Тhe data used to carry out the test should be sampled independently from the two populations being compared. This is in general not testable from the data, but if the data are known to be dependently sampled (i.e., if they were sampled in clusters), then the classical t-tests discussed here may give misleading results". На мой взгляд в примере присутствует именно кластер одних и тех же пациентов. В качестве требования к критерию Манна-Уитни: "All the observations from both groups are independent of each other", а у нас совсем не "All"... Читал, что рандомизационные критерии лишены таких ограничений чисто в силу иной философии этого подхода. Также если рассматривать ДИ, то тогда, действительно, речь будет идти о множествах и выборках из них. Если 95% ДИ не перекроются, то можно говорить что выборки извлечены из разных генеральных совокупностей и, в принципе, не важно содержат ли эти выборки одинаковые объекты, т.к. ДИ строится для каждой выборки независимо от другой. Поэтому я рекомендовал для сравнения именно рандомизационные тесты и подход с ДИ (хотя само сравнение 100 против 50 не рекомендовал и не рекомендую). Обмен мнениями с участниками форума можно продолжить, в 8 классе меня мало интересовала математика, больше биология, генетика:)

Автор: 100$ 12.01.2017 - 21:51

В порядке обмена мнениями могу вспомнить, что у Холлендера и Вульфа в издании 1983 г. описан критерий двумерной симметрии Холлендера (специально для связанных выборок). При неотвержении нулевой гипотезы первую и вторую выборку можно смело поменять местами - они взаимно независимы. Беда заключается в том, что по своей идеологии это тоже рандомизационный критерий, и для его осуществления надо состряпать квадратную матрицу перестановок размера 2^n, где n - объем выборки. Мой не самый хилый компьютер впал в кому на размере 13. Что уж тут говорить о 50...

Кстати, мы так до сих пор и не знаем, что в этой истории есть "клиническая картина", которую ТС так панически боится обеднить...

Автор: nokh 13.01.2017 - 10:57

Цитата(nokh @ 12.01.2017 - 22:48) *
Сомневаюсь, что всё так просто. Критерии для независимых выборок требуют этой самой независимости, а в рассматриваемом случае "100-50" первая выборка содержит половину элементов второй. Т.е. выборки "частично зависимы".

Порылся немного, всё так и есть. Ниже прикрепил 2 статьи по сравнению частично зависимых выборок: одна по количественным показателям, другая - по качественным. Это не обзоры, а просто недавние статьи, но в них во введении есть и обзорная часть.


 Samawi_Н._2014_Notes_on_two_sample_tests_for_partially_correlated_paired_data___копия.pdf ( 187,74 килобайт ) : 210
 Derrick_B._2015_Test_statistics_for_comparing_two_proportions_with_partially_overlapping_samples.pdf ( 436,13 килобайт ) : 246
 

Автор: september_e.yu@mail.ru 13.01.2017 - 11:25

Цитата(100$ @ 12.01.2017 - 22:51) *
В порядке обмена мнениями могу вспомнить, что у Холлендера и Вульфа в издании 1983 г. описан критерий двумерной симметрии Холлендера (специально для связанных выборок). При неотвержении нулевой гипотезы первую и вторую выборку можно смело поменять местами - они взаимно независимы. Беда заключается в том, что по своей идеологии это тоже рандомизационный критерий, и для его осуществления надо состряпать квадратную матрицу перестановок размера 2^n, где n - объем выборки. Мой не самый хилый компьютер впал в кому на размере 13. Что уж тут говорить о 50...

Кстати, мы так до сих пор и не знаем, что в этой истории есть "клиническая картина", которую ТС так панически боится обеднить...




Конечно клиническая картина есть)) Но в ней ничего сверъестественного. А вот лабораторные данные..... поинтереснее будут. И не все лаб данные проводились до и сразу после лечения, а только до лечения в первую госпитализацию и до повторного лечения в катамнезе (те самые 100 и 50)

Автор: 100$ 13.01.2017 - 12:57

Цитата(nokh @ 13.01.2017 - 10:57) *
Порылся немного, всё так и есть. Ниже прикрепил 2 статьи по сравнению частично зависимых выборок: одна по количественным показателям, другая - по качественным. Это не обзоры, а просто недавние статьи, но в них во введении есть и обзорная часть.


В первой статье (Samawi, Vogel, 2014) на стр. 111 пунктом (1) авторы подтверждают все то, что я предлагал в посте ?13 : считать что за полгода корреляция теряется и работать как с некоррелированными данными.

Автор: passant 13.01.2017 - 14:44

Цитата(nokh @ 13.01.2017 - 09:57) *
Порылся немного, всё так и есть. Ниже прикрепил 2 статьи по сравнению частично зависимых выборок: одна по количественным показателям, другая - по качественным. Это не обзоры, а просто недавние статьи, но в них во введении есть и обзорная часть.

Большое спасибо за интересную информацию. Отложил в загашник :-), может когда пригодиться.
Что до информации, приведенной в них. В первой из статей (та, где речь идет о количественных признаках), все крутиться вокруг формулы (1) и ее модификаций. На самом деле эта формула предлагает - если ее проанализировать - взять коэффициент для совпадающей по объектам (зависимой) части выборок (вторая составляющая формулы) и немного его "подправить" с помощью первой составной части этой формулы. Все бы ничего, но в первой части формулы присутствует коэффициент, считаемый для двух независимых выборок - в терминах статьи выборок X и Y . А по условию, которое нам "задал" ТС, именно эту составную часть формулы мы вычислить и не можем - в терминах указанной работы, у нас есть выборка Х и нет выборки Y. Увы.
Правда возможно где-то в приведенном обзоре литературы и есть "наша" ситуация (в терминах самой статьи - есть выборки X, U, V, две последние - зависимы). Надо будет на досуге покопаться и посмотреть, что предлагается. Однако, почему-то мне кажется, что если наш ТС разберется (!) во всех этих тонкостях и попытается убедить в этом членов своего ученого совета, у последних может случиться маленький вынос мозга rolleyes.gif Может, не стоит рисковать?

Автор: september_e.yu@mail.ru 13.01.2017 - 19:45

Есть еще вопросик, коллеги. Тухлыми помидорами,плиз, не кидать

Напоминаю, мои 100 человек основной группы, 50 из них- катамнез через 6 мес.

Мне бы найти отличия у этих 50 человек, когда они были еще в составе 100,от общей группы 100 человек. Манна-Уитни подойдет?

Автор: 100$ 13.01.2017 - 20:48

Цитата(september_e.yu@mail.ru @ 13.01.2017 - 19:45) *
Есть еще вопросик, коллеги. Тухлыми помидорами,плиз, не кидать

Напоминаю, мои 100 человек основной группы, 50 из них- катамнез через 6 мес.

Мне бы найти отличия у этих 50 человек, когда они были еще в составе 100,от общей группы 100 человек. Манна-Уитни подойдет?


http://ej.kubagro.ru/2014/10/pdf/06.pdf

Автор: passant 13.01.2017 - 21:29

Цитата(september_e.yu@mail.ru @ 13.01.2017 - 18:45) *
Мне бы найти отличия у этих 50 человек, когда они были еще в составе 100,от общей группы 100 человек. Манна-Уитни подойдет?

Как мне кажется, Вам как раз необходимо (если уж очень хочется) показать ОТСУТСТВИЕ отличий между этими 50-ю и всей сотней. Разве что, если Вы уверены, что все непришедшие умерли.
Ведь подумайте, ну докажете вы вдруг, что эти две подвыборки отличаются чем-то в начальном анамнезе. И какие выводы?

Автор: DrgLena 13.01.2017 - 22:11

Умерли? А может вообще выздоровели и, потому у них нет повторной госпитализации. Нам ничего не известно, поскольку, нет медицинской постановки задачи. С какой целью собрались данные, можно только фантазировать. Мне бы сравнить что то с чем то каким то критерием ? это не постановка задачи.

Сформирована когорта больных с определенной патологией, для которой имеются первичные клинические и лабораторные данные установленные в стационаре (n=100). В течении 6 мес. наблюдения за этими больными у 50 из них случился рецидив (case), а у других 50 все в порядке (control). Определить возможность прогноза рецидива по первичным данным. Для решения такой задачи существуют вполне определенные методы.

Автор: 100$ 13.01.2017 - 22:23

ТС ->

Можно сделать несколько финтов ушами:

1. взять 50 чел из начальной сотни, (которые впоследствии явятся ч/з полгода) и сравнить их с оставшимися 100-50=50 чел (которые впоследствии не пришли) критерием Смирнова. Критерий Смирнова состоятельный - покажет любое отличие в функциях распределения. Если нулевая гипотеза не отвергается - выборки однородны, и их можно (задним числом smile.gif) объединить в одну, равную 100 чел.

2. По выборке объемом 50 чел из начальной сотни, (которые впоследствии явятся ч/з полгода), определить среднее и сигму, после чего проверить критерием Колмогорова принадлежность выборки в 100 чел к распределению (н-р, нормальному) с определенными таким образом параметрами. Вроде бы некогда асимпотическую корректность такой процедуры ( при проверке простой гипотезы) обосновал Дж. Дарбин (J. Durbin). Если нулевая гипотеза не отвергается, тоже можем считать выборки однородными и объединять в одну.

3. Проверить однородность выборок (50:50) из первой сотни Манном - Уитни. Н-р, гипотезу сдвига.

Иначе нет ответов на вопрос - а почему это выборка объемом 50 чел из генеральной совокупности в 100 чел должна отличаться от ген.совокупности? Она (выборка) что - нерепрезентативна? Каковы априорные основания считать, что в ней существует подвыборка, отличающаяся, н-р, параметрами сдвига и /или масштаба? Ведь вы не знали заранее, кто явится ч/з полгода, а кто нет? и т.д. Вы обязательно засыпетесь.

Автор: september_e.yu@mail.ru 14.01.2017 - 10:33

Цитата(100$ @ 13.01.2017 - 23:23) *
ТС ->

Можно сделать несколько финтов ушами:

1. взять 50 чел из начальной сотни, (которые впоследствии явятся ч/з полгода) и сравнить их с оставшимися 100-50=50 чел (которые впоследствии не пришли) критерием Смирнова. Критерий Смирнова состоятельный - покажет любое отличие в функциях распределения. Если нулевая гипотеза не отвергается - выборки однородны, и их можно (задним числом smile.gif) объединить в одну, равную 100 чел.

2. По выборке объемом 50 чел из начальной сотни, (которые впоследствии явятся ч/з полгода), определить среднее и сигму, после чего проверить критерием Колмогорова принадлежность выборки в 100 чел к распределению (н-р, нормальному) с определенными таким образом параметрами. Вроде бы некогда асимпотическую корректность такой процедуры ( при проверке простой гипотезы) обосновал Дж. Дарбин (J. Durbin). Если нулевая гипотеза не отвергается, тоже можем считать выборки однородными и объединять в одну.

3. Проверить однородность выборок (50:50) из первой сотни Манном - Уитни. Н-р, гипотезу сдвига.

Иначе нет ответов на вопрос - а почему это выборка объемом 50 чел из генеральной совокупности в 100 чел должна отличаться от ген.совокупности? Она (выборка) что - нерепрезентативна? Каковы априорные основания считать, что в ней существует подвыборка, отличающаяся, н-р, параметрами сдвига и /или масштаба? Ведь вы не знали заранее, кто явится ч/з полгода, а кто нет? и т.д. Вы обязательно засыпетесь.




Думаю, что 1 пункт и 3 мне могут подойти. Ориентируясь на свою программу SPSS есть технические вопросы:

1 пункт " взять 50 человек из начальной сотни", критерий смирнова - это, я так понимаю, одновыборочный критерий колмогорова-смирнова?! Но в программе SPSS я могу задать параметры этого критерия или для 100 или для 50 из 100 и выбрать проверяемое распределение. Как же тогда сравнить 50 из 100 и 100 непосредственно? И это распределение будет только для количественных данных, а как же быть с качественными?

3 пункт -Если я Вас правильно поняла- критерием Манна-уитни я должна сравнить 50 человек из 100, которые затем явятся повторно, с 50 человеками из 100, кот потом не явятся? И выявить таким образом статистически значимые отличия.

Если 3 пункт действительно правильно мною понят, то тогда такой пример:

Например, средняя з/п по кафеде (от лаборантов до зав.каф) 20 т.р.
Нужно узнать, есть ли отличия з/п. лаборантов от средней з/п по кафедре. Если я буду сравнивать 50 лаборантов с 50-ю остальными членами кафедры, то это не будет сравнением со средней з/п (лаборанты автоматически туда просто не входят).
В этом случае, как я понимаю, нужно сравнить з/п. лаборантов (n=50) со средними показателями кафедры (n=100) (куда входят и сами лаборанты).


Мне кажется, мой случай наподобие. Есть те самые лаборанты( в моем случае 50чел, кот повторно приедут) и есть целая кафедра с лаборантами вместе (все 100 исходных человек).

Повторюсь, если я правильно понимаю 3 пункт, то у меня были 2 варианта подсчетов, когда я сравниваю 50 и 50, 50 и 100. И отличия по этим 50 от остальных 50 и от 100 получились практически одинаковыми. Но получаемые показатели м-уитни меня смущают ;) Ведь сравниваем абсолютные значения качественных признаков, а не %. Т.е. по абсолютным значениям все ок, а по этим же % .........возникает вопрос


С прогнозом рецидива Вы правы, действительно мне это нужно.

Автор: september_e.yu@mail.ru 14.01.2017 - 10:45

Цитата(100$ @ 13.01.2017 - 23:23) *
ТС ->


Иначе нет ответов на вопрос - а почему это выборка объемом 50 чел из генеральной совокупности в 100 чел должна отличаться от ген.совокупности? Она (выборка) что - нерепрезентативна? Каковы априорные основания считать, что в ней существует подвыборка, отличающаяся, н-р, параметрами сдвига и /или масштаба? Ведь вы не знали заранее, кто явится ч/з полгода, а кто нет? и т.д. Вы обязательно засыпетесь.



Т.е.. мне не выгодно искать отличия этих 50 от 100. нерепрезентативная выборка

Но ведь как-то нужно понять, что такого было у этих 50 еще в первую госпитализацию, что заставило их прийти во второй раз. Тот самый прогноз

Автор: DrgLena 14.01.2017 - 11:23

В меня можно кидать тухлыми помидорами, поскольку я не могу согласиться с уважаемым nokh , который считает, что существуют частично зависимые выборки. Существуют четкие определения зависимых и независимых выборок, которые тут уже были подробно обозначены, и никаких частично- зависимых в математической статистике не существуют (но в био- медицинской все возможно ). В соответствии с этими двумя вариантами формирования выборок и существуют соответствующие критерии. При этом нулевая гипотеза формируется различным образом. Например, нулевая гипотеза может заключаться в том, что различия средних в двух выборках равны нулю, а также, что средняя разница связанных ПАР наблюдений равна нулю. И это не философия, а чистая математика - другая формула для критерия Стьюдента.

Относительно работ, которые любезно предоставил nokh. В обеих - речь идет о связанных выборках (When we have partial data on a matched-pair or repeated measure), которые имеют пропуски (как до, таки после), и предлагаются техники, которые используют коррелированность данных. По первой passant высказался, но у нас есть информация по 50 парам и теоретически можно было бы использовать предлагаемые техники, если бы они не составляли только половину наблюдений.

Во второй статье также рассматриваются ... tests for comparing two sample proportions of a dichotomous dependent variable.
Ключевые слова Partially overlapping samples означают, что часть данных до и после совпадают. Мы используем, и часто обсуждали на этом форуме критерий Мак-Немара (2.2. в этой статье), в расчете которого используется только несовпадающие пары, остальная информация просто игнорируется (да-да и нет-нет до и после). Предлагаются несколько методов, обосновывается преимущество одного из них.

Никакого обеднения при анализе именно связанных выборок не происходит, напротив, использование соответствующих критериев предоставляет значительно больше возможностей обнаружить различия, чем критерии для независимых выборок (даже, если число наблюдений будет меньше). Незначительный, но однонаправленный сдвиг показателя после лечения может быть статистически значим при использовании критерия Стьюдента для связанных выборок и не быть таковым при использовании этого критерия для несвязанных выборок.

Автор: 100$ 14.01.2017 - 13:50

Цитата
С прогнозом рецидива Вы правы, действительно мне это нужно.


Посоветовавший это безусловно прав, но это был не я.

Цитата
1 пункт " взять 50 человек из начальной сотни", критерий смирнова - это, я так понимаю, одновыборочный критерий колмогорова-смирнова?! Но в программе SPSS я могу задать параметры этого критерия или для 100 или для 50 из 100 и выбрать проверяемое распределение. Как же тогда сравнить 50 из 100 и 100 непосредственно? И это распределение будет только для количественных данных, а как же быть с качественными?


Глупые басурмане под словосочетанием "критерий Колмогорова - Смирнова" понимают критерий согласия Колмогорова. Он действительно одновыборочный. Это пункт 2 из моего предыдущего сообщения. Критерий Смирнова в СПСС вроде бы (?) не реализован.

В отношении качественных данных надо проверять гипотезыы о доле с помощью таблиц сопряженности. Вам один только Nokh прочитал такую лекцию, что вопросов уже остаться бы не должно.

Цитата
3 пункт -Если я Вас правильно поняла- критерием Манна-уитни я должна сравнить 50 человек из 100, которые затем явятся повторно, с 50 человеками из 100, кот потом не явятся? И выявить таким образом статистически значимые отличия.


Точно

Цитата
Например, средняя з/п по кафеде (от лаборантов до зав.каф) 20 т.р.
Нужно узнать, есть ли отличия з/п. лаборантов от средней з/п по кафедре. Если я буду сравнивать 50 лаборантов с 50-ю остальными членами кафедры, то это не будет сравнением со средней з/п (лаборанты автоматически туда просто не входят).
В этом случае, как я понимаю, нужно сравнить з/п. лаборантов (n=50) со средними показателями кафедры (n=100) (куда входят и сами лаборанты).


То, что вы описали, называется "проверкой гипотезы о средней". В статистике гипотезы формируются до проведения исследования. В описываемом случае проверяется гипотеза о равенстве средней зарплаты лаборантов некоторой величине а (Н0: mu=a). Технически для этого не надо сравнивать две выборки.

А средняя з/плата по кафедре - это то же, что и средняя температура по больнице. В статистике усреднять надо не механически, а с умом. Применительно к случаю с кафедрой ум обязывает понимать, что состав кафедры очень стратифицирован - отдельно профессора (причем одному из них доплачивают за заведование кафедрой), отдельно доценты, отдельно старшие преподы, ассистенты, лаборанты и т.д. Ни одна из этих страт не является выборкой.

Автор: september_e.yu@mail.ru 14.01.2017 - 14:06

Цитата(100$ @ 14.01.2017 - 14:50) *
Посоветовавший это безусловно прав, но это был не я.



Глупые басурмане под словосочетанием "критерий Колмогорова - Смирнова" понимают критерий согласия Колмогорова. Он действительно одновыборочный. Это пункт 2 из моего предыдущего сообщения. Критерий Смирнова в СПСС вроде бы (?) не реализован.

В отношении качественных данных надо проверять гипотезыы о доле с помощью таблиц сопряженности. Вам один только Nokh прочитали такую лекцию, что вопросов уже остаться бы не должно.



Точно



То, что вы описали, называется "проверкой гипотезы о средней". В статистике гипотезы формируются до проведения исследования. В описываемом случае проверяется гипотеза о равенстве средней зарплаты лаборантов некоторой величине а (Н0: mu=a). Для этого достаточно именно выборки лаборантов.




Формулой Н0: mu=a ВЫ меня добили)). Я понимаю, что на сайте все СПЕЦЫ!!! Но давайте попроще, пожалуйста, для гуманитариев, для тех, кто лучше напишет сочинение, чем вычислит логарифм или интеграл !!!!

Резюмирую всю нашу беседу:

1)Качественные признаки до и после лечения (да/нет) нужно сравнивать мак-немаром. УИлкоксон не подойдет?!

2) количественные признаки до и после лечения - Уилкоксон или стьюдент (от распределения)

2) Качественные признаки между 2 независимыми группами - табл. сопряженности с хи-квадратом(+ точный кр. ФИшера, если в некоторых ячейках ожидаемая частота меньше 5)

3) количественные признаки между 2 независимыми группами - берем Манна-Уитни

3) Частично-зависимые выборки не существуют. Либо делать их строго зависимыми (всё по 50) и тогда Уилкоксон или т-стьюд для парных. Либо в случае "частичной зависимости" использовать доверительный интервал или Манна-уитни

4) Для прогноза можно Манна-Уитни, но я так и не поняла 50 и 100 сравнивать или 50 и 50????? Сравнение 50и 50- проблема.

проблема в том, что у меня, кроме 50 (через 6, мес) есть еще 18 человек, которые осматриваются через 1 год. Если я сравню 50 и 50, то туда войдут 18 человек, которые прибудут через 1 год. А мне это не выгодно, т.к. у этих 18 тоже придется искать прогноз, когда они были в составе 100.

insane.gif Пожалуйста, давайте обсудим все по этим пунктам, очень прошу!!! И все таки как быть с прогнозом, если кроме 50 человек ч/з 6 мес, есть еще 18 через 1 год. И у них нужно найти критерии прогноза ((

P.S. Крит Колмогорова-смирнова есть в SPSS в разделе непараметрические критерии

Автор: 100$ 14.01.2017 - 14:35



Цитата
1)Качественные признаки до и после лечения (да/нет) нужно сравнивать мак-немаром.


Американский статистик Куинн МакНемар заслужил, чтобы его писали с большой буквы. Критерий МакНемара - это та же мамая таблица сопряженности для связанных выборок размера 2х2.

Цитата
2) количественные признаки до и после лечения - Уилкоксон или стьюдент (от распределения)


Схема "До-после" порождает связанные выборки. Для связанных выборок - парный критерий Стьюдента, критерий знаковых рангов Уилкоксона (Wilcoxon signed-rank (matched-paired) test)

Цитата
2) Качественные признаки 2 независимых групп - табл. сопряженности.


Да

Цитата
3) количественные признаки 2 независимых групп - Манна-Уитни

Да

Цитата
3) Частично-зависимые выборки не существуют.


Это не ко мне, это к DrgLene. Как говаривал Ньютон - "Это не ко мне, это - к де Муавру, он в этом понимает больше меня".

Цитата
Либо в случае "частичной зависимости" использовать доверительный интервал или Манна-уитни


НЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕТ!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!


Цитата
Пожалуйста, скажите, до прогноза я всё правильно поняла с выбором критериев!!! И все таки как быть с прогнозом ((


Для прогноза надо строить модель, а не выбирать критерии.


Автор: 100$ 14.01.2017 - 15:42

Дорогая Сентябрина!
Не редактируйте, пожалуйста, свои сообщения после того как на них ответили.

Автор: september_e.yu@mail.ru 14.01.2017 - 16:08

Цитата(100$ @ 14.01.2017 - 16:42) *
Дорогая Сентябрина!
Не редактируйте, пожалуйста, свои сообщения после того как на них ответили.




я постфактум не редактирую. Только подправляю ошибки (прям тут же), если только что написала

Автор: september_e.yu@mail.ru 14.01.2017 - 16:10

Цитата(100$ @ 14.01.2017 - 15:35) *
Американский статистик Куинн МакНемар заслужил, чтобы его писали с большой буквы. Критерий МакНемара - это та же мамая таблица сопряженности для связанных выборок размера 2х2.



Схема "До-после" порождает связанные выборки. Для связанных выборок - парный критерий Стьюдента, критерий знаковых рангов Уилкоксона (Wilcoxon signed-rank (matched-paired) test)



Да


Да



Это не ко мне, это к DrgLene. Как говаривал Ньютон - "Это не ко мне, это - к де Муавру, он в этом понимает больше меня".



НЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕТ!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!




Для прогноза надо строить модель, а не выбирать критерии.


Мне уже легче))) Спасибо!!! А теперь, что значит построить модель?

Автор: 100$ 14.01.2017 - 16:36

Цитата(september_e.yu@mail.ru @ 14.01.2017 - 16:10) *
Мне уже легче))) Спасибо!!! А теперь, что значит построить модель?


Построить модель - это значить состряпать (читай: родить) математическую конструкцию, которая будет получать в качестве аргумента некоторые исходные данные (н-р, набор инструментальных исследований пациента), а выдавать нечто очень похожее на то, что наблюдали черед полгода, год и т. д.

Автор: september_e.yu@mail.ru 14.01.2017 - 16:54

Цитата(100$ @ 14.01.2017 - 17:36) *
Построить модель - это значить состряпать (читай: родить) математическую конструкцию, которая будет получать в качестве аргумента некоторые исходные данные (н-р, набор инструментальных исследований пациента), а выдавать нечто очень похожее на то, что наблюдали черед полгода, год и т. д.



О, Боги статистики))) как мне эту конструкцию сделать???
Я вроде и стремлюсь найти некоторые исходные данные, которые и составят критерии прогноза . Давайте вернемся к этому wt.gif


Автор: 100$ 14.01.2017 - 17:08

Цитата(september_e.yu@mail.ru @ 14.01.2017 - 16:54) *
О, Боги статистики))) как мне эту конструкцию сделать???
Я вроде и стремлюсь найти некоторые исходные данные, которые и составят критерии прогноза . Давайте вернемся к этому wt.gif


"Тетенька, дайте водички напиться, а то так есть хочется, аж переночевать негде!" (с) народ.

Модели бывают разные. Все зависит от того, что вы хотите получить на выходе: то ли вероятность того, что после визита к вам пациент выздоровеет/отдаст Богу душу (нужное подчеркнуть, ненужное - зачеркнуть), то ли спрогнозировать численное значение какого-то клинически значимого фактора, али ишшо чего...

Поскольку вы нам пока еще ничего конкретного не сообщили, дальнейшее обсуждение будет с единичной вероятностью происходить по сценарию:

- Петька, приборы?
- Шестьдесят, Василь Иваныч!
- Что шестьдесят?
- А что приборы???

Автор: september_e.yu@mail.ru 14.01.2017 - 17:50

[quote name='100$' date='14.01.2017 - 14:50' post='20845']



"В отношении качественных данных надо проверять гипотезыы о доле с помощью таблиц сопряженности. Вам один только Nokh прочитал такую лекцию, что вопросов уже остаться бы не должно".


В одной из дисс. есть такая табличка

I группа II группа
n=32 n=48

абс./ доля абс. /доля р
Анемия (до 3-х лет) 8 /0,25 10/ 0,21 χ2 =0,027 р=0,870
Перинатальное поражение ЦНС 18/ 0,56 29 /0,60 χ2 =0,019 р=0,889

и.т.д.

Это принципиально указывать в таком формате χ2 =0,027 р=0,870 или достаточно р=0,870.

χ2 -это в хи-квадрат Пирсона.
В моей таб сопряженности кроме хи-квадрата Пирсона есть есть еще поправка на непрерывность. В учебнике Ребровой написано, что применяется если абсолютная частота в клетках таблицы менее 10.
А точный критерий Фишера -если хотя бы в одной ячейке из ожидаемых частот меньше или равно 5.

Т.е. применение критерия Фишера в тексте я однозначно указываю, а нужно ли сам хи-квадрат и поправка на непрерывность, как в приведенном примере

Автор: september_e.yu@mail.ru 14.01.2017 - 18:00

Цитата(100$ @ 14.01.2017 - 18:08) *
"Тетенька, дайте водички напиться, а то так есть хочется, аж переночевать негде!" (с) народ.

Модели бывают разные. Все зависит от того, что вы хотите получить на выходе: то ли вероятность того, что после визита к вам пациент выздоровеет/отдаст Богу душу (нужное подчеркнуть, ненужное - зачеркнуть), то ли спрогнозировать численное значение какого-то клинически значимого фактора, али ишшо чего...

Поскольку вы нам пока еще ничего конкретного не сообщили, дальнейшее обсуждение будет с единичной вероятностью происходить по сценарию:

- Петька, приборы?
- Шестьдесят, Василь Иваныч!
- Что шестьдесят?
- А что приборы???


практический выход:
выяснить, что уровень, например, ФНО-альфа у лиц, которые были госпитализированы повторного через 6 месяцев (n=50), еще в их первую госпитализацию был выше, чем у всех 100 исходных человек. И определение именно концентрации ФНО-альфа является критерием возможного обострения заболевания через 6 месяцев.

Автор: 100$ 14.01.2017 - 18:05


Цитата(100$ @ 14.01.2017 - 14:50) *
"В отношении качественных данных надо проверять гипотезыы о доле с помощью таблиц сопряженности. Вам один только Nokh прочитал такую лекцию, что вопросов уже остаться бы не должно".


В одной из дисс. есть такая табличка

I группа II группа
n=32 n=48

абс./ доля абс. /доля р
Анемия (до 3-х лет) 8 /0,25 10/ 0,21 χ2 =0,027 р=0,870
Перинатальное поражение ЦНС 18/ 0,56 29 /0,60 χ2 =0,019 р=0,889

и.т.д.

Это принципиально указывать в таком формате χ2 =0,027 р=0,870 или достаточно р=0,870.

χ2 -это в хи-квадрат Пирсона.
В моей таб сопряженности кроме хи-квадрата Пирсона есть есть еще поправка на непрерывность. В учебнике Ребровой написано, что применяется если абсолютная частота в клетках таблицы менее 10.
А точный критерий Фишера -е

Т.е. применение критерия Фишера в тексте я однозначно указываю, а нужно ли сам хи-квадрат и поправка на непрерывность, как в приведенном примере


Если вы все таблицы сопряженности обрабатываете одинаковым образом, можно где-то ("Материалы и методы исследования") раз и навсегда написать, что "... гипотезу однородности таблиц сопряженности проверяли критерием Хи-квадрат (Пирсона) с поправкой Йейтса, если хотя бы в одной ячейке из ожидаемых частот меньше или равно 5- ТМФ" и тогда достаточно указать только достигаемый уровень значимости критерия. Если же критериев много, тогда следует для конкретной таблицы по тексту указывать применяемый критерий + численное значение + достигаемый уровень значимости. Но это рекомендации нестрогие, просто дьявол кроется в деталях, и по деталям можно понять, человек соображает или его навыки ограничиваются связкой "Ctrl+C" - "Ctrl+V"

Автор: 100$ 14.01.2017 - 18:08

Цитата(september_e.yu@mail.ru @ 14.01.2017 - 18:00) *
практический выход:
выяснить, что уровень, например, ФНО-альфа у лиц, которые были госпитализированы повторного через 6 месяцев (n=50), еще в их первую госпитализацию был выше, чем у всех 100 исходных человек. И определение именно концентрации ФНО-альфа является критерием возможного обострения заболевания через 6 месяцев.


Цитата
...чем у всех 100 исходных человек


Вы опять за свое? Имейте в виду, сравнить 50 и 100 чел я вам не позволю smile.gif

Цитата
И определение именно концентрации ФНО-альфа является критерием возможного обострения заболевания через 6 месяцев


Может быть. Тут уж вам виднее.

Автор: DrgLena 14.01.2017 - 18:19

Цитата(september_e.yu@mail.ru @ 14.01.2017 - 19:00) *
практический выход:
выяснить, что уровень, например, ФНО-альфа у лиц, которые были госпитализированы повторного через 6 месяцев (n=50), еще в их первую госпитализацию был выше, чем у всех 100 исходных человек. И определение именно концентрации ФНО-альфа является критерием возможного обострения заболевания через 6 месяцев.

Нет, вывод не верный. Вы прочтите хотя бы ответы в своей же ветке(про case- control исследования я уже намекала).

У вас две несвязанные выборки по исходным данным 50 и 50 их и сравнивайте. ФНО будет критеритием прогноза обострения, если вы найтете точку оптимальную точку разделения с достаточной чувствительностью и специфичностью, или в бинарной многовариантной логистической регрессионной моделе вы получите значимую статистическую оценку коэффициента для этого показателя. У меня гнилые помидоры закончились.

Такое впечатление, что вы случайно забрели на этот форум (где не любят халявчиков, как вам справедливо указал nokh) и хотите выполнить курсовую работу, пропустив ВСЕ лекции по статистике., а потому вряд ли знаете, что такое ожидаемые частоты и как их посчитать.

Автор: september_e.yu@mail.ru 14.01.2017 - 18:35

[quote name='100$' date='14.01.2017 - 19:08' post='20861']
Вы опять за свое? Имейте в виду, сравнить 50 и 100 чел я вам не позволю smile.gif



))) значит 50 и 50, критерием -М-уитни. Но в катамнезе же есть и 18 человек ч/з 1 год


Тогда 50 и 32 из исходных 100


И 18 кот, затем прибудут через 1 год и снова 32 из 100 исходных, так что ли?

Автор: september_e.yu@mail.ru 14.01.2017 - 18:48

Цитата(DrgLena @ 14.01.2017 - 19:19) *
Нет, вывод не верный. Вы прочтите хотя бы ответы в своей же ветке(про case- control исследования я уже намекала).

У вас две несвязанные выборки по исходным данным 50 и 50 их и сравнивайте. ФНО будет критеритием прогноза обострения, если вы найтете точку оптимальную точку разделения с достаточной чувствительностью и специфичностью, или в бинарной многовариантной логистической регрессионной моделе вы получите значимую статистическую оценку коэффициента для этого показателя. У меня гнилые помидоры закончились.

Такое впечатление, что вы случайно забрели на этот форум (где не любят халявчиков, как вам справедливо указал nokh) и хотите выполнить курсовую работу, пропустив ВСЕ лекции по статистике., а потому вряд ли знаете, что такое ожидаемые частоты и как их посчитать.



DrgLena, легко сказать, завернув все в бинарную многовариантную логистическую регрессионную модель. А может быть иногда лучше снизойти до тех самых "халявщиков" и чуточку помочь, чтобы "халявщики" перестали быть "халявщиками". Может иногда без скрытой иронии нужно объяснить на уровне "халявщика", быстрее дойдет. Зря ВЫ так. Как будто открыл учебники по статистике и все уже знаешь, как, что, зачем и почему. Прям проще простого. Я бы тогда помощи не просила.

Автор: september_e.yu@mail.ru 14.01.2017 - 18:49

Цитата(100$ @ 14.01.2017 - 19:05) *
Если вы все таблицы сопряженности обрабатываете одинаковым образом, можно где-то ("Материалы и методы исследования") раз и навсегда написать, что "... гипотезу однородности таблиц сопряженности проверяли критерием Хи-квадрат (Пирсона) с поправкой Йейтса, если хотя бы в одной ячейке из ожидаемых частот меньше или равно 5- ТМФ" и тогда достаточно указать только достигаемый уровень значимости критерия. Если же критериев много, тогда следует для конкретной таблицы по тексту указывать применяемый критерий + численное значение + достигаемый уровень значимости. Но это рекомендации нестрогие, просто дьявол кроется в деталях, и по деталям можно понять, человек соображает или его навыки ограничиваются связкой "Ctrl+C" - "Ctrl+V"


100$, понятно объяснили, спасибо!!!

Автор: 100$ 14.01.2017 - 18:57


Цитата(100$ @ 14.01.2017 - 19:08) *
Вы опять за свое? Имейте в виду, сравнить 50 и 100 чел я вам не позволю smile.gif



))) значит 50 и 50, критерием -М-уитни. Но в катамнезе же есть и 18 человек ч/з 1 год


Тогда 50 и 32 из исходных 100


И 18 кот, затем прибудут через 1 год и снова 32 из 100 исходных, так что ли?


(меланхолично)

Я ж вам по-дружески говорю: у вас не исследование, а эпик-фейл. Вы уж обозначьте горизонт планирования эксперимента. Или через пять минут выяснится, что через 1,5 года к вам опять пришли теперь уже три калеки с половиной?

Автор: september_e.yu@mail.ru 14.01.2017 - 19:24

Цитата(100$ @ 14.01.2017 - 19:08) *
Вы опять за свое? Имейте в виду, сравнить 50 и 100 чел я вам не позволю smile.gif



Может быть. Тут уж вам виднее.



100$, возвращаюсь еще раз к Вашим наставлениям.
Я поняла, что сравнивать 50 и 100, 18 и 100 нельзя!!! (получается сравниваем с самим собой, а нам нужно отличие от других).

Напоминаю, всего в катамнезе обследовано 68 человек из 100 исходных (50 через 6 мес, 18 через 1 год). 32 так и остались без повторного обследования

1) можно сравнить 50 с 50 оставшимися, а также 18 с 82 оставшимися, если докажу, что между 50 и 18 человеками еще на этапе первой госпитализации не было никаких стат. различий.

2)А если хоть какие-то стат. различия между ними были, то тогда нужно сравнивать 50 и 32, 18 и 32 вообще повторно не обследованных. Так?

Автор: september_e.yu@mail.ru 14.01.2017 - 19:27

Цитата(100$ @ 14.01.2017 - 19:57) *
(меланхолично)

Я ж вам по-дружески говорю: у вас не исследование, а эпик-фейл. Вы уж обозначьте горизонт планирования эксперимента. Или через пять минут выяснится, что через 1,5 года к вам опять пришли теперь уже три калеки с половиной?




приходиться исходить из того, что имею frown.gif Это весь мой набор данных ))

Автор: 100$ 14.01.2017 - 19:36

Цитата(september_e.yu@mail.ru @ 14.01.2017 - 19:24) *
100$, возвращаюсь еще раз к Вашим наставлениям.
Я поняла, что сравнивать 50 и 100, 18 и 100 нельзя!!! (получается сравниваем с самим собой, а нам нужно отличие от других).

Напоминаю, всего в катамнезе обследовано 68 человек из 100 исходных (50 через 6 мес, 18 через 1 год). 32 так и остались без повторного обследования

1) можно сравнить 50 с 50 оставшимися, а также 18 с 82 оставшимися, если докажу, что между 50 и 18 человеками еще на этапе первой госпитализации не было никаких стат. различий.

2)А если хоть какие-то стат. различия между ними были, то тогда нужно сравнивать 50 и 32, 18 и 32 вообще повторно не обследованных. Так?


Я бы вам посоветовал решить для себя принципиальный вопрос: полгода - это достаточный срок для того, чтобы пренебречь коррелированностью наблюдений и считать эти выборки независимыми? Если решите работать с ними как с независимыми - тогда вся эта комбинаторика ни к чему.


Цитата
...если докажу, что между 50 и 18 человеками еще на этапе первой госпитализации не было никаких стат. различий.


Кстати, о птичках. Статистическим критерием можно опровергнуть нулевую гипотезу, но нельзя доказать. Если в результате теста нулевая гипотеза не отвергается, то ее можно принять, поскольку она априори имеет ненулевую вероятность оказаться истинной. Но в любом случае это будет вашим решением, а не строгим доказательством.

Автор: september_e.yu@mail.ru 14.01.2017 - 19:55

[quote name='100$' date='14.01.2017 - 20:36' post='20869']
Я бы вам посоветовал решить для себя принципиальный вопрос: полгода - это достаточный срок для того, чтобы пренебречь коррелированностью наблюдений и считать эти выборки независимыми? Если решите работать с ними как с независимыми - тогда вся эта комбинаторика ни к чему.



ну в случае сравнения 50 и 50, 18 и 82 в любом случае независимые выборки. Просто различия между 50 и 18 буквально 3 штуки, но важные. Получается, что объединить их нельзя. И сравнивать придется 50 и 32, 18 и 32. Принимать это или нет -тоже думала об этом...

Автор: 100$ 14.01.2017 - 20:13

Цитата(september_e.yu@mail.ru @ 14.01.2017 - 19:55) *
ну в случае сравнения 50 и 50, 18 и 82 в любом случае независимые выборки. Просто различия между 50 и 18 буквально 3 штуки, но важные. Получается, что объединить их нельзя. И сравнивать придется 50 и 32, 18 и 32. Принимать это или нет -тоже думала об этом...


Слушайте, а почему бы вам не взять квинтэссенцию этого безобразия неконтролируемого эксперимента - те самые 18 стойких оловянных солдатиков, присутствовавших во всех трех контрольных точках (0-0,5-1), да не прогнать по ним старый добрый дисперсионный анализ, благо СПСС по рукой? Может тут и темы для разговора нет? А то мы уже мозоль на языке набили на терабайт наговорили под хохот всего форума.

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)