Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Кривая Каплана-Маера

Автор: Анатолий Баулин 16.09.2020 - 14:30

Здравствуйте уважаемые участники форума. Такой вопрос

Если я считаю безрецидивную выживаемость по формуле, то я получаю 88,9%.

На кривой Каплан-Майера если смотреть по координатам x и y - я вижу значение около 80%.

Почему так?

Скорее всего я не правильно считал в ручную значение выживаемости.
Так как я считал от общей группы т.е. {( группа пациентов - группа пациентов с рецидивом)/группа пациентов}
т.е. расчет обычной пропорцией, что не может совпадать с графиком.

Как посчитать выживаемость на определенный период времени по формуле?

 

Автор: "Наташа" 17.06.2023 - 21:26

Доброго времени суток.
Скажите пожалуйста, может ли в анализе выживаемости (при построении кривой выживаемости) среднее время до наступления исхода превышать максимальное время до исхода, которое наблюдалось вообще в выборке?
Спасибо.

Автор: ИНО 18.06.2023 - 07:59

Хотелось бы увидеть эту чудо-кривую.

Автор: passant 18.06.2023 - 10:48

Цитата("Наташа @ 17.06.2023 - 21:26) *
Доброго времени суток.
Скажите пожалуйста, может ли в анализе выживаемости (при построении кривой выживаемости) среднее время до наступления исхода превышать максимальное время до исхода, которое наблюдалось вообще в выборке?
Спасибо.


Или я чего-то недопонимаю, или вопрос звучит так: "может-ли средняя по выборке быть больше максимального значения выборки"? В таком случае я предлагаю студентам привести пример такой выборки.

Автор: "Наташа" 18.06.2023 - 11:05

Цитата(ИНО @ 18.06.2023 - 07:59) *
Хотелось бы увидеть эту чудо-кривую.

Вот кривая

 

Автор: "Наташа" 18.06.2023 - 11:06

Цитата(passant @ 18.06.2023 - 10:48) *
Или я чего-то недопонимаю, или вопрос звучит так: "может-ли средняя по выборке быть больше максимального значения выборки"? В таком случае я предлагаю студентам привести пример такой выборки.

Ну да... среднее ожидаемое время до исхода превышать максимальное наблюдаемое время до исхода...

Автор: nokh 18.06.2023 - 21:35

Цитата("Наташа @ 17.06.2023 - 23:26) *
Доброго времени суток.
Скажите пожалуйста, может ли в анализе выживаемости (при построении кривой выживаемости) среднее время до наступления исхода превышать максимальное время до исхода, которое наблюдалось вообще в выборке?
Спасибо.

Видимо может, если количество цензурированных наблюдений велико. Например, если есть 2 полных наблюдения исхода в 2 и 4 года, то среднее будет 3, а максимальное значение - 4. Однако если при этом есть ещё 20 цензурированных наблюдений с ненаступившими исходами и сроком наблюдения в 10 лет, то очевидно, что при продолжении наблюдений исход наступит позже 10 лет и среднее станет заметно больше и 3, и 4 лет. Поэтому мы может ожидать, что среднее время до наступления исхода будет превышать реально наблюдаемое сейчас максимальное значение, однако не можем сказать точно "на сколько". Для ненаступивших исходов мы можем использовать расчёты по каким-то моделям, но это это будут приближённые оценки. Вообще среднее для цензурированных наблюдений вычислить непросто, поэтому в анализе выживаемости и используют медиану, а не среднее. В вашем случае медиану вычислить нельзя, т.к. объекты в выборке преимущественно живы. Давно не занимался анализом выживаемости, не знаю принято ли в таких случаях приводить что-то кроме медианы (квартили, процентили).

У вас плохой перевод программы: термин "censored" переводится как "цензурировано", а не как "редактировано".

Автор: "Наташа" 18.06.2023 - 23:42

Цитата(nokh @ 18.06.2023 - 21:35) *
Видимо может, если количество цензурированных наблюдений велико. Например, если есть 2 полных наблюдения исхода в 2 и 4 года, то среднее будет 3, а максимальное значение - 4. Однако если при этом есть ещё 20 цензурированных наблюдений с ненаступившими исходами и сроком наблюдения в 10 лет, то очевидно, что при продолжении наблюдений исход наступит позже 10 лет и среднее станет заметно больше и 3, и 4 лет. Поэтому мы может ожидать, что среднее время до наступления исхода будет превышать реально наблюдаемое сейчас максимальное значение, однако не можем сказать точно "на сколько". Для ненаступивших исходов мы можем использовать расчёты по каким-то моделям, но это это будут приближённые оценки. Вообще среднее для цензурированных наблюдений вычислить непросто, поэтому в анализе выживаемости и используют медиану, а не среднее. В вашем случае медиану вычислить нельзя, т.к. объекты в выборке преимущественно живы. Давно не занимался анализом выживаемости, не знаю принято ли в таких случаях приводить что-то кроме медианы (квартили, процентили).

У вас плохой перевод программы: термин "censored" переводится как "цензурировано", а не как "редактировано".


Спасибо, поняла
Я квартиль указала.
Спасибо большое за обьяснение!

Автор: ИНО 19.06.2023 - 09:46

Теперь понял. Это ваши медицинские заморочки с недоеденными до конца экспериментами. В такой ситуации действительно можно получить "интересные" оценки, но насколько оно адекватны действительности - большой вопрос. По идее, при таких исходных данных корректно построенный ДИ для этого вашего "среднего времени до исхода" должен быть широченным, с верхней границей, посрамляющей долголетие Мафусаила.

Задумавшись чуть глубже, понимаю, что кривая Каплан-Меера по своей природе вообще не должна иметь способности к экстраполяции. Стало быть, чтобы оценить среднее время до события, лежащее далеко за пределами наблюдаемого интервала надо подгонять некую параметрическую модель. Но при катком покрытии данными все равно хвост будет телепаться, как ковыль на ветру. Вывод: эффективно оценить ожидаемое время до исхода по имеющимся данным не представляется возможным. Никак.

Автор: Игорь 19.06.2023 - 11:23

Цитата(ИНО @ 19.06.2023 - 09:46) *
... медицинские заморочки с недоеденными до конца экспериментами.
предусмотрены алгоритмами построения оценки Каплана-Мейера функции выживания. Цензурирование означает не только выбытие, но и незаконченное наблюдение к данному моменту времени.
Цитата(ИНО @ 19.06.2023 - 09:46) *
Вывод: эффективно оценить ожидаемое время до исхода по имеющимся данным не представляется возможным. Никак.
Прогнозирование - одна из целей указанных и иных вычислений в данной теме.
Цитата(nokh @ 18.06.2023 - 21:35) *
У вас плохой перевод программы: термин "censored" переводится как "цензурировано", а не как "редактировано".
По поводу перевода могу согласиться. Кстати, было бы неплохо проверить адекватность перевода в "Анализе выживаемости" в ПО AttSstat, т.к. после выпуска мультиязычной версии возможны неточности. Кто заметит, прошу сообщить для быстрого исправления.

Автор: ИНО 21.06.2023 - 09:44

Не знаю, с чем Вы соглашаетесь, но про перевод в данном случае я не писал.

Прогноз отдаленного будущего события на основе ступенчатой кривой, построенной на интервале сильно меньшем предполагаемого времени наступления этого события - это вообще как? На первый взгляд, кривая Каплан(а?)-Меер(а?) (кстати, пора бы уже с полом этих двоих окончательно определиться) относится к области методов с нулевой экстраполирующей способностью.

Автор: 100$ 21.06.2023 - 11:15

Цитата(ИНО @ 21.06.2023 - 09:44) *
На первый взгляд, кривая Каплан(а?)-Меер(а?) (кстати, пора бы уже с полом этих двоих окончательно определиться) относится к области методов с нулевой экстраполирующей способностью.


Edward L. Kaplan & Paul Meier.

Определяйтесь.

Автор: ИНО 21.06.2023 - 13:22

А фиг их этих буржуинов знает с их 300 гендерами smile.gif

Так-то оба имени похожи на мужские, в таком случае должно быть в родительском падеже "Каплана-Меера" или, если принять немецкую транскрипцию, "Каплана-Маера". Но в рунете каких только вариантов не встретишь.

Автор: Игорь 27.06.2023 - 09:10

Цитата(ИНО @ 21.06.2023 - 13:22) *
каких только вариантов не встретишь
Думаю, нужно брать перевод, который уже сделан в публикациях. Некоторые предлагают свои переводы, возможно, более правильные. Но это неважно "для науки, которую мы в данный момент представляем".

Автор: ИНО 27.06.2023 - 15:11

Так в разных публикациях разные варианты. Ладно еще кривая эта - широко известный в России метод, можно тупо найти самый часто упоминаемый вариант по количеству выдач гугль-академии, признать его классическим и принять, а вот все б. м. модерновое, увы, встречается почти исключительно в англоязычной литературе и автору каждой публикации переводить приходится самостоятельно. С немецкими фамилиями все относительно просто, там правила транскрипции достаточно жесткие (хоть разные диалекты и допускают некоторые вариации), лишь бы пол знать, а вот с иными сильно сложнее, особенно если языками их происхождения совсем не владетель. Самые распространенные, английские, - зачастую вообще такой зашквар, что даже профессиональные переводчики по-разному транскрибируют.

Не знаю, какую науку представляете лично Вы в данный момент, но для прикладной статистики таки очень важно иметь единственно правильное русское название каждого конкретного метода. Иначе путаница и сложности поиска. Например, словосочетание "критерий Фримана-Холтона" встречалось мне исключительно в работах пользователей ПО Аттестат.

Представляется интересной идеей публикация обширного русского энциклопедического словаря статистических методов.

Автор: Игорь 28.06.2023 - 09:25

Цитата(ИНО @ 27.06.2023 - 16:11) *
Представляется интересной идеей публикация обширного русского энциклопедического словаря статистических методов.
Энциклопедия (в другом издании - энциклопедический словарь) "Вероятность и математическая статистика" под редакцией Ю.В. Прохорова.
Цитата(ИНО @ 21.06.2023 - 14:22) *
"Каплана-Меера" или, если принять немецкую транскрипцию, "Каплана-Маера". Но в рунете каких только вариантов не встретишь.
Международный статистический институт разработал глоссарий с переводами, в том числе на русский. Архивная копия https://web.archive.org/web/20160208125220/http://isi.cbs.nl/glossary/index.htm.

Автор: "Наташа" 15.07.2023 - 15:31

А что вы думаете на счет следующего:
В статьях, посвещенных исследованию выживаемости зарубежные авторы все как один (касаемо узкой и относительно недавней тематики) поступают следующим образом: проводят РОК-анализ с целью оптимально разбинарить на два класса предсказующую переменную (она количественная, разброс от 0 до 1500, это объем в см3). Вот эта вот переменная имеет прямую связь с исходом. Так вот в исходе 1- это случился рецидив, а в 0 - он центрирован до конца наблюдения, либо вышел из него без исхода. При этом, большинство больных покинуло наблюдение с 0 на очень ранних сроках, соответственно информации о них никакой.
Так вот, исследователи бинарят нашу предсказывающую переменную и вводят ее в анализ Капана-Мейера, как исходно низкий уровень и исходно высокий уровень, что бы получить различия при оценке прогнозируемой выживаемости. Руководитель настаивает - сделай также!!! на доводы о том что отрицательный класс может быть не отрицательным мне говорят так все делают, нам нужно определиться с пороговыми значениями. Подскажите, как лучше выйти из ситуации? Еще данные статьи изобилуют графиками с рок кривыми, а для пороговых величин указывают значения чувствительности и специфичности... Зачем... Не пойму чего то, может в этом есть смысл...
Я еще подумала, что это возможно как то обьяснить тем, что в рамках сравнения двух предсказывающих переменных, какая из них точнее п (ну вроде выборка одна, и если страдает чувствительность, так она (возможно)))) везде страдает одинаково. В общем, что вы думаете?

Автор: Игорь 16.07.2023 - 09:24

Цитата("Наташа @ 15.07.2023 - 15:31) *
проводят РОК-анализ с целью оптимально разбинарить на два класса предсказующую переменную
ROC-анализ не является методом классификации.
Цитата("Наташа @ 15.07.2023 - 15:31) *
Так вот, исследователи бинарят нашу предсказывающую переменную и вводят ее в анализ Капана-Мейера
Оценки Каплана-Мейера не содержат предсказывающих переменных.

Я бы посмотрел модель пропорциональных рисков Кокса с соответствующей регрессией. Эта тема максимально подробно проработана в руководстве и ПО, доступных для скачивания. Для ссылок есть много хороших монографий, в том числе на русском и переводных. Всей теории-то на несколько страниц, даже на одну лекцию мало. Изучение методов по узкоспециальным статьям... если уже есть владение методикой - они могут быть полезны.

Автор: ИНО 16.07.2023 - 23:17

Цитата
При этом, большинство больных покинуло наблюдение с 0 на очень ранних сроках, соответственно информации о них никакой.

После этих слов дальше читать не стал. Ибо, если сказанное верно, это не доказательная медицина, а какая-то хЕромантия. Вообще, я не очень понимаю эту ваши медицинские заморчочки с постоянным цензурированием справа. Пациентов у врача инопланетяне похищают? Или они пропадают в Бермудском Треугольнике? Неужели если пациент, которого скажем лечили от рака, умирает через N дней после выписки, те, кто проводил лечение, остаются в полном неведение о времени этого события и считают что его спасли? А судьбы больных врачи-исследователи оценивают исключительно на протяжении курса лечения? Если так, то несмотря на любые статистические технологии, медицина уйдет недалеко от времен кровопускания. Хотя, логика в этом есть, если цель не вылечить, а дотянуть клиента до выписки и оплаты услуг...

А регрессионных моделей выживания, не считая Кокса, есть вагон и малая тележка. Но мусор на входе = сами знаете что.

Автор: "Наташа" 17.07.2023 - 11:46

Цитата(ИНО @ 16.07.2023 - 23:17) *
После этих слов дальше читать не стал. Ибо, если сказанное верно, это не доказательная медицина, а какая-то хЕромантия. Вообще, я не очень понимаю эту ваши медицинские заморчочки с постоянным цензурированием справа. Пациентов у врача инопланетяне похищают? Или они пропадают в Бермудском Треугольнике? Неужели если пациент, которого скажем лечили от рака, умирает через N дней после выписки, те, кто проводил лечение, остаются в полном неведение о времени этого события и считают что его спасли? А судьбы больных врачи-исследователи оценивают исключительно на протяжении курса лечения? Если так, то несмотря на любые статистические технологии, медицина уйдет недалеко от времен кровопускания. Хотя, логика в этом есть, если цель не вылечить, а дотянуть клиента до выписки и оплаты услуг...

А регрессионных моделей выживания, не считая Кокса, есть вагон и малая тележка. Но мусор на входе = сами знаете что.

Ну я с вами не спорю. Я скорее для себя уточняю.
спасибо в любом случае.
Спасибо

Автор: "Наташа" 17.07.2023 - 11:48

Цитата(Игорь @ 16.07.2023 - 09:24) *
ROC-анализ не является методом классификации.
Оценки Каплана-Мейера не содержат предсказывающих переменных.

Я бы посмотрел модель пропорциональных рисков Кокса с соответствующей регрессией. Эта тема максимально подробно проработана в руководстве и ПО, доступных для скачивания. Для ссылок есть много хороших монографий, в том числе на русском и переводных. Всей теории-то на несколько страниц, даже на одну лекцию мало. Изучение методов по узкоспециальным статьям... если уже есть владение методикой - они могут быть полезны.

Спасибо.
Я просто хо ела Ваше мнение по поводу того зачем исследователи заморачиваются именно на том что б разбинарить по оптимальному порогу и провести оценку выживаемости в интресесующие сроки по группам (с высоким и низким показателем)
Спасибо

Автор: "Наташа" 17.07.2023 - 11:53

Цитата(ИНО @ 16.07.2023 - 23:17) *
После этих слов дальше читать не стал. Ибо, если сказанное верно, это не доказательная медицина, а какая-то хЕромантия. Вообще, я не очень понимаю эту ваши медицинские заморчочки с постоянным цензурированием справа. Пациентов у врача инопланетяне похищают? Или они пропадают в Бермудском Треугольнике? Неужели если пациент, которого скажем лечили от рака, умирает через N дней после выписки, те, кто проводил лечение, остаются в полном неведение о времени этого события и считают что его спасли? А судьбы больных врачи-исследователи оценивают исключительно на протяжении курса лечения? Если так, то несмотря на любые статистические технологии, медицина уйдет недалеко от времен кровопускания. Хотя, логика в этом есть, если цель не вылечить, а дотянуть клиента до выписки и оплаты услуг...

А регрессионных моделей выживания, не считая Кокса, есть вагон и малая тележка. Но мусор на входе = сами знаете что.

Ооо ну если вам интересно, куда пропадают больные? ну федеральный центр, они в случае благоприятного исхода, как правило, не выходят на связь. Им это нафиг не надо
Уезжают в дали дальние
Ну вот так? я не оправдываю ситуацию

Автор: nokh 17.07.2023 - 19:05

Цитата("Наташа @ 15.07.2023 - 17:31) *
А что вы думаете на счет следующего:
В статьях, посвещенных исследованию выживаемости зарубежные авторы все как один (касаемо узкой и относительно недавней тематики) поступают следующим образом: проводят РОК-анализ с целью оптимально разбинарить на два класса предсказующую переменную (она количественная, разброс от 0 до 1500, это объем в см3). Вот эта вот переменная имеет прямую связь с исходом. Так вот в исходе 1- это случился рецидив, а в 0 - он центрирован до конца наблюдения, либо вышел из него без исхода. При этом, большинство больных покинуло наблюдение с 0 на очень ранних сроках, соответственно информации о них никакой.
Так вот, исследователи бинарят нашу предсказывающую переменную и вводят ее в анализ Капана-Мейера, как исходно низкий уровень и исходно высокий уровень, что бы получить различия при оценке прогнозируемой выживаемости. Руководитель настаивает - сделай также!!! на доводы о том что отрицательный класс может быть не отрицательным мне говорят так все делают, нам нужно определиться с пороговыми значениями. Подскажите, как лучше выйти из ситуации? Еще данные статьи изобилуют графиками с рок кривыми, а для пороговых величин указывают значения чувствительности и специфичности... Зачем... Не пойму чего то, может в этом есть смысл...
Я еще подумала, что это возможно как то обьяснить тем, что в рамках сравнения двух предсказывающих переменных, какая из них точнее п (ну вроде выборка одна, и если страдает чувствительность, так она (возможно)))) везде страдает одинаково. В общем, что вы думаете?

Вопрос не совсем статистический, поэтому и ответ такой же. Нужно понимать, что:

1) Любые попытки понизить шкалу от шкалы отношений или интервальной до порядковой или дальше до дихотомической сопровождаются потерей информации. Или у вас есть конкретные значения, скажем массы чего-то, либо просто "малая-средняя-большая", либо просто "больше или меньше медианы (нормы или др. граничного значения) - разница большая. Вот вы будете устраиваться на новую работу, и вам скажут: "зарплата будет большой!", но не скажут большой относительного чего. Хватит вам этой информации, чтобы уйти с прежнего места? Поэтому если человек пытается в рамках анализа понижать шкалу, значит он просто некомпетентен и не знает как нужно сделать грамотно, либо делает это от какой-то безысходности, обстоятельств, стандартизации, и т.п., не имеющих отношения к грамотному анализу данных, т.е. применению лучшей модели к конкретным данным.

2) У вас плохие данные. Не вообще, а сейчас. Когда пройдёт время и все исходы случатся (ну или хотя бы случатся у больше чем половины пациентов) они станут хорошими, с ними можно будет работать стандартными методами. Я не вник в то, что кто-то там делает, но всё это производит впечатление притянуть за уши хоть что-то, лишь бы не ждать, а принимать решение и писать статьи уже сейчас. За рубежом статистические редакторы строгие, поэтому если такое прокатывает, значит прокатывает (но не значит, что так нужно радостно делать).

3). Научный руководитель взял на себя обязательство довести вас до успешной защиты. Он может не знать конкретных статистических методов, но он ориентируется в ситуации, в требованиях учёного совета и др. нюансах. Поэтому если вы не хотите ждать пока ваши данные станут хорошими, нужно просто сделать как он говорит. Потому что так "прокатит" и если сошлётесь на зарубежные работы, где так делают, никто из оппонентов не полезет в бутылку и не будет уже доказывать, что так сомнительно/не совсем корректно/некорректно. Но это не совет статистику, исследователю или врачу, это совет соискателю. Вот что я об этом думаю).

Автор: "Наташа" 17.07.2023 - 20:44

Цитата(nokh @ 17.07.2023 - 19:05) *
Вопрос не совсем статистический, поэтому и ответ такой же. Нужно понимать, что:

1) Любые попытки понизить шкалу от шкалы отношений или интервальной до порядковой или дальше до дихотомической сопровождаются потерей информации. Или у вас есть конкретные значения, скажем массы чего-то, либо просто "малая-средняя-большая", либо просто "больше или меньше медианы (нормы или др. граничного значения) - разница большая. Вот вы будете устраиваться на новую работу, и вам скажут: "зарплата будет большой!", но не скажут большой относительного чего. Хватит вам этой информации, чтобы уйти с прежнего места? Поэтому если человек пытается в рамках анализа понижать шкалу, значит он просто некомпетентен и не знает как нужно сделать грамотно, либо делает это от какой-то безысходности, обстоятельств, стандартизации, и т.п., не имеющих отношения к грамотному анализу данных, т.е. применению лучшей модели к конкретным данным.

2) У вас плохие данные. Не вообще, а сейчас. Когда пройдёт время и все исходы случатся (ну или хотя бы случатся у больше чем половины пациентов) они станут хорошими, с ними можно будет работать стандартными методами. Я не вник в то, что кто-то там делает, но всё это производит впечатление притянуть за уши хоть что-то, лишь бы не ждать, а принимать решение и писать статьи уже сейчас. За рубежом статистические редакторы строгие, поэтому если такое прокатывает, значит прокатывает (но не значит, что так нужно радостно делать).

3). Научный руководитель взял на себя обязательство довести вас до успешной защиты. Он может не знать конкретных статистических методов, но он ориентируется в ситуации, в требованиях учёного совета и др. нюансах. Поэтому если вы не хотите ждать пока ваши данные станут хорошими, нужно просто сделать как он говорит. Потому что так "прокатит" и если сошлётесь на зарубежные работы, где так делают, никто из оппонентов не полезет в бутылку и не будет уже доказывать, что так сомнительно/не совсем корректно/некорректно. Но это не совет статистику, исследователю или врачу, это совет соискателю. Вот что я об этом думаю).

Спасибо. Я Вас поняла.

Автор: ИНО 17.07.2023 - 20:50

Цитата("Наташа @ 17.07.2023 - 11:53) *
Ооо ну если вам интересно, куда пропадают больные? ну федеральный центр, они в случае благоприятного исхода, как правило, не выходят на связь. Им это нафиг не надо
Уезжают в дали дальние
Ну вот так? я не оправдываю ситуацию

Такое возможно только при неправильном планировании исследования. Как заставить больных не теряться? Можно предложить разные способы:

1. Перед зачислением в экспериментальную группу заставить подписывать договор, в коем пациент обязуется поставлять информацию о своем состоянии до истечения срока исследования. Например по телефону, электронной почте, или лучше всего, через специально созданный для этой цели исследователем сайт. В случае смерти обязать родственников пациента сообщить его точную дату, а также заключение патологоанатома.

2. Сотрудничать с врачами которые будут вести этого пациента после Вас. Очень сомневаюсь что тяжелый больной после выбывания из эксперимента станет лечиться исключительно у народных целителей.

3. Сотрудничать с органами власти. Эти знают все про всех.

Да это все затрудняет эксперимеримент, но лучше трудный , но корректный, чем легкий, но некорректный. Особенно в медицине.

Как быть если об этом не позаботились, прежде чем начать сбор данных. Ну, можно ввести третий исход: кроме "выздоровел" и "умер", еще и "уехал в дали дальние". Статметоды, разработанные для цензурированных справа данных применено это и делают. Но объединять любые две их этих категорий исходов решительно нельзя, это все равно что объединять теплое с мягким. Если конечно вы заинтересованы в прогнозе реальной выживаемости, а не какой-то искусственной величины, на практике никому не нужной.

Автор: ИНО 17.07.2023 - 20:59

Цитата
Я просто хо ела Ваше мнение по поводу того зачем исследователи заморачиваются именно на том что б разбинарить по оптимальному порогу и провести оценку выживаемости в интресесующие сроки по группам (с высоким и низким показателем)
Спасибо

Если я правильно понял ваше описание, то это, помимо мухлежа с объединением принципиально разных исходов, еще классический дата дреджинг. Сначала используют разведочный анализ, а потому на тех же данных проверяюит гипотезу выдвинутую по его результатам. Почему так делать нельзя, написано в любом толковом учебнике по статистике. Но можно делать иначе: оптимальную точку бинаризации искать на одной случайной выборке, проверять гипотезу о значимости различий на другой аналогичной. Правда, для сохранения мощности общий объем испытуемых придется увеличить в два раза. Зато сточки зрения прикладной статистики комар носа не подточит. Существует и промежуточный вариант, пусть не столь безупречный, но тоже проходной, - разные схемы короссвлидации и т. п. (например, OOB случайного леса). Хотя я вообще не понимаю, нафига здесь эта бинаризация предиктора нужна.

Автор: ИНО 17.07.2023 - 21:10

Цитата(nokh @ 17.07.2023 - 19:05) *
3). Научный руководитель взял на себя обязательство довести вас до успешной защиты. Он может не знать конкретных статистических методов, но он ориентируется в ситуации, в требованиях учёного совета и др. нюансах. Поэтому если вы не хотите ждать пока ваши данные станут хорошими, нужно просто сделать как он говорит. Потому что так "прокатит" и если сошлётесь на зарубежные работы, где так делают, никто из оппонентов не полезет в бутылку и не будет уже доказывать, что так сомнительно/не совсем корректно/некорректно. Но это не совет статистику, исследователю или врачу, это совет соискателю. Вот что я об этом думаю).

С таким подходом, Вам надо новую "Книгу вредных советов" писать smile.gif
А потом удивляемся: почему большинство результатов из статей по доказательной медицине (особенно, опубликованные в слабоцензурированных изданиях), оказываются невоспроизводимы, и почему, к премьеру, у отечественных онкологов, несмотря на 100500 проводимых ими научных исследований, пациенты продолжают мереть, как мухи? Зато научные руководители довольны и у оппонентов нет вопросов. И диссеры прут, как горячее пирожки. Если хотим реально людей лечить, а не только лавэ получать, в консерватории надо что-то менять...

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)