Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

5 страниц V   1 2 3 > » 

ogurtsov
Отправлено: 4.03.2019 - 19:23


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


Лично я вижу 2.5 выхода из сложившейся ситуации:
1) Узаконить продажу кандидатских корочек.
2) Диссертанты начинают сами изучать статистику и программирование в необходимом объеме, после чего сами делают анализ корректным и воспроизводимым образом.
2.5) П.2, но с привлечением репетиторов.
  Форум: Медицинская статистика · Просмотр сообщения: #23773 · Ответов: 8 · Просмотров: 950

ogurtsov
Отправлено: 3.03.2019 - 19:13


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(comisora @ 1.03.2019 - 23:36) *
Доброго вечера.
2ogurtsov

Вы про вот этот инструмент писали? https://blogs.rstudio.com/tensorflow/posts/...ngs-with-keras/

Там на уровне слов работают, но принцип тот же. Можно даже просто усреднять векторные представления слов и получать векторное представление целого текста.
Нервную сетку обучать не обязательно, можно брать обученную модель doc2vec.
  Форум: Медицинская статистика · Просмотр сообщения: #23768 · Ответов: 7 · Просмотров: 1108

ogurtsov
Отправлено: 8.02.2019 - 21:27


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


Для уникальных предложений можно строить эмбеддинги (векторные представления) и смотреть, насколько они близко расположены в полученном векторном пространстве. Может быть, некоторые окажутся не такими уж и уникальными.
  Форум: Медицинская статистика · Просмотр сообщения: #23729 · Ответов: 7 · Просмотров: 1108

ogurtsov
Отправлено: 17.10.2018 - 20:10


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


Поменять бы PAST на R, и будет полная годнота.
  Форум: Медицинская статистика · Просмотр сообщения: #23440 · Ответов: 8 · Просмотров: 2223

ogurtsov
Отправлено: 16.10.2018 - 20:33


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(nikita_zab @ 16.10.2018 - 17:38) *
Добрый день!

Прошу напомнить термин, которым называют применение всевозможных статистических методов к одним и тем же данным в попытке найти значимую разницу или закономерности.

И второй вопрос из области философии. Имеет ли смысл применять несколько методов для оценки "здесь что-то есть". И если применяется сразу несколько методов как быть, если некоторые из них показывают "р меньше 5 сотых", а другие нет?

p-value-hunting. Или локальный мем данного форума - ковровая бомбардировка тестами.
https://mchankins.wordpress.com/2013/04/21/...-significant-2/
Цитата
(barely) not statistically significant (p=0.052)
a barely detectable statistically significant difference (p=0.073)
a borderline significant trend (p=0.09)
a certain trend toward significance (p=0.08)
a clear tendency to significance (p=0.052)
a clear trend (p<0.09)
a clear, strong trend (p=0.09)
a considerable trend toward significance (p=0.069)
a decreasing trend (p=0.09)
a definite trend (p=0.08)
a distinct trend toward significance (p=0.07)
a favorable trend (p=0.09)
a favourable statistical trend (p=0.09)
a little significant (p<0.1)
a margin at the edge of significance (p=0.0608)
a marginal trend (p=0.09)
a marginal trend toward significance (p=0.052)
a marked trend (p=0.07)
a mild trend (p<0.09)

Имеет ли смысл применять - ну это как вы со своей совестью договоритесь, или насколько умело отписавшийся выше профессионал разведет вас на бабки.
  Форум: Медицинская статистика · Просмотр сообщения: #23435 · Ответов: 6 · Просмотров: 1970

ogurtsov
Отправлено: 1.07.2018 - 21:06


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(leo_biostat @ 19.06.2018 - 13:29) *
И каждое из таких уравнений имеет хороший набор показателей, что позволяет из всех
уравнений самому заказчику выбирать 2-3 лучших уравнения.

Показатели хорошие, и уравнения восхитительные, но какова их прогностическая ценность? Интересуют метрики на отложенной выборке, а еще лучше - "в продакшене".
  Форум: Медицинская статистика · Просмотр сообщения: #23136 · Ответов: 5 · Просмотров: 2349

ogurtsov
Отправлено: 13.05.2018 - 11:17


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(scholar @ 12.05.2018 - 19:22) *
Есть ли статистические техники оценки динамики только по средним?

Нет.
  Форум: Медицинская статистика · Просмотр сообщения: #22997 · Ответов: 2 · Просмотров: 1142

ogurtsov
Отправлено: 6.05.2018 - 17:34


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(Антон Т. @ 6.05.2018 - 17:27) *
Попробую сформулировать иначе. Есть результаты исследования влияния достаточно большого количества признаков (12 аллелей, 29 генотипов) на небольшой выборке (130-150 человек), разделенных на подгруппы. Получен ряд ассоциаций. После коррекции на множественность сравнения общепринятыми методами (Бенжамини-Хохберга и тем более Бонферрони) результаты оказались статистически незначимы. Однако при проведении регрессионного анализа с теми же генотипами в качестве предикторов ("наличие-отсутствие"), в окончательное уравнение регрессии вошли именно те генотипы, которые были ассоциированы с заболеванием после расчета по 2*2. Получается противоречие. И неясно, что делать дальше - можно ли публиковать результаты, сославшись на результаты лог. регрессии, или воздержаться, принимая во внимание коррекцию на множественность?

Никакого противоречия нет. Для коэффициентов регрессии тоже есть своя групповая вероятность ошибки первого рода, то есть каждый по отдельности может быть "значим на уровне значимости 0.05", но это не гарантирует, что на том же уровне значимости значима вся совокупность. Опять же: как отбирали предикторы, которые вошли / не вошли? И более глобально: как оценивается качество модели и как принимается решение, что она хорошая? Какое у нее дальнейшее практическое применение?
  Форум: Медицинская статистика · Просмотр сообщения: #22947 · Ответов: 6 · Просмотров: 2000

ogurtsov
Отправлено: 6.05.2018 - 16:27


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


У вас таблица сопряженности получается 24х8 (192 ячейки). Подумайте, можно ли сделать какие-то выводы при наличии всего 77 собак.
  Форум: Медицинская статистика · Просмотр сообщения: #22945 · Ответов: 36 · Просмотров: 10681

ogurtsov
Отправлено: 6.05.2018 - 14:35


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(Антон Т. @ 6.05.2018 - 12:56) *
Можно ли говорить, что мы проверили таким образом наши результаты на состоятельность с учетом множественности сравнений?

Нет, нельзя. И как вообще понимать состоятельность результатов? Я бы предложил оценивать модель по прогнозной силе на новых наблюдениях.
  Форум: Медицинская статистика · Просмотр сообщения: #22943 · Ответов: 6 · Просмотров: 2000

ogurtsov
Отправлено: 5.04.2018 - 19:17


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(Cules2013 @ 5.04.2018 - 08:22) *
Предлагаете брать с них пример, чтобы не выделяться?

Цитаты плиз, кто и где это предлагает.
  Форум: Медицинская статистика · Просмотр сообщения: #22868 · Ответов: 10 · Просмотров: 2913

ogurtsov
Отправлено: 3.04.2018 - 21:03


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(Cules2013 @ 3.04.2018 - 17:19) *
Ну так это не я же придумал все эти ограничения. К слову именно та инфа, что я указал здесь - это из методички по статистике моего вуза, составленной по книгам Рокицкого, Лакина, Плохинского и т.д. Вполне допускаю, что эта инфа уже устарела, но взята отнюдь не с потолка.
Вы сказали, о "докомпьютерной эпохе" - это одна сторона вопроса, что многие расчёты было раньше сложно или трудоёмко выполнять. Но я имею виду те случаи, когда вы используете данные, что не подходят для данного критерия, т.к. не соответствуют неким математическим допущениям в самой формуле. В итоге вы можете получить ошибку первого/второго рода, или как один человек приводил интересный пример с критерием Смирнова-Колмогорова, что использовался для проверки на нормальность малых выборок данных (меньше 10 случаев) - программа вам может посчитать, что угодно, но в итоге получается, что ему банально не хватает мощности, чтобы отклонить нулевую гипотезу, и на малых выборках он всегда пишет, что распределение нормально, хотя это совсем не так. Вот таких вот проколов хотелось бы избегать. Статистика - это не философия и не литературоведение, здесь должно быть всё чётко и понятно, а не "трактуй, как хочешь". Вот люди и трактуют как хотят - у них критерий Стьюдента подходит на все случаи жизни и т.п.

На самом деле на все случаи жизни есть бустреп - генерируйте тысячи псевдовыборок, стройте эмпирические распределение требуемых статистик, по ним находите ДИ.
  Форум: Медицинская статистика · Просмотр сообщения: #22861 · Ответов: 10 · Просмотров: 2913

ogurtsov
Отправлено: 27.03.2018 - 20:17


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(leo_biostat @ 27.03.2018 - 16:11) *
Уверен, что интересы большинства ответчиков аналогичны.

Вообще неприкрытой коммерцией тут кроме вас никто не занят.
  Форум: Медицинская статистика · Просмотр сообщения: #22811 · Ответов: 13 · Просмотров: 3841

ogurtsov
Отправлено: 20.03.2018 - 22:36


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


Тогда еще вопрос - всего строк данных сколько? Что дают однофакторные модели (желательно в плане прогнозного качества по кросс-валидации)?
  Форум: Медицинская статистика · Просмотр сообщения: #22789 · Ответов: 3 · Просмотров: 1377

ogurtsov
Отправлено: 20.03.2018 - 19:50


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


Там NA - это, похоже, не NA вовсе.
Начните с обычной линейной модели, лично мне не очевидно, каким образом сюда прикручиваются смешанные эффекты и пуассоновское распределение.
  Форум: Медицинская статистика · Просмотр сообщения: #22785 · Ответов: 3 · Просмотров: 1377

ogurtsov
Отправлено: 19.03.2018 - 21:06


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(Surgenik @ 19.03.2018 - 21:59) *
тупо сделать по аналогии

Отличный подход! Так держать. Надеюсь, Вас лечить будут ровно так же.
  Форум: Медицинская статистика · Просмотр сообщения: #22779 · Ответов: 6 · Просмотров: 2331

ogurtsov
Отправлено: 18.03.2018 - 19:17


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


Если в статье результаты описаны таким вот образом, да еще и проценты не сходятся, то эту статью лучше просто не читать.
  Форум: Медицинская статистика · Просмотр сообщения: #22776 · Ответов: 6 · Просмотров: 2331

ogurtsov
Отправлено: 11.02.2018 - 22:06


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(100$ @ 11.02.2018 - 17:34) *
Все нечетные индексы - первая группа, все четные - вторая. Et vice versa.

Это не рандомизация.

Лучше всего использовать https://cran.r-project.org/web/packages/blockrand/index.html
  Форум: Медицинская статистика · Просмотр сообщения: #22606 · Ответов: 35 · Просмотров: 22689

ogurtsov
Отправлено: 27.01.2018 - 19:47


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


Вообще с практической точки зрения имеет смысл строить модель, предсказывающую вероятность выбывания новых пациентов (например, чтобы подкорректировать критерии включения/невключения и включать поменьше тех, кто с высокой вероятностью откажется от исследования). То есть модель нужно подбирать с использованием перекрестной проверки и делать итоговую оценку на тестовой выборке, плюс затем проверять в боевых условиях.
  Форум: Медицинская статистика · Просмотр сообщения: #22517 · Ответов: 11 · Просмотров: 2611

ogurtsov
Отправлено: 25.01.2018 - 21:50


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(nokh @ 25.01.2018 - 10:22) *
Благодарю. Кроссвалидация в рамках проведённого препроцессинга показывает качество прогноза порядка 80%. Я пока штурмую R и не умею запрограммировать такую кросс-проверку, чтобы делать препроцессинг на части, а проверять на другой. К тому же беда в том, что такие процедуры как квантильная нормализация даёт разные результаты в зависимости от входящих в анализ данных и как тогда нормализовать отложенныую часть? Короче, ещё повоюю... К тому же ожидаются настоящие "отложенные данные" - следующая партия. Там и посмотрим насколько топы сигнатур будут перекрываться.

Запрограммировать не сложно, но есть также вариант прикрутить готовую реализацию https://topepo.github.io/recipes/articles/S...le_Example.html
  Форум: Медицинская статистика · Просмотр сообщения: #22498 · Ответов: 5 · Просмотров: 2146

ogurtsov
Отправлено: 28.12.2017 - 22:54


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


Попробуйте использовать классические подходы машинного обучения: проверяйте прогностическую ценность моделей на отложенных данных.
Никакой объективности в биоинформатике пока нет, см., например, недавнюю публикацию о доле ошибок, связанных с одним только неправильным считыванием икселевских файлов, в которых оказывается всякий мусор.
Не знаю, насколько все плохо с микрочипами, но я застал эпическое падение перспективной когда-то технологии SAGE.
  Форум: Медицинская статистика · Просмотр сообщения: #22360 · Ответов: 5 · Просмотров: 2146

ogurtsov
Отправлено: 23.12.2017 - 21:31


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


используйте R. Кое-какие примеры можно найти у меня в презентации https://statist-bhfz.github.io/r_trials.html, дальше - гугл и документация к пакетам.
  Форум: Медицинская статистика · Просмотр сообщения: #22348 · Ответов: 3 · Просмотров: 1729

ogurtsov
Отправлено: 20.11.2017 - 19:55


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


Используйте https://github.com/tidyverse/lubridate
  Форум: Медицинская статистика · Просмотр сообщения: #22213 · Ответов: 1 · Просмотров: 821

ogurtsov
Отправлено: 15.10.2017 - 18:43


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(med-ick @ 15.10.2017 - 18:14) *
я просто стажер
мне дали задачу
дословно формулировка звучит так
Основная задача: проанализировать выборку мед. страх событий (например аварии с двумя участниками) на возможное мошенничество. Выделить тех клиентов, относительно которых существует подозрение на мошеннические действия; обосновать подозрение.
я спросил , где доп. данные, сказали, решать методом графов.

Это классическая задача под названием fraud detection. На неразмеченных данных не решается (точнее, теоретически решается, но непонятно как оценивать качество решения).
  Форум: Медицинская статистика · Просмотр сообщения: #21988 · Ответов: 25 · Просмотров: 6640

ogurtsov
Отправлено: 9.07.2017 - 21:48


Дух форума
*

Группа: Пользователи
Сообщений: 104
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата
Это позволит создать в Ереване образец отличной диссертации

Нет, не поможет.
Цитата
Диссертация - эксклюзивная работа.
Всю работу соискатель должен провести единолично, какое-либо соавторство не допускается.

http://www.aspirantura.spb.ru/pamiatka/treb_dissert.html
  Форум: Медицинская статистика · Просмотр сообщения: #21673 · Ответов: 9 · Просмотров: 3827

5 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена