Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

5 страниц V   1 2 3 > » 

ogurtsov
Отправлено: 28.07.2020 - 07:52


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(passant @ 27.07.2020 - 22:06) *
Какая незатейливая реклама!
Неужели у центра все так плохо, что нельзя просто заказать платный банер, повесить его и спокойно собирать клиентов.
Неужели центр считает всех посетителей сайте полными идиотами, неспособными отличить рекламу от нормальных сообщений.
Я точно никогда не буду клиентом центра, но даже если бы у меня возникло такое желание, столь низкопробная реклама меня бы просто оттолкнула.
Неужели врачи мыслят по другому?
P.S. potap_O - кстати, вы к своему дяде "медицинскому директору и проверщику поступаемых диссертаций" так и не обратились за прошедшее время? Решили лучше отдать деньги "чужому дяде", чем общаться со своим родненьким? Высокие отношения!

Сначала ошибочно прочитал "проверщику покупаемых диссертаций", потом понял, что не так уж сильно ошибся. К сожалению, форум стал своего рода тематической барахолкой.
  Форум: Медицинская статистика · Просмотр сообщения: #25975 · Ответов: 16 · Просмотров: 2602

ogurtsov
Отправлено: 20.07.2020 - 20:08


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(100$ @ 19.07.2020 - 20:51) *
Блин, ogurtsov, а нельзя было дать ссылку на что-нибудь менее объемное? А то ж я все вынужден был прочитать )

В духе плаката Моора "Ты записался добровольцем?" так и хочется спросить: "А ты уже используешь пермутированные важности?". Ась?)

Там вся подборка статей очень хорошая, рекомендую направо и налево.
  Форум: Медицинская статистика · Просмотр сообщения: #25970 · Ответов: 8 · Просмотров: 603

ogurtsov
Отправлено: 15.07.2020 - 18:09


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(100$ @ 14.07.2020 - 20:50) *
Тогда маркируйте эти две совокупности 0 и 1 и обучайте на них любой бинарный классификатор, способный быстренько ответить на вопрос об относительной важности предикторов. Да хоть бы и логистическую регрессию.

Раз зашла речь об оценке важности предикторов, то кроме запощенной третьего дня ссылки https://pbiecek.github.io/ema/localDiagnostics.html могу порекомендовать перевод "Остерегайтесь обычных важностей случайного леса" из сборника https://drive.google.com/file/d/1xMejDTwDvX...a9eQ7IOnEc/view
  Форум: Медицинская статистика · Просмотр сообщения: #25958 · Ответов: 8 · Просмотров: 603

ogurtsov
Отправлено: 14.07.2020 - 18:35


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(Anna_V @ 14.07.2020 - 15:52) *
Добрый день. Подскажите, пожалуйста, когда применяется поправка Бенджамини-Хохберга? Я правильно поняла, что если я одновременно беру, например, 20 показателей крови и сравниваю их между группами, то все 20 рассчитанных p надо править? А если у меня 20 показателей крови (в таблице в одной главе диссертации) и 20 клинических показателей (в таблице в другой главе),я правлю каждую таблицу отдельно или все p в диссертации? И с какого количества анализируемых показателей применяется эта поправка?

Смотря как сформулированы цели и задачи исследования.
Если нужно "Проверить, различается ли статистически значимо при таком-то уровне значимости хотя бы один показатель в одной и в другой группе", то нужно контролировать групповую ошибку первого рода, как написано выше.
Если по каждому показателю сформулирован свой вопрос и своя нулевая гипотеза, то можно ничего не корректировать.
Как обычно, все упирается в план анализа данных, точнее в его традиционное для медицины отсутствие.
Ну и еще нужно понимать, чей риск отражает ошибка первого рода - пациента или диссертанта:)
  Форум: Медицинская статистика · Просмотр сообщения: #25954 · Ответов: 8 · Просмотров: 603

ogurtsov
Отправлено: 10.07.2020 - 19:14


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(100$ @ 10.07.2020 - 18:32) *
Ну вот, господа кластеризаторы и примкнувшие к ним нейросетевики )

А ларчик-то просто открывался: исследователь понимает, что на некоторых тестовых выборках прогноз будет неудовлетворительным. Отсюда все разговоры про заранее неизвестное число кластеров-сегментов в выборке, на которых "поведение классов будет..."В общем, что-то будет. В этой связи он желает выбросить все те наблюдения, которые искажают его картину мира. Сместив тем самым выборку и осознанно повысив переобученность модели. При этом напрочь забымши о том, что кросс-валидация модели основана на повторных выборках (выборках с возвращением).

Я все же надеюсь, что целью было понять границы применимости модели и просто не использовать ее "в проде" (в какой-то системе поддержки принятия решений?) там, где нормальное качество получить не получается.
Ну и accuracy 62% при том, что константное предсказание преобладающего класса дает 57% - это обычно очень плохо, в том числе с точки зрения калибровки и интерпретации предсказаний модели.
  Форум: Медицинская статистика · Просмотр сообщения: #25934 · Ответов: 25 · Просмотров: 1436

ogurtsov
Отправлено: 10.07.2020 - 18:23


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(smeilz @ 10.07.2020 - 15:09) *
Спасибо за вопросы и ответы.
Хорошо.
Есть датасет.
В нем примерно 70-80 категориальных признаков(независимых переменных или предикторов) и 1 категориальная(зависимая), которую я и буду предсказывать.
Распределение этой переменной 43%/57%. Вот 2 класса, которые уже присутствуют, соответственно я их и предсказываю.
Получается у нас датасет с признаком и обучение с учителем.

Про поведение я пожалуй не совсем корректно выразился.
Я имел ввиду, что по каким-то кускам нашей выборки прогноз будет не очень точным. Например 55% вероятность, что это класс 1 и 45% вероятность, что класс 0, их большинство.
Такие прогнозы мне не очень нужны, так как я буду часто ошибаться. Моя задача предполагает возможность отбросить куски данных и не давать по ним прогноза, если он не очень точный.
А есть куски, где прогнозы будут 65/35 или даже 70/30, они более точные, и я бы хотел брать те сегменты, где вероятность принадлежности к классу1 или классу0 больше определенного порога.
Соответственно у меня уже есть 3 сегмента.
1) Там, где прогноз класса0>65%
2) Там, где прогноз класса1> 65%
3) Остальные
Корректно ли так делать?
Если нет, то как грамотно?

В данный момент, я сделал так.
1) Взял пакет Catboost на python
2) Исключил оттуда признак, который мы предсказываем
3) Получил модель accuracy=63.5%
4) Провел на валидационной выборке, получил accuracy=62.5%
5) По тому, что качество модели упало незначительно, исключил Overfitting
6) Опытным путем нашел ту границу выбора класса0 и класса1, при которой процент ошибочных прогнозов не более 65%
(там можно автоматически задавать процент ошибки FPR и FNR, то я предпочел разобраться вручную)
В итоге что я хочу:
1)Более осознанно подходить к выбору признаков, например изучить их визуально при помощи визуализации на R. Возможно они дадут дополнительную информацию и буду точно понимать с каким признаками я имею дело. Меня ранее учили, что нельзя выбрасывать данные, даже если на первый взгляд кажется, что их влияние на целевую переменную очень маленькое, и даже если признаки скоррелированы.
2)Работать с данными не по принципу чёрного ящика, а лучше понимать, что я делаю, так как задача для меня интересная и хотелось бы повысить свой уровень понимания процесса
3)Понять какие ошибки я допустил в процессе и узнать, нужно ли балансировать данные, чтобы предсказываемые классы были в соотношении 50 на 50.

Вроде прояснилось.
Все деления по точности предиктов на трейне или даже на валидации бесполезны: для новых наблюдений все равно неизвестно, ошибается ли модель.
Вам нужна калибровка вероятности, которую дает классификатор - см., например, https://dyakonov.org/2020/03/27/%d0%bf%d1%8...81%d1%82%d0%b8/ Суть в том, что даже если классификатор выдает число в диапазоне от 0 до 1 (как логрег или более сложная нейросетка с сигмоидой на выходе), то это число лишь похоже на вероятность принадлежности к классу, но на самом деле вероятностью не является.
При помощи калибровки можно приблизить выхлоп модели к истинной оценке уверенности в предсказании, т.е. после калибровки в среднем из 100 предиктов со значением 0.6 в 60% случаев будет верно предсказан целевой класс.

Если копнуть еще глубже, то можно заняться интерпретацией модели с целью понять, почему она дает тот или иной ответ. Подходов много, но для выявления "проблемных" наблюдений можно прикрутить что-то типа https://pbiecek.github.io/ema/localDiagnostics.html
  Форум: Медицинская статистика · Просмотр сообщения: #25932 · Ответов: 25 · Просмотров: 1436

ogurtsov
Отправлено: 8.07.2020 - 19:05


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(100$ @ 8.07.2020 - 18:42) *
А мне очень интересно, как скоро в этой теме появится один из бесчисленных клонов лёвы_биостата и пробухтит нам чё-нить ужасно познавательное по поводу логистической регрессии и "многомерных методов продуктивного анализа"?

hi.gif Не буди лихо (с) hi.gif
  Форум: Медицинская статистика · Просмотр сообщения: #25915 · Ответов: 25 · Просмотров: 1436

ogurtsov
Отправлено: 7.07.2020 - 20:07


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Кластеризацию нужно сделать, а уж какую - тут много вариантов.
Метки кластеров затем использовать как фичу.
  Форум: Медицинская статистика · Просмотр сообщения: #25911 · Ответов: 25 · Просмотров: 1436

ogurtsov
Отправлено: 10.06.2020 - 21:22


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(Voevod @ 9.06.2020 - 19:30) *
Лет 15 назад и у меня были аналогичные ситуации в своём исследовании. И только когда обратился к профессионалам в [Название фирмы удалено администратором форума], понял, что такие подходы просто примитивны. Поскольку весьма продуктивные результаты получил от них по методам многомерного анализа. Вот и написал потом эти результаты в зарубежных журналах. Также рекомендую свой вопрос записывать более подробно. Если используете таблицу сопряжённости, то и вводите её. То есть ваш вопрос не полностью подробен. Желаю успеха!

hi.gif
Топовый камент, давно так не смеялся.
  Форум: Медицинская статистика · Просмотр сообщения: #25807 · Ответов: 5 · Просмотров: 1034

ogurtsov
Отправлено: 18.11.2019 - 22:01


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(nzbr @ 14.11.2019 - 16:44) *
Мы считаем, что клинически значимая разница в кровопотере составляет 200 мл (получается delta = 200 ?)

В такой формулировке получается, что нижняя граница доверительного интервала для разности средних или медиан должны быть не меньше 200. И тогда дальнейшие расчеты размера выборки неверны; для правильного варианта нужно дополнительно задать мощность, ожидаемую величину различий (очевидно, она должна быть больше 200 - я взял для примера 220 мл) и пропорцию между размерами групп.
Код
> n = TrialSize::TwoSampleMean.NIS(0.05, 0.2, 40, 1, 200, 220)
> ceiling(n)
[1] 50

Но цифры какие-то баснословные, почти половина донорского объема (450 мл) - очень серьезная разница.
  Форум: Медицинская статистика · Просмотр сообщения: #24809 · Ответов: 8 · Просмотров: 3540

ogurtsov
Отправлено: 2.09.2019 - 19:12


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(nokh @ 1.09.2019 - 17:36) *
1) Какую брать корреляцию: Пирсона или Спирмена

The Hellinger Correlation, конечно же
https://arxiv.org/abs/1810.10276
https://cran.r-project.org/web/packages/HellCor/index.html
  Форум: Медицинская статистика · Просмотр сообщения: #24413 · Ответов: 25 · Просмотров: 21641

ogurtsov
Отправлено: 19.08.2019 - 18:36


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(Nerbi @ 16.08.2019 - 04:42) *
Добрый день! Возник вопрос стоит ли подписывать информирование согласие при ретроспективном анализе выписок историй болезни? При этом анализируются в том числе результаты лабораторного анализа, который не является рутинным клинической в практике и выполнялся именно с научной целью.

Пациент должен был подписать информированное согласие еще на этапе визита в клинику. Если там ничего про обработку данных не было, или не было самого информированного согласия, тогда лучше подписать.
  Форум: Обучение в аспирантуре · Просмотр сообщения: #24345 · Ответов: 1 · Просмотров: 2194

ogurtsov
Отправлено: 19.08.2019 - 18:35


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(hckid @ 22.03.2019 - 23:36) *
Добрый день, коллеги.

Так получилось, что я оказался в аспирантуре и при написании аннотации диссертации у меня возникли некоторые проблемы.
Очень надеюсь на вашу помощь, потому что сам уже потерял какие-либо надежды.
В моей кандидатской диссертации сформулировано 5 задач. К каждой задаче мне нужно написать какой вид исследования она представляет собой и нарисовать схематичную схему.
Перелопатив литературу на тему видов, типов исследований я все равно оказался в затруднительном положении по идентификации какой же вид исследования подходит под мою задачу.
Поэтому прошу Вас помочь с этим. Предпалогается, что будут проанализированы истории болезни с 2017 по 2020 год.
1. Выявить частоту и распространённость заболевания "Х" у детей в условиях инфекционной больницы.
2. Провести ретроспективный и проспективный анализ течения неонатального периода у детей, с подтвержденным диагнозом "Х".
3. Оптимизировать сроки и критерии ранней диагностики заболевания "Х" у детей.
4. Изучить особенности колонизации микроорганизмами крови у детей больных заболеванием "Х".
5. Оценить эффективность ранней диагностики "Х" у детей при помощи молекулярно-генетических методов обследования.
Надеюсь на вашу помощь. Спасибо!

Напишите "клинические исследования" на все пункты, не ошибетесь smile.gif
Во втором пункте уже и конкретизация есть - ретроспективное и проспективное (это на самом деле 2 задачи).
Третий пункт - явно задача для машинного обучения. Подобную штуку делал, на типичных объемах данных (в лучшем случае пара сотен наблюдений) решается не очень хорошо.
  Форум: Обучение в аспирантуре · Просмотр сообщения: #24344 · Ответов: 1 · Просмотров: 3911

ogurtsov
Отправлено: 6.07.2019 - 10:28


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(100$ @ 5.07.2019 - 16:26) *
Не надо плодить сущности. Есть понятие физиологической нормы.

Не обижайтесь, но у вас второе предложение противоречит первому.
А "норма" у крысы, как и у человека, представляет собой диапазон значений, а не одно число.
Первый попавшийся пример: https://en.wikivet.net/Rat_Biochemistry - уровень холестерина от 40 до 130 является "нормальным". Поэтому в доклиническом исследовании трудно вообразить адекватный эксперимент без контрольной группы (обычно контролей еще и несколько) и/или измерения начальных значений изучаемых параметров.
Если копнуть еще глубже, то показатели биохимии имеют свойство серьезно меняться в зависимости от времени года и от диеты (крыса - животное деликатное, хуже только кролик). Плюс гендерные различия. Плюс линейные крысы разных линий тоже различаются (снова первый попавшийся пример - https://cyberleninka.ru/article/n/lineynye-...i-u-krys-na-in).
  Форум: Медицинская статистика · Просмотр сообщения: #24162 · Ответов: 13 · Просмотров: 3040

ogurtsov
Отправлено: 5.07.2019 - 14:15


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(100$ @ 5.07.2019 - 13:53) *
Чтобы снять у них биохимию мозга. Живой-то особи в башку не зелезешь...



Как по мне - так ничего подобного. Есть стрессогенный фактор, есть время. Об уровне воздействия стрессогенного фактора с течением времени судят по косвенному показателю - степени предпочтения сахарозы. После чего пытаются понять:как биохимия мозга зависит от глубины воздействия стресса. Усреднение уровня сахарозы будет происходить сначала по 15 объектам выборки, затем - по 10 и т.д. (ковариата). А собственно биохимия (дисперсионный комплекс в данном случае) будет представлена тремя независимыми выборками по 5 убиенных крыс. Погибших во имя науки.

Для биохимии нету нулевой точки, то есть "как биохимия мозга зависит от глубины воздействия стресса" мы не узнаем в ходе данного эксперимента.
  Форум: Медицинская статистика · Просмотр сообщения: #24158 · Ответов: 13 · Просмотров: 3040

ogurtsov
Отправлено: 5.07.2019 - 12:31


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Ну а животных-то зачем убивать? У вас цель состояла в анализе предпочтения сахарозы (о чем вначале сказано не было), это не требует забоя крыс.
В данном случае попытка угнаться за 2 зайцами привела именно к тому, к чему обычно приводит. Для анализа уровня предпочтения сахарозы в динамике данных тупо нет, кроме 5 крыс, убитых последними.
  Форум: Медицинская статистика · Просмотр сообщения: #24156 · Ответов: 13 · Просмотров: 3040

ogurtsov
Отправлено: 5.07.2019 - 11:36


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(Cules2013 @ 5.07.2019 - 11:13) *
Про связь "гуманное умерщвление" и "несвязанные выборки" вообще не въехал. При чём тут это?


Было написано
Цитата
я забиваю по 5 животных на биохимию мозга

Из чего как бы следует, что изучаются показатели биохимии, а не что-то еще, что можно измерить многократно. Для биохимии базового уровня нет (в день 0 никого не забивали), затем в 3 и последующие дни имеем по 5 убитых животных в каждой группе. Все выборки по 5 животных абсолютно независимы что при сравнении внутри группы, что при сравнении между группами.
  Форум: Медицинская статистика · Просмотр сообщения: #24153 · Ответов: 13 · Просмотров: 3040

ogurtsov
Отправлено: 5.07.2019 - 11:03


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(nokh @ 3.07.2019 - 21:26) *
Если у вас есть ссылки на соответствующие рекомендации, поделитесь ими, пожалуйста, с топикстартером. Мне по этой теме дискутировать не интересно. Остаюсь при своём мнении pardon.gif .

https://en.wikipedia.org/wiki/Reproducibili...ucible_research
https://www.coursera.org/lecture/reproducib...rch-about-FvOGB
А тестовые статистики и степени свободы оставьте в 80-х вместе с таблицами критических значений.
  Форум: Медицинская статистика · Просмотр сообщения: #24151 · Ответов: 5 · Просмотров: 2213

ogurtsov
Отправлено: 5.07.2019 - 10:48


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(Cules2013 @ 5.07.2019 - 09:54) *
Добрый день!
Я в первый раз провёл эксперимент по новой для меня схеме, поэтому несколько затрудняюсь, как теперь правильно обработать данные. У меня 3 группы крыс по 15 шт в каждой. Эксперимент длится 21 день, и на 3, 10 и 21-й дни я забиваю по 5 животных на биохимию мозга. Таким образом у меня получается, что 5 крыс у меня прошли весь эксперимент, а 5 только 3 дня, и ещё 5 только 10 дней. По факту у меня получается, что на 10-й и 21-й день у меня часть данных от тех же животных, что на 3-й и 10-й дни, а часть -нет, т.е. у меня выходит смешанная выборка - она и не связанная, и не несвязанная одновременно, 50/50 + кол-во чисел уменьшается с уменьшением кол-ва животных, т.е у меня ещё и missing values присутствуют. Как вообще такое считать статистически?

Сформулируйте цели исследования. Не существует никакого способа взять кучу цифр, "посчитать статистически" и получить на выходе что-то осмысленное.
Выборки, кстати, несвязанные, поскольку каждое животное гуманно умерщвлялось всего один раз.
  Форум: Медицинская статистика · Просмотр сообщения: #24150 · Ответов: 13 · Просмотров: 3040

ogurtsov
Отправлено: 3.07.2019 - 13:23


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(nokh @ 1.07.2019 - 07:58) *
Меня учили, что в результатах, опирающихся на статистический критерий нужно приводить все три меры: 1) значение статистики критерия, 2) степени свободы или объёмы выборок (в зависимости от критерия), 3) Р-значение. Если не привести все три меры, то статистическая выкладка перестаёт служить таковой или вообще теряет свой подтверждающий тезу смысл и может указывать на безграмотность исследователя. Например, в зависимости от числа степеней свободы критерий хи-квадрат=5,05 может иметь совершенно различные значения Р, а если человек просто напишет, что Р=0,014, то где дополнительные гарантии, что он не ошибся в расчётах или что вообще что-то считал.


Ничего, кроме p-значения, названия критерия и используемого уровня значимости, для интерпретации результатов не нужно. Никакие степени свободы и значения статистик не могут повысить доверие или что-то гарантировать, поскольку их все можно как написать "от фонаря" (только степени свободы подогнать под размер выборки), так и тщательно сфальсифицировать. Гарантии дает только оформление исследования как воспроизводимого, то есть с предоставлением всех данных, SAP-а и скрипта для всех этапов анализа и генерации отчета.
  Форум: Медицинская статистика · Просмотр сообщения: #24144 · Ответов: 5 · Просмотров: 2213

ogurtsov
Отправлено: 6.05.2019 - 19:39


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Какая непалевная реклама с двух фейковых аккаунтов!
  Форум: Медицинская статистика · Просмотр сообщения: #23927 · Ответов: 10 · Просмотров: 3812

ogurtsov
Отправлено: 4.03.2019 - 19:23


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Лично я вижу 2.5 выхода из сложившейся ситуации:
1) Узаконить продажу кандидатских корочек.
2) Диссертанты начинают сами изучать статистику и программирование в необходимом объеме, после чего сами делают анализ корректным и воспроизводимым образом.
2.5) П.2, но с привлечением репетиторов.
  Форум: Медицинская статистика · Просмотр сообщения: #23773 · Ответов: 10 · Просмотров: 3812

ogurtsov
Отправлено: 3.03.2019 - 19:13


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Цитата(comisora @ 1.03.2019 - 23:36) *
Доброго вечера.
2ogurtsov

Вы про вот этот инструмент писали? https://blogs.rstudio.com/tensorflow/posts/...ngs-with-keras/

Там на уровне слов работают, но принцип тот же. Можно даже просто усреднять векторные представления слов и получать векторное представление целого текста.
Нервную сетку обучать не обязательно, можно брать обученную модель doc2vec.
  Форум: Медицинская статистика · Просмотр сообщения: #23768 · Ответов: 7 · Просмотров: 2831

ogurtsov
Отправлено: 8.02.2019 - 21:27


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Для уникальных предложений можно строить эмбеддинги (векторные представления) и смотреть, насколько они близко расположены в полученном векторном пространстве. Может быть, некоторые окажутся не такими уж и уникальными.
  Форум: Медицинская статистика · Просмотр сообщения: #23729 · Ответов: 7 · Просмотров: 2831

ogurtsov
Отправлено: 17.10.2018 - 20:10


Дух форума
*

Группа: Пользователи
Сообщений: 125
Регистрация: 15.12.2015
Пользователь №: 27760


Поменять бы PAST на R, и будет полная годнота.
  Форум: Медицинская статистика · Просмотр сообщения: #23440 · Ответов: 8 · Просмотров: 4000

5 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена