Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ PCA для временной серии

Автор: nokh 11.05.2019 - 22:05

Насколько корректно применять анализ главных компонент к временным рядам? Полазил по зарубежным форумам и увидел разные мнения. То, что так считают и есть много публикаций - факт, однако PCA основан на корреляциях, для которых требование независимости наблюдений в выборке нарушена. Хочу применить к медицинским данным: динамика изменения 5-7 показателей (температура, ЧСС, АД и др.) у отельного пациента в течение 30 дней после операции.

Автор: p2004r 12.05.2019 - 07:45

Цитата(nokh @ 11.05.2019 - 22:05) *
Насколько корректно применять анализ главных компонент к временным рядам? Полазил по зарубежным форумам и увидел разные мнения. То, что так считают и есть много публикаций - факт, однако PCA основан на корреляциях, для которых требование независимости наблюдений в выборке нарушена. Хочу применить к медицинским данным: динамика изменения 5-7 показателей (температура, ЧСС, АД и др.) у отельного пациента в течение 30 дней после операции.



1) Математики десятилетиями раскладывают на собственные значения ( https://ru.wikipedia.org/wiki/%D0%A1%D0%BE%D0%B1%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9_%D0%B2%D0%B5%D0%BA%D1%82%D0%BE%D1%80 и https://ru.wikipedia.org/wiki/%D0%A1%D0%B8%D0%BD%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%BD%D0%BE%D0%B5_%D1%80%D0%B0%D0%B7%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5 ) матрицу имени Hankel ( https://ru.wikipedia.org/wiki/%D0%93%D0%B0%D0%BD%D0%BA%D0%B5%D0%BB%D0%B5%D0%B2%D0%B0_%D0%BC%D0%B0%D1%82%D1%80%D0%B8%D1%86%D0%B0 и https://en.wikipedia.org/wiki/Hankel_matrix).

Цитирую: "Hankel matrices are formed when, given a sequence of output data, a realization of an underlying state-space or hidden Markov model is desired. The singular value decomposition of the Hankel matrix provides a means of computing the A, B, and C matrices which define the state-space realization. The Hankel matrix formed from the signal has been found useful for decomposition of non-stationary signals and time-frequency representation."(С)

Ну и пример такой оценки в pdf.

2) PCA не основан на к.к., не читайте мурзилки где написана эта глупость. PCA это один из методов _тождественного_ _линейного_ преобразования системы координат в которых помещена конечная выборка. Почитайте хотя бы википедию:

"Метод главных компонент применим всегда. Распространённое утверждение о том, что он применим только к нормально распределённым данным (или для распределений, близких к нормальным) неверно: в исходной формулировке Пирсона ставится задача об аппроксимации конечного множества данных и отсутствует даже гипотеза о их статистическом порождении, не говоря уж о распределении."(С)





 TP3045.pdf ( 391,56 килобайт ) : 201
 

Автор: nokh 12.05.2019 - 11:09

Большое спасибо, читал и подобное (и даже сам учил студентов:)). Но вот задумал интересную штуку и закрались сомнения, т.к. нужно чтобы было максимально корректно...

Автор: 100$ 12.05.2019 - 14:54

Цитата(nokh @ 11.05.2019 - 22:05) *
Насколько корректно применять анализ главных компонент к временным рядам? Полазил по зарубежным форумам и увидел разные мнения. То, что так считают и есть много публикаций - факт, однако PCA основан на корреляциях, для которых требование независимости наблюдений в выборке нарушена. Хочу применить к медицинским данным: динамика изменения 5-7 показателей (температура, ЧСС, АД и др.) у отельного пациента в течение 30 дней после операции.


Предварительный диагноз - корректно. Не знаю, что такое Time-Wise PCA в Statistica, но навскидку нагуглил вот такую симпатичную статью:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.591.567&rep=rep1&type=pdf

Автор: nokh 12.05.2019 - 15:39

Благодарю! Про Time-Wise PCA тоже погуглю. А сама задумка не из области диагностики, а более теоретическая, типа: болезнь, здоровье, гомеостаз, аллостаз и всё такое...

Автор: p2004r 12.05.2019 - 22:10

Цитата(nokh @ 12.05.2019 - 11:09) *
Большое спасибо, читал и подобное (и даже сам учил студентов:)). Но вот задумал интересную штуку и закрались сомнения, т.к. нужно чтобы было максимально корректно...


1) Если "читали и учили", то странные вопросы задаете. Но впрочем с удовольствием обсужу восстановление матриц описывающих динамическую систему со знающим человеком. smile.gif

"30 дней" это как? Сколько "замеров в день"? Если 1 и 1 пациент, то можно забыть о затее.

2) Что касается pdf с извращениями "здесь мы средние извлекаем и нормируем, а здесь как есть оставляем и все очень быстро в реалтайме делаем", то это увы "не о чём"ТМ. Скользящее среднее получается естественным образом из первых членов разложения матрицы Генкеля построенной по временному ряду (эти я баловался еще в 90е smile.gif, а оказывается "прозой говорил"(С) ). Не удивлюсь если одно через другое выразить можно.

Ну а варианты разложений PCA для тензоров "естественным образом" позволяют обрабатывать многомерные временные ряды.

Автор: nokh 14.05.2019 - 15:55

Цитата(p2004r @ 13.05.2019 - 00:10) *
1) Если "читали и учили", то странные вопросы задаете. Но впрочем с удовольствием обсужу восстановление матриц описывающих динамическую систему со знающим человеком. smile.gif
"30 дней" это как? Сколько "замеров в день"? Если 1 и 1 пациент, то можно забыть о затее.

Когда 3 работы, а круг интересов ещё шире, то всегда что-то недочитаешь unknw.gif . И только углубившись в какую-то тему начинаешь понимать как много недочитано...
По поводу данных: с ними всё нормально. Это пациенты из реанимации гнойной хирургии крупной больницы, т.е. места, куда свозят самых тяжёлых пациентов со всех отделений и где летальность ещё несколько лет назад доходила до 30%. Их состояние мониторится по ряду показателей ежедневно, по ряду - как-то периодически, но их хватает, чтобы считать шкалы Ranson, Apache II, SOFA и др. не по разу. Т.е. матрица данных получается именно такая: для каждого пациента несколько показателей ежедневно и на протяжении всего срока пребывания в реанимации или до смерти. Один человек - одна матрица. Думаю потенциал анализа подобных данных для медицины большой, но меня сейчас интересуют другие вещи. Т.е. вопрос о восстановлении матриц не стоит. Я возможно даже интерпретировать компоненты не буду, т.к. не уверен, что справлюсь с интерпретацией, а брать соавторов в эту работу не хочу. Получится - выложу сюда готовую статью с кодом R.

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)