Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> PCA для временной серии
nokh
сообщение 11.05.2019 - 22:05
Сообщение #1





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Насколько корректно применять анализ главных компонент к временным рядам? Полазил по зарубежным форумам и увидел разные мнения. То, что так считают и есть много публикаций - факт, однако PCA основан на корреляциях, для которых требование независимости наблюдений в выборке нарушена. Хочу применить к медицинским данным: динамика изменения 5-7 показателей (температура, ЧСС, АД и др.) у отельного пациента в течение 30 дней после операции.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 12.05.2019 - 07:45
Сообщение #2





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(nokh @ 11.05.2019 - 22:05) *
Насколько корректно применять анализ главных компонент к временным рядам? Полазил по зарубежным форумам и увидел разные мнения. То, что так считают и есть много публикаций - факт, однако PCA основан на корреляциях, для которых требование независимости наблюдений в выборке нарушена. Хочу применить к медицинским данным: динамика изменения 5-7 показателей (температура, ЧСС, АД и др.) у отельного пациента в течение 30 дней после операции.



1) Математики десятилетиями раскладывают на собственные значения ( https://ru.wikipedia.org/wiki/%D0%A1%D0%BE%...%82%D0%BE%D1%80 и https://ru.wikipedia.org/wiki/%D0%A1%D0%B8%...%BD%D0%B8%D0%B5 ) матрицу имени Hankel ( https://ru.wikipedia.org/wiki/%D0%93%D0%B0%...%B8%D1%86%D0%B0 и https://en.wikipedia.org/wiki/Hankel_matrix).

Цитирую: "Hankel matrices are formed when, given a sequence of output data, a realization of an underlying state-space or hidden Markov model is desired. The singular value decomposition of the Hankel matrix provides a means of computing the A, B, and C matrices which define the state-space realization. The Hankel matrix formed from the signal has been found useful for decomposition of non-stationary signals and time-frequency representation."(С)

Ну и пример такой оценки в pdf.

2) PCA не основан на к.к., не читайте мурзилки где написана эта глупость. PCA это один из методов _тождественного_ _линейного_ преобразования системы координат в которых помещена конечная выборка. Почитайте хотя бы википедию:

"Метод главных компонент применим всегда. Распространённое утверждение о том, что он применим только к нормально распределённым данным (или для распределений, близких к нормальным) неверно: в исходной формулировке Пирсона ставится задача об аппроксимации конечного множества данных и отсутствует даже гипотеза о их статистическом порождении, не говоря уж о распределении."(С)




Прикрепленные файлы
Прикрепленный файл  TP3045.pdf ( 391,56 килобайт ) Кол-во скачиваний: 187
 


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 12.05.2019 - 11:09
Сообщение #3





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Большое спасибо, читал и подобное (и даже сам учил студентов:)). Но вот задумал интересную штуку и закрались сомнения, т.к. нужно чтобы было максимально корректно...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 12.05.2019 - 14:54
Сообщение #4





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(nokh @ 11.05.2019 - 22:05) *
Насколько корректно применять анализ главных компонент к временным рядам? Полазил по зарубежным форумам и увидел разные мнения. То, что так считают и есть много публикаций - факт, однако PCA основан на корреляциях, для которых требование независимости наблюдений в выборке нарушена. Хочу применить к медицинским данным: динамика изменения 5-7 показателей (температура, ЧСС, АД и др.) у отельного пациента в течение 30 дней после операции.


Предварительный диагноз - корректно. Не знаю, что такое Time-Wise PCA в Statistica, но навскидку нагуглил вот такую симпатичную статью:здесь
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 12.05.2019 - 15:39
Сообщение #5





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Благодарю! Про Time-Wise PCA тоже погуглю. А сама задумка не из области диагностики, а более теоретическая, типа: болезнь, здоровье, гомеостаз, аллостаз и всё такое...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 12.05.2019 - 22:10
Сообщение #6





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(nokh @ 12.05.2019 - 11:09) *
Большое спасибо, читал и подобное (и даже сам учил студентов:)). Но вот задумал интересную штуку и закрались сомнения, т.к. нужно чтобы было максимально корректно...


1) Если "читали и учили", то странные вопросы задаете. Но впрочем с удовольствием обсужу восстановление матриц описывающих динамическую систему со знающим человеком. smile.gif

"30 дней" это как? Сколько "замеров в день"? Если 1 и 1 пациент, то можно забыть о затее.

2) Что касается pdf с извращениями "здесь мы средние извлекаем и нормируем, а здесь как есть оставляем и все очень быстро в реалтайме делаем", то это увы "не о чём"ТМ. Скользящее среднее получается естественным образом из первых членов разложения матрицы Генкеля построенной по временному ряду (эти я баловался еще в 90е smile.gif, а оказывается "прозой говорил"(С) ). Не удивлюсь если одно через другое выразить можно.

Ну а варианты разложений PCA для тензоров "естественным образом" позволяют обрабатывать многомерные временные ряды.

Сообщение отредактировал p2004r - 12.05.2019 - 22:13


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 14.05.2019 - 15:55
Сообщение #7





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(p2004r @ 13.05.2019 - 00:10) *
1) Если "читали и учили", то странные вопросы задаете. Но впрочем с удовольствием обсужу восстановление матриц описывающих динамическую систему со знающим человеком. smile.gif
"30 дней" это как? Сколько "замеров в день"? Если 1 и 1 пациент, то можно забыть о затее.

Когда 3 работы, а круг интересов ещё шире, то всегда что-то недочитаешь unknw.gif . И только углубившись в какую-то тему начинаешь понимать как много недочитано...
По поводу данных: с ними всё нормально. Это пациенты из реанимации гнойной хирургии крупной больницы, т.е. места, куда свозят самых тяжёлых пациентов со всех отделений и где летальность ещё несколько лет назад доходила до 30%. Их состояние мониторится по ряду показателей ежедневно, по ряду - как-то периодически, но их хватает, чтобы считать шкалы Ranson, Apache II, SOFA и др. не по разу. Т.е. матрица данных получается именно такая: для каждого пациента несколько показателей ежедневно и на протяжении всего срока пребывания в реанимации или до смерти. Один человек - одна матрица. Думаю потенциал анализа подобных данных для медицины большой, но меня сейчас интересуют другие вещи. Т.е. вопрос о восстановлении матриц не стоит. Я возможно даже интерпретировать компоненты не буду, т.к. не уверен, что справлюсь с интерпретацией, а брать соавторов в эту работу не хочу. Получится - выложу сюда готовую статью с кодом R.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему