PCA для временной серии |
Здравствуйте, гость ( Вход | Регистрация )
PCA для временной серии |
11.05.2019 - 22:05
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Насколько корректно применять анализ главных компонент к временным рядам? Полазил по зарубежным форумам и увидел разные мнения. То, что так считают и есть много публикаций - факт, однако PCA основан на корреляциях, для которых требование независимости наблюдений в выборке нарушена. Хочу применить к медицинским данным: динамика изменения 5-7 показателей (температура, ЧСС, АД и др.) у отельного пациента в течение 30 дней после операции.
|
|
12.05.2019 - 07:45
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Насколько корректно применять анализ главных компонент к временным рядам? Полазил по зарубежным форумам и увидел разные мнения. То, что так считают и есть много публикаций - факт, однако PCA основан на корреляциях, для которых требование независимости наблюдений в выборке нарушена. Хочу применить к медицинским данным: динамика изменения 5-7 показателей (температура, ЧСС, АД и др.) у отельного пациента в течение 30 дней после операции. 1) Математики десятилетиями раскладывают на собственные значения ( https://ru.wikipedia.org/wiki/%D0%A1%D0%BE%...%82%D0%BE%D1%80 и https://ru.wikipedia.org/wiki/%D0%A1%D0%B8%...%BD%D0%B8%D0%B5 ) матрицу имени Hankel ( https://ru.wikipedia.org/wiki/%D0%93%D0%B0%...%B8%D1%86%D0%B0 и https://en.wikipedia.org/wiki/Hankel_matrix). Цитирую: "Hankel matrices are formed when, given a sequence of output data, a realization of an underlying state-space or hidden Markov model is desired. The singular value decomposition of the Hankel matrix provides a means of computing the A, B, and C matrices which define the state-space realization. The Hankel matrix formed from the signal has been found useful for decomposition of non-stationary signals and time-frequency representation."(С) Ну и пример такой оценки в pdf. 2) PCA не основан на к.к., не читайте мурзилки где написана эта глупость. PCA это один из методов _тождественного_ _линейного_ преобразования системы координат в которых помещена конечная выборка. Почитайте хотя бы википедию: "Метод главных компонент применим всегда. Распространённое утверждение о том, что он применим только к нормально распределённым данным (или для распределений, близких к нормальным) неверно: в исходной формулировке Пирсона ставится задача об аппроксимации конечного множества данных и отсутствует даже гипотеза о их статистическом порождении, не говоря уж о распределении."(С)
Прикрепленные файлы
|
|
12.05.2019 - 11:09
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Большое спасибо, читал и подобное (и даже сам учил студентов:)). Но вот задумал интересную штуку и закрались сомнения, т.к. нужно чтобы было максимально корректно...
|
|
12.05.2019 - 14:54
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Насколько корректно применять анализ главных компонент к временным рядам? Полазил по зарубежным форумам и увидел разные мнения. То, что так считают и есть много публикаций - факт, однако PCA основан на корреляциях, для которых требование независимости наблюдений в выборке нарушена. Хочу применить к медицинским данным: динамика изменения 5-7 показателей (температура, ЧСС, АД и др.) у отельного пациента в течение 30 дней после операции. Предварительный диагноз - корректно. Не знаю, что такое Time-Wise PCA в Statistica, но навскидку нагуглил вот такую симпатичную статью:здесь |
|
12.05.2019 - 15:39
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Благодарю! Про Time-Wise PCA тоже погуглю. А сама задумка не из области диагностики, а более теоретическая, типа: болезнь, здоровье, гомеостаз, аллостаз и всё такое...
|
|
12.05.2019 - 22:10
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Большое спасибо, читал и подобное (и даже сам учил студентов:)). Но вот задумал интересную штуку и закрались сомнения, т.к. нужно чтобы было максимально корректно... 1) Если "читали и учили", то странные вопросы задаете. Но впрочем с удовольствием обсужу восстановление матриц описывающих динамическую систему со знающим человеком. "30 дней" это как? Сколько "замеров в день"? Если 1 и 1 пациент, то можно забыть о затее. 2) Что касается pdf с извращениями "здесь мы средние извлекаем и нормируем, а здесь как есть оставляем и все очень быстро в реалтайме делаем", то это увы "не о чём"ТМ. Скользящее среднее получается естественным образом из первых членов разложения матрицы Генкеля построенной по временному ряду (эти я баловался еще в 90е , а оказывается "прозой говорил"(С) ). Не удивлюсь если одно через другое выразить можно. Ну а варианты разложений PCA для тензоров "естественным образом" позволяют обрабатывать многомерные временные ряды. Сообщение отредактировал p2004r - 12.05.2019 - 22:13 |
|
14.05.2019 - 15:55
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
1) Если "читали и учили", то странные вопросы задаете. Но впрочем с удовольствием обсужу восстановление матриц описывающих динамическую систему со знающим человеком. "30 дней" это как? Сколько "замеров в день"? Если 1 и 1 пациент, то можно забыть о затее. Когда 3 работы, а круг интересов ещё шире, то всегда что-то недочитаешь . И только углубившись в какую-то тему начинаешь понимать как много недочитано... По поводу данных: с ними всё нормально. Это пациенты из реанимации гнойной хирургии крупной больницы, т.е. места, куда свозят самых тяжёлых пациентов со всех отделений и где летальность ещё несколько лет назад доходила до 30%. Их состояние мониторится по ряду показателей ежедневно, по ряду - как-то периодически, но их хватает, чтобы считать шкалы Ranson, Apache II, SOFA и др. не по разу. Т.е. матрица данных получается именно такая: для каждого пациента несколько показателей ежедневно и на протяжении всего срока пребывания в реанимации или до смерти. Один человек - одна матрица. Думаю потенциал анализа подобных данных для медицины большой, но меня сейчас интересуют другие вещи. Т.е. вопрос о восстановлении матриц не стоит. Я возможно даже интерпретировать компоненты не буду, т.к. не уверен, что справлюсь с интерпретацией, а брать соавторов в эту работу не хочу. Получится - выложу сюда готовую статью с кодом R. |
|