Дисперсионный анализ - Форум врачей-аспирантов

Форум врачей-аспирантов

Правила форума

Пользователи

Календарь

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

Добавить ответ в эту тему

Открыть тему

Дисперсионный анализ, нули в данных

Statisticafil Просмотр профиля	28.06.2007 - 01:34 Сообщение #1
Группа: Пользователи Сообщений: 21 Регистрация: 28.06.2007 Пользователь №: 4188	Коллеги, что то я запутался. Обрабатываю массив данных, порядка 2000 записей, около 20 переменных. Внутри несколько групп. Планирую сделать 1. Описательную статистику 2. Посмотреть различия между группами с помощью ANOVA На основе данных рассчитывается суммарный балльный показатель, отсюда вопрос. Вопрос 1. Каким образом провести сравнение между группами балльного показателя. После анализа нужно вести разговор в терминах "в этой группе больше, в этой меньше/ниже" Вопрос 2. В каждой переменной минимум 2/3 значений отсутствуют (из 2000 данные содержат от 60 до 600 записей, они различны от переменной к переменной) В настоящий момент пропущенные значения заполнены нулями, к сожалению. Есть ли способ не учитывать нули при анализе в Statistica 6? Пробовал обьявить 0 как код пропущенного значения, программа даёт явно не корректные расчёты (среднее сигма и т.д.) Заранее спасибо.

Bragi Просмотр профиля	28.06.2007 - 21:33 Сообщение #2
Группа: Пользователи Сообщений: 16 Регистрация: 13.11.2006 Пользователь №: 2049	В Stat6.0 клетки с отсутствующими значениями должны быть пустыми. я особенно не мудрил, через "замену" (Ctrl+H) нули поменял на пробелы и вроде нормально считает.

плав Просмотр профиля	28.06.2007 - 21:48 Сообщение #3
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	На вопрос 1 ответ простой - та же ANOVA. сравнение балльных значений. Правда, будет проблема с пропущенными значениями (мне не совсем понятно, как будет расчитан балльный показатель) вопрос 2 - vars -> Recode -> выбрать включить (инклуде иф - почему-то английский не идет), var1=0 (или другое имя переменной) MD code и все значения будут превращены в отсутствующие значения

Statisticafil Просмотр профиля	29.06.2007 - 23:52 Сообщение #4
Группа: Пользователи Сообщений: 21 Регистрация: 28.06.2007 Пользователь №: 4188	Благодарю коллеги Способы работают. Балльный показатель будет высчитываться просто - значение переменной умножается на её балл и эти баллы суммируются. Соответственно будет мало проп. значений, в какойто из 25 переменных да и найдётся величина ...

плав Просмотр профиля	1.07.2007 - 15:21 Сообщение #5
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	Вот насчет баллов мне не понятно - итак, предположим, еть три переменные с высовыми коэффициентами 1, 2 и 3. В реальном мире у пациента значение по всем трем переменным 1, суммарный балл должен быть 6. Однако у Вас пропущено значение в переменной 3. Соответственно суммарный бал становится 3 - мне кажется, это большая проблема...

Statisticafil Просмотр профиля	2.07.2007 - 00:36 Сообщение #6
Группа: Пользователи Сообщений: 21 Регистрация: 28.06.2007 Пользователь №: 4188	Я прошу прощения, не упомянул сразу, эта работа не из области медицины. Это (гео)экология, а оцениваются некие участки территории по ряду параметров. Если проводить аналогию с медициной, то я бы немного переформулировал ваш пример. Он совершенно верен в случае, например, диагностики состояния пациента - определяем пульс, давление, что-то ещё, оцениваем в баллах, суммируем, на этой основе принимаем решение о тяжести состояния или делаем прогноз развития. Если пропущен какой-то из параметров невозможно принять корректное решение. Мой случай похож скорее на то, как если мы оцениваем некого пациента по наличию в истории болезни (? анамнезе) различных заболеваний - например - был инфаркт миокарда - 6 баллов, был инсульт ГМ - 6 баллов ... вполне логично что тому, кому посчастливилось перенести и инфаркт и инсульт приписать 12 баллов, только инфарктнику - 6 ... Ну и приплюсовать сюда мелочь, вроде - поллиноз - 0.2, хр.бронхит - 0.3 и т.д. ПС. На форум попал, поскольку помогаю приятелю-медику обсчитать данные для диссера дисперсионным анализом. Нашел здесь много полезного, был приятно удивлён квалифицированными, внятными и ясными ответами на вопросы... Вот и свои задал ...

плав Просмотр профиля	2.07.2007 - 20:32 Сообщение #7
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	Цитата(Statisticafil @ 2.07.2007 - 01:36) [snapback]3025[/snapback] Если проводить аналогию с медициной, то я бы немного переформулировал ваш пример. Он совершенно верен в случае, например, диагностики состояния пациента - определяем пульс, давление, что-то ещё, оцениваем в баллах, суммируем, на этой основе принимаем решение о тяжести состояния или делаем прогноз развития. Если пропущен какой-то из параметров невозможно принять корректное решение. Мой случай похож скорее на то, как если мы оцениваем некого пациента по наличию в истории болезни (? анамнезе) различных заболеваний - например - был инфаркт миокарда - 6 баллов, был инсульт ГМ - 6 баллов ... вполне логично что тому, кому посчастливилось перенести и инфаркт и инсульт приписать 12 баллов, только инфарктнику - 6 ... Ну и приплюсовать сюда мелочь, вроде - поллиноз - 0.2, хр.бронхит - 0.3 и т.д. Да, но это в том случае, если известно, переносил ли человек инфаркт миокарда или нет, т.е. пропущенной информации нет, а есть информация об отсутствии фактора. В случае географически распределенных показателей ситуация ухудшается еще больше - представьте себе, что два соседних региона имеют повышенный уровень чего-то, а чем дальше, тем ниже уровень этого чего-то (ну, как выброс диоксина в Севезо). А теперь данных по региону, следующему за самым зараженным нет, а мы его игнорируем. Получается провал. Соответственно, надо не просто выбрасывать данные а интерполировать, например. Кстати, экологические исследования обычно требуют для себя немного иных методов обработки (т.н. геостатистика), поскольку наблюдения в реальности не независимые (как пациенты - зная АД у одного про АД у другого ничего сказать нельзя), а зависимые (если в регионе Х большие выбросы, то в соседнем регионе Y значения должны быть ближе к X, чем к отдаленному Z).

« Предыдущая тема · Медицинская статистика · Следующая тема »

Добавить ответ в эту тему

Открыть тему

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Форум IP.Board © 2024 IPS, Inc.