Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Дисперсионный анализ, нули в данных
Statisticafil
сообщение 28.06.2007 - 01:34
Сообщение #1





Группа: Пользователи
Сообщений: 21
Регистрация: 28.06.2007
Пользователь №: 4188



Коллеги, что то я запутался.
Обрабатываю массив данных, порядка 2000 записей, около 20 переменных. Внутри несколько групп.

Планирую сделать
1. Описательную статистику
2. Посмотреть различия между группами с помощью ANOVA

На основе данных рассчитывается суммарный балльный показатель, отсюда вопрос.

Вопрос 1.
Каким образом провести сравнение между группами балльного показателя. После анализа нужно вести разговор в терминах "в этой группе больше, в этой меньше/ниже"

Вопрос 2.
В каждой переменной минимум 2/3 значений отсутствуют (из 2000 данные содержат от 60 до 600 записей, они различны от переменной к переменной)
В настоящий момент пропущенные значения заполнены нулями, к сожалению. Есть ли способ не учитывать нули при анализе в Statistica 6? Пробовал обьявить 0 как код пропущенного значения, программа даёт явно не корректные расчёты (среднее сигма и т.д.)

Заранее спасибо.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Bragi
сообщение 28.06.2007 - 21:33
Сообщение #2





Группа: Пользователи
Сообщений: 16
Регистрация: 13.11.2006
Пользователь №: 2049



В Stat6.0 клетки с отсутствующими значениями должны быть пустыми. я особенно не мудрил, через "замену" (Ctrl+H) нули поменял на пробелы и вроде нормально считает.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 28.06.2007 - 21:48
Сообщение #3





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



На вопрос 1 ответ простой - та же ANOVA. сравнение балльных значений. Правда, будет проблема с пропущенными значениями (мне не совсем понятно, как будет расчитан балльный показатель)
вопрос 2 - vars -> Recode -> выбрать включить (инклуде иф - почему-то английский не идет), var1=0 (или другое имя переменной) MD code
и все значения будут превращены в отсутствующие значения
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Statisticafil
сообщение 29.06.2007 - 23:52
Сообщение #4





Группа: Пользователи
Сообщений: 21
Регистрация: 28.06.2007
Пользователь №: 4188



Благодарю коллеги smile.gif Способы работают.
Балльный показатель будет высчитываться просто - значение переменной умножается на её балл и эти баллы суммируются. Соответственно будет мало проп. значений, в какойто из 25 переменных да и найдётся величина ...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 1.07.2007 - 15:21
Сообщение #5





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Вот насчет баллов мне не понятно - итак, предположим, еть три переменные с высовыми коэффициентами 1, 2 и 3. В реальном мире у пациента значение по всем трем переменным 1, суммарный балл должен быть 6. Однако у Вас пропущено значение в переменной 3. Соответственно суммарный бал становится 3 - мне кажется, это большая проблема...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Statisticafil
сообщение 2.07.2007 - 00:36
Сообщение #6





Группа: Пользователи
Сообщений: 21
Регистрация: 28.06.2007
Пользователь №: 4188



Я прошу прощения, не упомянул сразу, эта работа не из области медицины. Это (гео)экология, а оцениваются некие участки территории по ряду параметров.

Если проводить аналогию с медициной, то я бы немного переформулировал ваш пример. Он совершенно верен в случае, например, диагностики состояния пациента - определяем пульс, давление, что-то ещё, оцениваем в баллах, суммируем, на этой основе принимаем решение о тяжести состояния или делаем прогноз развития. Если пропущен какой-то из параметров невозможно принять корректное решение.
Мой случай похож скорее на то, как если мы оцениваем некого пациента по наличию в истории болезни (? анамнезе) различных заболеваний - например - был инфаркт миокарда - 6 баллов, был инсульт ГМ - 6 баллов ... вполне логично что тому, кому посчастливилось перенести и инфаркт и инсульт приписать 12 баллов, только инфарктнику - 6 ... Ну и приплюсовать сюда мелочь, вроде - поллиноз - 0.2, хр.бронхит - 0.3 и т.д.

ПС.
На форум попал, поскольку помогаю приятелю-медику обсчитать данные для диссера дисперсионным анализом. Нашел здесь много полезного, был приятно удивлён квалифицированными, внятными и ясными ответами на вопросы...
Вот и свои задал ... smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 2.07.2007 - 20:32
Сообщение #7





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Statisticafil @ 2.07.2007 - 01:36) [snapback]3025[/snapback]
Если проводить аналогию с медициной, то я бы немного переформулировал ваш пример. Он совершенно верен в случае, например, диагностики состояния пациента - определяем пульс, давление, что-то ещё, оцениваем в баллах, суммируем, на этой основе принимаем решение о тяжести состояния или делаем прогноз развития. Если пропущен какой-то из параметров невозможно принять корректное решение.
Мой случай похож скорее на то, как если мы оцениваем некого пациента по наличию в истории болезни (? анамнезе) различных заболеваний - например - был инфаркт миокарда - 6 баллов, был инсульт ГМ - 6 баллов ... вполне логично что тому, кому посчастливилось перенести и инфаркт и инсульт приписать 12 баллов, только инфарктнику - 6 ... Ну и приплюсовать сюда мелочь, вроде - поллиноз - 0.2, хр.бронхит - 0.3 и т.д.


Да, но это в том случае, если известно, переносил ли человек инфаркт миокарда или нет, т.е. пропущенной информации нет, а есть информация об отсутствии фактора. В случае географически распределенных показателей ситуация ухудшается еще больше - представьте себе, что два соседних региона имеют повышенный уровень чего-то, а чем дальше, тем ниже уровень этого чего-то (ну, как выброс диоксина в Севезо). А теперь данных по региону, следующему за самым зараженным нет, а мы его игнорируем. Получается провал. Соответственно, надо не просто выбрасывать данные а интерполировать, например. Кстати, экологические исследования обычно требуют для себя немного иных методов обработки (т.н. геостатистика), поскольку наблюдения в реальности не независимые (как пациенты - зная АД у одного про АД у другого ничего сказать нельзя), а зависимые (если в регионе Х большие выбросы, то в соседнем регионе Y значения должны быть ближе к X, чем к отдаленному Z).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему