Дисперсионный анализ, нули в данных |
Здравствуйте, гость ( Вход | Регистрация )
Дисперсионный анализ, нули в данных |
28.06.2007 - 01:34
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 28.06.2007 Пользователь №: 4188 |
Коллеги, что то я запутался.
Обрабатываю массив данных, порядка 2000 записей, около 20 переменных. Внутри несколько групп. Планирую сделать 1. Описательную статистику 2. Посмотреть различия между группами с помощью ANOVA На основе данных рассчитывается суммарный балльный показатель, отсюда вопрос. Вопрос 1. Каким образом провести сравнение между группами балльного показателя. После анализа нужно вести разговор в терминах "в этой группе больше, в этой меньше/ниже" Вопрос 2. В каждой переменной минимум 2/3 значений отсутствуют (из 2000 данные содержат от 60 до 600 записей, они различны от переменной к переменной) В настоящий момент пропущенные значения заполнены нулями, к сожалению. Есть ли способ не учитывать нули при анализе в Statistica 6? Пробовал обьявить 0 как код пропущенного значения, программа даёт явно не корректные расчёты (среднее сигма и т.д.) Заранее спасибо. |
|
28.06.2007 - 21:33
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 16 Регистрация: 13.11.2006 Пользователь №: 2049 |
В Stat6.0 клетки с отсутствующими значениями должны быть пустыми. я особенно не мудрил, через "замену" (Ctrl+H) нули поменял на пробелы и вроде нормально считает.
|
|
28.06.2007 - 21:48
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
На вопрос 1 ответ простой - та же ANOVA. сравнение балльных значений. Правда, будет проблема с пропущенными значениями (мне не совсем понятно, как будет расчитан балльный показатель)
вопрос 2 - vars -> Recode -> выбрать включить (инклуде иф - почему-то английский не идет), var1=0 (или другое имя переменной) MD code и все значения будут превращены в отсутствующие значения |
|
29.06.2007 - 23:52
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 28.06.2007 Пользователь №: 4188 |
Благодарю коллеги Способы работают.
Балльный показатель будет высчитываться просто - значение переменной умножается на её балл и эти баллы суммируются. Соответственно будет мало проп. значений, в какойто из 25 переменных да и найдётся величина ... |
|
1.07.2007 - 15:21
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Вот насчет баллов мне не понятно - итак, предположим, еть три переменные с высовыми коэффициентами 1, 2 и 3. В реальном мире у пациента значение по всем трем переменным 1, суммарный балл должен быть 6. Однако у Вас пропущено значение в переменной 3. Соответственно суммарный бал становится 3 - мне кажется, это большая проблема...
|
|
2.07.2007 - 00:36
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 28.06.2007 Пользователь №: 4188 |
Я прошу прощения, не упомянул сразу, эта работа не из области медицины. Это (гео)экология, а оцениваются некие участки территории по ряду параметров.
Если проводить аналогию с медициной, то я бы немного переформулировал ваш пример. Он совершенно верен в случае, например, диагностики состояния пациента - определяем пульс, давление, что-то ещё, оцениваем в баллах, суммируем, на этой основе принимаем решение о тяжести состояния или делаем прогноз развития. Если пропущен какой-то из параметров невозможно принять корректное решение. Мой случай похож скорее на то, как если мы оцениваем некого пациента по наличию в истории болезни (? анамнезе) различных заболеваний - например - был инфаркт миокарда - 6 баллов, был инсульт ГМ - 6 баллов ... вполне логично что тому, кому посчастливилось перенести и инфаркт и инсульт приписать 12 баллов, только инфарктнику - 6 ... Ну и приплюсовать сюда мелочь, вроде - поллиноз - 0.2, хр.бронхит - 0.3 и т.д. ПС. На форум попал, поскольку помогаю приятелю-медику обсчитать данные для диссера дисперсионным анализом. Нашел здесь много полезного, был приятно удивлён квалифицированными, внятными и ясными ответами на вопросы... Вот и свои задал ... |
|
2.07.2007 - 20:32
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Цитата(Statisticafil @ 2.07.2007 - 01:36) [snapback]3025[/snapback] Если проводить аналогию с медициной, то я бы немного переформулировал ваш пример. Он совершенно верен в случае, например, диагностики состояния пациента - определяем пульс, давление, что-то ещё, оцениваем в баллах, суммируем, на этой основе принимаем решение о тяжести состояния или делаем прогноз развития. Если пропущен какой-то из параметров невозможно принять корректное решение. Мой случай похож скорее на то, как если мы оцениваем некого пациента по наличию в истории болезни (? анамнезе) различных заболеваний - например - был инфаркт миокарда - 6 баллов, был инсульт ГМ - 6 баллов ... вполне логично что тому, кому посчастливилось перенести и инфаркт и инсульт приписать 12 баллов, только инфарктнику - 6 ... Ну и приплюсовать сюда мелочь, вроде - поллиноз - 0.2, хр.бронхит - 0.3 и т.д. Да, но это в том случае, если известно, переносил ли человек инфаркт миокарда или нет, т.е. пропущенной информации нет, а есть информация об отсутствии фактора. В случае географически распределенных показателей ситуация ухудшается еще больше - представьте себе, что два соседних региона имеют повышенный уровень чего-то, а чем дальше, тем ниже уровень этого чего-то (ну, как выброс диоксина в Севезо). А теперь данных по региону, следующему за самым зараженным нет, а мы его игнорируем. Получается провал. Соответственно, надо не просто выбрасывать данные а интерполировать, например. Кстати, экологические исследования обычно требуют для себя немного иных методов обработки (т.н. геостатистика), поскольку наблюдения в реальности не независимые (как пациенты - зная АД у одного про АД у другого ничего сказать нельзя), а зависимые (если в регионе Х большие выбросы, то в соседнем регионе Y значения должны быть ближе к X, чем к отдаленному Z). |
|