О теории информации - Форум врачей-аспирантов

О теории информации, help

DrgLena Просмотр профиля	13.01.2008 - 23:57 Сообщение #1
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Вопрос из теории информации. Как описать различия в численности и разнообразии осложнений в двух группах, если рассчитаны: индекс диверсификации (Shannon-Wiener) h1=1,82 и h2=1,01; или энтропия Шеннона H1=2,63 и H2=1,46 или Evenness = 0,79 и 0,92 соответственно. Ученый совет хочет услышать вывод о различиях в статистических терминах. Первоисточник Корда Шеннона так и называется Теория информации и статистическа 1978. Но его нет. Как же дать статистическую оценку описанных различий? Всего 10 видов осложнений , в 1 группе их сумма - 33, во второй - 6.

плав Просмотр профиля	15.01.2008 - 12:53 Сообщение #2
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	Поскольку индекс Шэннона-Винера используется для оценки биоразнообразия, то там обычно расчет идет по отдельным ареалам. Затем расчитываются индексы для каждого ареала и по обычным формулам стандартного отклонения - среднее стандартное отклонение. Поскольку индекс биоразнообразия является характеристикой ареала (так же как и АД характеризует пациента), то формально для него одного не считают достоверности. Однако, не вдаваясь в возможность использования индекса биоразнообразия для оценки осложнений у пациентов (интуиция подсказывает мне, что нарушаются правила отсутствия корреляций - осложнения не виды животных, они зависимые), тем не менее опишу, общий подход к решению задачи оченки достоверности любого параметра (bootstrap). 1. Взять исходные данные (например, первую группу). 2. Сформировать не менее 500 выборок с повторами из этой группы, численность оригинальной группы 3. Расчитать для каждой выборки критерий Шэннона 4. Построить распределение рассчитанных критериев (т.е. эти пятиста значений) 5. Взять средние 95% значений - это и будет 95% доверительный интервал критерия Шэннона для данной группу. 6. Повторить для второй группы и сравнить их как обычно. Самое сложное тут - выборки с повторами, SAS начиная с версии 8 имеет специальную процедуру surveyselect, но не очень сложно это все запрограммировать и в других профессиональных системах.

DrgLena Просмотр профиля	16.01.2008 - 20:28 Сообщение #3
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Спасибо, я поняла. Но этот путь для меня сложный. Используя методы теории информации, я хотела упростить представление результата сравнения двух групп. В данном примере группы приблизительно по 250 больных, а осложнения в обеих группах редкие, они анализируются в 8-ми временных точках и их число и разнообразие со временеи еще более снижается. При этом шансы развития каждого вида осложнений в зависимости от метода операции при анализе статистическими методами не различаются, есть "0" значения(большие 95% ДИ). Представляя на каждое время наблюдения индексы разнообразия в 1 и 2 группе - метод 1 выигрывает. Все 8 индексов в 1 группе ниже, чем в другой. Можно ли сравнивая два индекса Шаннона -Винера или Симпсона говорить на сколько один больше другого? Или один принимать за 100% и говорить на сколько другой ниже. Я согласна, что статистически различия не доказаны. Но, по видимому, они не будут доказаны и тем путем, который вы описали. Возможен ли в таком случае клинический, а не статистический вывод, что метод 1 предпочтительней, чем 2 по частоте и разнообразию осложнений. Или лучше поступить традиционно, дать просто процент каждого вида осложнений в двух группах, в докомпьютерное время так и поступали.

плав

16.01.2008 - 22:47

Сообщение #4

Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933

С моей точки зрения любой параметр без оценки его вариабельности не несет в себе значительной информации. Если нет желания пользоваться bootstrap, то можно, воспользоваться приближенным тестом для сравнения индексов Шэннона -Винера:
1) Рассчитать для каждой группы дисперсию по формуле:
S^2=SUM(n_i*log^2(n_i)-(SUM(n_i*log(n_i)))^2/N/N^2
2) Рассчитать суммарную дисперсию
S=SQRT(S_1^2+S_2^2)
3) Рассчитать t
t=(H_1 - H_2)/S
4) Определить количество степеней свободы
df=(S_1^2+S_2^2)^2/((S_1^2)^2/N_1+(S_2^2)^2/N_2))
5) По таблицам для t-критерия и учитывая df определить p

========
Формулы в формате LaTex
\[
\begin{array}{l}
S^2 = \frac{{\sum {n_i *\log ^2 (n_i ) - {{(\sum {n_i *\log (n_i ))^2 } } \mathord{\left/
{\vphantom {{(\sum {n_i *\log (n_i ))^2 } } N}} \right.
\kern-\nulldelimiterspace} N}} }}{{N^2 }} \\
S = \sqrt {S_1^2 + S_2^2 } \\
df = \frac{{(S_1^2 + S_2^2 )^2 }}{{{\raise0.7ex\hbox{${(S_1^2 )^2 }$} \!\mathord{\left/
{\vphantom {{(S_1^2 )^2 } {N_1 }}}\right.\kern-\nulldelimiterspace}
\!\lower0.7ex\hbox{${N_1 }$}} + {\raise0.7ex\hbox{${(S_2^2 )^2 }$} \!\mathord{\left/
{\vphantom {{(S_2^2 )^2 } {N_2 }}}\right.\kern-\nulldelimiterspace}
\!\lower0.7ex\hbox{${N_2 }$}}}} \\
\end{array}
\]

Эскизы прикрепленных изображений

Ответить с цитированием данного сообщения

DrgLena Просмотр профиля	16.01.2008 - 23:06 Сообщение #5
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Супер!! Плав, вы просто молодец! Это как раз то что нужно, что душе желала. Большое спасибо. Если можно дайте пожалуйста ссылки, где это можно почитать и на что можно официально сослаться в работе. Т.е. на формулу для расчета дисперсии. График индексов с доверит интерв. пусть даже пересекающимися будет наглядно описывась уровень различий. ПРограмма для расчета этих индексов у меня есть (она свободная). Но остается ощущение недоделанной работы. Еще раз большое спасибо. По следам написанного вами нашла в инете ссылку: http://www.ievbran.ru/kiril/Article/A20/Div_Bak.htm#R2_2 Избранные главы из готовящейся к изданию монографии: Структурный анализ экологических систем ОЦЕНКА БИОРАЗНООБРАЗИЯ: ПОПЫТКА ФОРМАЛЬНОГО ОБОБЩЕНИЯ В.К. Шитиков, Г.С. Розенберг Институт экологии Волжского бассейна РАН Вышла ли эта монография? Можно ли на нее сослаться?

Игорь Просмотр профиля	17.01.2008 - 12:11 Сообщение #6
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040	Работа Шитикова с соавт. опубликована в книге Количественные методы экологии и гидробиологии. Под ред. Г.С.Розенберга. Тольятти: ИЭВБ РАН, 2005. Вот тут оглавление книги http://ecograde.belozersky.msu.ru/library/...0_contents.html со ссылками на полные тексты. Вот ссылка на упомянутую работу: http://ecograde.genebee.msu.su/library/boo...zenberg/2-5.pdf Ссылка взята отсюда (см. также и другие указанные там источники) http://ecograde.genebee.msu.su/library/index.html Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

DrgLena Просмотр профиля	17.01.2008 - 22:11 Сообщение #7
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Спасибо, полная ясность, но полного счастья не бывает. Философские вопросы одолевают. Переход количества в качество все же как то не убедительно получается. Нет желанного р <0,05, совет и ВАК могут остаться неудовлетворенными. Но личное удовольствие от познания все же присутствует.

плав Просмотр профиля	17.01.2008 - 22:46 Сообщение #8
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	На всякий случай, метод называется t-тест Хатчесона Hutcheson, K. A test for comparing diversities based on the Shannon formula. Journal of Theoretical Biology,1970, 29: 151?154. Приведенная модификация взята из книги: Zar, Jerrold H. Biostatistical Analysis. Englewood Cliffs, N.J. Prentice Hall, Inc., 1984

DrgLena Просмотр профиля	18.01.2008 - 01:23 Сообщение #9
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Спасибо, я нашла в инете в статье все ссылки и формулы, правда ничего не поняла в их предметной области. И еще одна заморочка, если с Шенноном все понятно, то с фамилией второго Wiener Винер или Shannon-Weaver Diversity Index или Shannon-Wiener Diversity Index. Т.е. если в формуле Shannon логарифм не по основанию 2, а натуральный то называют Shannon-Weaver Diversity Index. ПО русски как правильно перводится этот индекс? http://crop.scijournals.org/cgi/content/full/41/1/241

Игорь Просмотр профиля	18.01.2008 - 09:10 Сообщение #10
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040	Если основание логарифма 2, то энтропию измеряют в битах. Если основание e = 2,7182818...., то в нитах. Соответственно, дисперсия "измеряется" в "битах квадратных" или "нитах квадратных" (такие названия, отмечу, в литературе не используются - указано для передачи сути). Поэтому все формулы для вычислений те же самые. Ну, естественно, можно указывать, в каких единицах Вы приводите значение энтропии. По умолчанию принято использовать биты. В то же время в статье по ссылке из предыдущего поста - логарифмы натуральные. Насчет Шеннона-Винера и Шеннона-Вивера спор идет давно. Посмотрите статью об индексе Шеннона в Википедии http://en.wikipedia.org/wiki/Shannon_index Писать "индекс разнообразия Шеннона" - достаточно будет. Если считать дисперсию по формуле, данной плав, получается что-то слишком малое значение. Ошибка? По статье по ссылке из предыдущего поста (Grenier et al) и по Шитикову с соавт. результаты получаются аналогичные и похожие на правду, но Шитиков с соавт. неточно отобразили формулу критерия. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

DrgLena

18.01.2008 - 17:42

Сообщение #11

Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573

Я пользуюсь англоязычной программой, которая рассчитывает и энтропию Шеннона (лог по осн 2) и там этот показатель так и называется - Sannon Entropy, но я решила использовать Sannon-Wiener Diversity Index (натур. лог.) поскольку в медицинской клинической работе, на мой взгляд, более понятен термин деверсификация - это все же как то понятней, чем энтропия, ближе к частоте и разнообразию видов осложнений. Суть не меняется, одно из другого легко получается. Я раcсчитала для первой исследовательской точки дисперсию по формуле, которую представил Плав: в первой группе S21=0,061 (SD=0,25), во второй S22=0,062 (SD=0,25). При этом t=4,7 ; df = 20,1. Т.е. вполне существенные различия. Может я и ошиблась, почти ручная работа, типа закат солнца вручную. В более отдаленные сроки еще не считала, там скорее всего различия не будут статистически значимыми.

Эскизы прикрепленных изображений

плав Просмотр профиля	18.01.2008 - 18:10 Сообщение #12
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	Цитата Если считать дисперсию по формуле, данной плав, получается что-то слишком малое значение. Ошибка? Что означает слишком малое? Значения (виды растений) Группа 1 47 35 7 5 3 2 Дисперсия по Zar - 0,001376 По оригинальной формуле - 0,001631 H 0,54033 Группа 2 48 23 11 13 8 2 Дисперсия по Zar - 0,000969 По оригинальной формуле - 0,001029 H 0,632783 T df p Zar 1,909 196 0,05772636 Кроме того, почему ошибка должна быть именно в приводимых мною формулах (а не наоборот)? Каким образом могут получиться одинаовые результаты в статье Шитикова и Grenier et al, если у Шитикова суммируются (plog(p))^2, а у Grenier et al p(log(p))^2. На всякий случай просчитал, ничего общего. Так что выдаете желаемое за действительное. На самом деле модификация, которая приводится Grenier et al является менее удобной для счета, но возможно, немного более точной. Модификация Zar является более удобной для счета, но немного более консервативной. (наверное, вообще-то надо делать эксперимент и проверять, но мне это сейчас делать не хочется). Креплю экселевский файл с расчетами, если кому понадобится (проверено по расчетным примерам из учебника биологии) Сообщение отредактировал плав - 19.01.2008 - 15:32 Причина редактирования: исправлен файл Прикрепленные файлы Shannon_Zar.rar ( 3,1 килобайт ) Кол-во скачиваний: 655

DrgLena Просмотр профиля	18.01.2008 - 18:19 Сообщение #13
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	В первом моем постере нет исходных данных. Я их добавляю: столбики чисел - осложнения в 1 и 2 группе, под чертой -сумма. Диспресии и SD посчитанные по формуле Плав для этого ряда меня вполне устраивают. Но надо еще проверить. ВВожу формулы в программе Statistica 7. 1 0 1 0 4 1 6 2 1 0 1 0 4 0 1 0 1 0 13 3 -------------------- 33 6

DrgLena Просмотр профиля	18.01.2008 - 18:31 Сообщение #14
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Ну, вот, пока я жирным шрифтом выделяла имя Плав, пришел ваш постер. Я разберусь и с Zar тоже. Спасибо большое и Слава модератору!!! Потому и использую энтропийный подход, а не традицинно статистический, что есть "0". Но и число осложнений т.е. разнообразие в этой группе меньше. И эти частоты просто не входят в формулу расчета энтропии и естественно дисперсии.

DrgLena Просмотр профиля	19.01.2008 - 02:03 Сообщение #15
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Плав! По вашему примеру, реализованному в экселе, у меня сошлось только одно значение - индекс Ш-В ( у вас H hutch 1,244162161)/ т.е. если вы умножаете частоты на натуральный логарифм, и то только в первой группе. Во второй, вы частоты посчитали не верно - 47/99, а нужно 47/105. У меня для вашего примера: Shannon Entropy 1.7949466 2.102059 Shannon-Wiener Diversity Index 1.2441622 1.4570363

« Предыдущая тема · Медицинская статистика · Следующая тема »