Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

4 страниц V   1 2 3 > »   
Добавить ответ в эту темуОткрыть тему
> О теории информации, help
DrgLena
сообщение 13.01.2008 - 23:57
Сообщение #1





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Вопрос из теории информации. Как описать различия в численности и разнообразии осложнений в двух группах, если рассчитаны: индекс диверсификации (Shannon-Wiener) h1=1,82 и h2=1,01; или энтропия Шеннона H1=2,63 и H2=1,46 или Evenness = 0,79 и 0,92 соответственно. Ученый совет хочет услышать вывод о различиях в статистических терминах. Первоисточник Корда Шеннона так и называется Теория информации и статистическа 1978. Но его нет. Как же дать статистическую оценку описанных различий? Всего 10 видов осложнений , в 1 группе их сумма - 33, во второй - 6.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 15.01.2008 - 12:53
Сообщение #2





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Поскольку индекс Шэннона-Винера используется для оценки биоразнообразия, то там обычно расчет идет по отдельным ареалам. Затем расчитываются индексы для каждого ареала и по обычным формулам стандартного отклонения - среднее стандартное отклонение. Поскольку индекс биоразнообразия является характеристикой ареала (так же как и АД характеризует пациента), то формально для него одного не считают достоверности.
Однако, не вдаваясь в возможность использования индекса биоразнообразия для оценки осложнений у пациентов (интуиция подсказывает мне, что нарушаются правила отсутствия корреляций - осложнения не виды животных, они зависимые), тем не менее опишу, общий подход к решению задачи оченки достоверности любого параметра (bootstrap).
1. Взять исходные данные (например, первую группу).
2. Сформировать не менее 500 выборок с повторами из этой группы, численность оригинальной группы
3. Расчитать для каждой выборки критерий Шэннона
4. Построить распределение рассчитанных критериев (т.е. эти пятиста значений)
5. Взять средние 95% значений - это и будет 95% доверительный интервал критерия Шэннона для данной группу.
6. Повторить для второй группы и сравнить их как обычно.
Самое сложное тут - выборки с повторами, SAS начиная с версии 8 имеет специальную процедуру surveyselect, но не очень сложно это все запрограммировать и в других профессиональных системах.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 16.01.2008 - 20:28
Сообщение #3





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Спасибо, я поняла. Но этот путь для меня сложный. Используя методы теории информации, я хотела упростить представление результата сравнения двух групп. В данном примере группы приблизительно по 250 больных, а осложнения в обеих группах редкие, они анализируются в 8-ми временных точках и их число и разнообразие со временеи еще более снижается. При этом шансы развития каждого вида осложнений в зависимости от метода операции при анализе статистическими методами не различаются, есть "0" значения(большие 95% ДИ). Представляя на каждое время наблюдения индексы разнообразия в 1 и 2 группе - метод 1 выигрывает. Все 8 индексов в 1 группе ниже, чем в другой. Можно ли сравнивая два индекса Шаннона -Винера или Симпсона говорить на сколько один больше другого? Или один принимать за 100% и говорить на сколько другой ниже. Я согласна, что статистически различия не доказаны. Но, по видимому, они не будут доказаны и тем путем, который вы описали. Возможен ли в таком случае клинический, а не статистический вывод, что метод 1 предпочтительней, чем 2 по частоте и разнообразию осложнений. Или лучше поступить традиционно, дать просто процент каждого вида осложнений в двух группах, в докомпьютерное время так и поступали.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 16.01.2008 - 22:47
Сообщение #4





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



С моей точки зрения любой параметр без оценки его вариабельности не несет в себе значительной информации. Если нет желания пользоваться bootstrap, то можно, воспользоваться приближенным тестом для сравнения индексов Шэннона -Винера:
1) Рассчитать для каждой группы дисперсию по формуле:
S^2=SUM(n_i*log^2(n_i)-(SUM(n_i*log(n_i)))^2/N/N^2
2) Рассчитать суммарную дисперсию
S=SQRT(S_1^2+S_2^2)
3) Рассчитать t
t=(H_1 - H_2)/S
4) Определить количество степеней свободы
df=(S_1^2+S_2^2)^2/((S_1^2)^2/N_1+(S_2^2)^2/N_2))
5) По таблицам для t-критерия и учитывая df определить p

========
Формулы в формате LaTex
\[
\begin{array}{l}
S^2 = \frac{{\sum {n_i *\log ^2 (n_i ) - {{(\sum {n_i *\log (n_i ))^2 } } \mathord{\left/
{\vphantom {{(\sum {n_i *\log (n_i ))^2 } } N}} \right.
\kern-\nulldelimiterspace} N}} }}{{N^2 }} \\
S = \sqrt {S_1^2 + S_2^2 } \\
df = \frac{{(S_1^2 + S_2^2 )^2 }}{{{\raise0.7ex\hbox{${(S_1^2 )^2 }$} \!\mathord{\left/
{\vphantom {{(S_1^2 )^2 } {N_1 }}}\right.\kern-\nulldelimiterspace}
\!\lower0.7ex\hbox{${N_1 }$}} + {\raise0.7ex\hbox{${(S_2^2 )^2 }$} \!\mathord{\left/
{\vphantom {{(S_2^2 )^2 } {N_2 }}}\right.\kern-\nulldelimiterspace}
\!\lower0.7ex\hbox{${N_2 }$}}}} \\
\end{array}
\]

Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 16.01.2008 - 23:06
Сообщение #5





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Супер!! Плав, вы просто молодец! Это как раз то что нужно, что душе желала. Большое спасибо. Если можно дайте пожалуйста ссылки, где это можно почитать и на что можно официально сослаться в работе. Т.е. на формулу для расчета дисперсии. График индексов с доверит интерв. пусть даже пересекающимися будет наглядно описывась уровень различий.
ПРограмма для расчета этих индексов у меня есть (она свободная). Но остается ощущение недоделанной работы.
Еще раз большое спасибо.

По следам написанного вами нашла в инете ссылку:
http://www.ievbran.ru/kiril/Article/A20/Div_Bak.htm#R2_2

Избранные главы из готовящейся к изданию монографии: Структурный анализ экологических систем

ОЦЕНКА БИОРАЗНООБРАЗИЯ: ПОПЫТКА ФОРМАЛЬНОГО ОБОБЩЕНИЯ
В.К. Шитиков, Г.С. Розенберг
Институт экологии Волжского бассейна РАН
Вышла ли эта монография? Можно ли на нее сослаться?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 17.01.2008 - 12:11
Сообщение #6





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Работа Шитикова с соавт. опубликована в книге
Количественные методы экологии и гидробиологии. Под ред. Г.С.Розенберга. Тольятти: ИЭВБ РАН, 2005.

Вот тут оглавление книги
http://ecograde.belozersky.msu.ru/library/...0_contents.html

со ссылками на полные тексты.

Вот ссылка на упомянутую работу:
http://ecograde.genebee.msu.su/library/boo...zenberg/2-5.pdf

Ссылка взята отсюда (см. также и другие указанные там источники)
http://ecograde.genebee.msu.su/library/index.html


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 17.01.2008 - 22:11
Сообщение #7





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Спасибо, полная ясность, но полного счастья не бывает. Философские вопросы одолевают. Переход количества в качество все же как то не убедительно получается. Нет желанного р <0,05, совет и ВАК могут остаться неудовлетворенными. Но личное удовольствие от познания все же присутствует.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 17.01.2008 - 22:46
Сообщение #8





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



На всякий случай, метод называется t-тест Хатчесона
Hutcheson, K. A test for comparing diversities based on the Shannon formula. Journal of Theoretical Biology,1970, 29: 151?154.
Приведенная модификация взята из книги:
Zar, Jerrold H. Biostatistical Analysis. Englewood Cliffs, N.J. Prentice Hall, Inc., 1984
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 18.01.2008 - 01:23
Сообщение #9





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Спасибо, я нашла в инете в статье все ссылки и формулы, правда ничего не поняла в их предметной области. И еще одна заморочка, если с Шенноном все понятно, то с фамилией второго Wiener Винер или Shannon-Weaver Diversity Index или Shannon-Wiener Diversity Index. Т.е. если в формуле Shannon логарифм не по основанию 2, а натуральный то называют Shannon-Weaver Diversity Index. ПО русски как правильно перводится этот индекс?

http://crop.scijournals.org/cgi/content/full/41/1/241
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 18.01.2008 - 09:10
Сообщение #10





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Если основание логарифма 2, то энтропию измеряют в битах. Если основание e = 2,7182818...., то в нитах. Соответственно, дисперсия "измеряется" в "битах квадратных" или "нитах квадратных" (такие названия, отмечу, в литературе не используются - указано для передачи сути). Поэтому все формулы для вычислений те же самые. Ну, естественно, можно указывать, в каких единицах Вы приводите значение энтропии. По умолчанию принято использовать биты. В то же время в статье по ссылке из предыдущего поста - логарифмы натуральные.

Насчет Шеннона-Винера и Шеннона-Вивера спор идет давно. Посмотрите статью об индексе Шеннона в Википедии http://en.wikipedia.org/wiki/Shannon_index

Писать "индекс разнообразия Шеннона" - достаточно будет.

Если считать дисперсию по формуле, данной плав, получается что-то слишком малое значение. Ошибка?

По статье по ссылке из предыдущего поста (Grenier et al) и по Шитикову с соавт. результаты получаются аналогичные и похожие на правду, но Шитиков с соавт. неточно отобразили формулу критерия.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 18.01.2008 - 17:42
Сообщение #11





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Я пользуюсь англоязычной программой, которая рассчитывает и энтропию Шеннона (лог по осн 2) и там этот показатель так и называется - Sannon Entropy, но я решила использовать Sannon-Wiener Diversity Index (натур. лог.) поскольку в медицинской клинической работе, на мой взгляд, более понятен термин деверсификация - это все же как то понятней, чем энтропия, ближе к частоте и разнообразию видов осложнений. Суть не меняется, одно из другого легко получается. Я раcсчитала для первой исследовательской точки дисперсию по формуле, которую представил Плав: в первой группе S21=0,061 (SD=0,25), во второй S22=0,062 (SD=0,25). При этом t=4,7 ; df = 20,1. Т.е. вполне существенные различия. Может я и ошиблась, почти ручная работа, типа закат солнца вручную. В более отдаленные сроки еще не считала, там скорее всего различия не будут статистически значимыми.
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 18.01.2008 - 18:10
Сообщение #12





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата
Если считать дисперсию по формуле, данной плав, получается что-то слишком малое значение. Ошибка?

Что означает слишком малое?
Значения (виды растений)
Группа 1
47 35 7 5 3 2
Дисперсия по Zar - 0,001376
По оригинальной формуле - 0,001631
H 0,54033
Группа 2
48 23 11 13 8 2
Дисперсия по Zar - 0,000969
По оригинальной формуле - 0,001029
H 0,632783
T df p
Zar 1,909 196 0,05772636


Кроме того, почему ошибка должна быть именно в приводимых мною формулах (а не наоборот)?
Каким образом могут получиться одинаовые результаты в статье Шитикова и Grenier et al, если у Шитикова суммируются (p*log(p))^2, а у Grenier et al p*(log(p))^2. На всякий случай просчитал, ничего общего. Так что выдаете желаемое за действительное. На самом деле модификация, которая приводится Grenier et al является менее удобной для счета, но возможно, немного более точной. Модификация Zar является более удобной для счета, но немного более консервативной. (наверное, вообще-то надо делать эксперимент и проверять, но мне это сейчас делать не хочется).
Креплю экселевский файл с расчетами, если кому понадобится (проверено по расчетным примерам из учебника биологии)

Сообщение отредактировал плав - 19.01.2008 - 15:32
Причина редактирования: исправлен файл

Прикрепленные файлы
Прикрепленный файл  Shannon_Zar.rar ( 3,1 килобайт ) Кол-во скачиваний: 655
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 18.01.2008 - 18:19
Сообщение #13





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



В первом моем постере нет исходных данных. Я их добавляю: столбики чисел - осложнения в 1 и 2 группе, под чертой -сумма. Диспресии и SD посчитанные по формуле Плав для этого ряда меня вполне устраивают. Но надо еще проверить. ВВожу формулы в программе Statistica 7.
1 0
1 0
4 1
6 2
1 0
1 0
4 0
1 0
1 0
13 3
--------------------
33 6
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 18.01.2008 - 18:31
Сообщение #14





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Ну, вот, пока я жирным шрифтом выделяла имя Плав, пришел ваш постер. Я разберусь и с Zar тоже.
Спасибо большое и
Слава модератору!!!

Потому и использую энтропийный подход, а не традицинно статистический, что есть "0". Но и число осложнений т.е. разнообразие в этой группе меньше. И эти частоты просто не входят в формулу расчета энтропии и естественно дисперсии.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 19.01.2008 - 02:03
Сообщение #15





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Плав!
По вашему примеру, реализованному в экселе, у меня сошлось только одно значение - индекс Ш-В ( у вас H hutch
1,244162161)/ т.е. если вы умножаете частоты на натуральный логарифм, и то только в первой группе. Во второй, вы частоты посчитали не верно - 47/99, а нужно 47/105.
У меня для вашего примера:
Shannon Entropy
1.7949466 2.102059

Shannon-Wiener Diversity Index
1.2441622 1.4570363




Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

4 страниц V   1 2 3 > » 
Добавить ответ в эту темуОткрыть тему