DrgLena
13.01.2008 - 23:57
Вопрос из теории информации. Как описать различия в численности и разнообразии осложнений в двух группах, если рассчитаны: индекс диверсификации (Shannon-Wiener) h1=1,82 и h2=1,01; или энтропия Шеннона H1=2,63 и H2=1,46 или Evenness = 0,79 и 0,92 соответственно. Ученый совет хочет услышать вывод о различиях в статистических терминах. Первоисточник Корда Шеннона так и называется Теория информации и статистическа 1978. Но его нет. Как же дать статистическую оценку описанных различий? Всего 10 видов осложнений , в 1 группе их сумма - 33, во второй - 6.
Поскольку индекс Шэннона-Винера используется для оценки биоразнообразия, то там обычно расчет идет по отдельным ареалам. Затем расчитываются индексы для каждого ареала и по обычным формулам стандартного отклонения - среднее стандартное отклонение. Поскольку индекс биоразнообразия является характеристикой ареала (так же как и АД характеризует пациента), то формально для него одного не считают достоверности.
Однако, не вдаваясь в возможность использования индекса биоразнообразия для оценки осложнений у пациентов (интуиция подсказывает мне, что нарушаются правила отсутствия корреляций - осложнения не виды животных, они зависимые), тем не менее опишу, общий подход к решению задачи оченки достоверности любого параметра (bootstrap).
1. Взять исходные данные (например, первую группу).
2. Сформировать не менее 500 выборок с повторами из этой группы, численность оригинальной группы
3. Расчитать для каждой выборки критерий Шэннона
4. Построить распределение рассчитанных критериев (т.е. эти пятиста значений)
5. Взять средние 95% значений - это и будет 95% доверительный интервал критерия Шэннона для данной группу.
6. Повторить для второй группы и сравнить их как обычно.
Самое сложное тут - выборки с повторами, SAS начиная с версии 8 имеет специальную процедуру surveyselect, но не очень сложно это все запрограммировать и в других профессиональных системах.
DrgLena
16.01.2008 - 20:28
Спасибо, я поняла. Но этот путь для меня сложный. Используя методы теории информации, я хотела упростить представление результата сравнения двух групп. В данном примере группы приблизительно по 250 больных, а осложнения в обеих группах редкие, они анализируются в 8-ми временных точках и их число и разнообразие со временеи еще более снижается. При этом шансы развития каждого вида осложнений в зависимости от метода операции при анализе статистическими методами не различаются, есть "0" значения(большие 95% ДИ). Представляя на каждое время наблюдения индексы разнообразия в 1 и 2 группе - метод 1 выигрывает. Все 8 индексов в 1 группе ниже, чем в другой. Можно ли сравнивая два индекса Шаннона -Винера или Симпсона говорить на сколько один больше другого? Или один принимать за 100% и говорить на сколько другой ниже. Я согласна, что статистически различия не доказаны. Но, по видимому, они не будут доказаны и тем путем, который вы описали. Возможен ли в таком случае клинический, а не статистический вывод, что метод 1 предпочтительней, чем 2 по частоте и разнообразию осложнений. Или лучше поступить традиционно, дать просто процент каждого вида осложнений в двух группах, в докомпьютерное время так и поступали.
С моей точки зрения любой параметр без оценки его вариабельности не несет в себе значительной информации. Если нет желания пользоваться bootstrap, то можно, воспользоваться приближенным тестом для сравнения индексов Шэннона -Винера:
1) Рассчитать для каждой группы дисперсию по формуле:
S^2=SUM(n_i*log^2(n_i)-(SUM(n_i*log(n_i)))^2/N/N^2
2) Рассчитать суммарную дисперсию
S=SQRT(S_1^2+S_2^2)
3) Рассчитать t
t=(H_1 - H_2)/S
4) Определить количество степеней свободы
df=(S_1^2+S_2^2)^2/((S_1^2)^2/N_1+(S_2^2)^2/N_2))
5) По таблицам для t-критерия и учитывая df определить p
========
Формулы в формате LaTex
\[
\begin{array}{l}
S^2 = \frac{{\sum {n_i *\log ^2 (n_i ) - {{(\sum {n_i *\log (n_i ))^2 } } \mathord{\left/
{\vphantom {{(\sum {n_i *\log (n_i ))^2 } } N}} \right.
\kern-\nulldelimiterspace} N}} }}{{N^2 }} \\
S = \sqrt {S_1^2 + S_2^2 } \\
df = \frac{{(S_1^2 + S_2^2 )^2 }}{{{\raise0.7ex\hbox{${(S_1^2 )^2 }$} \!\mathord{\left/
{\vphantom {{(S_1^2 )^2 } {N_1 }}}\right.\kern-\nulldelimiterspace}
\!\lower0.7ex\hbox{${N_1 }$}} + {\raise0.7ex\hbox{${(S_2^2 )^2 }$} \!\mathord{\left/
{\vphantom {{(S_2^2 )^2 } {N_2 }}}\right.\kern-\nulldelimiterspace}
\!\lower0.7ex\hbox{${N_2 }$}}}} \\
\end{array}
\]
DrgLena
16.01.2008 - 23:06
Супер!! Плав, вы просто молодец! Это как раз то что нужно, что душе желала. Большое спасибо. Если можно дайте пожалуйста ссылки, где это можно почитать и на что можно официально сослаться в работе. Т.е. на формулу для расчета дисперсии. График индексов с доверит интерв. пусть даже пересекающимися будет наглядно описывась уровень различий.
ПРограмма для расчета этих индексов у меня есть (она свободная). Но остается ощущение недоделанной работы.
Еще раз большое спасибо.
По следам написанного вами нашла в инете ссылку:
http://www.ievbran.ru/kiril/Article/A20/Div_Bak.htm#R2_2Избранные главы из готовящейся к изданию монографии: Структурный анализ экологических систем
ОЦЕНКА БИОРАЗНООБРАЗИЯ: ПОПЫТКА ФОРМАЛЬНОГО ОБОБЩЕНИЯ
В.К. Шитиков, Г.С. Розенберг
Институт экологии Волжского бассейна РАН
Вышла ли эта монография? Можно ли на нее сослаться?
Работа Шитикова с соавт. опубликована в книге
Количественные методы экологии и гидробиологии. Под ред. Г.С.Розенберга. Тольятти: ИЭВБ РАН, 2005.
Вот тут оглавление книги
http://ecograde.belozersky.msu.ru/library/...0_contents.htmlсо ссылками на полные тексты.
Вот ссылка на упомянутую работу:
http://ecograde.genebee.msu.su/library/boo...zenberg/2-5.pdfСсылка взята отсюда (см. также и другие указанные там источники)
http://ecograde.genebee.msu.su/library/index.html
DrgLena
17.01.2008 - 22:11
Спасибо, полная ясность, но полного счастья не бывает. Философские вопросы одолевают. Переход количества в качество все же как то не убедительно получается. Нет желанного р <0,05, совет и ВАК могут остаться неудовлетворенными. Но личное удовольствие от познания все же присутствует.
На всякий случай, метод называется t-тест Хатчесона
Hutcheson, K. A test for comparing diversities based on the Shannon formula. Journal of Theoretical Biology,1970, 29: 151?154.
Приведенная модификация взята из книги:
Zar, Jerrold H. Biostatistical Analysis. Englewood Cliffs, N.J. Prentice Hall, Inc., 1984
DrgLena
18.01.2008 - 01:23
Спасибо, я нашла в инете в статье все ссылки и формулы, правда ничего не поняла в их предметной области. И еще одна заморочка, если с Шенноном все понятно, то с фамилией второго Wiener Винер или Shannon-Weaver Diversity Index или Shannon-Wiener Diversity Index. Т.е. если в формуле Shannon логарифм не по основанию 2, а натуральный то называют Shannon-Weaver Diversity Index. ПО русски как правильно перводится этот индекс?
http://crop.scijournals.org/cgi/content/full/41/1/241
Если основание логарифма 2, то энтропию измеряют в битах. Если основание e = 2,7182818...., то в нитах. Соответственно, дисперсия "измеряется" в "битах квадратных" или "нитах квадратных" (такие названия, отмечу, в литературе не используются - указано для передачи сути). Поэтому все формулы для вычислений те же самые. Ну, естественно, можно указывать, в каких единицах Вы приводите значение энтропии. По умолчанию принято использовать биты. В то же время в статье по ссылке из предыдущего поста - логарифмы натуральные.
Насчет Шеннона-Винера и Шеннона-Вивера спор идет давно. Посмотрите статью об индексе Шеннона в Википедии
http://en.wikipedia.org/wiki/Shannon_indexПисать "индекс разнообразия Шеннона" - достаточно будет.
Если считать дисперсию по формуле, данной плав, получается что-то слишком малое значение. Ошибка?
По статье по ссылке из предыдущего поста (Grenier et al) и по Шитикову с соавт. результаты получаются аналогичные и похожие на правду, но Шитиков с соавт. неточно отобразили формулу критерия.
DrgLena
18.01.2008 - 17:42
Я пользуюсь англоязычной программой, которая рассчитывает и энтропию Шеннона (лог по осн 2) и там этот показатель так и называется - Sannon Entropy, но я решила использовать Sannon-Wiener Diversity Index (натур. лог.) поскольку в медицинской клинической работе, на мой взгляд, более понятен термин деверсификация - это все же как то понятней, чем энтропия, ближе к частоте и разнообразию видов осложнений. Суть не меняется, одно из другого легко получается. Я раcсчитала для первой исследовательской точки дисперсию по формуле, которую представил Плав: в первой группе S21=0,061 (SD=0,25), во второй S22=0,062 (SD=0,25). При этом t=4,7 ; df = 20,1. Т.е. вполне существенные различия. Может я и ошиблась, почти ручная работа, типа закат солнца вручную. В более отдаленные сроки еще не считала, там скорее всего различия не будут статистически значимыми.
Цитата
Если считать дисперсию по формуле, данной плав, получается что-то слишком малое значение. Ошибка?
Что означает слишком малое?
Значения (виды растений)
Группа 1
47 35 7 5 3 2
Дисперсия по Zar - 0,001376
По оригинальной формуле - 0,001631
H 0,54033
Группа 2
48 23 11 13 8 2
Дисперсия по Zar - 0,000969
По оригинальной формуле - 0,001029
H 0,632783
T df p
Zar 1,909 196 0,05772636
Кроме того, почему ошибка должна быть именно в приводимых мною формулах (а не наоборот)?
Каким образом могут получиться одинаовые результаты в статье Шитикова и Grenier et al, если у Шитикова суммируются (p*log(p))^2, а у Grenier et al p*(log(p))^2. На всякий случай просчитал, ничего общего. Так что выдаете желаемое за действительное. На самом деле модификация, которая приводится Grenier et al является менее удобной для счета, но возможно, немного более точной. Модификация Zar является более удобной для счета, но немного более консервативной. (наверное, вообще-то надо делать эксперимент и проверять, но мне это сейчас делать не хочется).
Креплю экселевский файл с расчетами, если кому понадобится (проверено по расчетным примерам из учебника биологии)
DrgLena
18.01.2008 - 18:19
В первом моем постере нет исходных данных. Я их добавляю: столбики чисел - осложнения в 1 и 2 группе, под чертой -сумма. Диспресии и SD посчитанные по формуле Плав для этого ряда меня вполне устраивают. Но надо еще проверить. ВВожу формулы в программе Statistica 7.
1 0
1 0
4 1
6 2
1 0
1 0
4 0
1 0
1 0
13 3
--------------------
33 6
DrgLena
18.01.2008 - 18:31
Ну, вот, пока я жирным шрифтом выделяла имя Плав, пришел ваш постер. Я разберусь и с Zar тоже.
Спасибо большое и
Слава модератору!!!
Потому и использую энтропийный подход, а не традицинно статистический, что есть "0". Но и число осложнений т.е. разнообразие в этой группе меньше. И эти частоты просто не входят в формулу расчета энтропии и естественно дисперсии.
DrgLena
19.01.2008 - 02:03
Плав!
По вашему примеру, реализованному в экселе, у меня сошлось только одно значение - индекс Ш-В ( у вас H hutch
1,244162161)/ т.е. если вы умножаете частоты на натуральный логарифм, и то только в первой группе. Во второй, вы частоты посчитали не верно - 47/99, а нужно 47/105.
У меня для вашего примера:
Shannon Entropy
1.7949466 2.102059
Shannon-Wiener Diversity Index
1.2441622 1.4570363
Во второй ошибка в формуле - было $i$3 надо $i$12 следствие копирования (собственно поэтому и дал файл, чтобы каждый мог посмотреть формулы сам). Однако остальные формулы все правильные. То, на что, похоже, никто не обратил внимание - в формуле индекса Шеннона используются и логарифмы по основаниею е, и по основанию 10 и по основанию 2. Поскольку я проверял против метода Zar, то там пример был с десятичными логарифмами и соответственно, расчеты - десятичные логарифмы. Это НЕ ошибка. Рекомендую обращать внимание на формулы, пусть даже в экселе.
Теперь самое главное. Я вчера таки поставил эксперимент - обе формулы дают безнадежное смещение, если количество объектов в группах разное. Т.е. для Вашей задачи ни одна формула не подходит.
Понять почему это так, можно и без эксперимента. Индекс разнообразия строго говоря показывает насколько много разных деревьев в лесу. Вы заходите в лес, подсчитываете количество берез, елей, сосен, осин, дубов и ив и расчитываете индекс, отражающий разнообразие леса. Индекс сделан так, что он максимален, если количество деревьв разного типа равно. Теперь, вы выходите из лесу и на опушке видите три дерева. По определению там не может быть разнообразия, поскольку объектов мало (меньше, чем типов деревьев). Вы получаете искусственное уменьшение индекса разнообразия. Попробуйте сами - возьмите равное количество "деревьев" получите (при шести видах) максимальное значение 1,79 (в натуральных логарифмах). Затем возьмите три дерева - получите 1,09.
Иными словами, индекс предназначен для сравнения ситуаций, когда количество объектов (деревьев, симптомов) примерно равно. (Если как я рекомендовал в первом посте сделать bootstrap), то видно, что при имеющихся у Вас данных (33 и 6 объектов) разность индексов в случае нулевой гипотезы (вторая группа - подвыборка из первой) сильно смещена от нулевого значения, а, следовательно, все формулы с предполагаемым сравнением с нулем (а все t-тесты, приведенные выше предполагали, что разность индексов в двух группах равна нулю) ошибочны (вот тут именно ошибка).
Посему я бы рекомендовал отказаться от этого индекса и считать вместо этого либо сумму типов осложнений, либо среднее число осложнений на человека.
DrgLena
19.01.2008 - 14:01
Я предполагаю, что лес у меня в двух выборках примерно одинаковый (рандомизация была), т.е. в нем примерно по 250 деревьев, причем здоровых. Никаких осложнений до вмешательства естественно не было. И предполагается, что энтропия была нулевая до вмешательства. ПОсле различных вмешательств выозможно появление 10 новых состояний, которые появляются с различной частотой и чем их меньше, тем лучше сохранился лес. Классическая статистика при этом прилагается в пришпиленном файле. Только по 14 виду осложнения есть достоверные различия. В дальнейшем, число осложнений все более снижается и никаких различий нет, но по энтропии все же 2 метод лучше на всех сроках наблюдения. Какой подход в данном случае, на ваш взгляд предпочтителен?
Индекс Шеннона не предполагает, что может быть "дерево" не имеющее вида. Соответстенно, наверное, лучше сделать так (если уж хотите считать энтропию)
вид 1 - нет осложнений
вид 2 - наличие осложнения 1
вид 3 - наличие осложнения 2
если есть два осложнения - то считать новым видом.
и т.д.
Так у Вас N в обеих группах будет примерно одинаковым и использование индекса Шеннона будет обоснованным.
Я еще подумаю, что можно придумать (кроме очевидной суммы осложнений в группе и среднего число осложнений на одного больного) и отпишу позднее
DrgLena
20.01.2008 - 01:42
Большое спасибо, я с вашей помощью все же разобралась в том, как посчитать дисперсию, и в вашей программке посчитала двумя способами, используя ее как основу (это мой дебют в экселе). Логарифмы везде взяла натуральные, индексы сошлись точно с расчитанными в специальной программе. Надеюсь и дисперсии посчитаны верно 0,0297 и
0,02556 для 1 группы и 0,0952 и 0,0569 для второй. Т.е. по Zar дисперсия чуть ниже. SD также вполне нормально выглядит. Представляю файл, может кому пригодится. Если в этой задаче "овчинка выделки не стоит", то есть и другие задачки, которые можно попробовать так решить. Хочется получить простое решение, ведь задачка для медининской науки. Файл почему то не прикрепляется ни в старой версии, ни в 2007 м
"Неудачная загрузка. Вам запрещено загружать такой тип файлов".
logvin
20.01.2008 - 12:21
Цитата
Файл почему то не прикрепляется ни в старой версии, ни в 2007
"Неудачная загрузка. Вам запрещено загружать такой тип файлов".
Попробуйте загрузить файл в виде zip-архива.
DrgLena
20.01.2008 - 20:52
Спасибо! Все OK!
Полагаю, что использование индекса разнообразия является "бантиком" к работе, необязательным и весьма спорным: как указал плав отсутствие осложнения не является разновидностью осложнения, а в таком случае объемы выборок для расчета индекса составят всего 33 и 6. Намного более важным и обязательным является вывод о меньшем числе осложнений в группе 2 по сравнению с 1, а в приведенной таблице он (возможно пока) не подтвержден статистически. Кроме того в таблице приведены асимптотические оценки для критерия хи-квадрат, хотя в ней фигурируют даже нулевые частоты. В вашем случае я бы отказался от использования индекса разнообразия, а при анализе таблиц 2х2 использовал не асимтотические, а точные оценки Р - это было бы корректно и по существу.
DrgLena
20.01.2008 - 23:43
Я полностью согластна, что это бантик, но статистических различий нет, если рассматривать вероятность каждого осложнения в зависимости от вида операции, кроме одного из 10 и только в первой исследовательской точке. Точный критерий Фишера тоже не поможет, хотя его применение более корректно. Но он тоже не поможет получить р<0,05, особенно если его там нет. Обычно в таких случаях я традиционно рассчитываю OR и 95%ДИ. Но на "0", как известно не умножить и не разделить, а там где значение есть оно очень низкое и получаются большие доверительные интервалы. Кроме того, мне нужно оценить осложнения в динамике, а их все меньше и меньше на последующих этапах сравнения. Хочется дать какую то интеррированную оценку частоты и разнообразия этих осложнений. Показать, что эта оценка снижается со временем как в одной, так и в другой группе, но в одной все же их больше, хотя статистически это не достоверно. Поэтому я и решила использовать малознакомую мне область, почитав в инете кто и как это использует в медицинских исслеованиях. Аналогии простые. Изучили флору и фауну в водоеме, посчитали энтропию, потом произошел выброс ядовитых веществ, часть видов вообще исчезла, часть уменьшила свою численность. ПО разности энтропии судят о вредности выброса. Потом исследуют как она восстанавливается. Мой бантик отсюда и завязался. Причем цель работы вовсе не анализ осложнений, а оценка результата операции, но там простые методы статистики хорошо подтверждают преимущества второго метода, без всяких бантиков.
Во всех неплохих учебниках по прикладной статистике оговаривается, что использование пирсоновского критерия хи-квадрат некорректно если есть минимальные ожидаемые менее 4-5. В случае больших таблиц (большого числа степеней свободы), возможно, дела обстоят лучше, но это все равно - аппроксимация. Согласен, что в
данном конкретном случае использование других статистических техник не повлияет на интерпретацию, но оно сильно повлиет на репутацию. Под точной оценкой я подразумевал не точный метод Фишера (для подавляющего числа задач где он традиционно используется этот метод устарел), а точную перестановочную (permutation) оценку Р, которую можно расчитать, например в программе StatXact. Про нее на форуме пару раз речь заходила. По поводу индекса Шеннона остаюсь при своем мнении, как, впрочем и вы

.
2 плав
Цитата(плав @ 18.01.2008 - 18:10)

Кроме того, почему ошибка должна быть именно в приводимых мною формулах (а не наоборот)?
Каким образом могут получиться одинаовые результаты в статье Шитикова и Grenier et al, если у Шитикова суммируются (p*log(p))^2, а у Grenier et al p*(log(p))^2. На всякий случай просчитал, ничего общего. Так что выдаете желаемое за действительное.
Спасибо, плав. Я ошибся. Но только в том, что из-за невнимательности ошибку Шитикова не воспроизвел точно и уж ни в коем случае не хотел обидеть уважаемых собеседников. Шитиков, оказывается, и формулу для дисперсии энтропии воспроизвел неверно (по формуле Шитикова она получается отрицательной!). Формула, показанная Grenier et al, указана во многих источниках, поэтому данной формулой и следует пользоваться. Ну, либо формулой Zar. Впечатление о "слишком малом значении", на которое я посетовал, возникло от того, что в формулах Zar используются десятичные логарифмы, о чем я не подозревал.
Справедливости ради заметим, что:
1. Десятичный логарифм в русскоязычной литературе обозначать принято как lg, натуральный как ln, но тот и другой не как log. Как log с подстрочным указанием основания принято обозначать логарифм, если он не десятичный и не натуральный.
2. В системах программирования (проанализированы Си и Бейсик) стандартная функция log считает именно натуральный логарифм. Десятичный логарифм считает стандартная функция log10.
Если можно, вопрос к плав. Вы цитируете Zar: при этом логарифм в формуле энтропии и дисперсии энтропии берется по основанию 10. В каких единицах в данном случае измеряется энтропия?
DrgLena
21.01.2008 - 12:57
Путаница с основанием логарифма хорошо известна в русскоязычном пространстве. В программе Statistica для ввода формул используются следующие обозначения: log - натуральный логарифм, log2 - по основанию 2, log10 - по основанию 10. Шитиков скопировал формулуиз американского первоисточника. И в готовых программах (и американских и европейских) имеется возможность расчета индекса диверсификации (натуральный логарифм), который называют все же Shannon- Wiener Diversyty Index. А также рассчитывается Shannon Entropy при этом логарифм по основанию 2. По основанию 10 в этих программах вообще не считают энтропию. Китайцы тоже используют такие же обозначения логарифмов. Естественно, что если энтропия рассчитывается по основанию 2, но и дисперсию нужно считать также. Я использовала везде натуральный логарифм, внеся изменения в программу Плава. Но я запуталась со ссылками на первоисточник формул для дисперсии. Для Хатчинсона она у меня есть, а на Zar - нет.
И спасибо всем!
Цитата(Игорь @ 21.01.2008 - 07:33)

Справедливости ради заметим, что:
1. Десятичный логарифм в русскоязычной литературе обозначать принято как lg, натуральный как ln, но тот и другой не как log. Как log с подстрочным указанием основания принято обозначать логарифм, если он не десятичный и не натуральный.
Если можно, вопрос к плав. Вы цитируете Zar: при этом логарифм в формуле энтропии и дисперсии энтропии берется по основанию 10. В каких единицах в данном случае измеряется энтропия?
Дело в том, что в доступной мне литературе этот показатель не называют энтропией. Это безразмерный индекс и для его оценки используют "логарифмы по основанию 10, e или 2". Собственно говоря именно поэтому в формулах стоял log, который, как правильно было замечено означает логарифм по любому основанию, которое должно указываться дополнительно (хотя, как указано ниже, в первых калькуляторах это обозначение было зарезивировано для десятичного логарифма). Разницы в результате при использовании разных оснований быть не должно. Соотвественно, каждая область выбирает тот вариант, который кажется приемлимым. Поскольку методики были опубликованы в 70-начале 80х годов, то наиболее распространенным способом расчетов была логарифмическая линейка, которая, использовала логарифм по основанию 10. Соответственно, для иследователей удобнее был тот индекс, который можно было проще расчитать. Отсюда любовь к логарифму по основанию 10. А вот калькуляторы (с самых первых, которые назывались электронными логарифмическими линейками) включали натуральные логарифмы, антилогарифм (натуральный, е^х) и десятичный логарифм (который, кстати, обозначался log). Поэтому с середины 1970х годов в моду вошли индексы, в которых использовался натуральный логарифм и десятичный логарифмы стали исчезать как отдельная кнопка на калькуляторах. Ну а потом появились компьютеры и все это стало не важным, однако для совмещения со старыми публикациями привычки остались...
DrgLena
23.01.2008 - 22:37
И все же...о главном, т.е. не о логарифмах. Можно ли в описанном мою примере использовать индекс диверсификации Шеннона Винера. Модераторы почти меня убедили, что нет. Однако в американском учебнике по экологии в качестве обучающего примера представлены две выборки с 11 видами , при этом в одной нет одного вида, в другой отсутствуют 4 вида. Есть экселовский файл с расчетами, в котором отсутствующие виды просто пропускают. Т.е. в лесу может
не быть определенных видов деревьев. Но самое интересное, что про расчет дисперсии и использовании t только упоминают, а сравнение двух индексов проводят по Dmax Колмогорова-Смирнова. Желающие могут зайти сюда
http://tiee.ecoed.net/vol/v3/experiments/s...escription.html и наша дискуссия может иметь продолжение.
Цитата(DrgLena @ 23.01.2008 - 22:37)

в лесу может не быть определенных видов деревьев
В лесу есть все виды деревьев. Только частота встречаемости некоторых из них равна нулю.
DrgLena
24.01.2008 - 11:46
Верно, и при расчете индекса разнообразия отсутствующие виды просто игнорируются, т.е. в формулу "0" не подставляется. Но сравнить индексы в двух группах вполне корректно?
Правильно, в тех примерах, что я видел также не все виды деревьев встречаются во всех лесах. Однако, что очень важно, количество деревьев в лесах примерно одинаково - т.е. сравниваем лес с лесом, а не с опушкой. Если сравнивать лес с опушкой результат получается смещенный. Если лес с лесом - нет.
Я сделал следующее - взял пример, который был в моей экселевской таблице и в качестве популяции взял суммарное количество всех деревьев (там пример как раз с деревьями)
1) Сформировал 500 случайных пар выборок с повторами (численность 99 и 105 деревьев)
2) Рассчитал коэффициент Шэннона-Винера и его ошибку
3) Оценил распределение разностей Н и вероятность в таком случае получить разность большую 0,092 (т.е. протестировал нулевую гипотезу)
4) Посмотрел распределение t значений
Вывод - результат прямого тестирования нулевой гипотезы в данном случае дает величину которая ближе к р при расчете по методу Hutcheson и немного выше, чем у Zar.
Распределение t симметричное с центром в 0.
Если берем выборки разных размеров (194 и 10). Мгновенно распределение t становится несимметричным (с длинным хвостом) и центральное значение смещается (-1,53). Иными словами, при сильной разности численности групп по количеству деревьев метод не применим...
Поэтому я и рекомендовал сравнивать лес с лесом, т.е. посчитать людей, у которых не было никаких осложнений как отдельный вид.
Цитата(DrgLena @ 24.01.2008 - 11:46)

Верно, и при расчете индекса разнообразия отсутствующие виды просто игнорируются, т.е. в формулу "0" не подставляется. Но сравнить индексы в двух группах вполне корректно?
Вот я не зря написал свое предыдущее "глубокомысленное" изречение о нулевых частотах. Не подставлять ничего и подставлять нули - совершенно не одно и то же. Эти два случая существенно различаются одним важным параметром - числом классов. Число классов, кстати, используется при вычислении дисперсии энтропии (вариант формулы Hutcheson). А дисперсия энтропии - в критерии значимости различий. Можно ошибиться.
Чтобы логарифм нуля в формуле энтропии не давал ошибку, условились (по определению), что 0 * LOG(0) = 0.
Дело в том, что максимальное значение индекса Шеннона связано с видовым разнообразоим (количеством классов): Нmax= ln S, где S - видовое разнообразие. Соответственно, разное количество видов - разное максимально возможное значение индекса Шеннона и принципально не сравнимые данные. В разбираемом примере игнорирование нулевых значений (именно игнорирование, поскольку в формулах отсутствующие виды не учитываются. В формуле дисперсии они тоже игнорируются, а не считаются отдельным классов с нулевым значением) приводит к сравнению леса с опушкой, с разным теоретически максимальным значением индекса и, соответственно, смещением разностей.
DrgLena
24.01.2008 - 16:19
Вот я и хочу, как пациент, очутиться на опушке, а не в дремучем лесу. Есть еще и динамика этих 10 видов осложнений. Какие-то появляются, а какие-то исчезают со временем. Может просто сравнить индексы в 6 точках исследования, используя их как новые переменные, применив непараметрические методы. Или посчитать итоговую энтропию по всем точкам исследования, тогда число видов осложнений будет составлять более дремучий лес. Бантик все же хочется, чисто женское желание.
В начале темы обсуждалась правильность наименования индекса - состав и соотношение имен Шеннона, Винера и Уивера в названии.
Сегодня просматривал старые архивы и наткнулся на одну интересную статью: Continuity and characterization of Shannon-Wiener information measure for continuous probability distributions. Ее немаловажное достоинство - опубликована в Японии в 1959 году, так что можно данной информацией пользоваться, что называется, из первых рук. Тем более, доступна бесплатно в Интернете. Вот ссылка
http://www.ism.ac.jp/editsec/aism/pdf/011_2_0131.pdf на сайте японского журнала "Анналы института статистической математики" (http://www.ism.ac.jp).
DrgLena
24.01.2008 - 22:15
Спасибо, с помощью вашей ссылки с фамилиями прояснилось, а то Шитиков роль Винера (Wiener) не признал или перепутал с Weaver, написав в своей последней монографии ( я давала ссылку), что его роль не известна. Интересна также ссылка японцев на советскую работу 1955 года в журнале "Успехи математической науки". Ведь кибернетику вместе с генетикой разгромили в 1947.
Цитата(DrgLena @ 24.01.2008 - 16:19)

Вот я и хочу, как пациент, очутиться на опушке, а не в дремучем лесу. Есть еще и динамика этих 10 видов осложнений. Какие-то появляются, а какие-то исчезают со временем. Может просто сравнить индексы в 6 точках исследования, используя их как новые переменные, применив непараметрические методы. Или посчитать итоговую энтропию по всем точкам исследования, тогда число видов осложнений будет составлять более дремучий лес. Бантик все же хочется, чисто женское желание.
Ну так вот и докажите, что количество осложнений меньше. Это совсем другая задача.
То, как Вы сделали, делать нельзя. Не верите мне, повторите расчеты по моему алгоритму. Сравнивать индексы с сильными различиями в численности осложнений нельзя (если не учитывать отсуствие осложнений как отдельный класс).
DrgLena
25.01.2008 - 21:33
Да, я сделала привычным образом, думаю все будут довольны. ДЛя того же примера процент общего числа осложнений в первой точке исследования в 1 группе составляет 33/281*100=11,7%, во второй группе соответственно 6/283*100=2,1%. Разность естественно, составляет 9,6% (95% ДИ для разности 5,55%-14,03%, хи-кв=18,8; р<0,0001).
Статистически, можно считать различия доказанными. При этом, конечно 33 - это сумма и кактусов и мимоз

. И клинически они не равнозначны. Я благодарна всем участникам дискусси за искреннее желание помочь, я получила много полезной информации, в дальнейшем буду использовать информационные подходы в более подходящих условиях.
С конца
1) разные
2) что такое "золотой вурф" - лучше по-английски
3) практически ни в каких, что, собственно и потребовало создания экселевских таблиц, представленных выше - формулы достаточно простые для реализации практически в любой профессиональной программе (SAS, SPSS, S-plus, Stata). Я, например, сделал програмку для SAS очень быстро - так что правильный вопрос - а какую систему Вы знаете?
Плав, спасибо за быстрый ответ. Если не затруднит, просветите в отношении индекса Шэннона-Винера.
У меня несколько пакетов: SPSS-13.0 и 15.0; Statistica 6.0; PolyAnalystPro; Deductor Lite; MedCalc.
Энтропии (максимальную, относительную, Шэннона) я считала в Exel, у меня стоит надстройка (впрочем, могу ошибиться в терминологии) AtteStat, а в ней - модуль IA (информационный анализ); там же считается избыточность и организация, число вариант и классов. К сожалению, это не совсем удобно, т.к. невозможно распространить формулу на несколько ячеек, приходится повторять действие n-количество раз. Захотелось комфорта побольше.
("вурф" - от немецкого "wurf"), понятие введено Петуховым С.В.
"Золотой вурф" рассматривается, в том числе, в рамках программы курса «Математика Гармонии и Золотого Сечения» для физико-математических факультетов педагогических университетов в теме "Числа Фибоначчи и Люка" (http://www.goldenmuseum.com).
Золотой вурф" определяется как двойное соотношение некоторых переменных, сопряжено с числами Фибоначчи и "золотым сечением" и, следовательно, является инвариантой симметричных преобразований и равен 1,309. Поиск проявления "золотого вурфа" проводится по формуле: w = (a+d) (а+с) / b(a+b+c)
У меня есть несколько статей на эту тему (не моих, разумеется), если интересно - вышлю.
DrgLena
27.02.2008 - 12:03
В англоязычной литературе принято называть индекс диверсификации или разнообразия Шеннона -Винера (Shannon-Wiener Diversity Index), при этом в формуле расчета - натуральный логарифм!
Энтропия Шеннона (Shannon Entropy) - в формуле - логарифм по основанию 2!
Меня заинтересовала AtteStat. Но если вы ищете, что то другое, то в ней не совсем удобно работать.
Я все сделала в Statistica, просто вводя формулы расчета индексов в спецификацию переменных. Кроме того еще и расчет SD, t, p для сравнения нескольких индексов. Не удобно! Посьба подробнее описать, что делает AtteStat и где его можно достать?
Ссылка
http://attestatsoft.com. Программа бесплатная.
Цитата(Настя @ 27.02.2008 - 05:19)

("вурф" - от немецкого "wurf"), понятие введено Петуховым С.В.
"Золотой вурф" рассматривается, в том числе, в рамках программы курса «Математика Гармонии и Золотого Сечения» для физико-математических факультетов педагогических университетов в теме "Числа Фибоначчи и Люка" (http://www.goldenmuseum.com).
Золотой вурф" определяется как двойное соотношение некоторых переменных, сопряжено с числами Фибоначчи и "золотым сечением" и, следовательно, является инвариантой симметричных преобразований и равен 1,309. Поиск проявления "золотого вурфа" проводится по формуле: w = (a+d) (а+с) / b(a+b+c)
У меня есть несколько статей на эту тему (не моих, разумеется), если интересно - вышлю.
А почему все-таки золотой вурф? вообще-то "Wurf bezeichnet die Jungtiere bei einer Mehrfachgeburt eines lebendgebдrenden Muttertieres" а речь идет о золотом сечении... Мдаа, лучше все-таки русским пользоваться русским языком. Кстати, обратите внимание, что приведенная формула для w зависит от того, как расположены значения в ячейках таблиц, соответственно, для отной таблицы возможно не менее 4х w - что резко осложняет определение вероятности случайных появлений определенных значений w.
Очевидно, что в профессиональных программах расчетов специализированных (и вообще-то эзотерических) индексов не будет, поэтому надо все запрограммировать самостоятельно. Что касается приведенной ссылки - с научной точки зрения приведенные там "факты" не убедительны, поэтому если речь идет о диссертационной (или любой другой реальной научной) работе, то к ко всем этим "сечениям" и "вурфам" стоит относится со значительной толикой скептицизма и не делать их поиск целью квалификационной работы.
Цитата(DrgLena @ 27.02.2008 - 12:03)

В англоязычной литературе принято называть индекс диверсификации или разнообразия Шеннона -Винера (Shannon-Wiener Diversity Index), при этом в формуле расчета - натуральный логарифм!
Энтропия Шеннона (Shannon Entropy) - в формуле - логарифм по основанию 2!
Посьба подробнее описать, что делает AtteStat и где его можно достать?
Лена, спасибо - разобралась. Напишите мне в личку.
Цитата(плав @ 28.02.2008 - 13:21)

"Wurf bezeichnet die Jungtiere bei einer Mehrfachgeburt eines lebendgebдrenden Muttertieres" а речь идет о золотом сечении... Мдаа, лучше все-таки русским пользоваться русским языком.
Согласна. Это замечание мне?
Цитата
обратите внимание, что приведенная формула для w зависит от того, как расположены значения в ячейках таблиц, соответственно, для отной таблицы возможно не менее 4х w - что резко осложняет определение вероятности случайных появлений определенных значений w
Не готова дискутировать по данному вопросу - не сомневаюсь, что Вы неизмеримо компетентнее.
Цитата
Что касается приведенной ссылки - с научной точки зрения приведенные там "факты" не убедительны
Есть множество других ссылок; вероятно, я выбрала не самую удачную
Цитата
ко всем этим "сечениям" и "вурфам" стоит относится со значительной толикой скептицизма
а вот товарищ Сталин считал, что генетика, кибернетика...;
а товарищ Хрущев, что абстракционизм...
Цитата
не делать их поиск целью квалификационной работы
разумеется, однако, безапелляционность несколько "напрягает"
Цитата
А почему все-таки золотой вурф?
Красивааа
Цитата(Настя @ 1.03.2008 - 13:55)

а вот товарищ Сталин считал, что генетика, кибернетика...;
а товарищ Хрущев, что абстракционизм...
Ну еще займитесь астрологией. За историю человечества было предложено много идей, например, что земля плоская. Можно всерьез заняться поиском в человеке четырех жидкостей Гиппократа и оценкой эффективности кровопускания при брюшном тифе из левой руки в сравнении с правой.
Цитата(Настя @ 1.03.2008 - 13:55)

разумеется, однако, безапелляционность несколько "напрягает"
Вас никто не заставляет следовать советам - Ницше очень хорошо высказался про тех, кто не хочет учиться на чужих ошибках. Вы задаете вопрос в форуме для аспирантов в разделе по биостатистике. Этот ответ будут читать другие посетители. Вас переубеждать у меня нет никакого желания. Другие должны понимать, что пытаться применить этот подход у себя приведет к проблемам. Почуему безаппеляционно? Потому что попытка подгонки реальности под теорию хорошо видна - так, например, меняются средние цифры, так, чтобы удовлетворять теории (пример с артериальным давлением), используются плохообъяснимые термины (не случайно русский автор использует немецкий термин), игнорируются общепринятые методы сбора и обработки данных (поэтому и нужны новые индексы и статистики, которые широко не используются - а, значит, проблемы с анализом допущений не столь изучены). Кроме того, характерным является - при указании на наличие проблем - подход, что "ну да, в конкретной формуле, может и все не так хорошо (ссылка не совсем удачная), но в целом, подход заслуживает право на существование, а то вот, помните, Сталин..."
Доброго времени суток.
С большим опозданием, но хотелось бы принять участие в дискуссии, оживить её. Я не силён в статистике, и поэтому мог не всё понять. Но мне тоже необходимо в статье оценить и сравнить разнообразие и выравненность двух выборок. Не для "Бантика"))
Использовал индекс Шеннона и индекс Пиелоу. Выборки сравнивал по стьюденту для энтропии. Нашёл для этого формулу, но она давала отрицательную дисперсию. Пришлось копнуть и наткнулся на вашу дискуссию. Весь наш Интернет перетряс в поисках правильной формулы дисперсии энтропии Шеннона, а нашёл её только здесь.
Прочитав всё, понял следующее: приведённые формулы для сравнения 2ух выборок справедливы только для равновеликих выборок. У меня объём первой выборки 71, второй = 186. Возможно ли использовать приведённые здесь формулы для сравнения этих двух выборок? Корректно ли это будет?
Если нет, то есть ли формулы для сравнения по энтропии 2ух неравновеликих выборок (или поправки к имеющимся формулам)?
Очень прошу помочь. Заранее благодарен.
DrgLena
26.12.2008 - 18:21
Формула для дисперсии считает ее в каждой группе, там, на сколько я помню, равновеликость групп сравнения не оговаривалась. Я использовала подход Hutcheson (1970), как описано у Zar (1999). Потом рассчитыапла t и df и р. Плав давал свою реализацию расчетов в экселе для индекса Ш на основе десятичного логарифма, я сделала для индекса Шеннона, который расчитывался на основе натурального логарифма.
Цитата(плав @ 24.01.2008 - 15:00)

Правильно, в тех примерах, что я видел также не все виды деревьев встречаются во всех лесах. Однако, что очень важно, количество деревьев в лесах примерно одинаково - т.е. сравниваем лес с лесом, а не с опушкой. Если сравнивать лес с опушкой результат получается смещенный. Если лес с лесом - нет.
Я сделал следующее - взял пример, который был в моей экселевской таблице и в качестве популяции взял суммарное количество всех деревьев (там пример как раз с деревьями)
1) Сформировал 500 случайных пар выборок с повторами (численность 99 и 105 деревьев)
2) Рассчитал коэффициент Шэннона-Винера и его ошибку
3) Оценил распределение разностей Н и вероятность в таком случае получить разность большую 0,092 (т.е. протестировал нулевую гипотезу)
4) Посмотрел распределение t значений
Вывод - результат прямого тестирования нулевой гипотезы в данном случае дает величину которая ближе к р при расчете по методу Hutcheson и немного выше, чем у Zar.
Распределение t симметричное с центром в 0.
Если берем выборки разных размеров (194 и 10). Мгновенно распределение t становится несимметричным (с длинным хвостом) и центральное значение смещается (-1,53). Иными словами, при сильной разности численности групп по количеству деревьев метод не применим...
Поэтому я и рекомендовал сравнивать лес с лесом, т.е. посчитать людей, у которых не было никаких осложнений как отдельный вид.
Вот цитата, согласно которой использование данных формул расчёта т-Стьдента справедливо только для равновеликих выборок.
Или я не правильно понял
плава?