Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

4 страниц V  < 1 2 3 4 >  
Добавить ответ в эту темуОткрыть тему
> О теории информации, help
плав
сообщение 19.01.2008 - 12:15
Сообщение #16





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Во второй ошибка в формуле - было $i$3 надо $i$12 следствие копирования (собственно поэтому и дал файл, чтобы каждый мог посмотреть формулы сам). Однако остальные формулы все правильные. То, на что, похоже, никто не обратил внимание - в формуле индекса Шеннона используются и логарифмы по основаниею е, и по основанию 10 и по основанию 2. Поскольку я проверял против метода Zar, то там пример был с десятичными логарифмами и соответственно, расчеты - десятичные логарифмы. Это НЕ ошибка. Рекомендую обращать внимание на формулы, пусть даже в экселе.
Теперь самое главное. Я вчера таки поставил эксперимент - обе формулы дают безнадежное смещение, если количество объектов в группах разное. Т.е. для Вашей задачи ни одна формула не подходит.
Понять почему это так, можно и без эксперимента. Индекс разнообразия строго говоря показывает насколько много разных деревьев в лесу. Вы заходите в лес, подсчитываете количество берез, елей, сосен, осин, дубов и ив и расчитываете индекс, отражающий разнообразие леса. Индекс сделан так, что он максимален, если количество деревьв разного типа равно. Теперь, вы выходите из лесу и на опушке видите три дерева. По определению там не может быть разнообразия, поскольку объектов мало (меньше, чем типов деревьев). Вы получаете искусственное уменьшение индекса разнообразия. Попробуйте сами - возьмите равное количество "деревьев" получите (при шести видах) максимальное значение 1,79 (в натуральных логарифмах). Затем возьмите три дерева - получите 1,09.
Иными словами, индекс предназначен для сравнения ситуаций, когда количество объектов (деревьев, симптомов) примерно равно. (Если как я рекомендовал в первом посте сделать bootstrap), то видно, что при имеющихся у Вас данных (33 и 6 объектов) разность индексов в случае нулевой гипотезы (вторая группа - подвыборка из первой) сильно смещена от нулевого значения, а, следовательно, все формулы с предполагаемым сравнением с нулем (а все t-тесты, приведенные выше предполагали, что разность индексов в двух группах равна нулю) ошибочны (вот тут именно ошибка).
Посему я бы рекомендовал отказаться от этого индекса и считать вместо этого либо сумму типов осложнений, либо среднее число осложнений на человека.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 19.01.2008 - 14:01
Сообщение #17





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Я предполагаю, что лес у меня в двух выборках примерно одинаковый (рандомизация была), т.е. в нем примерно по 250 деревьев, причем здоровых. Никаких осложнений до вмешательства естественно не было. И предполагается, что энтропия была нулевая до вмешательства. ПОсле различных вмешательств выозможно появление 10 новых состояний, которые появляются с различной частотой и чем их меньше, тем лучше сохранился лес. Классическая статистика при этом прилагается в пришпиленном файле. Только по 14 виду осложнения есть достоверные различия. В дальнейшем, число осложнений все более снижается и никаких различий нет, но по энтропии все же 2 метод лучше на всех сроках наблюдения. Какой подход в данном случае, на ваш взгляд предпочтителен?
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 19.01.2008 - 15:37
Сообщение #18





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Индекс Шеннона не предполагает, что может быть "дерево" не имеющее вида. Соответстенно, наверное, лучше сделать так (если уж хотите считать энтропию)
вид 1 - нет осложнений
вид 2 - наличие осложнения 1
вид 3 - наличие осложнения 2
если есть два осложнения - то считать новым видом.
и т.д.
Так у Вас N в обеих группах будет примерно одинаковым и использование индекса Шеннона будет обоснованным.
Я еще подумаю, что можно придумать (кроме очевидной суммы осложнений в группе и среднего число осложнений на одного больного) и отпишу позднее smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 20.01.2008 - 01:42
Сообщение #19





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Большое спасибо, я с вашей помощью все же разобралась в том, как посчитать дисперсию, и в вашей программке посчитала двумя способами, используя ее как основу (это мой дебют в экселе). Логарифмы везде взяла натуральные, индексы сошлись точно с расчитанными в специальной программе. Надеюсь и дисперсии посчитаны верно 0,0297 и
0,02556 для 1 группы и 0,0952 и 0,0569 для второй. Т.е. по Zar дисперсия чуть ниже. SD также вполне нормально выглядит. Представляю файл, может кому пригодится. Если в этой задаче "овчинка выделки не стоит", то есть и другие задачки, которые можно попробовать так решить. Хочется получить простое решение, ведь задачка для медининской науки. Файл почему то не прикрепляется ни в старой версии, ни в 2007 м
"Неудачная загрузка. Вам запрещено загружать такой тип файлов".
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
logvin
сообщение 20.01.2008 - 12:21
Сообщение #20





Группа: Администраторы
Сообщений: 301
Регистрация: 6.10.2004
Из: Саратов
Пользователь №: 4



Цитата
Файл почему то не прикрепляется ни в старой версии, ни в 2007
"Неудачная загрузка. Вам запрещено загружать такой тип файлов".

Попробуйте загрузить файл в виде zip-архива.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 20.01.2008 - 20:52
Сообщение #21





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Спасибо! Все OK!
Прикрепленные файлы
Прикрепленный файл  Shenn.zip ( 5,96 килобайт ) Кол-во скачиваний: 492
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 20.01.2008 - 22:24
Сообщение #22





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Полагаю, что использование индекса разнообразия является "бантиком" к работе, необязательным и весьма спорным: как указал плав отсутствие осложнения не является разновидностью осложнения, а в таком случае объемы выборок для расчета индекса составят всего 33 и 6. Намного более важным и обязательным является вывод о меньшем числе осложнений в группе 2 по сравнению с 1, а в приведенной таблице он (возможно пока) не подтвержден статистически. Кроме того в таблице приведены асимптотические оценки для критерия хи-квадрат, хотя в ней фигурируют даже нулевые частоты. В вашем случае я бы отказался от использования индекса разнообразия, а при анализе таблиц 2х2 использовал не асимтотические, а точные оценки Р - это было бы корректно и по существу.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 20.01.2008 - 23:43
Сообщение #23





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Я полностью согластна, что это бантик, но статистических различий нет, если рассматривать вероятность каждого осложнения в зависимости от вида операции, кроме одного из 10 и только в первой исследовательской точке. Точный критерий Фишера тоже не поможет, хотя его применение более корректно. Но он тоже не поможет получить р<0,05, особенно если его там нет. Обычно в таких случаях я традиционно рассчитываю OR и 95%ДИ. Но на "0", как известно не умножить и не разделить, а там где значение есть оно очень низкое и получаются большие доверительные интервалы. Кроме того, мне нужно оценить осложнения в динамике, а их все меньше и меньше на последующих этапах сравнения. Хочется дать какую то интеррированную оценку частоты и разнообразия этих осложнений. Показать, что эта оценка снижается со временем как в одной, так и в другой группе, но в одной все же их больше, хотя статистически это не достоверно. Поэтому я и решила использовать малознакомую мне область, почитав в инете кто и как это использует в медицинских исслеованиях. Аналогии простые. Изучили флору и фауну в водоеме, посчитали энтропию, потом произошел выброс ядовитых веществ, часть видов вообще исчезла, часть уменьшила свою численность. ПО разности энтропии судят о вредности выброса. Потом исследуют как она восстанавливается. Мой бантик отсюда и завязался. Причем цель работы вовсе не анализ осложнений, а оценка результата операции, но там простые методы статистики хорошо подтверждают преимущества второго метода, без всяких бантиков.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 21.01.2008 - 06:40
Сообщение #24





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Во всех неплохих учебниках по прикладной статистике оговаривается, что использование пирсоновского критерия хи-квадрат некорректно если есть минимальные ожидаемые менее 4-5. В случае больших таблиц (большого числа степеней свободы), возможно, дела обстоят лучше, но это все равно - аппроксимация. Согласен, что в данном конкретном случае использование других статистических техник не повлияет на интерпретацию, но оно сильно повлиет на репутацию. Под точной оценкой я подразумевал не точный метод Фишера (для подавляющего числа задач где он традиционно используется этот метод устарел), а точную перестановочную (permutation) оценку Р, которую можно расчитать, например в программе StatXact. Про нее на форуме пару раз речь заходила. По поводу индекса Шеннона остаюсь при своем мнении, как, впрочем и вы smile.gif.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 21.01.2008 - 07:33
Сообщение #25





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



2 плав
Цитата(плав @ 18.01.2008 - 18:10) *
Кроме того, почему ошибка должна быть именно в приводимых мною формулах (а не наоборот)?
Каким образом могут получиться одинаовые результаты в статье Шитикова и Grenier et al, если у Шитикова суммируются (p*log(p))^2, а у Grenier et al p*(log(p))^2. На всякий случай просчитал, ничего общего. Так что выдаете желаемое за действительное.

Спасибо, плав. Я ошибся. Но только в том, что из-за невнимательности ошибку Шитикова не воспроизвел точно и уж ни в коем случае не хотел обидеть уважаемых собеседников. Шитиков, оказывается, и формулу для дисперсии энтропии воспроизвел неверно (по формуле Шитикова она получается отрицательной!). Формула, показанная Grenier et al, указана во многих источниках, поэтому данной формулой и следует пользоваться. Ну, либо формулой Zar. Впечатление о "слишком малом значении", на которое я посетовал, возникло от того, что в формулах Zar используются десятичные логарифмы, о чем я не подозревал.
Справедливости ради заметим, что:
1. Десятичный логарифм в русскоязычной литературе обозначать принято как lg, натуральный как ln, но тот и другой не как log. Как log с подстрочным указанием основания принято обозначать логарифм, если он не десятичный и не натуральный.
2. В системах программирования (проанализированы Си и Бейсик) стандартная функция log считает именно натуральный логарифм. Десятичный логарифм считает стандартная функция log10.

Если можно, вопрос к плав. Вы цитируете Zar: при этом логарифм в формуле энтропии и дисперсии энтропии берется по основанию 10. В каких единицах в данном случае измеряется энтропия?


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 21.01.2008 - 12:57
Сообщение #26





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Путаница с основанием логарифма хорошо известна в русскоязычном пространстве. В программе Statistica для ввода формул используются следующие обозначения: log - натуральный логарифм, log2 - по основанию 2, log10 - по основанию 10. Шитиков скопировал формулуиз американского первоисточника. И в готовых программах (и американских и европейских) имеется возможность расчета индекса диверсификации (натуральный логарифм), который называют все же Shannon- Wiener Diversyty Index. А также рассчитывается Shannon Entropy при этом логарифм по основанию 2. По основанию 10 в этих программах вообще не считают энтропию. Китайцы тоже используют такие же обозначения логарифмов. Естественно, что если энтропия рассчитывается по основанию 2, но и дисперсию нужно считать также. Я использовала везде натуральный логарифм, внеся изменения в программу Плава. Но я запуталась со ссылками на первоисточник формул для дисперсии. Для Хатчинсона она у меня есть, а на Zar - нет.
И спасибо всем!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 21.01.2008 - 22:08
Сообщение #27





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Игорь @ 21.01.2008 - 07:33) *
Справедливости ради заметим, что:
1. Десятичный логарифм в русскоязычной литературе обозначать принято как lg, натуральный как ln, но тот и другой не как log. Как log с подстрочным указанием основания принято обозначать логарифм, если он не десятичный и не натуральный.

Если можно, вопрос к плав. Вы цитируете Zar: при этом логарифм в формуле энтропии и дисперсии энтропии берется по основанию 10. В каких единицах в данном случае измеряется энтропия?


Дело в том, что в доступной мне литературе этот показатель не называют энтропией. Это безразмерный индекс и для его оценки используют "логарифмы по основанию 10, e или 2". Собственно говоря именно поэтому в формулах стоял log, который, как правильно было замечено означает логарифм по любому основанию, которое должно указываться дополнительно (хотя, как указано ниже, в первых калькуляторах это обозначение было зарезивировано для десятичного логарифма). Разницы в результате при использовании разных оснований быть не должно. Соотвественно, каждая область выбирает тот вариант, который кажется приемлимым. Поскольку методики были опубликованы в 70-начале 80х годов, то наиболее распространенным способом расчетов была логарифмическая линейка, которая, использовала логарифм по основанию 10. Соответственно, для иследователей удобнее был тот индекс, который можно было проще расчитать. Отсюда любовь к логарифму по основанию 10. А вот калькуляторы (с самых первых, которые назывались электронными логарифмическими линейками) включали натуральные логарифмы, антилогарифм (натуральный, е^х) и десятичный логарифм (который, кстати, обозначался log). Поэтому с середины 1970х годов в моду вошли индексы, в которых использовался натуральный логарифм и десятичный логарифмы стали исчезать как отдельная кнопка на калькуляторах. Ну а потом появились компьютеры и все это стало не важным, однако для совмещения со старыми публикациями привычки остались...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 23.01.2008 - 22:37
Сообщение #28





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



И все же...о главном, т.е. не о логарифмах. Можно ли в описанном мою примере использовать индекс диверсификации Шеннона Винера. Модераторы почти меня убедили, что нет. Однако в американском учебнике по экологии в качестве обучающего примера представлены две выборки с 11 видами , при этом в одной нет одного вида, в другой отсутствуют 4 вида. Есть экселовский файл с расчетами, в котором отсутствующие виды просто пропускают. Т.е. в лесу может не быть определенных видов деревьев. Но самое интересное, что про расчет дисперсии и использовании t только упоминают, а сравнение двух индексов проводят по Dmax Колмогорова-Смирнова. Желающие могут зайти сюда http://tiee.ecoed.net/vol/v3/experiments/s...escription.html и наша дискуссия может иметь продолжение.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 24.01.2008 - 11:09
Сообщение #29





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(DrgLena @ 23.01.2008 - 22:37) *
в лесу может не быть определенных видов деревьев


В лесу есть все виды деревьев. Только частота встречаемости некоторых из них равна нулю.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 24.01.2008 - 11:46
Сообщение #30





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Верно, и при расчете индекса разнообразия отсутствующие виды просто игнорируются, т.е. в формулу "0" не подставляется. Но сравнить индексы в двух группах вполне корректно?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

4 страниц V  < 1 2 3 4 >
Добавить ответ в эту темуОткрыть тему