Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Правильно ли считает STATISTICA?
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Игорь
Предлагаю организовать новую тему вот по какой причине. Программа STATISTICA позиционируется, в том числе, для обработки медицинских данных. Есть несколько книг на эту тему. В том числе для клиницистов. В общих интересах проверить, правильно считает данная программа. Как говорится в русской пословице, "назвался груздем - полезай в кузов".

Пока сам не обладаю лицензионной копией, но очень хотелось бы купить. Уже запланировали для нашей клиники в этом году. Грузить 128 Мб пробной версии тоже не с руки, коль скоро будет полная лицензионная версия.

Поэтому для начала предлагаю тем, у кого данная копия имеется, подставить небольшие массивы данных и посчитать двухвыборочный критерий Вилкоксона. Времени займет немного. Итак, данные:

Задача 1
-----------
Выборка А (n = 5)
12,0072
12,0064
12,0054
12,0016
12,0077

Выборка B (n = 4)
11,9853
11,9949
11,9985
12,0061

Задача 2
-----------
Выборка А (n = 6)
95,6
94,9
96,2
95,1
95,8
96,3

Выборка B (n = 7)
93,3
92,1
94,7
90,1
95,6
90,0
94,7

У задач есть правильный ответ из известной из очень качественной книги. Если уважаемые форумчане отзовутся на предложение, непременно сообщу верные ответы и их источники. Потом проверим и другие методы. Если программа считает правильно, это будет хорошей рекламой для нее. Если нет, ... надо исправлять ошибки.
DrgLena
Уточните задание. В советской литературе (Лакин с.130 U-критерий Уилкоксона (Манна- Уитни) проверяет гипотезу о принадлежности сравниваемых выборок к одной и той же ГС. Критерий Уилкоксона в иностранной литературе и во всех статистических программах того же происхождения проверяет попарно связанные выборки, у Лакина это Т-критерий Уилкоксона (стр. 133). Вы привели примеры разновеликих выборок, если это связанные выбокри, то есть пропущенное значение в каждом примере, а если не связанные, то в программе Statictica нужно выбрать критерий Манна-Уитни. Что же будем пересчитывать? Ручками легко посчитать, и программки под рукой.
Игорь
Цитата(DrgLena @ 7.06.2008 - 10:10) *
Уточните задание. В советской литературе (Лакин с.130 U-критерий Уилкоксона (Манна- Уитни) проверяет гипотезу о принадлежности сравниваемых выборок к одной и той же ГС. Критерий Уилкоксона в иностранной литературе и во всех статистических программах того же происхождения проверяет попарно связанные выборки, у Лакина это Т-критерий Уилкоксона (стр. 133). Вы привели примеры разновеликих выборок, если это связанные выбокри, то есть пропущенное значение в каждом примере, а если не связанные, то в программе Statictica нужно выбрать критерий Манна-Уитни. Что же будем пересчитывать? Ручками легко посчитать, и программки под рукой.

По порядку.

1. А науки не бывает советской и иностранной. И не бывает плохой и хорошей. Бывает просто наука. Или не бывает.
2. Двухвыборочным называется критерий Вилкоксона для независимых выборок.
3. Пример и наименование взяты из переведенного на русский язык иностранного источника.
4. Лакина в данной теме использовать не рекомендую, т.к. у него не предусмотрен учет поправок (связки и непрерывность).
5. T-критерий Вилкосона, упомянутый в предыдущем посте, называют еще одновыборочным критерием.

"Ручками?" Смысл тогда? Я же хочу проверить, как STATISTICA считает. Беру пример из книги (уже просчитанный ручками) с известным правильным ответом. Подставляю те же данные в дорогостоящую программу, рекомендуемую на сайте разработчиков и десятком авторов монографий именно для обработки медицинских данных (а это очень сильная претензия), и сравниваю, проверяя правильность программы. Что, замахнулся на святое? Или программу STATISTICA запрещено проверять законодательно?

"Ручками?" Т.е., по логике DrgLena, я покупаю программу STATISTICA Advanced 8 за 73378 казенных рублей (цена по апрельскому каталогу SoftLine Direct), но считаю ручками. Тогда цель покупки можно точнее сформулировать? Может тогда деньги на что-то более полезное потратить?

Вообще, очень хотелось бы, чтобы перед ответом уважаемые собеседники ознакомились с названием темы.
DrgLena
Это называется уточнили. Если вы хотите посчитать в Statictica ( и те только) ваши примерчики, то нажмите кнопочку Манна- Уитни, а не Уилкоксона, посмотрев документацию (первоисточник) к любой программе, желательно на английском языке.
Игорь
Да уж. Слов нет. Ну да ладно.

Итак. Загрузил демонстрационную полнофункциональную (по утверждению сайта http://statsoft.com) версию STATISTICA 8 (это почти 135 Мб). Установка ее - отдельная песня, но дело не в этом.

Ввел указанные в первом посте данные. Нажал, "по совету врачей", кнопочку, означающую Манна-Уитни. Искомого результата не получил. Гипотеза: STATISTICA 8 неверно считает критерий Манна-Уитни.

Правильные ответы (Браунли К.А. Статистическая теория и методология ...):
для задачи 1: p (точное) 0,0317, p (аппроксимация) = 0,033.
для задачи 2: p (точное) 0,0035, p (аппроксимация) = 0,004.
DrgLena
Второй примерчик не смотрела, а по первому по любым критериям (Бог с ними с названиями) различия статистически не достоврены. Если вы уже скачали программу, то посмотрите непараметрические критерии для сравнения двух несвязанных выборок, как они там называются. Там их три, один из них М-У (р=0,33); Wald-Wolfowitz (p=0,74) и Кол-Смирн (р>0,10). И что самое интересное, SPSS, дает тот же результат сравнения по М-У. Суммы рангов или средние ранги могут быть другими, и ручками получается тоже. Посчитайте U1 и U2, меншее значение, т.е. 6 и есть значения критерия, хоть таблички посмотрите в конце любого учебника, нулевая гипотеза не отклоняется. Суммы рангов или средниий ранг даже доктор может посчитать.

Вы, конечно и Уилкоксона можете нажать, по совету врачей, но обратите мнимание, что в программе Statistica - это для связанных выборок и в первом примере будет анализироваться 4 пары значений.
На чем основан ваш вывод, что вы даете правильные ответы, вернее не вы, а Браунли К.А.? или еще вернее перевод из этого источника?
А если слов у вас уже больше нет, то приведите свой ручной расчет, а я приведу свой ручной и распечатки машинограмм разультата по первому примеру, на второй нет времени. Видимо, где собака зарыта будет понятно из первого примера.
DrgLena
Суммы рангов или средние ранги не могут быть другими, и ручками получается тоже.
Игорь
Цитата(DrgLena @ 7.06.2008 - 16:46) *
Второй примерчик не смотрела, а по первому по любым критериям (Бог с ними с названиями) различия статистически не достоврены. Если вы уже скачали программу, то посмотрите непараметрические критерии для сравнения двух несвязанных выборок, как они там называются. Там их три, один из них М-У (р=0,33); Wald-Wolfowitz (p=0,74) и Кол-Смирн (р>0,10). И что самое интересное, SPSS, дает тот же результат сравнения по М-У. Суммы рангов или средние ранги могут быть другими, и ручками получается тоже. Посчитайте U1 и U2, меншее значение, т.е. 6 и есть значения критерия, хоть таблички посмотрите в конце любого учебника, нулевая гипотеза не отклоняется.

Посчитайте не асимптотику, а точные значения и убедитесь что Вы вместе со STATISTICA (и SPSS - забавно) ошибаетесь. Если возникли затруднения, укажу пару источников. Критерий рандомизации компонент описан Рунионом. Критерий Вилкоксона (точный) - Браунли. Асимптотика, в том числе и Манн-Уитни, дают результаты очень близкие.
О Колмогорове-Смирнове. Нет такого критерия и никогда не было. Эти авторы никогда не работали вместе и не сочиняли никаких совместных критериев. Можете свериться из первых рук - на сайте профессора Орлова.
Цитата(DrgLena @ 7.06.2008 - 16:46) *
Суммы рангов или средниий ранг даже доктор может посчитать.

Вы зря так пренебрежительно относитесь к докторам. Тем более на их сайте. Уверяю Вас, это, как правило, образованные и интересные люди.
Цитата(DrgLena @ 7.06.2008 - 16:46) *
Вы, конечно и Уилкоксона можете нажать, по совету врачей, но обратите мнимание, что в программе Statistica - это для связанных выборок и в первом примере будет анализироваться 4 пары значений.

Спасибо, я обратил на это внимание.
Цитата(DrgLena @ 7.06.2008 - 16:46) *
На чем основан ваш вывод, что вы даете правильные ответы, вернее не вы, а Браунли К.А.? или еще вернее перевод из этого источника?
А если слов у вас уже больше нет, то приведите свой ручной расчет, а я приведу свой ручной и распечатки машинограмм разультата по первому примеру, на второй нет времени. Видимо, где собака зарыта будет понятно из первого примера.

Вывод основан на корректных расчетах и весьма уважаемых источниках. Если ни один из опубликованных результатов не совпадет с Вашей любимой программой, Вы их все объявите ересью?
Цитата(DrgLena @ 7.06.2008 - 16:48) *
Суммы рангов или средние ранги не могут быть другими, и ручками получается тоже.

Без сомнения. Это так же верно, что завтра наступит утро. Только некоторые программы могут выводить в качестве статистики критерия не наименьшую сумму рангов, а, скажем, количество исходов численного эксперимента (для точного критерия Вилкоксона) или модифицированное (асимптотическое) значение статистики. Поэтому сравнивать нужно p-значения.

Теперь добавление по поводу, что все тесты незначимы. Для рассматриваемых данных
Критерий Смирнова 0,75, p = 0,21
Критерий Койпера 1,10, p = 0,07
Критерий Вилкоксона 12,00, p = 0,03
Критерий Манна-Уитни 18,00, p = 0,03
Критерий Ван дер Вардена 2,39, p = 0,03
Критерий Сэвиджа 7,28, p = 0,04
Критерий Зигеля-Тьюки 28,00, p = 0,23
Критерий Ансари-Бредли 15,00, p = 0,27
Критерий Клотца 2,69, p = 0,38
Критерий Муда-Брауна 1,00, p = 0,10
Критерий Коновера 95,00, p = 0,16

Почему разные результаты? Так тесты разные параметры сравнивают. Тем не менее все эквивалентные тесты дают результаты аналогичные. И весьма отличающиеся от программ, которыми Вы, без сомнения, легально владеете - STATISTICA и SPSS.

Ну, и для защиты от грубых ошибок, t-критерий из "Пакета анализа" Excel
2,124282441, p = 0,061839627

Убедил?
DrgLena
Нет, не убедили, а еще больше запутали, но...
Раз так много слов, продолжим, 1 пример, наиболее распространенный критерий во всем мире называемый Mann-Whitney U Test. У Лакина называется U критерий Уилкоксона (Манна-Уитни). Вы не любите Лакина, но все же это именно Биометрия, издательства Высшей школы, 1990 г., и он дает формулы и основные понятия, которые позволяют провести расчет руками, и что самое интересное, это дает полную сходимость результатов с известными статистическими пакетами. У меня такое впечатление, что у нас с вами разные данные. В пришпиленном файле, я их повторяю вместе с рангами и расчетом критерия.
Если использовать указанные формулы, а не те что приведены в AtteStat, на которую в форуме была ссылка, то значение критерия U=6, а в AtteStat U1=6,а U2=14. В качестве критерия выбирают наименьшую, а AtteStat пишет, что по тем формулам, которые указаны в документации берется большая, поэтому 14. Так вот, Statistica и Spss тоже к 1 примеру дает U=6 и р =0,327,т.е. как у Лакина.

А уж критерий Стьюдента, как вы так посчитали к 1 примеру?
Во всех пакетах, включая AtteStat t=0,84; р=0,43
Игорь
Цитата(DrgLena @ 7.06.2008 - 19:29) *
Нет, не убедили, а еще больше запутали, но...
Раз так много слов, продолжим, 1 пример, наиболее распространенный критерий во всем мире называемый Mann-Whitney U Test. У Лакина называется U критерий Уилкоксона (Манна-Уитни). Вы не любите Лакина, но все же это именно Биометрия, издательства Высшей школы, 1990 г., и он дает формулы и основные понятия, которые позволяют провести расчет руками, и что самое интересное, это дает полную сходимость результатов с известными статистическими пакетами. У меня такое впечатление, что у нас с вами разные данные. В пришпиленном файле, я их повторяю вместе с рангами и расчетом критерия.
Если использовать указанные формулы, а не те что приведены в AtteStat, на которую в форуме была ссылка, то значение критерия U=6, а в AtteStat U1=6,а U2=14. В качестве критерия выбирают наименьшую, а AtteStat пишет, что по тем формулам, которые указаны в документации берется большая, поэтому 14. Так вот, Statistica и Spss тоже к 1 примеру дает U=6 и р =0,327,т.е. как у Лакина.

А уж критерий Стьюдента, как вы так посчитали к 1 примеру?
Во всех пакетах, включая AtteStat t=0,84; р=0,43

Не правда Ваша. В AtteStat критерий Уэлча соотвествует t-тесту с разными дисперсиями из "Пакета анализа" Excel. Вот его результат:
Критерий Уэлча 2,12, p = 0,06. Полное совпадение.

Странно. А проверьте-ка данные еще раз. Вот они:

12,0072
12,0064
12,0054
12,0016
12,0077

11,9853
11,9949
11,9985
12,0061

Обращаю внимание. Во всех источниках, которые Вы указали, используется асимптотика. Это означает, что в разных источниках, в зависимости от учета или неучета различных поправок, результаты могут НЕЗНАЧИТЕЛЬНО различаться. Подсчитав же точные тесты, Вы получите истинные p-значения независимо от того, учел кто-то где-то что-то или нет. Это трудоемко и не всегда реализуемо, но там, где точный расчет удается сделать, мы получаем идеальный инструмент для тестирования наших асимптотических расчетов.

Кстати, а кто сказал, что мне удалось вполне подсчитать тест Манна-Уитни в STATISTICA 8? Другие тесты, действительно, работают и что-то считают. А вот Манн-Уитни в демонстрационной английской 8 версии не считается в принципе! Одни нули. Чему был немало удивлен.

Может, это будет для Вас сюрпризом, но в Манне-Уитни не имеет значения, берете вы максимальную сумму рангов или минимальную. Главное - не перепутать одну и другую. А трактовку результатов разбирают Тюрин с Макаровым в их известной книге.

Кстати, о вычислении Манна-Уитни такого понаворочено... Сергиенко посмотрите "Математическая статистика в клинических исследованиях". Много чудного узнаете.
DrgLena
В чем неправда моя, я прикрепила файл, вы его не посмотрели, там исключительно про критерий М-У, который я давно использую, с докомпьютерного периода, ручками проверено по Лакину. Я вам исключительно про М-У излагаю, а не про критерий Уэлча, я с ним не знакома. А для Стьюдента с разными дисперсиями могу приложить: t=0,95; p=0,34.
Данные проверьте сами, они в прикрепленном фале, я их коприровала блоком, врял ли ошиблась.
В чем я с вами абсолютно согласна, что на этом нашем сайте образованные и интересные люди. Но SAS нам явно не хватает.
DrgLena
Похоже, у меня действительно ошибка в первичных данных, но файл не скачивается. Проверю!
DrgLena
В первой группе ошибка, у меня было так!
11,0064
12,0016
12,0054
12,0072
12,0077

nokh
Игорь, в цитируемой вами книге рассчитывается односторонняя вероятность, в этом причина разногласий. Для критерия Манна-Уитни Statistica 6.0 выдает 2 значения Р: аппроксимацию стандартным нормальным распределением для двусторонней вероятности и удвоенную точную одностороннюю вероятность (2*1 sided exact p). Чтобы сравнивать - делил двустороннюю на 2. Имеем:
Пример 1. Аппроксимация: 0,050044 (:2=0,025022), Удвоенное точное: 0,063492 (:2=0,031746).
Пример 2. Аппроксимация: 0,010516 (:2=0,005258), Удвоенное точное: 0,009524 (:2=0,004762).

Вывод. При сравнении односторонних вероятностей:
(а) по аппроксимации - сильные различия с книгой,
(б) по точной оценке р - близкие оценки: в примере 1 - полное совпадение, в примере 2 - близко, но не совпало.

(а). Причина несовпадения по аппроксимации в обоих примерах: похоже, что в книге при расчете аппроксимации была дополнительно введена поправка на непрерывность = 0,5 (вручную такую поправку не делал, но ее выдает KyPlot: p-аппроксимация с поправкой на непрерывность = 0,0661926 (:2=0,0330963). Остается найти в книгах формулу с такой поправкой - и можно будет перепроверить вручную.

(б). Причина несовпадения точных значений в примере 2, связана с различной обработкой связанных значений (ties) - 95,6 и 96,3, присутствующих в обеих выборках. Похоже, что где-то не делается поправка на связи или делается по-разному. Поскольку тест без поправки на связи более консервативен - большее значение р должно быть там где поправка не делась - значит в Statistica. Действительно в хелпе читаем (выделено жирно мной):
"Exact probabilities for small samples. For small to moderate sized samples, STATISTICA computes an exact probability associated with the respective U statistic. This probability is based on the enumeration of all possible values of U (unadjusted for ties ), given the number of observations in the two samples (see Dinneen & Blakesley, 1973). Specifically, for small to moderate sized samples, the program will report (in the last column of the spreadsheet) the value 2 * p, where p is 1 minus the cumulative (one-sided) probability of the respective U statistic. To reiterate, the computations for this probability value are based on the assumption of no ties in the data (ranks) . Note that this limitation usually leads to only a small underestimation of the statistical significance of the respective effects (see Siegel, 1956)." Т.о. точное значение P в книге дано более точное, чем в обсуждаемой программе.

Полагаю, с Манном-Уитни разобрались jump.gif
DrgLena
По первому примеру Statistica дает одинаковый результат с SPSS, а по второму примеру полное совпадение SPSS с результатами Игоря и по аппроксимации и по точной оценке, поскольку он приводит одностороннюю вероятность.

1 пример 2 пример
Asymp. Sig. (2-tailed) ,0500435 ,008046
Exact Sig. [2*(1-tailed Sig.)] ,0634921(a) ,004662(a)
Exact Sig. (2-tailed) ,0634921 ,006410
Exact Sig. (1-tailed) ,0317460 ,003497
Point Probability ,0158730 ,002331
a Not corrected for ties.
DrgLena
С Манном-Уитни разобрались, но не совсем, хотя Игорь хотел разобраться с Уилкоксоном. А возвращаясь к М-У, если интересно, то программа MedCalc дает такой результат:

1 пример Two-tailed probability P = 0,0317
2 пример Two-tailed probability P = 0,0082
Игорь
Цитата(DrgLena @ 8.06.2008 - 01:06) *
С Манном-Уитни разобрались, но не совсем, хотя Игорь хотел разобраться с Уилкоксоном. А возвращаясь к М-У, если интересно, то программа MedCalc дает такой результат:

1 пример Two-tailed probability P = 0,0317
2 пример Two-tailed probability P = 0,0082

Похоже на правду. Именно двусторонние тесты. Кстати, очень неплохая программа MedCalc! Надо бы обратить на нее более пристальное внимание.

Пользователям же и разработчикам STATISTICA, а также авторам, которые популяризуют данный программный продукт [тем более] для использования в медицинских задачах, можно порекомендовать провести более подробное тестирование программы.

А критерий Манна-Уитни и W-критерий Вилкоксона эквивалентны (об эквивалентности непараметрических ранговых критериев см. статью Клотца 1962 года). Это означает, что для одних и тех же данных вы получите одинаковые p-значения. Правда, это только теоретически, т.к. для [асимптотического] критерия Вилкоксона могут применяться (вместе или по отдельности) 2 поправки: на связки и на непрерывность. Для критерия же Манна-Уитни источников с поправками мне не встречалось. Т.о. образом, можно резюмировать, что асимптотический W-критерий Вилкоксона (без поправок) и критерий Манна-Уитни - это практически одно и то же с точки зрения результата. Отмечу также, что формулы вычисления критических значений того и другого критериев, часто приводимые в старых источниках, все-таки различны.

Для точного W-критерия Вилкоксона, который, как справедливо отмечено выше, можно посчитать только для малых выборок (в AtteStat - численностью не более 12, что вызвано большим временем расчета комбинаторных алгоритмов), никаких поправок не требуется. О поправке на непрерывность в данном случае и речи нет (т.к. нет аппроксимации непрерывным - нормальным - распределением), а связки учитываются автоматически.
nokh
Раз уж речь зашла о других программных продуктах, привожу результаты StatXact 7 (30-дневная демо-версия):

Пример 1.

WILCOXON-MANN-WHITNEY TEST
[ Sum of scores from population < 1 > ]

Summary of Exact distribution of WILCOXON-MANN-WHITNEY statistic:
Min Max Mean Std-dev Observed Standardized
15.00 35.00 25.00 4.082 33.00 1.960
Mann-Whitney Statistic = 18.00

Asymptotic Inference:
One-sided p-value: Pr { Test Statistic .GE. Observed } = 0.0250
Two-sided p-value: 2 * One-sided = 0.0500

Exact Inference:
One-sided p-value: Pr { Test Statistic .GE. Observed } = 0.0317
Pr { Test Statistic .EQ. Observed } = 0.0159
Two-sided p-value: Pr { | Test Statistic - Mean |
.GE. | Observed - Mean | = 0.0635
Two-sided p-value: 2*One-Sided = 0.0635

Elapsed time is 0:0:0.05

Пример 2.

Summary of Exact distribution of WILCOXON-MANN-WHITNEY statistic:
Min Max Mean Std-dev Observed Standardized
21.00 63.00 42.00 6.981 60.50 2.650
Mann-Whitney Statistic = 39.50

Asymptotic Inference:
One-sided p-value: Pr { Test Statistic .GE. Observed } = 0.0040
Two-sided p-value: 2 * One-sided = 0.0080

Exact Inference:
One-sided p-value: Pr { Test Statistic .GE. Observed } = 0.0035
Pr { Test Statistic .EQ. Observed } = 0.0023
Two-sided p-value: Pr { | Test Statistic - Mean |
.GE. | Observed - Mean | = 0.0064
Two-sided p-value: 2*One-Sided = 0.0070

Elapsed time is 0:0:0.03

По сравнению с такими монстрами как SPSS и StatXact большинство программ - баловство.

Формула поправки на связки именно к критерию Манна-Уитни есть в:
Закс Л. Статистическое оценивание/ пер. с нем. В.Н. Варыгина. Под ред. Ю.П. Адлера, В.Г. Горского. - М.: Статистика, 1976. - 598 с. (просто замечательная книга, жалко в djvu никто не оцифровал).

Формулу поправки на непрерывность нашел в лежащей свободном доступе книги по ссылке: http://pubs.usgs.gov/twri/twri4a3/
(Chapter 5, p. 122. Кстати первый автор - известный специалист и популяризатор методов обработки данных с цензурированными наблюдениями - я на книгу так и вышел. В ней это рассматривается в Chapter 13 - Methods for Data Below the Reporting Limit).
Игорь
Цитата(nokh @ 8.06.2008 - 10:28) *
Раз уж речь зашла о других программных продуктах,

...

По сравнению с такими монстрами как SPSS и StatXact большинство программ - баловство.

Раз уж зашла речь о других (поправлю - коммерческих) программных продуктах, позволю себе поправку к реплике уважаемого коллеги - их (продуктов) всего 2:

1. SAS
2. StatXact

В этом списке нет SPSS по той причине, что алгоритмы SPSS, по информации печати, лицензированы ею (SPSS) у StatXact (примечание из буклета Statxact: The exact algorithms in SPSS Exact Tests were developed by and licensed from Cytel Inc.). Поэтому SPSS можно смело поместить в список под тот же п. 2 через запятую.

Все остальные программы статистического анализа данных такого внимания, как эти продукты, не заслуживают. Кстати, обратите внимание на руководства к SAS и StatXact. Это - великолепные монографии с полным описанием алгоритмов, всеми формулами и примерами.

Некоммерческие программные продукты, безусловно, есть интересные. Главный из них - R.

Все восторги по поводу чудесных программ SAS и StatXact прошу оценивать критически, т.к. ошибки с вероятностью 1 есть в любой программе (включая ошибки и опечатки в Справочных системах). Множество ошибок есть и в книгах (в том числе в упомянутых Браунли и Рунионе). Но, по крайней мере, тут видно, что люди работали и старались сделать качественные продукты, а не просто "впаривали" пользователям за бешеные деньги неработающие программы и хранили суровое молчание при обращении в службу поддержки.

Спасибо за ссылку. Правда, тут опять же не Манн-Уитни, а W Вилкоксон. Аналогичная формула есть в Руководстве по StatXact. Формула вызывает сомнение в своей правильности.
Игорь
Продолжим тестирование. А верно ли считает критерий серий Вальда-Вольфовица ПО STATISTICA 8 (демо)? Воспользуемся готовыми данными.

Пример 1 (Рунион)
-----------------------

Выборка 1 (n = 22)
------------
49,00
35,00
26,00
59,00
35,00
58,00
14,00
29,00
17,00
11,00
37,00
22,00
39,00
8,00
50,00
67,00
54,00
19,00
29,00
93,00
109,00
95,00

Выборка 2 (n = 17)
------------
16,00
31,00
10,00
60,00
13,00
7,00
20,00
36,00
18,00
12,00
55,00
7,00
41,00
5,00
28,00
16,00
9,00

Пример 2 (руководство StatXact 8)
-----------------------------------------

Выборка 1 (n = 5)
-------------
525,00
500,00
550,00
576,00
458,00
600,00

Выборка 2 (n = 3)
-------------
700,00
886,00
600,00

Ответы известны. Подробная схема расчета 1-го примера опубликована. Хотя Рунион немного соврал в конце расчета, при всем старании в STATISTICA 8 мне правильные результаты получить не удалось.

Вот тут информация с дружественного (для кого-то - недружественного - как будет угодно) сайта по теме: http://forum.orlovs.pp.ru/viewtopic.php?t=657
плав
Как говорится, извините, что вмешиваюсь в научную дискуссию, но так проверки не делаются. Для всех дискретных распределений определение "точных" значений вероятности достаточно сложное мероприятие. Посмотрите, например, споры о том, какой метод расчета доверительных интервалов биномиальных пропорций используется. Точный метод Клоппера-Пирсона критикуется и Агрести предлагает методику, основанную на аппроксимации.
К чему это я? Да к тому, что надо анализировать (и сделать это можно по документации), какой алгоритм использует статистическая программа и, если она использует алгоритм, для которого есть ограничения по использованию или сомнения, так и надо указывать. Если же предполагается наличие программистской ошибки, то это другое дело.
Расхождение с цифрами, рассчитанными в одном из источников вполне возможны, поскольку источники могут использовать другие алгоритмы, например уже рассматриваемые как субоптимальные (я, например, до сих пор пользуюсь таблицами точного ДИ для пропорций, построенными по методу Клоппера-Пирсона). Авторы статистической программы используют иной алгоритм - некоторые расхождения. Поэтому у меня предложение не пытаться на отдельных примерах задаваться вопросом, а как считает программа этот ряд цифр, а проанализировать алгоритмы и описать, почему, с точки зрения автора, этот алгоритм является субоптимальным (и ссылку). Данные стоит приводить только в том случае, если предполагается ошибка в реализации алгоритма (например, крайние случаи).
Если же программа использует нормальную аппроксимацию для биномиального доверительного интервала в малой выборке, то надо писать именно это, а не приводить циры и говорить, что результат расходится с моими расчетами (не указывая, как я делал расчеты).
Игорь
Есть одна проблема.

Программа STATISTICA чрезвычайно дорога, поэтому платить 70 тысяч рублей за возможность проверить ее правильность - слишком дорогое удовольствие.

Есть еще одна возможность - загрузить пробную полнофункциональную (по утверждению сайта statsoft.com) 30-дневную версию STATISTICA 8, и проверить ее правильность по данной версии. О русском сайте компании, извините, говорить здесь не буду. Загрузил. 135 Мб. Установил (убрал через 2 дня).

Так вот, проблема в том, что при любых исходных данных результаты критерия Манна-Уитни по версии STATISTICA: p = 0.00. Результаты же критерия серий вообще представляются взятыми с потолка, т.е. речь не о правильности и незначительном отличии от других инструментов, а о вменяемости результатов вообще.

Допускаю, что это проблема пробной версии. Но как же тогда попробовать программу перед ее приобретением, если пробная версия не считает? Убедиться в этом после затраты 70 тысяч казенных рублей? Не согласен. Мне казенных денег жалко. Верить на слово авторам многочисленных монографий? Но и там, как правило, указан лишь порядок нажатия клавиш, а не формулы, алгоритмы и расчет примеров с интерпретацией результатов. Допустим, пусть так - при любых (!) опубликованных исходных данных p-значение Манна-Уитни = 0.00. Некоторая вероятность, что все отечественные и зарубежные авторы ошиблись, имеется, хотя и приближается к нулю. Но так обоснуйте же данный научный факт.

О том, как делаются проверки, имеется немало литературы. Мне известно, как делаются проверки. Но мне забавно наблюдать, когда и главное, по какой причине, отстаиваются, скажем так, парадоксальные результаты той или иной программы.
vah1
Поделюсь своими наблюдениями, правда касательно не статистики а МАТЛАБА. как-то давно решили пересчитать ручками расчёты в тулбоксе так вот одна и таже версия но из разных мест приобретения дала разные результаты. Могу предположить, что корректнее говорить не о самом программном продукте а о конкрентой версии. ибо даже лицензионные продукты иногда дают странные расхожнения в результатах
Игорь
Цитата(vah1 @ 13.06.2008 - 17:30) *
Поделюсь своими наблюдениями, правда касательно не статистики а МАТЛАБА. как-то давно решили пересчитать ручками расчёты в тулбоксе так вот одна и таже версия но из разных мест приобретения дала разные результаты. Могу предположить, что корректнее говорить не о самом программном продукте а о конкрентой версии. ибо даже лицензионные продукты иногда дают странные расхожнения в результатах

Я указал версию - триал-версия STATISTICA 8 (английская).

И уже не понимаю ничего. Беру книгу "О.Ю.Реброва. Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA · Москва, МедиаСфера, 2002. 312 с." Нажимаю кнопки, как написано в книге. Получаю странные результаты. К г. Ребровой претензий нет - меню STATISTICA рассмотрено на экране и описано верно. В этом смысле книга отличная. Только то, что я попытался сделать в STATISTICA, меня не удовлетворило.
плав
Цитата(Игорь @ 13.06.2008 - 18:56) *
И уже не понимаю ничего. Беру книгу "О.Ю.Реброва. Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA · Москва, МедиаСфера, 2002. 312 с." Нажимаю кнопки, как написано в книге. Получаю странные результаты. К г. Ребровой претензий нет - меню STATISTICA рассмотрено на экране и описано верно. В этом смысле книга отличная. Только то, что я попытался сделать в STATISTICA, меня не удовлетворило.

Не хочу защищать STATISTICA, но поделюсь опытом. Если у меня при ручных расчетах данные не совпадают с результатами, которые выдает статистический пакет (наталкивался на это и со stata и с SAS), то после нескольких перепроверок выясняется, что ошибаюсь я. Если же что не вводишь, пакет выдает р=0.0, то это возможно ошибка пакета или, что скорее, несовместимость с ОС (особенно, если с примерами Ребровой не совпадает, она же скриншоты в книгу помещала). Лучше всего написать письмо с вопросом в фирму и по реакции станет понятно, стоит ли вообще с ними связываться (поскольку если они оперативно не ответят, значит техподдержка аховая и лучше большие деньги за лазерный диск не платить (ибо в норме в сумму за программу закладывается техподдержка)).
Хотя, написав это, вставил данные в 6 версию статистики и получил р=0,207. При этом ручные расчеты дают р=0,149 хотя за точность не ручаюсь, а у Вас что получилось?
Игорь
Цитата(плав @ 13.06.2008 - 19:44) *
Не хочу защищать STATISTICA, но поделюсь опытом. Если у меня при ручных расчетах данные не совпадают с результатами, которые выдает статистический пакет (наталкивался на это и со stata и с SAS), то после нескольких перепроверок выясняется, что ошибаюсь я.

Да нет. Вроде проверено. Тем более, примеры - не умозрительные и только что придуманные, а многократно перепроверенные книжные.
Цитата(плав @ 13.06.2008 - 19:44) *
Если же что не вводишь, пакет выдает р=0.0, то это возможно ошибка пакета или, что скорее, несовместимость с ОС (особенно, если с примерами Ребровой не совпадает, она же скриншоты в книгу помещала).

Какая же может быть несовместимость? У меня на компьютере, на котором производилось тестирование, стоит лицензионная корпоративная Windows XP SP3 со всеми обновлениями + Office 2003 SP3. Никаких проблем ни с одной программой не замечено. Программа-то запускается исправно. Ответ неверный выдает!
Цитата(плав @ 13.06.2008 - 19:44) *
Лучше всего написать письмо с вопросом в фирму и по реакции станет понятно, стоит ли вообще с ними связываться (поскольку если они оперативно не ответят, значит техподдержка аховая и лучше большие деньги за лазерный диск не платить (ибо в норме в сумму за программу закладывается техподдержка)).

Написал, естественно. Сразу после нескольких проверок. Гробовое молчание. Хотя когда отправлял заявку на рекламный буклет и демо-диск, STATSOFT реагировал мгновенно - прислал моментально. О содержании присланного, правда, говорить не будем. Еще хуже т.н. "Учебника...".
Цитата(плав @ 13.06.2008 - 19:44) *
Хотя, написав это, вставил данные в 6 версию статистики и получил р=0,207. При этом ручные расчеты дают р=0,149 хотя за точность не ручаюсь, а у Вас что получилось?

Прошу уточнить, это для какого набора данных и какого теста?

Хочу заметить, что лично ничего против STATISTICA не имею. Более того, уже заказал ее для нашей организации. Вот-вот должны приобрести. Но, согласитесь, факты выглядят странно и обидно. 70 тысяч рублей - это много. Уж не погорячился ли?
DrgLena
По поводу Statistica, в демо версии, наверное нет непараметрики, у меня такой проблемы с нулевыми значениями в М-У нет. С тестом Wald-Wolfowitz я не знакома, в пердыдущих версиях программы его не было вообще, в MedCalc и NCSS тоже нет. Можете сравнить результат по вашим примерам в Statistica и SPSS.
плав
Я имел в виду
Пример 1 (Рунион)
критерий Вальда-Вольфовица

Что же касается покупки Statistica, то тут всегда вопрос для кого покупается. 70 тыс. руб это стоимость кафедральной годовой лицензии SAS (2 тыс. евро), которая может быть (повторюсь, писал и раньше) установлена на 50 рабочих мест (но на одной кафедре), другие пакеты стоят примерно так же. Так что покупать ее стоит тогда, когда пользователи привыкли с ней работать...
Игорь
Цитата(плав @ 13.06.2008 - 19:44) *
Не хочу защищать STATISTICA, но поделюсь опытом. Если у меня при ручных расчетах данные не совпадают с результатами, которые выдает статистический пакет (наталкивался на это и со stata и с SAS), то после нескольких перепроверок выясняется, что ошибаюсь я. Если же что не вводишь, пакет выдает р=0.0, то это возможно ошибка пакета или, что скорее, несовместимость с ОС (особенно, если с примерами Ребровой не совпадает, она же скриншоты в книгу помещала). Лучше всего написать письмо с вопросом в фирму и по реакции станет понятно, стоит ли вообще с ними связываться (поскольку если они оперативно не ответят, значит техподдержка аховая и лучше большие деньги за лазерный диск не платить (ибо в норме в сумму за программу закладывается техподдержка)).
Хотя, написав это, вставил данные в 6 версию статистики и получил р=0,207. При этом ручные расчеты дают р=0,149 хотя за точность не ручаюсь, а у Вас что получилось?

Для указанных данных ручной (ну как ручной, конечно, не совсем ручной - формулы, введенные в Excel, но все шаги под контролем) расчет показал:
статистика критерия W = 24
точное значение p = 0,0762
асимптотика p = 0,1217

Для второго примера - результаты в руководстве по StatXact 8 (бесплатно прилагается к пробной версии). Проверял - совпадают с "ручным" расчетом".

Выбор программы у нас производится так. Видит исследователь статьи из своей области (медицинские экспериментальные и клинические исследования) с применением STATISTICA, видит книги и тоже хочет эту программу. А, например, о SAS или StatXact он даже не знает.

Цену на STATISTICA взял из каталога SoftLine Direct, апрель 2008, с. 159. За английскую однопользовательскую 8 advanced версию 73378 руб. Русская есть только 6-я (кстати!). Стоит 63578 руб. Базовые версии, соответственно, в 2 раза дешевле. Бесплатно предлагается якобы полнофункциональная 30-дневная пробная 8 версия, но она ничего не считает.
Nikita
Цитата(DrgLena @ 8.06.2008 - 01:06) *
С Манном-Уитни разобрались, но не совсем, хотя Игорь хотел разобраться с Уилкоксоном. А возвращаясь к М-У, если интересно, то программа MedCalc дает такой результат:
1 пример Two-tailed probability P = 0,0317
2 пример Two-tailed probability P = 0,0082

Господа хорошие!
Имя Уилкоксона несут два критерия (теста, процедуры проверки статистических гипотез):
двухвыборочный - ранговый - для сравнения двух независимых выборок из непрерывных распределений. Это аналог двухвыборочного t-критерия Стьюдента.
одновыборочный, он же рангово-знаковый - для сравнения парных (сопряженных) наблюдений. Это аналог парного (одновыборочного) t-критерия Стьюдента.
В обоих случаях статистикой критерия является сумма рангов. В одновыборочном ранжируются разности парных наблюдений, и подсчитывается сумма рангов для разностей одного знака - положительных или отрицательных.
В двухвыборочном критерии ранжируются значения обеих выборок, и подсчитывается сумма рангов, полученных одной из выборок. Предельный случай - когда значения выборок не перекрываются. Тогда сумма рангов для выборки (объемом m) с меньшими значениями будет суммой натуральных чисел от 1 до m, а для второй выборки (объемом n) - сумма чисел от m+1 до m+n.
Что сделали Манн и Уитни? Они подметили, что статистика суммы рангов эквивалентна статистике, названной их именами. Поэтому, отдавая дань всем создателем, критерий часто называют критерием Уилкоксона-Манна-Уитни.
Алгоритм вычисления конкретных значений статистики Манна-Уитни лучше всего изложен в нашем учебнике (Глотов Н.В., Животовский Л.А., Хованов Н.В., Хромов-Борисов Н.Н. Биометрия. Л.: ЛГУ, 1982. - 263 с.). Отбрасывая ложную скромность, могу признаться, что придумал этот алгоритм я. Но вскорости в Biometrical Journal появилась статья, в которой этот алгоритм был изложен в виде текста программы.
Строим таблицу (матрицу попарных сравнений) размером mn (m - объем первой выбоки, а n - объем второй выборки), в левом столбце которой выписываем значения первой выборки, а в верхней строчке - значения второй выборки. Для наглядности эти значения лучше упорядочить. Каждое левое значение мы сравниваем с каждым значением наверху. Если левое значение больше, мы ставим в соответствующую ячейку 1, если меньше, то 0.
Для первого примера Игоря:
Код
Значения: 11.9853  11.9885  11.9949  12.0061
12.0016       1        1        1        0
12.0054       1        1        1        0
12.0064       1        1        1        1
12.0067       1        1        1        1
12.0077       1        1        1        1

(У меня сначала не получилось растянуть пробелы между нулями и единицами, sorry. Теперь - спасибо LogVin - научил(а), что делать)
Сумма единиц в такой матрице и есть наблюдаемое значение статистики Манна-Уитни. В данном случае U=18.
Иными словами, в статистике Манна-Уитни подсчитывают, сколько раз значения в первой выборке превышают значения во второй при их попарном сравнении.
В качестве проверки правильности полезно знать, что сумма единиц U и нулей U' равна произведению объемов выборок: U+u'=18+2=4x5=20=mn. Очевидно, что если поменять строки и столбцы местами (или, что то же самое - обозначать единицами случаи, когда значение слева меньше верхних значений), то значение U'=mn-U=2. Понятно, что крайними вариантами будут матрицы, сплошь содержащие одни нули или одни единицы. Всего возможно (m+n)!/(m!n!) равновероятных комбинаций нулей и единиц в такой матрице.
Удивительно, что для распределения статистики Манна-Уитни нет простой формулы, по которой можно было бы вычислять «плотность» и (или) функцию распределения этой статистики. Ее можно находить только с помощью рекуррентного соотношения, которое и вывели Манн с Уитни. Его можно найти в их статье или у Оуэна Д.Б. в его великолепном переведенном у нас Сборнике статистических таблиц. М.: ВЦ АН СССР, 1966 (2-е изд. - 1973). - 586 с.
Для первого примера Игоря такие вычисления дают одностороннее Р=0,031746, которое, естественно, совпадает с тем, какое выдают StatXact или StatsDirect.
Во втором примере Игоря имеется одно «совпадение» (значение 95.6 встречается в обеих выборках); в таком случае в ячейку ставится значение 1/2. Для этого второго примера U=2.5. В идеале (по теории) таких значений не должно быть, поскольку одно из основных условий применения критерия Уилкоксона (основанного как на статистике Уилкоксона, так и на статистике Манна-Уитни) является непрерывность распределений, из которых извлечены выборки. В таких распределениях вероятность совпадений равна нулю. На практике, как мы видим, совпадения встречаются. Для этого в асимптотические формулы вводятся поправки на совпадения. Если совпадений «немного», то они мало влияют на получаемые Р-значения. Надо однако помнить, что при наличии совпадений критерий перестает быть свободным от распределения (непараметрическим): он становится зависимым от неизвестного распределения для совпадений.
Что же сравнивают статистики Уилкоксона и Манна-Уитни, мерой различия чего они являются?
Они проверяют гипотезы о том, являются ли случайные величины X и Y СТОХАСТИЧЕСКИ равными (нулевая гипотеза Но: X=Y), или стохастичекси неравными (альтернативная гипотеза Н1). Поскольку заранее у нас нет никаких соображений об альтернативе (об ее направлении: либо X>Y, либо X<Y), то альтернатива у нас всегда двухсторонняя. Когда ФОРМА двух изучаемых распределений одинакова, то такое сравнение сводится к гипотезам о равенстве медиан Ходжеса-Лемана у этих распределений. Говорить, как это нередко делается, что критерий Уилкоксона проверяет равенство медиан (а тем более, средних) - некорректно. Я предлагаю называть такие медианы «ходжлеманами».
Если же сравниваемые распределения различаются по форме, например, если у них разные параметры рассеяния, то в таком случае встает та же проблема (называемая проблемой Беренса-Фишера), что и при использовании t-критерия. Об этом есть статья, написанная специально для медиков. Hart A. Mann-Whitney test is not just a test of medians: differences in spread can be important. BMJ 2001;323;391-393. При различии дисперсий t-критерий должен это учитывать, и одним из рациональных решений является замена t-критерия критерием Уелча. Для критерия, основанного на статистиках Уилкоксона или Манна-Уитни, также имеются соответствующие модификации.
То, что этот критерий является аналогом t-критерия Стьюдента, легко понять, если представить числитель статистики t-критерий (каковым является разность средних двух независимых выборок) как среднее из всех возможных попарных разностей значений из первой выборки и из второй выборки: M1-M2=[(x11-x21)+(x12-x22)+?+(x1m-x2n)]/(mn). См. наш учебник.
Давно известно, что вместо или наряду с Р-значением настоятельно рекомендуется представлять результаты проверки статистических гипотез в виде доверительных интервалов (ДИ) для разности сравниваемых распределений или их параметров (для параметра сдвига). Так вот, «вывернув наизнанку» статистики обсуждаемых критериев, можно построить непараметрические ДИ для ходжлеманы для параметра сдвига S (для разности ходжлеман).
Для обсуждаемого примера StatXact дает точечную оценку для такой ходжлеманы: S(HL)=0,00895 и точный 95%-й ДИ для нее: от -0,0007 до 0,0219. Поскольку объемы выборок слишком малы, то точный 99%-й ДИ не существует (вернее, он простирается от +00 до -00 (бесконечности). Идентичный результат выдает StatsDirect, только в ней фиксировано лишь одно значение для доверительной вероятности - 95%.
В модуле Nonparametrics/Two Independed Samples/Hodges-Lehmann Estimates of Shift Parameter она выдает абсурдный асимптотический 99%-й ДИ: от 0,0224 до 0,0224. Уж не ошибка ли это?
Отсюда вытекает явная польза статистик Уилкоксона или Манна-Уитни при элементарном планировании эксперимента. Они могут подсказать, какие требуются минимальные объемы выборок, чтобы можно было сделать более или менее вразумительные статистические выводы. Например, для построения (небесконечных) 99,9%-х ДИ надо, чтобы объемы обеих выборок были бы не менее 11. Это, если объемы выборок равны. Для выборок неравных объемов суммарные цифры будут больше. Например, можно иметь в одной выборке всего одно наблюдение (m=1), но для построения 99,9%-го ДИ для параметра сдвига объем второй выборки должен быть не меньше n=1999 !
Проверка гипотез с помощью ДИ для параметра сдвига становится наглядной. Согласно Но параметр сдвига S=0, а при альтернативе S не равно 0. В данном примере 95%-й ДИ для параметра сдвига S накрывает значение 0, постулируемое нулевой гипотезой. Следовательно, у нас нет оснований сомневаться в этой гипотезе. Если полученный (1-a)x100%-й ДИ для S не накрыл бы значение 0, то у нас появилось бы основание сомневаться в Но и отклонить ее на уровне значимости «a» (альфа). В этом смысле Р-значение и ДИ для некоего параметра сдвига можно назвать двумя сторонами одной медали.
Что касается конфузов с такими монстрами как STATISTICA и иже с ней, то за рубежом регулярно печатаются статьи о сравнении различных статистических программ с проверками согласия между ними и точности результатов. Так например конкретно было проведено сравнение 11 пакетов программ в отношении вычисления статистик Уилкоксона-Манна-Уитни. Bergmann R., Ludbrook J., Spooren W.P.J.M. (2000) Different outcomes of the Wilcoxon-Mann-Whitney test from different statistical packages. The American Statistician, Vol. 54, No. 1, pp.72-77.
Кстати, этот журнал один из немногих, которые надо регулярно читать.
Авторы рекомендуют точь в точь, что и Игорь: если исследователь собирается использовать малоизвестную программу, то надо на известном примере проверить вручную качество рачетов, производимых данной программой. На первом месте, конечно стоят StatXact, StatsDirect и модули точных методов в SAS или в SPSS, которые заимствованы из той же StatXact. Авторы упоминают Arcus QuickStat - это всего лишь старое название StatsDirect. Кроме критерия Уилкоксона-Манна-Уитни авторы рекомендуют использовать перестановочный (permutation) критерий, который также реализован в StatXact. Но для нашего примера этот критерий совпадает с критерием Уилкоксона-Манна-Уитни.
Кстати, StatsDirect тоже вполне достойная программа, ориентированная на разнообоазные и специфичные биомедицинские задачи.
Ну уж и конечно, в качестве авторитета ссылаться на Лакина не стоит. Это информация из десятых рук, из уст интепретаторов. Например, в отличие от многих других, наш учебник написан двумя математиками, имеющими многолетний опыт работы с биологами, и двумя генетиками, много лет потратившими на то, чтобы научиться понимать математиков. Много лет назад наша кафедра писала официально разгромный отзыв на очередное переиздание Лакина, но к нам почему-то не прислушались. Документ хранится в архиве Кафедры генетики и селекции СПбГУ.
Всем всех благ. Никита
yura15cbx
Статистика 6.0 и NCSS 2007 считают по разному кластерный анализ. Все настройки которые возможны учёл, многократно проверил, даже на всякий случай попробовал разные варианты. Ward`s method, Euclidean distances, Raw data; NCSS - original variables, Scaling method - St.dev. +другие попробовал. NCSS считает cluster cutoff, поставил значение чтоб оставалось 5 кластеров, принадлежность образца к какому либо кластеру записывается в отдельный столбик. В статистике столбик cases, где видно, какой case на какой ветке, можно созерцать на самой диаграмме или выделить и скопировать из customer labels из настроек диаграммы. если сравнить даже какой нибудь небольшой участок в середине одного из 5 основных кластеров создаваемых статистикой и найти в какой кластер из 5 их записала NCSS, то видно что эти же образцы (cases), которые в Статистике стоят рядом явно внутри одного из 5 основных кластеров (даже ближе, они остаются в одном. даже если 10 кластеров выделить) NCSS записала их же в 2-3 разных кластера из 5. Я сравнил в екселе с помощью условного форматирования выделяющего цветом одинаковые значения, вставляю блок cases одного кластера из пяти из статистики и тут же смотрю разброс этих же cases по 2-3 разным кластерам из 5 по мнению NCSS. То есть, значит изза какихнибудь не регулируемых настроек программ, их кластерный анализ не сопоставим? То есть я не могу анализировать свойства cases попавших в один кластер и отличие таковых от cases в другом кластере в статистике, используя cutoff от NCSS. Потому что то что есть один кластер в Статистике, при тех же доступных настройках - микс из кластеров NCSS. (Мне это нужно, потому что в статистике нет функции cluster cutoff, приходится долго вручную выуживать ряды cases относящиеся к 1 кластеру).
nokh
Проблема понятна, но причины не ясны. Я сравнивал когда-то результаты кластеризации пакетов KyPlot и Statistica, они совпадали. Т.е . если все настройки соблюдены - результаты должны быть одинаковыми. Небольшие различия могут быть в изображении дендрограммы, т.е. какие кластеры с какого края расположены, но сама принадлежность объекта к тому или другому кластеру должна быть идентичной. А вы пробовали не полагаться на автоматическое отнесение к кластеру по заданному вами значению числа кластеров, а сравнить сами дендрограммы, т.е. графически? Может дело в каких-то разногласиях того как пакет (NCSS) отображает кластер на графике и того как он потом его выстригает и метит? Тогда должны расходиться результаты внутри самого пакета. Ну типа при разведочной кластеризации используется агломеративный алгоритм, а когда вы определись с числом кластером и задаёте это число - используется метод К-средних или что-то ещё, а вовсе не та дендрограмма, которую вы получили. Это должно быть описано в помощи к пакету.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.