Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

48 страниц V   1 2 3 > » 

nokh
Отправлено: 4.02.2024 - 21:43





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Благодарю участников за мнения. Как-то безрадостно пока...
Ну а что всё-таки думаете по поводу 95% ДИ? (Пока второй пример отложим).

Вот есть больница, пусть это генеральная совокупность. Оценили показатели в интересующих выборках персонала, рассчитали 95% ДИ. После мероприятий через год смотрим снова и снова частоты с 95% ДИ. Если не перекрываются, значит отличия значимы. Анонимность, по-моему здесь роли не играет, в том плане, что делает сравнение невозможным. Я когда аспирантом полёвок в лесах ловил никакого их реестра не было, да и потом не метили никак. Кстати хороший пример: экологи изучают вид на какой-то территории какое-то время. Ведётся мониторинг чего-то и всё анонимно. Играет роль время, которое прошло между двумя исследованиями. Ну, например, если 5 лет прошло, то различия скорее можно объяснить просто изменением контингента. Ну а если эти выборки процентов на 90-95% перекрываются, т.е. это почти те же люди и прошёл всего только год - логично приписать различия проведённой работе с персоналом. Мне видится, что сопоставление ДИ одинаково применимо как к независимым зависимым, так и к зависимым (в том числе - частично) выборкам. Или нет?
  Форум: Медицинская статистика · Просмотр сообщения: #28833 · Ответов: 24 · Просмотров: 3104

nokh
Отправлено: 25.01.2024 - 22:55





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Здравствуйте, уважаемые участники форума. Уже второй раз сталкиваюсь с нетривиальной похожей задачей, которую собираюсь решать похожим способом. Поэтому решил создать тему под это и обсудить верность стратегии.

Иногда возникают случаи, когда нужно сравнивать выборки, содержащие частично одни и те же объекты, т.е. они не являются в чистом виде ни независимыми, ни зависимыми. Приведу 2 своих примера.

Пример 1. Работа по организации здравоохранения. В областной больнице был проведён анонимный опрос, касающийся качества работы, удовлетворённостью работой, взаимодействием с начальством и всякое такое у разных категорий работников (немедицинский персонал и градации медицинского). Варианты ответов предлагались в анкете. По завершению этого этапа были посчитаны % вариантов ответов, сравнили что было интересно по теме работы критериями типа хи-квадрат, сделали выводы и разработали план коррекции ситуации в лучшую сторону. Далее согласно этому плану с работниками были проведены некие мероприятия и после этого спустя год или два опрос повторили. Тоже рассчитали % и т.д. Задача: оценить статистически эффективность проведённых мероприятий: типа какие-то % увеличились, какие-то уменьшились. Я назвал задачу нетривиальной, т.к. за время между двумя опросами кто-то уволился, кто-то был принят на работу, т.е. выборка респондентов немного изменилась. Но даже если бы это были в точности те же люди организовать сравнение зависимых выборок не получилось бы ввиду анонимности (она была нужна для получения более честной и объективной картины). Поэтому единственный вариант, который напрашивался, - сравнение через сопоставление 95% ДИ: будут перекрываться - значит различия незначимы, имеем дело с одной генеральной совокупностью, не будут - различия значимы, имеем 2 ГС: "до мероприятий" и "после". Поскольку ДИ рассчитываются для каждой выборки изолированно от другой такой подход получается консервативным, однако снимает проблему частично зависимых выборок.

Пример 2. Работа по ветеринарии. Из разных популяций взяли выборки животных и определили в них 1) животных без явных нарушений по комплексу показателей, 2) со слабыми отклонениями от нормы (типа предпатология) и 3) сильными отклонениями, указывающими на разную патологию. Посчитали %, сравнили популяции между собой. Теперь стало нужно определить какие показатели и насколько отклоняются от нормы в ту или другую сторону в популяциях и о чём это говорит. Поскольку норма из книжек/статей не очень хороша и к тому же "плывёт" во времени, было решено скомпоновать свою норму: из всех популяций всех здоровых животных объединили в одну группу, охарактеризовали, в планах - расчёт референтных ("референсных") интервалов (кстати для их расчётов по EPC28A3C / C28-A3c всё нужное есть в MedCalc и R ("referenceIntervals" и др.)). Теперь нужно сравнить каждую популяцию с этой нормой, чтобы оценить по каким показателям и в какую сторону отклонения, рассчитать дельту в %. Таким образом имеем две оценки, как некие самостоятельные характеристики:
1) популяционные оценки показателей (медианы не для всех годились, беру средние с ДИ бутстрэпом) и
2) значения нормы, но рассчитанные частично по животным, входящим в эти популяции.
Сначала тоже хотел сравнить по 95% ДИ, а потом решил получить р-значения и вышел на литературу по сравнению partially overlapping samples, ссылки на пару статей - внизу. В ней есть много подходов и формул, но не увидел сопоставления 95% ДИ и вполне логичного сравнения средних в таких группах техникой Монте-Карло. В связи с чем начал сомневаться, читать про гипотезы, которые проверяют ресэмплинг-техники и т.п. В этом втором примере у меня есть полная информация по степени и структуре перекрытия выборок, и сравнить по формулам из статей в принципе можно, но муторно и не универсально, хочу универсального подхода для кода в R)))

А вы что по этому поводу думаете? Буду признателен за советы/критику/парустатей.

https://www.tqmp.org/RegularArticles/vol18-1/p055/p055.pdf
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9042157/
  Форум: Медицинская статистика · Просмотр сообщения: #28817 · Ответов: 24 · Просмотров: 3104

nokh
Отправлено: 19.07.2023 - 18:18





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Camel1000 @ 19.07.2023 - 17:27) *
Добрый день всем.
Допустим, у меня есть два значения средних со стандартными отклонениями. Требуется поделить первое (среднее + SD) на второе. Как это можно сделать?
Заранее спасибо,
Андрей

Вы спрашивали это здесь, были ответы: http://forum.disser.ru/index.php?showtopic...amp;#entry27052
Что-то поменялось?

PS Нашёл у себя файл, датированный 2011 годом))) Выкладывал в этот форум видимо тоже в 2011 г., но тему не нашёл. Прикрепил. Там, станд. ошибка, её нужно вычислить по ст. отклонению, можно и sd или CI найти для частного...
PPS Посмотрел ME.com Method Guide Игоря на стр. 52, возможно там современнее подход, но не сравнивал результаты...
Прикрепленные файлы
Прикрепленный файл  Ошибка_частного.pdf ( 71,02 килобайт ) Кол-во скачиваний: 151
 
  Форум: Медицинская статистика · Просмотр сообщения: #28703 · Ответов: 2 · Просмотров: 5951

nokh
Отправлено: 19.07.2023 - 17:54





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Camel1000 @ 18.07.2023 - 16:07) *
...Вопрос: можно ли в такой ситуации для расчета объединенного среднего занчения FDR использовать расчет гармонического среднего значений АВК (https://en.wikipedia.org/wiki/Harmonic_mean_p-value), насколько это корректно. Какие еще есть методы оценки комбинированного значения p?

К сожалению похоже всё в эту сторону и движется: методов и софта уже столько, что никто не хочет разбираться неделями в том, а какой же подход лучше. Хочется "взять всё да и поделить". Хотя тоже думаю, что это некорректно: по сути в основе разных методов вычисления р лежат разные модели. Поэтому нужно искать лучшую модель и опираться на неё, но это зависит от целей работы. А иначе это получается типа как если мы при сравнении двух выборок будем использовать разные модели (варианты t-критерия и с десяток непараметрических тестов начиная с Манна-Уитни), получим дюжину р и усредним их гармонически для нахождения самого "правильного" или "окончательного" р-значения. Каждая модель в отдельности - конкретная модель, для которой хорошо известно что она оценивает, а вот среднее р-значений ничего оценивать не будет. Я бы пробовал так:

1) Если цель - выйти на топ нескольких самых сильных для диф. диагностики генов, для того чтобы потом разбираться в механизмах за что они отвечают, то можно усреднять не р-значения разных моделей, а ранги. Средние ранги для зависимых выборок используются, поэтому проблем с теорией не будет, а будет типа оценки согласия экспертов, где каждая модель в отдельности выступает в качестве эксперта. Т.е. нужно ранжировать гены в порядке увеличения р-значения по каждой модели, а далее найти средние ранги по всем моделям. Получится рейтинг убывающих по важности генов, более-менее инвариантный относительно используемой модели. Можно построить график осыпи и посмотреть: может естественным образом выделится несколько лидеров, а остальные попадут в осыпь.

2) Если цель - диф. диагностика на основе многомерного анализа, то с полученным списком тоже можно работать и далее: проводить многомерный анализ (PCA, SVM и т.п.). Когда я смотрел подобные статьи, то насколько помню авторы не сильно парились на тем, чтобы брать в многомерный анализ гены исключительно на основе статистической значимости: были такие, что брали просто круглое число генов, скажем лучшие 200 или 500.

3). По подходам 1-2 не построить вулканный график, хотя он помимо эстетической красоты очень эффективен для выбора нескольких самых лучших маркёров на основании как статистической значимости различий, так и величины эффекта. Поэтому если бы мне хотелось обязательно дать в работу такой график, то я бы выбрал 2 модели, включая ту, которая сейчас в моде. В биоинформатике всё очень быстро меняется, поэтому дал бы такую + самую обычную классику типа t-критерия для неравных дисперсий без поправок на множественность. В принципе топ генов всё равно должен быть похож.

PS А вообще у меня сложилось мнение, что на результаты куда сильнее влияет препроцессинг, а не тонкости расчёта р-значений.

  Форум: Медицинская статистика · Просмотр сообщения: #28701 · Ответов: 3 · Просмотров: 16527

nokh
Отправлено: 17.07.2023 - 19:05





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата("Наташа @ 15.07.2023 - 17:31) *
А что вы думаете на счет следующего:
В статьях, посвещенных исследованию выживаемости зарубежные авторы все как один (касаемо узкой и относительно недавней тематики) поступают следующим образом: проводят РОК-анализ с целью оптимально разбинарить на два класса предсказующую переменную (она количественная, разброс от 0 до 1500, это объем в см3). Вот эта вот переменная имеет прямую связь с исходом. Так вот в исходе 1- это случился рецидив, а в 0 - он центрирован до конца наблюдения, либо вышел из него без исхода. При этом, большинство больных покинуло наблюдение с 0 на очень ранних сроках, соответственно информации о них никакой.
Так вот, исследователи бинарят нашу предсказывающую переменную и вводят ее в анализ Капана-Мейера, как исходно низкий уровень и исходно высокий уровень, что бы получить различия при оценке прогнозируемой выживаемости. Руководитель настаивает - сделай также!!! на доводы о том что отрицательный класс может быть не отрицательным мне говорят так все делают, нам нужно определиться с пороговыми значениями. Подскажите, как лучше выйти из ситуации? Еще данные статьи изобилуют графиками с рок кривыми, а для пороговых величин указывают значения чувствительности и специфичности... Зачем... Не пойму чего то, может в этом есть смысл...
Я еще подумала, что это возможно как то обьяснить тем, что в рамках сравнения двух предсказывающих переменных, какая из них точнее п (ну вроде выборка одна, и если страдает чувствительность, так она (возможно)))) везде страдает одинаково. В общем, что вы думаете?

Вопрос не совсем статистический, поэтому и ответ такой же. Нужно понимать, что:

1) Любые попытки понизить шкалу от шкалы отношений или интервальной до порядковой или дальше до дихотомической сопровождаются потерей информации. Или у вас есть конкретные значения, скажем массы чего-то, либо просто "малая-средняя-большая", либо просто "больше или меньше медианы (нормы или др. граничного значения) - разница большая. Вот вы будете устраиваться на новую работу, и вам скажут: "зарплата будет большой!", но не скажут большой относительного чего. Хватит вам этой информации, чтобы уйти с прежнего места? Поэтому если человек пытается в рамках анализа понижать шкалу, значит он просто некомпетентен и не знает как нужно сделать грамотно, либо делает это от какой-то безысходности, обстоятельств, стандартизации, и т.п., не имеющих отношения к грамотному анализу данных, т.е. применению лучшей модели к конкретным данным.

2) У вас плохие данные. Не вообще, а сейчас. Когда пройдёт время и все исходы случатся (ну или хотя бы случатся у больше чем половины пациентов) они станут хорошими, с ними можно будет работать стандартными методами. Я не вник в то, что кто-то там делает, но всё это производит впечатление притянуть за уши хоть что-то, лишь бы не ждать, а принимать решение и писать статьи уже сейчас. За рубежом статистические редакторы строгие, поэтому если такое прокатывает, значит прокатывает (но не значит, что так нужно радостно делать).

3). Научный руководитель взял на себя обязательство довести вас до успешной защиты. Он может не знать конкретных статистических методов, но он ориентируется в ситуации, в требованиях учёного совета и др. нюансах. Поэтому если вы не хотите ждать пока ваши данные станут хорошими, нужно просто сделать как он говорит. Потому что так "прокатит" и если сошлётесь на зарубежные работы, где так делают, никто из оппонентов не полезет в бутылку и не будет уже доказывать, что так сомнительно/не совсем корректно/некорректно. Но это не совет статистику, исследователю или врачу, это совет соискателю. Вот что я об этом думаю).
  Форум: Медицинская статистика · Просмотр сообщения: #28690 · Ответов: 26 · Просмотров: 17521

nokh
Отправлено: 10.07.2023 - 07:41





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


> Varta. См. личное сообщение.
  Форум: Медицинская статистика · Просмотр сообщения: #28667 · Ответов: 28 · Просмотров: 10545

nokh
Отправлено: 1.07.2023 - 09:56





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Имеем две группы на разных сроках. Соответственно применить критерий КУ для анализа всех данных просто не получится: это ранговый аналог однофакторного дисперсионного анализа, т.е. применяется для сравнения нескольких независимых выборок. В вашем случае независимыми являются 2 группы на каждом из сроков. На разных же сроках выборки являются зависимыми, а для зависимых выборок можно использовать ранговый критерий Фридмана, но только для какой-то одной из двух выборок))) Апостериорные сравнения внутри критерия Фридмана можно провести специальными ранговыми методами, но таким образом вы сможете доказать собственно наличие какой-то динамики в каждой из групп в отдельности, но не сравнить эти динамики между собой. Классическим методом для вашего случая является дисперсионный анализ (ANOVA), в котором можно задать как независимость групп (фиксированный фактор "Группа"), так и учесть зависимый характер наблюдений на разных градациях фиксированного фактора "Срок". В пакетах это делается двумя технически разными методами, но которые дают одинаковый численный результат. Первый - двухфакторный анализ повторный измерений (факторы: "Группа" и "Срок"), второй - трёхфакторный дисперсионный анализ с фиксированными факторами "Группа" и "Срок" и случайным фактором "Пациент внутри Группы". Это нужно правильно задать в пакетах, но учитывая, что сравнение в динамике - один из самых популярных методов в медицине, примеры легко найти. Пакет Prizm серьёзный, с хорошим руководством, если пользуетесь им, то там обязательно описано. У этих двух подходов разные теоретические предпосылки, поэтому и разные требования к данным, наряду с требованием нормальности распределения ошибки модели, первый требует сферичности и использует разные модификации в случае нарушения требования, второй требует однородности дисперсий в ячейках дисперсионного комплекса. Апостериорные сравнения в рамках дисперсионных комплексов проводятся обычными для дисп. анализа методами (выбор большой).

К сожалению, рангового аналога для такого анализа нет, иначе это был бы один из самых известных критериев. Поэтому можно использовать преобразование исходных данных, для того чтобы нормализовать ошибку анализа. Лучший вариант - преобразование Бокса - Кокса (Box-Cox transformation), которое подожмёт хвосты положительно асимметрично распределённых итнерлейкинов и позволит использовать описанные модели ANOVA. Есть варианты его применения, но самый простой - просто трансформировать всю колонку данных и выписать значение параметра "лямбда" (оно может понадобиться для ретрансформации средних с 95% ДИ на графиках). Скорее всего для большинства интерлейкинов лямбда у вас будет близка к 0 (ноль), а это значит что распределение близко к логарифмически нормальному. Если так, то самый простой вариант будет просто прологарифмировать колонку данных; так данные будут хуже приближены к требованиями модели, но зато проще строить графики в логарифмическом масштабе. Если заморочиться, можно проверить на нормальность ошибку дисперсионного комплекса. Преобразование БК на форуме много обсуждалось, легко делать, в том числе в бесплатных пакетах.

В рамках описанного подхода самым интересным для вас будет взаимодействие факторов "Группа х Срок", которое и оценивает различие динамик между группами. Соответственно апостериорные сравнения важнее сделать для ячеек этого эффекта.
  Форум: Медицинская статистика · Просмотр сообщения: #28653 · Ответов: 28 · Просмотров: 10545

nokh
Отправлено: 18.06.2023 - 21:35





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата("Наташа @ 17.06.2023 - 23:26) *
Доброго времени суток.
Скажите пожалуйста, может ли в анализе выживаемости (при построении кривой выживаемости) среднее время до наступления исхода превышать максимальное время до исхода, которое наблюдалось вообще в выборке?
Спасибо.

Видимо может, если количество цензурированных наблюдений велико. Например, если есть 2 полных наблюдения исхода в 2 и 4 года, то среднее будет 3, а максимальное значение - 4. Однако если при этом есть ещё 20 цензурированных наблюдений с ненаступившими исходами и сроком наблюдения в 10 лет, то очевидно, что при продолжении наблюдений исход наступит позже 10 лет и среднее станет заметно больше и 3, и 4 лет. Поэтому мы может ожидать, что среднее время до наступления исхода будет превышать реально наблюдаемое сейчас максимальное значение, однако не можем сказать точно "на сколько". Для ненаступивших исходов мы можем использовать расчёты по каким-то моделям, но это это будут приближённые оценки. Вообще среднее для цензурированных наблюдений вычислить непросто, поэтому в анализе выживаемости и используют медиану, а не среднее. В вашем случае медиану вычислить нельзя, т.к. объекты в выборке преимущественно живы. Давно не занимался анализом выживаемости, не знаю принято ли в таких случаях приводить что-то кроме медианы (квартили, процентили).

У вас плохой перевод программы: термин "censored" переводится как "цензурировано", а не как "редактировано".
  Форум: Медицинская статистика · Просмотр сообщения: #28618 · Ответов: 26 · Просмотров: 17521

nokh
Отправлено: 10.05.2023 - 21:23





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


В порядке обсуждения:) Как ни странно, вообще не нашёл полезным для практики метод k-средних. Иерархический анализ хотя и плоховат теоретически, но очень нагляден и в некоторых областях почти незаменим. Особенно это касается двойной кластеризации в сочетании с построением кластерной тепловой карты (cluster heatmap) для однородных наборов признаков. Последнее время очень полюбил эту технику: позволяет увидеть всё и сразу + под разные задачи можно выбирать разные меры расстояний между объектами. Под "плоховат" я имею в виду по-сути взвешивание решения в зависимости от набора признаков: паттерн нескольких коррелирующих показателей перевесит вклад остальных и в дендрограмме мы увидим ветвления лишь по этому паттерну. Поэтому если использую иерархический КА, то уже после редукции данных - обычно на факторных метках нелинейного анализа главных компонент. Это снимает и проблему взвешивания, и проблему одновременного анализа количественных и порядковых (ранговых и номинальных) признаков. Кластерная ТК позволяет интерпретировать кластеры сразу, однако если сильно нужно - можно провести сравнения мер положения показателей в полученных кластерах. Отличная индуктивная техника для генерации гипотез.

Практическая польза метода к-средних туманна. Предположим, с помощью иерархического КА я определился с числом кластеров, а теперь задаю его в методе к-средних и получаю какое-то решение. Возможно оно будет очень близким к исходному, а что дальше? Дальше я вынужден сравнивать исходное и конечное решение, частично заново интерпретировать результаты и только потому, что обычно программы удобно реализуют сравнения выделенных кластеров по набору показателей. Но по-сути это двойная работа с отсутствием необходимости второго этапа. Теперь предположим, что мы заранее знаем число кластеров. Например, больные и здоровые, 3-4 вида операции и т.п. Нет никаких гарантий, что метод к-средних сформирует именно эти кластеры, да и вообще для такого дедуктивного подхода существуют замечательные ограниченные ординационные техники (constrained ordination): канононический анализ соответствий (ССА) и анализ избыточности (RDA) с различными модификациями. Они "достанут" именно ту часть изменчивости, которая задаётся болезнью, полом, видами операций и т.д. Сюда же можно отнести "between group PCA", а также варианты дискриминантного анализа, позволяющего строить модель для отнесения объекта к группе или PLS-регрессию, позволяющую строить модель зависимости набора откликов от набора предикторов. А сколько всего сейчас появляется нового, интересного и всегда хоть в чём-то лучше предшественников... достаточно погулять по ссылкам к описанию каких-нибудь новых или адаптации старых техник для машинного обучения, распознавания образов, молекулярно-генетических задач. И вот не вижу здесь места методу k-средних.
  Форум: Медицинская статистика · Просмотр сообщения: #28570 · Ответов: 18 · Просмотров: 12316

nokh
Отправлено: 26.02.2023 - 20:39





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Игорь @ 26.02.2023 - 16:05) *
Спешу поделиться ссылкой о мерах против "нуля" (короче, нуля, ставшего камнем преткновения в настоящей теме, не бывает):

Да нет же, не рожают кенгуру китайцев, вероятность - нулевая. Я согласен с ИНО: задача совсем не одновыборочная. Раз реализуется невозможное событие, значит что-то изменилось, из ряда когда возможны только нули выбилась единица. С этого момента открываем новую линию событий, тест становится двухвыборочным, а мы начинаем считать вероятность в новых реалиях.

А дядька по вашим ссылкам порадовал - реально отстал от жизни прямо на 30 лет. Я ещё в аспирантуре (год 1995) знал про точные методы для таблиц сопряжённости, про G-критерий и логлинейный анализ, про отклонения Фримана-Тьюки и прочее, что в статье даже не упоминается. Чуть позже узнал, что точный метод Фишера плох чисто теоретически, т.к. основан на гипергеометрическом распределении, а применяется к биномиальному, а также про согласованные остатки Хабермана для таблиц сопряжённости. Ещё позже, лет 7? назад - про ДИ Джеффриса, и про то, что нормальная аппроксимация Вальда плоха и не рекомендуется к использованию при расчёте ДИ вообще. Ну а 5 лет назад узнал, что шотландская приставка Мак по правилам русского языка пишется слитно и никак не отделяется: просто Макнемар (как Макдональдс). Короче, "В печку её!" (с)
  Форум: Медицинская статистика · Просмотр сообщения: #28143 · Ответов: 25 · Просмотров: 24012

nokh
Отправлено: 26.02.2023 - 20:09





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 25.02.2023 - 01:24) *
P.S. Однако, это все хорошо, но ведь nokh неоднократно упоминал на форуме о GIFI-трансформации, ссылаясь на де Лью и соавт. (de Leeuw). Неужели все не впрок?
Вот, не поленился - загуглил, а у ребят уже целый пакет готов. Ссылка. Раньше-то у них только {homals} был...
P.P.S. Но вообще у меня сформировалось стойкое убеждение, что сваливание до кучи всех этих дихотомических, ординальных и непрерывных переменных размывает картину, делает ее диффузной и плохо читаемой.

Да, метод вообще шикарный, стал одним из моих любимых, всё им с биологами и врачами считаем. Практика показала, что всё сваливать в кучу можно, получается хорошо, но не всегда то, что хотелось бы. Но это касается главным образом метки принадлежности к группе (например группа сравнения и пара групп заболеваний или степени тяжести заболевания). В последнем случае первой главной компонентой получаются именно групповые особенности (нагрузка на метку принадлежности к группе самая высокая) и все показатели которые там с заметными нагрузками - те, по которым обнаруживались различия средних; т.е. данная компонента получается тривиальной. Но при этом бывает, что за этой ГК идут другие, которые являются общими для всего массива данных без учёта групп: например, связанные с полом или какие-то биологические паттерны. Их было сложно обнаружить на фоне сильных межгрупповых различий, но сняв таковые вместе с первой ГК их можно обнаружить. В случае когда метку группы включать не хочется по каким-то причинам, её можно включить как дополнительную переменную - она не будет участвовать в анализе, но её метка будет отслеживаться и выдаваться в матрице нагрузок. Например таким признаком может быть возраст: если мы включим его в анализ полноценным признаком, то он будет участвовать в решении, если же не включим, а будем только отслеживать, тогда возрастные закономерности (если они есть) получатся "чистыми", а то что это именно возрастные - увидим по нагрузке этой дополнительной переменной. Отдельная песня - графики оцифровки категориальных и порядковых показателей, да и количественных тоже.

Как ни хотел я слезть с иглы CATPCA из SPSS. не получается пока: это лучшая реализация идеи с широким спектром настроек, позволяющих получать решения аналогичные классическому PCA и классическому анализу соответствий со всеми переходными вариантами (у меня обычно типа рангового PCA получается). Пробовал и homals, и Gifi, завёл папки, обкатывал на разных примерах. Иногда получается аналогично, иногда - грубее, на одном датасете вообще ерунду получил - так и не разобрался почему, но никогда - лучше. Единственное - подсмотрел там такой вариант, когда каждое уникальное значение для показателя используется в качестве узла сплайна - там эту настройку можно задать встроенной в функцию настройкой. Пробовал это в CATPCA задавая число узлов равным числу наблюдений (программа ругается, но для каждого показателя берёт в итоге максимально возможное число узлов) - получается хорошо, доля объяснённой дисперсии всегда увеличивается и видимо это максимум возможной.

Как ни странно, до сих пор не определился полностью с необходимостью вращения решения. Раньше когда сидел на Statistica, и позже - на KyPlot (там много хороших настроек и вариантов факторного анализа, включая расчёт начальных значений общностей по Йореско), всегда крутил варимакс, а пару раз (не исключалась корреляция факторов) - прямой облимин. Последнее время много расчётов делаю в PAST (там нет FA, только PCA) привык без вращений, и мне тоже нравится, всё неплохо интерпретируется. И поскольку воспроизводить матрицу корреляций и делать конфирматорный мне не надо, обхожусь компонентами. Кстати в PAST есть алгоритм итерационной импутации пропущенных значений, а также between grops PCA и within groups PCA, а недавно разработчики добавили Redundancy analysis.
  Форум: Медицинская статистика · Просмотр сообщения: #28142 · Ответов: 24 · Просмотров: 14059

nokh
Отправлено: 18.02.2023 - 18:41





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(passant @ 18.02.2023 - 17:34) *
А какая-же формула корректна? Возможно-ли такая замена оценки дисперсии в знаменателе, если в результате мы получаем разные - пусть даже в одной точке - результаты? И можно-ли считать результаты, которые получены по формулам, реализованным в R и statsmodels для pтеор=0 корректными и использовать их для решения исходной задачи?

1). По поводу формул. Правильная первая. В авторитетной книге Флейса на стр. 26-27 даётся эта же формула, правда с поправкой на непрерывность в числителе, использование которой оговаривается: https://disk.yandex.ru/i/lyP2bDEO1R26bA
Почему программы меняют её не знаю, может авторы считают, что это мы напутали. Но есть и другое соображение.

2). Возможно задача с теоретической вероятностью 0 или 1 не является статистической, а может и вообще вероятностной. Такое рассуждение. Мне тут ютуб накидал роликов про загадочные заборы в Австралии, и кенгуру это первое что пришло сейчас в голову, простите)) Мы знаем, что вероятность рождения человека у животного равна нулю. Мы начинаем проверять кенгуровые сумки и в 1234-ой находим-таки живой человеческий эмбриончик. Вопрос о статистической значимости этого события весьма бессмысленен. Какова вероятность, что это произошло случайно? - так что-ли? Т.е. здесь понятно, что либо это розыгрыш такой, либо мы ошибались: бывает нет-нет да и родится так маленький китаец. Ну или подкидываем обычный игральный кубик, а там 7. Понятно, что либо фокус, либо чудо. Т.е. обнаружение события, для которого теоретическая вероятность нулевая, безо всякой вероятности отвергает этот ноль и требует отдельного разбирательства: откуда произошло засорение выборки или ещё что-то, раз такое чудо случилось.
  Форум: Медицинская статистика · Просмотр сообщения: #28082 · Ответов: 25 · Просмотров: 24012

nokh
Отправлено: 1.02.2023 - 00:31





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Критерий Коновера реализован исключительно точно, ну если для односторонней вероятности.... Я выставил максимум знаков в StatXact - 8, всё сошлось. По остальным статистика совпадает, а р не идентично, но близко. Клотц как-то иначе считается в StatXact.
Прикрепленные файлы
Прикрепленный файл  Nonparametric_in_StatXact.doc ( 558 килобайт ) Кол-во скачиваний: 160
 
  Форум: Медицинская статистика · Просмотр сообщения: #28043 · Ответов: 18 · Просмотров: 12730

nokh
Отправлено: 27.01.2023 - 23:36





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


У меня есть архивы со StatXact (пиратка 6-ой версии и 30-дневный trial 8-ой версии). Могу установить и проверить нужные примеры именно в StatXact. На оф. сайте доступна trial 12-ой версии, требуется регистрация.
  Форум: Медицинская статистика · Просмотр сообщения: #28037 · Ответов: 18 · Просмотров: 12730

nokh
Отправлено: 14.01.2023 - 15:48





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Engeneer @ 13.01.2023 - 11:51) *
К сожалению, а может быть к счастью, за 2 года так и не удалось продвинуться. наработки в прил. файле ...

Из материалов в этой ветке непонятно, какие цели вы преследуете.

Если цель - разобраться, то вроде вы уже разобрались до уровня, что можете даже это оформить в виде пособия, пусть и с ошибками. Ошибки - нормально, все ошибаются, важно их вычищать... Разобраться полностью всё равно не получится, потому что тогда нужно всю жизнь только этим и заниматься, продвигаясь вперёд и постоянно ликвидируя пробелы в собственном образовании то там, то сям, что в принципе реально, но очень ресурсозатратно и несовместмо с семейной жизнью.

Если цель - научиться планировать и анализировать экспериментальные планы, будучи Engeneer'ом, то тогда формул должно быть меньше, нужно по максимуму оставить расчётную часть хорошим пакетам и нарабатывать собственный опыт по разным областям DOE. Пакеты здесь могут быть любые, включая коммерческие, главное чтобы лично вам в этой среде было удобно работать. Если вы действующий специалист и сможете показать экономическую пользу от экспериментов, то начальство может вам и купить хороший пакет.

Если цель - сделать доступное пособие, по которому студенты смогут составить какие-то планы и проанализировать их, то задачу логично разбить на кусочки. Например взять тематическую структуру как в учебнике Statistica (http://statsoft.ru/home/textbook/default.htm, раздел Планирование эксперимента) и на конкретном примере разобрать как спланировать и обсчитать один кусочек структуры в конкретном пакете. Причём обсчитать не в Statistica, SigmaPlot или OriginLab, а в пакетах для R или Python. Материалов куча, по R: https://cran.r-project.org/web/views/ExperimentalDesign.html, но наверняка там далеко не всё + медицина и с/х, проще формулировать более узко, чтобы выйти на более подходящие для производственных опытов пакеты. Так можно с пользой и для себя, и для людей выпускать каждый год-два по небольшому ориентированному на практику пособию, разбираясь в материале и приближая корочки доцента или профессора.

PS Всех с Новым годом!
  Форум: Медицинская статистика · Просмотр сообщения: #28000 · Ответов: 18 · Просмотров: 31481

nokh
Отправлено: 17.06.2022 - 08:19





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Уважаемые участники форума. Ситуация такая: есть многолетний временной ряд, в котором сильная сезонная составляющая. Её хорошо видно при усреднении данных по месяцам. Хочется к этим средним добавить интервал, возможно прогнозный даже лучше, пусть он и шире. Поскольку данные не независимые, это нужно сделать грамотно, а то, что я смог быстро нагуглить - доверительные и прогнозные интервалы для регрессии и/или ряда целиком. Для этого такую зависимость нужно сначала отмоделировать, а классическими методами для этого я не владею, да и пока задача другая: просто снабдить многолетние средние интервалом. Ситуация осложняется тем, что если смотреть тренды для каждого месяца отдельно, то в августе и сентябре по критерию Манна - Кендалла на тренд таковой статистически значим, хотя снижение совсем небольшое. Как посоветуете представить такие данные? Данные гидрохимические, но обобщается и на медицинские, и на ветеринарные временные серии (недавно смотрел посуточные индивидуальные удои на автоматическом комплексе, где коровы сами подходят доиться когда захотят, так там тоже временной ряд получается...).
Ещё вопрос: насколько корректно смотреть PCA для такого массива данных: 25 строк (годы) х 12 столбцов (месяцы). Можно, что-то почитать умное. Спасибо!
  Форум: Медицинская статистика · Просмотр сообщения: #27354 · Ответов: 3 · Просмотров: 4793

nokh
Отправлено: 17.06.2022 - 07:34





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Vitek_22 @ 25.05.2022 - 14:45) *
...
Посоветуйте, как всё же обработать эти данные. Вот пример исходных цифр:
Выборка 1:
221,60112
305,217725
295,251684

Выборка 2:
371,3313
397,452722
437,212724

Не знаю почему уважаемые участники форума не поддержали идею критерия Стьюдента и даже посоветовали непараметрику. Непараметрика, конечно, хороша: тот же критерий Манна - Уитни имеет асимптотическую эффективность 3/пи или 95,5%. Но она именно асимптотическая, т.е. в реальности никогда не достигается)) А на сверхмалых выборках потеря в мощности будет просто чудовищной. Поэтому если есть основания предполагать нормальность, ну или хотя бы не отрицать её жёстко, эта дополнительная информация даст большой выигрыш и тогда, оперевшись на параметрику можно показать, что средние в группах отличаются: t(4)=3,92; p=0,017. По представленным 6 цифрам жёстко предполагать ненормальность нет: часто биологические показатели распределены не нормально, а асимметрично и скорее логнормально. Но тогда есть шанс увидеть в данных варьирование на порядок-два, здесь же данные очень компактно группируются, преобразование данных не просится... Короче, я бы посчитал критерием Стьюдента пока, а по мере накопления данных возможно что-то бы пришлось подправить. Напомню, что есть формула критерия Стьюдента даже для сравнения одного единственного наблюдения с выборкой.

По поводу представления средних. Если исходить из нормальности распределения, до можно дать среднее с классическими 95%-ными доверительными интервалами (95% ДИ) : 274,0 [160,6; 387,5] и 402,0 [319,6; 484,4]. Эти ДИ перекрываются (трансгрессируют), что входит в противоречие с идеей наличия различий. А они скорее всего есть, т.к. разность между средними 128,0 имеет 95% ДИ [37,5; 218,5], т.е. не включает ноль, а значит разность ненулевая. Этот 95%-ный ДИ для разности тоже параметрический и вся ситуация говорит о том, что 95% ДИ для средних перекрываются, т.к. рассчитываются изолировано для каждой группы, а ДИ для разности (как и t-критерий Стьюдента) работают с двумя блоками данных одновременно и происходит выигрыш в мощности, который на сверхмалых выборках оказывается решающим.

Можно поиграться и бутстрепом, тогда не будет противоречия ни в ДИ для средних, ни в ДИ для разности:
274,0 [221,6; 305,2] и 402,0 [371,3; 437,2] для процентильного метода, ДИ не перекрываются
Разность 128,0 [75,6; 177,8]

Всё можно посчитать в PAST https://www.nhm.uio.no/english/research/resources/past/
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #27353 · Ответов: 61 · Просмотров: 33465

nokh
Отправлено: 23.03.2022 - 13:41





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Anna_V @ 22.03.2022 - 09:02) *
Добрый день. А если предварительно найти cut-off с помощью однофакторного ROC анализа и на основе этой точки "бинарить" показатель. Насколько это будет логично?

"Бинарить" дихотомизировать так количественный показатель будет самым логичным, но есть нюанс. Значение точки отсечения, полученное в ROC-анализе не совпадёт с таким значением, полученным в модели логистической регрессии. В ROC-анализе оно находится перебором всех значений показателя в качестве cut-off point, безо всякой модели (это для самого распространённого непараметрического варианта анализа, т.к. есть ещё бинормальная модель, предполагающая нормальное распределение показатели и в группе сравнения, и в группе риска и дающая не ступенчатую, а плавную ROC-кривую). В модели логистической регрессии используется минимизация ошибки логита, т.е. другой принцип. Поэтому в множественной логистической регрессии самое логичное разбиение на основе ROC-анализа может не оказаться оптимальным.
  Форум: Медицинская статистика · Просмотр сообщения: #27259 · Ответов: 93 · Просмотров: 49055

nokh
Отправлено: 21.03.2022 - 22:33





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(salm @ 16.03.2022 - 23:37) *
А подскажите, при введении в модель логистической регрессии количественного фактора имеет ли смысл указывать в диссертации его максимальное и минимальное значение? Помимо значения медиан и квартилей. Я с той целью спрашиваю: в линейной регрессии зависимая переменная рассчитывается с учетом тех значений, что лежат в диапазоне приведенных значений количественного фактора... а логистической как? также?

Полагаю, что в диссертации смысла нет. В диссертацию выносятся положения, зависимости и т.д, которые должны выглядеть как бесспорные. Дополнительные указания на то, что ваша модель не работает или не изучена при значении показателя меньше минимального и больше максимального добавляет конкретики, но снижает общность вывода, т.е. вы как бы говорите "вот здесь я изучила, а вот здесь и здесь - нет", хотя вас об этом ещё никто не спрашивал (и вряд ли спросит). Поэтому для себя эти границы держать стоит, особенно если вы будете использовать модель для прогноза, а излишне детализировать при описании в работе - не стоит.
Цитата(salm @ 16.03.2022 - 23:37) *
и второй вопрос: у меня в модели логистической регрессии несколько определяющих количественных факторов. Один из них я хочу переделать в категориальный. ]имею ли я право один фактор поменять на категориальный или представить его вовсе как бинарный (порог возьму приемлемый, из литературы с обоснованием), но другой количественный фактор в модели оставить как есть? два эти фактора количественные: измеряют перфузию, ну то есть они паралитические и похожи по смыслу но одним и тем же не являются...

Любой ряд количественных показателей в шкале отношений или интервалов можно переклассифицировать в порядковую шкалу, а все эти шкалы - в качественную бинарную. Ошибки в этом нет, но при огрублении шкалы происходит потеря части информации. Применительно к логистической регрессии количественный показатель будет "работать" во всём диапазоне и без привлечения сторонних данных, а результат работы огрублённого до бинарного показателя будет работать хуже или лучше в зависимости от того, насколько хорошо ваши данные совпали с чьим-то мнением из литературы. Т.е. во-первых идёт огрубление данных, во-вторых - вы вкладываете в свои самодостаточные данные чьё-то левое мнение. Короче, технически сделать бинарный из количественно можно, статистически всё будет корректно, но методологически - будет хуже.
Цитата(salm @ 16.03.2022 - 23:37) *
и еще: help.gif с трактованием: отношение шансов, к примеру, составит 2,5: это при увеличении на одну единицу... а если на две единицы будет увеличен определяющий фактор - вероятность повышается двукратно?...

Лень думать...
  Форум: Медицинская статистика · Просмотр сообщения: #27256 · Ответов: 93 · Просмотров: 49055

nokh
Отправлено: 25.02.2022 - 13:20





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Диагностик @ 24.02.2022 - 08:18) *
Принципиальная ошибка. Нельзя с исходной величиной совершать преобразования, приводящие к снижению неоднородности исходного распределения. Подобные логарифмированию и Б-К. При этой процедуре выбросы маскируются, а мы стремимся их наоборот, выявить. В связи с вышесказанным провел анализ чистых исходных данных для каждого элемента. Вот результаты:

Благодарю за интерес к проблеме и труд. Разгребаю другие дела, поэтому пока посмотрел не вникая, но потом погляжу повнимательней. В принципе, то что я делаю - я уверен в работоспособности такого подхода. Но к критике нужно быть готовым - я планирую это публиковать (с добавлением биологических примеров). Поэтому буду признателен за ссылки, где такие мнения (нельзя ... и т.д.) прописано, чтобы вступить в виртуальную полемику))) В принципе никто не подвергает сомнению то, что полимодальность указывает на внутреннюю неоднородность данных. А вот то, как с этой неоднородностью работать и как на неё выходить - нет готовых рецептов и то, что делаете с данными вы является одним из возможных подходов, уже вашей наработкой.
  Форум: Медицинская статистика · Просмотр сообщения: #27234 · Ответов: 32 · Просмотров: 25158

nokh
Отправлено: 20.02.2022 - 11:59





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Диагностик @ 20.02.2022 - 11:27) *
nokh, нужно найти аномальные значения концентрации?

Вопрос можно понять двояко, так и отвечу.
1) нужно найти аномальные значения концентрации (в дополнение к задаче)?
Ну, не то что нужно, но они возможны (сильные загрязнения) и если такие аномальные значения - явные выбросы, то они ухудшают общую картину и подход в целом, т.к. преобразование пытается "поджать" и их. Поэтому скорее да, не помешает.
2) заключается ли задача в том, чтобы найти аномальные значения концентрации?
Нет, задача заключается как раз в том, чтобы найти границу, отделяющую условно фоновые значения концентраций от всех остальных. Т.е. это типа ПДК, критерия для нормирования, чтобы можно было сказать "раз значение больше ..., значит есть основания подозревать загрязнение". В отличие от воды, ПДК для донных отложений не разработаны, но это отдельная тема не для этого форума. Условность понятия "фоновые" связана с тем, что все водоёмы в той или иной степени техногенно загрязнены. Но даже если рядом нет заводов, просто живописное место, то там очень высокая автотранспортная нагрузка от отдыхающих, т.е. паттерн Zn+Cd+Pb, есть основания подозревать загрязнение карповых водоёмов свинцом от грузил рыбаков и т.п.
  Форум: Медицинская статистика · Просмотр сообщения: #27225 · Ответов: 32 · Просмотров: 25158

nokh
Отправлено: 20.02.2022 - 08:08





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 20.02.2022 - 01:49) *
...И честное слово, глядя на ядерные оценки плотности распределения сырых данных, я не вижу в них никакой "неоднородности" (ширина окна для оценивания плотности оптимизирована методом максимума правдоподобия).

Да, поэтому и "Суть проводимой работы - отыскание естественных границ для разных классов объектов в том случае, когда исходные распределения настолько асимметричны, что не позволяют даже предположить неоднородность данных" )))
Мы же не ищем лёгких путей...
Вы приложили старый файл, там где Pb

Цитата(Диагностик @ 20.02.2022 - 03:32) *
Каждое значение св это концентрация элемента для отдельного озера из 59?

Да. 59 озёр.
  Форум: Медицинская статистика · Просмотр сообщения: #27223 · Ответов: 32 · Просмотров: 25158

nokh
Отправлено: 19.02.2022 - 21:21





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


> 100$

Японская диаграмма прикольная. Я люблю такие автоматизированные техники. Оптимизированный сплайн, аддитивные модели регрессии, да то же преобразование БК. Нашёл код для R здесь:
https://web.archive.org/web/20210909021638/https://www.neuralengine.org/res/histogram.html
Пока про принципы не читал, не очень понравилось, что на данных первого примера несколько сузила средний класс откинув его крайние варианты в крайние классы. Рис. прикрепил. В структуре результата R есть границы классов - полезно. Почему-то не справляется с Zn после БК: выдаёт обычную гистограмму. Попробуйте свой экселевский код, может получится?

md<-read.table("clipboard", dec=",")
str(md)
'data.frame': 57 obs. of 1 variable:
$ V1: num 10.27 4.49 7.77 12.08 7.95 ...

sshist <- function(x){
N <- 2: 100
C <- numeric(length(N))
D <- C
for (i in 1:length(N)) {
D[i] <- diff(range(x))/N[i]
edges = seq(min(x),max(x),length=N[i])
hp <- hist(x, breaks = edges, plot=FALSE )
ki <- hp$counts
k <- mean(ki)
v <- sum((ki-k)^2)/N[i]
C[i] <- (2*k-v)/D[i]^2 #Cost Function
}
idx <- which.min©
optD <- D[idx]
edges <- seq(min(x),max(x),length=N[idx])
h = hist(x, breaks = edges )
rug(x)
return(h)
}

res<-sshist(md$V1)
str(res)
List of 6
$ breaks : num [1:4] 0.936 4.651 8.365 12.08
$ counts : int [1:3] 13 38 6
$ density : num [1:3] 0.0614 0.1795 0.0283
$ mids : num [1:3] 2.79 6.51 10.22
$ xname :8322456 "x"
$ equidist: logi TRUE
- attr(*, "class")=8322456 "histogram"

Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #27220 · Ответов: 32 · Просмотров: 25158

nokh
Отправлено: 19.02.2022 - 20:57





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


>Диагностик

Конкретно здесь неоднородность не является следствием случайности выборки, т.к. это не совсем исходные данные, а это - важно. Данные получены преобразованием исходных с помощью адаптивного к данным преобразования Бокса - Кокса, которое и предназначено для того, чтобы делать исходные распределения нормальными настолько, насколько это только возможно. Поэтому то, что тестами не обнаруживается отличие от нормальности указывает лишь на то, преобразование справилось со своей задачей. Но вот то, что даже после такой замечательной штуки плотность распределения указывает на полимодальность и является основанием предполагать смесь распределений. Теоретически это тоже оправдано. Я много работаю с преобразованием БК, т.к. в тех областях где приходится считать чаще всего нормального распределения почти не бывает, а уж так сложилось, что я люблю среднее и ДИ больше медианы с квартилями, и это любовь не иррациональная, а обоснованная практикой. Поэтому часто приходится видеть и унимодальные и полимодальные распределения после БК. Суть проводимой работы - отыскание естественных границ для разных классов объектов в том случае, когда исходные распределения настолько асимметричны, что не позволяют даже предположить неоднородность данных.

Для любителей поюзать реальные данные выложил файл целиком: донные отложения только озёр (есть загрязнённые), валовое содержание 4-х элементов, исходные значения (мг/кг сухого вещества) и преобразованные. Могу какие-нибудь цитокины поискать, там тоже всё сильно асимметрично.

Судя по всему, в этой ситуации у нас нет критериев, чтобы оценить статистическую значимость решения. Приходится полагаться на теоретическую возможность, глазомер и вспомогательные процедуры типа плотности распределения, всяких BIC и AIK, японской диаграммы, по которую узнал от 100$ (о ней ниже)
Прикрепленные файлы
Прикрепленный файл  Data_forum2.xls ( 22,5 килобайт ) Кол-во скачиваний: 365
 
  Форум: Медицинская статистика · Просмотр сообщения: #27219 · Ответов: 32 · Просмотров: 25158

nokh
Отправлено: 18.02.2022 - 19:15





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 18.02.2022 - 20:45) *
А это уже Боксо-Коксовая цифирь? Похоже, что так.
И зело странно, что на 57 с.в. на гистограмме аж 14 разрядов.

Да, уже преобразованные. Ну да, 14 разрядов не по Стургесу))) Зато неоднородность видна хорошо, а то если всё будет одной группой не понятно почему кривая плотности изгибы даёт...
Ваше решение не понял, похоже там хитрость) Похоже на то, что параметр X находился функцией подбора значений. Ну или офис у меня дома старый (2003), т.к. подстановка моего значения в ячейку для Х вызвала сбой в других.
Но это уже не важно, я добавил веса в приравниваемые уравнения f(x) и получил искомое X аналитически. С учётом исправлений в первом файле LOG на LN и добавлением в параметр С квадратного уравнения логарифма отношения весов всё заработало!

Поэтому экселевский файл в первом сообщении убираю и заменяю на правильный. Ещё раз спасибо за наводки!

Также прикрепил картинку аналогичного расчёта в PAST, там другие значения алгоритм выдаёт, в принципе можно разбираться, но нам так глубоко не нужно. Со студенткой сейчас по пастовскому сделаем в диплом, а потом может руки дойдут перепишу на R и довеском к mixdist в какой-нибудь экологический журнал (это свинец в донных отложениях озёр).


Эскизы прикрепленных изображений
Прикрепленное изображение
 

Прикрепленные файлы
Прикрепленный файл  Трансгрессия_с_весами_пи.xls ( 16 килобайт ) Кол-во скачиваний: 499
 
  Форум: Медицинская статистика · Просмотр сообщения: #27212 · Ответов: 32 · Просмотров: 25158

48 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена