Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V  < 1 2  
Добавить ответ в эту темуОткрыть тему
> Преобразование Бокса-Кокса, частные вопросы метода
Cules2013
сообщение 9.02.2018 - 17:56
Сообщение #16





Группа: Пользователи
Сообщений: 27
Регистрация: 5.02.2018
Пользователь №: 30938



Цитата(DrgLena @ 9.02.2018 - 10:57) *
Приведу некоторые источники, которые кому то станут полезными, а кто то продолжит проверять нормальность в группах из трех мышек множеством критериев.


Спасибо, обязательно почитаю. Всё по делу.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 15.02.2018 - 19:47
Сообщение #17





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Cules2013 @ 8.02.2018 - 15:05) *
1. Требования к ANOVA. Я тут почитал, в т.ч. темы данного форума и пришёл к выводу, что одни считают, что нужна нормальность данных по каждой выборке (ссылаются на Петри "Наглядная статистика в медицине"), другие (в т.ч. и вы) говорят о нормальности распределения остатков. Кто больше прав? Хотелось бы знать, на кого ссылаетесь вы.

Любой учебник, где говорится о требовании нормальности распределения в выборке - сразу в топку. Речь может идти только о нормальном распределении в генеральной совокупности (ГС), откуда эта выборка извлекается. Широко известный в узких кругах отечественных статистиков и прикладников профессор Орлов вообще против подхода с оценкой нормальности по выборкам и остаткам типа для выбора грамотного способа выборочных сравнений, поскольку сама такая проверка принципиально сложнее задачи выборочных сравнений. Тем не менее в массе - проверяют. Если распределение в ГС нормальное, то и остатки модели будут распределены нормально. Но распределение в ГС мы часто не знаем, а оценить его по выборке не можем, ввиду её малого объёма (3 мышки DrgLena). Поэтому проверяем остатки: это и грамотнее, и реализуемо практически. Почитать нужно обязательно учебник(и) Дугласа Монтгомери - дядька крутой. Есть старое (2 или 4-ое) издание его книги на русском, а на английском уже 7 изданий. В переводной версии см. на стр. 36-37 формулу и его ответ на вопрос, хотя читать нужно всё.
Цитата(Cules2013 @ 8.02.2018 - 15:05) *
2. GraphPadPrism 7 позволяет считать нормальность остатков и строить график, но ...

Чё вы к этому Графпаду прицепились? Потому что немного её освоили? А если в освоенной программе нет нужного метода или он плохо реализован? Путь от пакета - тупиковый. Нужно наоборот идти от метода и искать такой пакет, где он реализован лучше всего. Далее. ДА - одно, регрессия - другое, и хотя это неверно, но на данном этапе вам будет полезнее думать об этих методах как о разных техниках (хотя ДА можно описать регрессионной моделью - разобрано понятно у Сокала и Рольфа).
Цитата(Cules2013 @ 8.02.2018 - 15:05) *
3. Вы говорите о нормальности остатков, но в тоже время и о критерии Шапиро-Уилка. Это же разные вещи...

Лопата - инструмент, позволяющий копать. Почву, песок, дресву и т.д, мы даже как-то донные отложения умудрились штыковой лопатой отобрать... Критерии проверки нормальности - инструмент, проверяющий нормальность. Выборок, остатков ANOVA, остатков регрессий любой сложности... Нет разницы.
Цитата(Cules2013 @ 8.02.2018 - 15:05) *
4. На форуме тут откопал такое мнение, что ANOVA - это робастный метод, поэтому нормальность и однородность могут быть частично нарушены. Что значит "частично" и как это определить количественно в стат. программе - вопрос на миллион.

Робастны. Количественно - вряд ли. В 2х словах не ответить, нужно начитывать литературу и пробовать. Однозначно: нужно стремиться выполнять требования модели анализа максимально. Но если они не выполняются, то выбор (1) делать всё равно "ибо модель робастна" или (2) преобразовывать данные для удовлетворения требованиям модели или (3) искать более подходящую модель - не столь однозначно. Это - не верная дверь, это - путь.
Цитата(Cules2013 @ 8.02.2018 - 15:05) *
5. Понимаю, что прошу немало, но всё же, пожалуйста, если можете, подкрепляйте свои выводы конкретными ссылками на лит-ру. ... И те, кто пишет о сравнениях и прочих подобных вещах, часто углубляется в формулы, чистую математику, и среди деревьев леса не видно.

Ну дак математики тоже люди. Им интересно заниматься именно тем, что умеют - это их поле. Прикладникам часто сложно читать такие работы. А выбор в пользу тех или иных методов делается обычно на основе численных экспериментов: генерируются данные с нужными свойствами и на них проверяются насколько хорошо справляются с задачей те или иные методы. С приходом среды R такие симуляции стали доступны не только математикам и атишникам.

Ссылка на хорошие книги: https://yadi.sk/d/0Jb-3hSLmK837
Обратите особое внимание на 2 англоязычные: по ним преподают биостатистистику во многих университах.
Бонусом - несколько программ и рассчётный файл Excel, сделанный когда-то плавом и дополненный мной байесовским апостериорным интервалом Джеффриса.

Сообщение отредактировал nokh - 16.02.2018 - 22:41
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
bubnilkin
сообщение 16.02.2018 - 01:53
Сообщение #18





Группа: Пользователи
Сообщений: 79
Регистрация: 18.01.2010
Пользователь №: 9836



Прошу прощения, что вклиниваюсь. Хотел уточнить:
Цитата(nokh @ 6.02.2018 - 13:33) *
На графике следует давать среднее с ДИ, а не строить коробчатый график
А не надо ли случайно рисовать разницы между средними и ДИ к этим разницам ? Или это как доп. иллюстрации ?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 16.02.2018 - 22:55
Сообщение #19





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(bubnilkin @ 16.02.2018 - 03:53) *
Прошу прощения, что вклиниваюсь. Хотел уточнить: А не надо ли случайно рисовать разницы между средними и ДИ к этим разницам ? Или это как доп. иллюстрации ?

Вы же читаете статьи, много графиков с разностями вы видели? И доп. иллюстрации редакция не пропустит. Я видел мало, но у гигиенистов встречаются, у токсикологов, только они разность выражают в % от исходного значения (дельта, % ) или норматива. Также разность с ДИ кажется более уместной для иллюстрации величины эффекта в зависимых выборках, но, я всё равно строю обычно сами средние с ДИ...

Сообщение отредактировал nokh - 16.02.2018 - 23:01
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Cules2013
сообщение 21.02.2018 - 09:18
Сообщение #20





Группа: Пользователи
Сообщений: 27
Регистрация: 5.02.2018
Пользователь №: 30938



nokh, спасибо за детальный ответ, понимаю, что это чистый энтузиазм, никто к этому вас не обязывал. Я ранее пробовал на других форумах что-то спрашивать, но это оказался дохлый номер((
По поводу стат пакетов - дело в том, что каждый считает нужным хвалить то, что использует сам. Я это к тому, что если бы я слушал советы других людей, то уже должен был освоить 10 стат программ и 100 стат критериев. Как-то это не сильно сопоставимо с реальностью. Я умею работать в Графпаде и Статистике, а это уже не мало, программы эти известные и статусные. Немного знаю кода для SAS. Если я к каждой конкретной задаче будут вынужден осваивать отдельную стат программу и всё новые и новые стат методы, то я сам закопаю себя в яму, из которой не выберусь. Это контрпродуктивно. Поэтому так. Я всё же не математик, поэтому программы а-ля R меня напрягают, не хочу возиться с кодом и подобными вещами, тем более по неопытности могу легко допустить ошибки, а это чревато. Графпад, я заметил, очень популярен за рубежом, во многом как средство визуализации, но раз там есть и стат пакет методов, то грех ими не пользоваться, тем более, в отличие от той же Статистики и многих других программ, у Графпада есть заготовленные шаблоны, т.е. вам изначально рекомендуют какие-то вещи: например, если у вас однофакторный ANOVA, то вам советуют выбрать либо пост-хок от Тьюки, либо большую мощность (но без доверительных интервалов и точного значения p) с тестом Холм-Сидака. В Статистике, например, нет ничего подобного, лепи какие хочешь параметры анализа - сам должен перелопатить кучу лит-ры, чтобы разобраться, где какое значение ставить, а тут за тебя более грамотные люди уже подумали, но при этом, вам никто не мешает выбрать другой вариант анализа либо каких-то параметров, решать вам. А мануал к Статистике меня вообще до истерического laugh.gif доводил не раз - например, вот "в преобразовании Бокса-Кокса есть такой параметр, как лямбда. Вот формула этого преобразования. Используя нашу программу, вы увидите вот такое вот окно и строчку, где написано "лямбда". Здесь вы можете вручную выставить этот параметр". Всё, конец справки. У них там в каждом втором абзаце капитан очевидность. Зато ни слова, какая суть этого параметра и как мне оптимально выставить диапазон лямбды, я должен сам фиг знает где всё это выкапывать. У Графпада и справка адекватная, и рекомендуемые параметры есть, и графики на порядок красивее и современнее. Я это всё к тому, почему я зацикливаюсь на паре конкретных программ. Я ведь тоже не дурак))) Свои причины вполне разумные у меня есть. И как следствие, хочу сказать, что не вижу никакого особого недостатка в
Цитата
Путь от пакета - тупиковый.
Потому что в том же Графпаде в мануале есть конкретные ссылки на конкретные статьи и стат книги серьёзных людей, где проанализированы конкретные стат методы на конкретных примерах и сделаны выводы и рекомендации, например, почему лучше брать пост-хок Тьюки, а не другие виды. Составители стат программ сами математики и свои стат программы пишут не с потолка, а в соответствии с авторитетными источниками литературы. Поэтому мануалы и рекомендации ведущих стат программ - это авторитетный источник. Повторюсь, я не математик, и в дебри не хочу и не буду лезть, и работаю не в топ-лаборатории, как за рубежом на миллионных грантах, где стат анализ делают отдельные специалисты (не один, при чём) за нехилую плату - вот они так всё сделают так, чтобы комар носа не подточил. Но я не могу себе такого позволить, ни материально, ни в смысле времени, чтобы я вместо проведения экспериментов и написания статей месяцами зарывался в дебри статистики? Я, пожалуй, предпочту сплав простоты и относительного неплохого качества, что мне доступны при адекватном уровне затраченных усилий.

Не могу не отметить, что вы в своих комментариях неоднократно критиковали Гланца, подвергли сомнению учебник Петри, но в той подборке уважаемой вами лит-ры они есть. Интересно получается.

Ещё раз спасибо за книги и программы. Обязательно со всем ознакомлюсь.

Сообщение отредактировал Cules2013 - 21.02.2018 - 09:23
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 21.02.2018 - 16:14
Сообщение #21





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Cules2013 @ 21.02.2018 - 09:18) *
А мануал к Статистике меня вообще до истерического laugh.gif доводил не раз - например, вот "в преобразовании Бокса-Кокса есть такой параметр, как лямбда. Вот формула этого преобразования. Используя нашу программу, вы увидите вот такое вот окно и строчку, где написано "лямбда". Здесь вы можете вручную выставить этот параметр". Всё, конец справки. У них там в каждом втором абзаце капитан очевидность. Зато ни слова, какая суть этого параметра и как мне оптимально выставить диапазон лямбды, я должен сам фиг знает где всё это выкапывать.


Ужель все так плохо? Вот детальное описание. Суть параметра заключена формулах. А про то, какой именно диапазон выставить, никто писать и не будет, патамушта для оптимизируемого по выборке параметра такой диапазон указать в принципе невозможно. Теоретически он - в диапазоне [-inf;+inf], а на практике - зависит от датасета.

Если ознакомитесь со ссылкой, ответьте на контрольный вопрос - каким методом оптимизации осуществляется поиск упомянутой лямбды?

Сообщение отредактировал 100$ - 21.02.2018 - 16:25
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Blaid
сообщение 27.02.2018 - 12:28
Сообщение #22





Группа: Пользователи
Сообщений: 36
Регистрация: 27.08.2012
Пользователь №: 24128



Возможно заблуждаюсь, но НИ КАКАЯ СПРАВОЧНАЯ СИСТЕМА НИ В КАКОЙ ПРОГРАММЕ (как бы развита ни была эта система) не заменит чтения соответствующей литературы! Причём литературы - адекватной (как говорят "правильной").
Да и здесь уже сказано было: путь от программы/программ к методу/методам - не правильный! Нужно сначала осваивать (понимать) метод (тот же дисперсионный анализ, например), а уже потом искать прогу, где он реализован (чтобы, грубо говоря, не считать вручную). Весь статистический софт для экономии времени создан (ну, и чтобы ошибки человека при расчётах убрать). Если метод понятен, понята его внутренняя структура, то и многие вопросы применимости и допустимости использования отпадают.
А умение работать с софтом (любым вообще, а не только статистическим) - это, по сути дела, кнопконажимательство и кнопкокликательство. Понажимал и покликал что надо и в нужной последовательности, ну программа и выдала результат... Хотя это тоже надо уметь, но это самое простое и доступное из всего.
Что касается, конкретных прог, то, например, в таком пакете-гиганте, как STATISTICA, реализовано большинство известных стат. методов ( в последних версиях даже нейронные сети появились). Большинству запросов в области стат. обработки и анализа данных STATISTICA вполне себе удовлетворяет.
SPSS "заточен" под психологию, социологию, экономику.
GrahPad Prism - прога для биологов, причём, на мой взгляд, непосредственно сама часть по обработке данных в ней как-бы второстепенна и поэтому развита слабо. Основной упор в ней сделан именно на биологические мат. методы (например, посчитать что-нибудь согласно ур-нию Михаэлиса-Мэнтен, всякие там IC50/EC50, cвязывание лигандов с рецепторами и т.д.).
Другое дело, что всё это коммерческий софт с соответствующей ценой на лицензию...
Но софт всё равно вторичен. Осваивать нужно, в первую очередь, метод, а не проги, в которых он реализован!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 27.02.2018 - 12:52
Сообщение #23





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Blaid @ 27.02.2018 - 12:28) *
Возможно заблуждаюсь, но НИ КАКАЯ СПРАВОЧНАЯ СИСТЕМА НИ В КАКОЙ ПРОГРАММЕ (как бы развита ни была эта система) не заменит чтения соответствующей литературы! Причём литературы - адекватной (как говорят "правильной").
Да и здесь уже сказано было: путь от программы/программ к методу/методам - не правильный! Нужно сначала осваивать (понимать) метод (тот же дисперсионный анализ, например), а уже потом искать прогу, где он реализован (чтобы, грубо говоря, не считать вручную). Весь статистический софт для экономии времени создан (ну, и чтобы ошибки человека при расчётах убрать). Если метод понятен, понята его внутренняя структура, то и многие вопросы применимости и допустимости использования отпадают.
А умение работать с софтом (любым вообще, а не только статистическим) - это, по сути дела, кнопконажимательство и кнопкокликательство. Понажимал и покликал что надо и в нужной последовательности, ну программа и выдала результат... Хотя это тоже надо уметь, но это самое простое и доступное из всего.
Что касается, конкретных прог, то, например, в таком пакете-гиганте, как STATISTICA, реализовано большинство известных стат. методов ( в последних версиях даже нейронные сети появились). Большинству запросов в области стат. обработки и анализа данных STATISTICA вполне себе удовлетворяет.
SPSS "заточен" под психологию, социологию, экономику.
GrahPad Prism - прога для биологов, причём, на мой взгляд, непосредственно сама часть по обработке данных в ней как-бы второстепенна и поэтому развита слабо. Основной упор в ней сделан именно на биологические мат. методы (например, посчитать что-нибудь согласно ур-нию Михаэлиса-Мэнтен, всякие там IC50/EC50, cвязывание лигандов с рецепторами и т.д.).
Другое дело, что всё это коммерческий софт с соответствующей ценой на лицензию...
Но софт всё равно вторичен. Осваивать нужно, в первую очередь, метод, а не проги, в которых он реализован!


Такъ! Спасибо, Кэп!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V  < 1 2
Добавить ответ в эту темуОткрыть тему