Преобразование Бокса-Кокса, частные вопросы метода |
Здравствуйте, гость ( Вход | Регистрация )
Преобразование Бокса-Кокса, частные вопросы метода |
9.02.2018 - 17:56
Сообщение
#16
|
|
Группа: Пользователи Сообщений: 27 Регистрация: 5.02.2018 Пользователь №: 30938 |
|
|
15.02.2018 - 19:47
Сообщение
#17
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
1. Требования к ANOVA. Я тут почитал, в т.ч. темы данного форума и пришёл к выводу, что одни считают, что нужна нормальность данных по каждой выборке (ссылаются на Петри "Наглядная статистика в медицине"), другие (в т.ч. и вы) говорят о нормальности распределения остатков. Кто больше прав? Хотелось бы знать, на кого ссылаетесь вы. Любой учебник, где говорится о требовании нормальности распределения в выборке - сразу в топку. Речь может идти только о нормальном распределении в генеральной совокупности (ГС), откуда эта выборка извлекается. Широко известный в узких кругах отечественных статистиков и прикладников профессор Орлов вообще против подхода с оценкой нормальности по выборкам и остаткам типа для выбора грамотного способа выборочных сравнений, поскольку сама такая проверка принципиально сложнее задачи выборочных сравнений. Тем не менее в массе - проверяют. Если распределение в ГС нормальное, то и остатки модели будут распределены нормально. Но распределение в ГС мы часто не знаем, а оценить его по выборке не можем, ввиду её малого объёма (3 мышки DrgLena). Поэтому проверяем остатки: это и грамотнее, и реализуемо практически. Почитать нужно обязательно учебник(и) Дугласа Монтгомери - дядька крутой. Есть старое (2 или 4-ое) издание его книги на русском, а на английском уже 7 изданий. В переводной версии см. на стр. 36-37 формулу и его ответ на вопрос, хотя читать нужно всё. 2. GraphPadPrism 7 позволяет считать нормальность остатков и строить график, но ... Чё вы к этому Графпаду прицепились? Потому что немного её освоили? А если в освоенной программе нет нужного метода или он плохо реализован? Путь от пакета - тупиковый. Нужно наоборот идти от метода и искать такой пакет, где он реализован лучше всего. Далее. ДА - одно, регрессия - другое, и хотя это неверно, но на данном этапе вам будет полезнее думать об этих методах как о разных техниках (хотя ДА можно описать регрессионной моделью - разобрано понятно у Сокала и Рольфа). 3. Вы говорите о нормальности остатков, но в тоже время и о критерии Шапиро-Уилка. Это же разные вещи... Лопата - инструмент, позволяющий копать. Почву, песок, дресву и т.д, мы даже как-то донные отложения умудрились штыковой лопатой отобрать... Критерии проверки нормальности - инструмент, проверяющий нормальность. Выборок, остатков ANOVA, остатков регрессий любой сложности... Нет разницы. 4. На форуме тут откопал такое мнение, что ANOVA - это робастный метод, поэтому нормальность и однородность могут быть частично нарушены. Что значит "частично" и как это определить количественно в стат. программе - вопрос на миллион. Робастны. Количественно - вряд ли. В 2х словах не ответить, нужно начитывать литературу и пробовать. Однозначно: нужно стремиться выполнять требования модели анализа максимально. Но если они не выполняются, то выбор (1) делать всё равно "ибо модель робастна" или (2) преобразовывать данные для удовлетворения требованиям модели или (3) искать более подходящую модель - не столь однозначно. Это - не верная дверь, это - путь. 5. Понимаю, что прошу немало, но всё же, пожалуйста, если можете, подкрепляйте свои выводы конкретными ссылками на лит-ру. ... И те, кто пишет о сравнениях и прочих подобных вещах, часто углубляется в формулы, чистую математику, и среди деревьев леса не видно. Ну дак математики тоже люди. Им интересно заниматься именно тем, что умеют - это их поле. Прикладникам часто сложно читать такие работы. А выбор в пользу тех или иных методов делается обычно на основе численных экспериментов: генерируются данные с нужными свойствами и на них проверяются насколько хорошо справляются с задачей те или иные методы. С приходом среды R такие симуляции стали доступны не только математикам и атишникам. Ссылка на хорошие книги: https://yadi.sk/d/0Jb-3hSLmK837 Обратите особое внимание на 2 англоязычные: по ним преподают биостатистистику во многих университах. Бонусом - несколько программ и рассчётный файл Excel, сделанный когда-то плавом и дополненный мной байесовским апостериорным интервалом Джеффриса. Сообщение отредактировал nokh - 16.02.2018 - 22:41 |
|
16.02.2018 - 01:53
Сообщение
#18
|
|
Группа: Пользователи Сообщений: 79 Регистрация: 18.01.2010 Пользователь №: 9836 |
|
|
16.02.2018 - 22:55
Сообщение
#19
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Прошу прощения, что вклиниваюсь. Хотел уточнить: А не надо ли случайно рисовать разницы между средними и ДИ к этим разницам ? Или это как доп. иллюстрации ? Вы же читаете статьи, много графиков с разностями вы видели? И доп. иллюстрации редакция не пропустит. Я видел мало, но у гигиенистов встречаются, у токсикологов, только они разность выражают в % от исходного значения (дельта, % ) или норматива. Также разность с ДИ кажется более уместной для иллюстрации величины эффекта в зависимых выборках, но, я всё равно строю обычно сами средние с ДИ... Сообщение отредактировал nokh - 16.02.2018 - 23:01 |
|
21.02.2018 - 09:18
Сообщение
#20
|
|
Группа: Пользователи Сообщений: 27 Регистрация: 5.02.2018 Пользователь №: 30938 |
nokh, спасибо за детальный ответ, понимаю, что это чистый энтузиазм, никто к этому вас не обязывал. Я ранее пробовал на других форумах что-то спрашивать, но это оказался дохлый номер((
По поводу стат пакетов - дело в том, что каждый считает нужным хвалить то, что использует сам. Я это к тому, что если бы я слушал советы других людей, то уже должен был освоить 10 стат программ и 100 стат критериев. Как-то это не сильно сопоставимо с реальностью. Я умею работать в Графпаде и Статистике, а это уже не мало, программы эти известные и статусные. Немного знаю кода для SAS. Если я к каждой конкретной задаче будут вынужден осваивать отдельную стат программу и всё новые и новые стат методы, то я сам закопаю себя в яму, из которой не выберусь. Это контрпродуктивно. Поэтому так. Я всё же не математик, поэтому программы а-ля R меня напрягают, не хочу возиться с кодом и подобными вещами, тем более по неопытности могу легко допустить ошибки, а это чревато. Графпад, я заметил, очень популярен за рубежом, во многом как средство визуализации, но раз там есть и стат пакет методов, то грех ими не пользоваться, тем более, в отличие от той же Статистики и многих других программ, у Графпада есть заготовленные шаблоны, т.е. вам изначально рекомендуют какие-то вещи: например, если у вас однофакторный ANOVA, то вам советуют выбрать либо пост-хок от Тьюки, либо большую мощность (но без доверительных интервалов и точного значения p) с тестом Холм-Сидака. В Статистике, например, нет ничего подобного, лепи какие хочешь параметры анализа - сам должен перелопатить кучу лит-ры, чтобы разобраться, где какое значение ставить, а тут за тебя более грамотные люди уже подумали, но при этом, вам никто не мешает выбрать другой вариант анализа либо каких-то параметров, решать вам. А мануал к Статистике меня вообще до истерического доводил не раз - например, вот "в преобразовании Бокса-Кокса есть такой параметр, как лямбда. Вот формула этого преобразования. Используя нашу программу, вы увидите вот такое вот окно и строчку, где написано "лямбда". Здесь вы можете вручную выставить этот параметр". Всё, конец справки. У них там в каждом втором абзаце капитан очевидность. Зато ни слова, какая суть этого параметра и как мне оптимально выставить диапазон лямбды, я должен сам фиг знает где всё это выкапывать. У Графпада и справка адекватная, и рекомендуемые параметры есть, и графики на порядок красивее и современнее. Я это всё к тому, почему я зацикливаюсь на паре конкретных программ. Я ведь тоже не дурак))) Свои причины вполне разумные у меня есть. И как следствие, хочу сказать, что не вижу никакого особого недостатка в Цитата Путь от пакета - тупиковый. Потому что в том же Графпаде в мануале есть конкретные ссылки на конкретные статьи и стат книги серьёзных людей, где проанализированы конкретные стат методы на конкретных примерах и сделаны выводы и рекомендации, например, почему лучше брать пост-хок Тьюки, а не другие виды. Составители стат программ сами математики и свои стат программы пишут не с потолка, а в соответствии с авторитетными источниками литературы. Поэтому мануалы и рекомендации ведущих стат программ - это авторитетный источник. Повторюсь, я не математик, и в дебри не хочу и не буду лезть, и работаю не в топ-лаборатории, как за рубежом на миллионных грантах, где стат анализ делают отдельные специалисты (не один, при чём) за нехилую плату - вот они так всё сделают так, чтобы комар носа не подточил. Но я не могу себе такого позволить, ни материально, ни в смысле времени, чтобы я вместо проведения экспериментов и написания статей месяцами зарывался в дебри статистики? Я, пожалуй, предпочту сплав простоты и относительного неплохого качества, что мне доступны при адекватном уровне затраченных усилий.Не могу не отметить, что вы в своих комментариях неоднократно критиковали Гланца, подвергли сомнению учебник Петри, но в той подборке уважаемой вами лит-ры они есть. Интересно получается. Ещё раз спасибо за книги и программы. Обязательно со всем ознакомлюсь. Сообщение отредактировал Cules2013 - 21.02.2018 - 09:23 |
|
21.02.2018 - 16:14
Сообщение
#21
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
А мануал к Статистике меня вообще до истерического доводил не раз - например, вот "в преобразовании Бокса-Кокса есть такой параметр, как лямбда. Вот формула этого преобразования. Используя нашу программу, вы увидите вот такое вот окно и строчку, где написано "лямбда". Здесь вы можете вручную выставить этот параметр". Всё, конец справки. У них там в каждом втором абзаце капитан очевидность. Зато ни слова, какая суть этого параметра и как мне оптимально выставить диапазон лямбды, я должен сам фиг знает где всё это выкапывать. Ужель все так плохо? Вот детальное описание. Суть параметра заключена формулах. А про то, какой именно диапазон выставить, никто писать и не будет, патамушта для оптимизируемого по выборке параметра такой диапазон указать в принципе невозможно. Теоретически он - в диапазоне [-inf;+inf], а на практике - зависит от датасета. Если ознакомитесь со ссылкой, ответьте на контрольный вопрос - каким методом оптимизации осуществляется поиск упомянутой лямбды? Сообщение отредактировал 100$ - 21.02.2018 - 16:25 |
|
27.02.2018 - 12:28
Сообщение
#22
|
|
Группа: Пользователи Сообщений: 36 Регистрация: 27.08.2012 Пользователь №: 24128 |
Возможно заблуждаюсь, но НИ КАКАЯ СПРАВОЧНАЯ СИСТЕМА НИ В КАКОЙ ПРОГРАММЕ (как бы развита ни была эта система) не заменит чтения соответствующей литературы! Причём литературы - адекватной (как говорят "правильной").
Да и здесь уже сказано было: путь от программы/программ к методу/методам - не правильный! Нужно сначала осваивать (понимать) метод (тот же дисперсионный анализ, например), а уже потом искать прогу, где он реализован (чтобы, грубо говоря, не считать вручную). Весь статистический софт для экономии времени создан (ну, и чтобы ошибки человека при расчётах убрать). Если метод понятен, понята его внутренняя структура, то и многие вопросы применимости и допустимости использования отпадают. А умение работать с софтом (любым вообще, а не только статистическим) - это, по сути дела, кнопконажимательство и кнопкокликательство. Понажимал и покликал что надо и в нужной последовательности, ну программа и выдала результат... Хотя это тоже надо уметь, но это самое простое и доступное из всего. Что касается, конкретных прог, то, например, в таком пакете-гиганте, как STATISTICA, реализовано большинство известных стат. методов ( в последних версиях даже нейронные сети появились). Большинству запросов в области стат. обработки и анализа данных STATISTICA вполне себе удовлетворяет. SPSS "заточен" под психологию, социологию, экономику. GrahPad Prism - прога для биологов, причём, на мой взгляд, непосредственно сама часть по обработке данных в ней как-бы второстепенна и поэтому развита слабо. Основной упор в ней сделан именно на биологические мат. методы (например, посчитать что-нибудь согласно ур-нию Михаэлиса-Мэнтен, всякие там IC50/EC50, cвязывание лигандов с рецепторами и т.д.). Другое дело, что всё это коммерческий софт с соответствующей ценой на лицензию... Но софт всё равно вторичен. Осваивать нужно, в первую очередь, метод, а не проги, в которых он реализован! |
|
27.02.2018 - 12:52
Сообщение
#23
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Возможно заблуждаюсь, но НИ КАКАЯ СПРАВОЧНАЯ СИСТЕМА НИ В КАКОЙ ПРОГРАММЕ (как бы развита ни была эта система) не заменит чтения соответствующей литературы! Причём литературы - адекватной (как говорят "правильной"). Да и здесь уже сказано было: путь от программы/программ к методу/методам - не правильный! Нужно сначала осваивать (понимать) метод (тот же дисперсионный анализ, например), а уже потом искать прогу, где он реализован (чтобы, грубо говоря, не считать вручную). Весь статистический софт для экономии времени создан (ну, и чтобы ошибки человека при расчётах убрать). Если метод понятен, понята его внутренняя структура, то и многие вопросы применимости и допустимости использования отпадают. А умение работать с софтом (любым вообще, а не только статистическим) - это, по сути дела, кнопконажимательство и кнопкокликательство. Понажимал и покликал что надо и в нужной последовательности, ну программа и выдала результат... Хотя это тоже надо уметь, но это самое простое и доступное из всего. Что касается, конкретных прог, то, например, в таком пакете-гиганте, как STATISTICA, реализовано большинство известных стат. методов ( в последних версиях даже нейронные сети появились). Большинству запросов в области стат. обработки и анализа данных STATISTICA вполне себе удовлетворяет. SPSS "заточен" под психологию, социологию, экономику. GrahPad Prism - прога для биологов, причём, на мой взгляд, непосредственно сама часть по обработке данных в ней как-бы второстепенна и поэтому развита слабо. Основной упор в ней сделан именно на биологические мат. методы (например, посчитать что-нибудь согласно ур-нию Михаэлиса-Мэнтен, всякие там IC50/EC50, cвязывание лигандов с рецепторами и т.д.). Другое дело, что всё это коммерческий софт с соответствующей ценой на лицензию... Но софт всё равно вторичен. Осваивать нужно, в первую очередь, метод, а не проги, в которых он реализован! Такъ! Спасибо, Кэп! |
|