![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 149 Регистрация: 11.02.2014 Пользователь №: 26005 ![]() |
Подскажите, пожалуйста, в программе Statistica выбросы помечаются кружком, а экстримально большие или низкие значения звездочкой (* )
Я не понял выбросы и экстримальные значения это разные вещи? И такой вопрос, как бы он странно не звучал. До какого момента мне удалять выбросы? Объясняю. На графике вижу выбросы. В статистике есть инструмент кисть. можно нажать на кружок и значение удалится. Однако, как только удалил значение сразу обнаруживается другой выброс в сравнении со всем числовым рядом. Итак можно до бесконечности удалять. Помнится как в мультике, когда медважата пытались сделать кусок сыра ровным, откусывая по чуть-чуть, а кончилось тем что весь сыр съели. Тоже самое и тут. До какого момента мне выбросы удалять. Есть ли метод подсказывающий, что выбросы достаточно уже удалены? |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 149 Регистрация: 11.02.2014 Пользователь №: 26005 ![]() |
nokh, кстати спасибо Вам за мысль. Дело в том, что я думал неоднократно,а можно ли с данными, которые имеют очень большие значения свыше миллиона как- то их преобразовывать, либо через натуральный логарифм (LN) или через бокс кокса. Тем более у меня в данных может быть так, что сигма может быть больше чем среднее. Например, 1000 000+-2000 000 т.к. в одном столбце не только прибыль, но и убытки.
За форум тоже спасибо, не видел такого, тут в основном по R, конечно, но можно почитать. В дисперсионном анализе какое количество групп возможно в группирующей переменной? Вроде на одну группу нужно минимум 5 наблюдений, но чтоб в целом по всем группам, общее число выборки было не менее 100. Мои данные согласно Шапиро-Уилкса ненормально распределены p<0,0001, в Statistica есть возможность работать с распределениями. Из всех ,которых я перепробовал почему - то статистика сочла нужным работать только c rectangular distribution Но возможно, я что-то не так делал, хотя скорее всего много отрицательных значений или нулевых , поэтому экспоненциальное распределение точно не подходило. Если в том же R есть функция определять тип распределения ,я бы мог и через R попробовать. |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
В дисперсионном анализе какое количество групп возможно в группирующей переменной? Вроде на одну группу нужно минимум 5 наблюдений, но чтоб в целом по всем группам, общее число выборки было не менее 100. Мои данные согласно Шапиро-Уилкса ненормально распределены p<0,0001, в Statistica есть возможность работать с распределениями. Из всех ,которых я перепробовал почему - то статистика сочла нужным работать только c rectangular distribution Но возможно, я что-то не так делал, хотя скорее всего много отрицательных значений или нулевых , поэтому экспоненциальное распределение точно не подходило. Если в том же R есть функция определять тип распределения ,я бы мог и через R попробовать. Про 5 наблюдений на ячейку - чьи-то религиозные предрассудки. Есть дисперсионные комплексы с единственным наблюдением на ячейку комплекса, с пропущенными ячейками и т.д. Формально, чтобы рассчитать дисперсию в ячейке комплекса необходимо всего 2 значения. Конечно, от уменьшения числа наблюдений страдает мощность анализа, но это не значит, что сам анализ технически невозможен, и уж совсем не значит, что он не может оказаться полезен с предметной точки зрения. По поводу прямоугольного (равномерного) распределения: нужно ведь не просто поигравшись со статпакетом найти что-то наиболее похожее - должны быть и теоретические предпосылки для такого распределения. Иначе можно пасть жертвой случая: необоснованно приписав данным какое-то распределение мы можем прийти к в корне неверным выводам. Если ни практика других исследований, ни теория не подсказывают какое распределение взять следует ориентироваться на свободные от распределения методы, но я сильно сомневаюсь, что подобные вашим показатели являются белым пятном. Я бы всё-таки начал с параметрики и Бокса- Кокса; последний метод, кстати может подсказать и близкое распределение (правда только из семейства степенных): скажем если лямбда близка к нулю - это логнормальное распределение. Сообщение отредактировал nokh - 26.07.2015 - 06:39 |
|
![]() |
![]() |
![]() ![]() |