![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() ![]() |
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 149 Регистрация: 11.02.2014 Пользователь №: 26005 ![]() |
Подскажите, пожалуйста, в программе Statistica выбросы помечаются кружком, а экстримально большие или низкие значения звездочкой (* )
Я не понял выбросы и экстримальные значения это разные вещи? И такой вопрос, как бы он странно не звучал. До какого момента мне удалять выбросы? Объясняю. На графике вижу выбросы. В статистике есть инструмент кисть. можно нажать на кружок и значение удалится. Однако, как только удалил значение сразу обнаруживается другой выброс в сравнении со всем числовым рядом. Итак можно до бесконечности удалять. Помнится как в мультике, когда медважата пытались сделать кусок сыра ровным, откусывая по чуть-чуть, а кончилось тем что весь сыр съели. Тоже самое и тут. До какого момента мне выбросы удалять. Есть ли метод подсказывающий, что выбросы достаточно уже удалены? |
|
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Подскажите, пожалуйста, в программе Statistica выбросы помечаются кружком, а экстримально большие или низкие значения звездочкой (* ) Я не понял выбросы и экстримальные значения это разные вещи? И такой вопрос, как бы он странно не звучал. До какого момента мне удалять выбросы? Объясняю. На графике вижу выбросы. В статистике есть инструмент кисть. можно нажать на кружок и значение удалится. Однако, как только удалил значение сразу обнаруживается другой выброс в сравнении со всем числовым рядом. Итак можно до бесконечности удалять. Помнится как в мультике, когда медважата пытались сделать кусок сыра ровным, откусывая по чуть-чуть, а кончилось тем что весь сыр съели. Тоже самое и тут. До какого момента мне выбросы удалять. Есть ли метод подсказывающий, что выбросы достаточно уже удалены? Вообще нельзя ничего из данных удалять! Иначе это будут не данные, а чьи-то представления о том, какими должны быть какие-то данные. Чьи-то! Даже не ваши, т.к. вы в этом пока не разбираетесь. По какому алгоритму программа вычисляет такие значения? Это смотрится в помощи. Наблюдение можно удалить только если есть 100%-ная уверенность что это - выброс, т.е. элемент другой генеральной совокупности, случайно попавший в выборку. Чаще это просто ошибки набора данных, типа не 3,15, а 315. Графики (видимо речь идёт о коробчатых диаграммах) нужно настроить так, чтобы ничего не помечалось кружочками и т.п. А работать с такими данными следует методами для ненормально распределённых совокупностей: порядковыми или ресэмплинг-техниками; ну или нормализовать с помощью преобразований. |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Подскажите, пожалуйста, в программе Statistica выбросы помечаются кружком, а экстримально большие или низкие значения звездочкой (* ) Я не понял выбросы и экстримальные значения это разные вещи? И такой вопрос, как бы он странно не звучал. До какого момента мне удалять выбросы? Объясняю. На графике вижу выбросы. В статистике есть инструмент кисть. можно нажать на кружок и значение удалится. Однако, как только удалил значение сразу обнаруживается другой выброс в сравнении со всем числовым рядом. Итак можно до бесконечности удалять. Помнится как в мультике, когда медважата пытались сделать кусок сыра ровным, откусывая по чуть-чуть, а кончилось тем что весь сыр съели. Тоже самое и тут. До какого момента мне выбросы удалять. Есть ли метод подсказывающий, что выбросы достаточно уже удалены? Вы должны понимать что работая с выбросами фактически производите отсев данных не подходящих под некую "модель". Выбор этой "модели" будет определять какие данные "описываются моделью" хорошо, а какие плохо. В простейшем случае "модель" это закон распределения случайной величины. Но как правило "модель" отражает весь проводимый эксперимент (или наблюдение) включая гипотезу которую эксперимент-наблюдение должно опровергнуть или подтвердить. Если никаких гипотез не выдвигается то собранные данные просто нужно представить в "максимально компактном" (обозримом наблюдателем-экспериментатором) способом. Например снижая размерность... И смотреть "глазами" на эти данные ища в них то что видели ранее смотревшие и то, что ранее смотревшие не видели. Ну и строить "модель" которая на этих данных доказывает что то что увидели при компактном представлении дисперсии данных не является чем то случайно сложившимся. ![]() |
|
![]() |
![]() |
![]()
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 149 Регистрация: 11.02.2014 Пользователь №: 26005 ![]() |
Спасибо вам. Просто из курса мат.статистики, который нам вскользь читали, нам говорили ,что выбросы могут влиять на результат, особенно если пользоваться параметрическими методами. Но ведь есть непараметрика ,которой на выбросы все равно. Данные в основном финансовые. прибыли-убытки. Например, группирующая переменная регион(30 регионов, т.е. 30 групп) и прибыль(убытки организации)
вот и смотрятся средние по регионам. там прибыли могут быть 100 млн, или убытки тоже в млн и есть выбросы. |
|
![]() |
![]() |
![]()
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Спасибо вам. Просто из курса мат.статистики, который нам вскользь читали, нам говорили ,что выбросы могут влиять на результат, особенно если пользоваться параметрическими методами. Но ведь есть непараметрика ,которой на выбросы все равно. Данные в основном финансовые. прибыли-убытки. Например, группирующая переменная регион(30 регионов, т.е. 30 групп) и прибыль(убытки организации) вот и смотрятся средние по регионам. там прибыли могут быть 100 млн, или убытки тоже в млн и есть выбросы. Многие (если не большинство) экономических показателей имеют распределения близкие к логарифмически нормальному. Это - тоже определённая информация, которую можно использовать в анализе, тогда как уход в порядковую статистику сопряжён с потерей мощности. Биологи и медики почему-то с радостью готовы жертвовать мощностью в угоду простым методам и знакомым именам типа Манна - Уитни и Краскела - Уоллиса. Но вот в эконометрике люди предпочитают использовать сложные модели для исходных данных - по крайней мере у меня сложилось именно такое впечатление. Скажем, если не выполняется требование однородности дисперсий в регрессии - используют модели с учётом гетероскедастичности или используют преобразования исходных данных. Поэтому раз работа экономическая, думаю вам будет лучше (понятнее для коллег) работать параметрикой после предварительного преобразования данных по Боксу - Коксу (много информации на этом форуме). Может быть в правильной шкале и "выбросов" никаких не будет. Также посмотрите сообщение Den-N в этой теме: http://molbiol.ru/forums/index.php?showtopic=551548 |
|
![]() |
![]() |
![]()
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 149 Регистрация: 11.02.2014 Пользователь №: 26005 ![]() |
nokh, кстати спасибо Вам за мысль. Дело в том, что я думал неоднократно,а можно ли с данными, которые имеют очень большие значения свыше миллиона как- то их преобразовывать, либо через натуральный логарифм (LN) или через бокс кокса. Тем более у меня в данных может быть так, что сигма может быть больше чем среднее. Например, 1000 000+-2000 000 т.к. в одном столбце не только прибыль, но и убытки.
За форум тоже спасибо, не видел такого, тут в основном по R, конечно, но можно почитать. В дисперсионном анализе какое количество групп возможно в группирующей переменной? Вроде на одну группу нужно минимум 5 наблюдений, но чтоб в целом по всем группам, общее число выборки было не менее 100. Мои данные согласно Шапиро-Уилкса ненормально распределены p<0,0001, в Statistica есть возможность работать с распределениями. Из всех ,которых я перепробовал почему - то статистика сочла нужным работать только c rectangular distribution Но возможно, я что-то не так делал, хотя скорее всего много отрицательных значений или нулевых , поэтому экспоненциальное распределение точно не подходило. Если в том же R есть функция определять тип распределения ,я бы мог и через R попробовать. |
|
![]() |
![]() |
![]()
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
В дисперсионном анализе какое количество групп возможно в группирующей переменной? Вроде на одну группу нужно минимум 5 наблюдений, но чтоб в целом по всем группам, общее число выборки было не менее 100. Мои данные согласно Шапиро-Уилкса ненормально распределены p<0,0001, в Statistica есть возможность работать с распределениями. Из всех ,которых я перепробовал почему - то статистика сочла нужным работать только c rectangular distribution Но возможно, я что-то не так делал, хотя скорее всего много отрицательных значений или нулевых , поэтому экспоненциальное распределение точно не подходило. Если в том же R есть функция определять тип распределения ,я бы мог и через R попробовать. Про 5 наблюдений на ячейку - чьи-то религиозные предрассудки. Есть дисперсионные комплексы с единственным наблюдением на ячейку комплекса, с пропущенными ячейками и т.д. Формально, чтобы рассчитать дисперсию в ячейке комплекса необходимо всего 2 значения. Конечно, от уменьшения числа наблюдений страдает мощность анализа, но это не значит, что сам анализ технически невозможен, и уж совсем не значит, что он не может оказаться полезен с предметной точки зрения. По поводу прямоугольного (равномерного) распределения: нужно ведь не просто поигравшись со статпакетом найти что-то наиболее похожее - должны быть и теоретические предпосылки для такого распределения. Иначе можно пасть жертвой случая: необоснованно приписав данным какое-то распределение мы можем прийти к в корне неверным выводам. Если ни практика других исследований, ни теория не подсказывают какое распределение взять следует ориентироваться на свободные от распределения методы, но я сильно сомневаюсь, что подобные вашим показатели являются белым пятном. Я бы всё-таки начал с параметрики и Бокса- Кокса; последний метод, кстати может подсказать и близкое распределение (правда только из семейства степенных): скажем если лямбда близка к нулю - это логнормальное распределение. Сообщение отредактировал nokh - 26.07.2015 - 06:39 |
|
![]() |
![]() |
![]() ![]() |