Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> выбросы в statistica
kont
сообщение 19.07.2015 - 18:55
Сообщение #1





Группа: Пользователи
Сообщений: 149
Регистрация: 11.02.2014
Пользователь №: 26005



Подскажите, пожалуйста, в программе Statistica выбросы помечаются кружком, а экстримально большие или низкие значения звездочкой (* )
Я не понял выбросы и экстримальные значения это разные вещи?

И такой вопрос, как бы он странно не звучал. До какого момента мне удалять выбросы? Объясняю. На графике вижу выбросы. В статистике есть инструмент кисть. можно нажать на кружок и значение удалится. Однако, как только удалил значение сразу обнаруживается другой выброс в сравнении со всем числовым рядом. Итак можно до бесконечности удалять. Помнится как в мультике, когда медважата пытались сделать кусок сыра ровным, откусывая по чуть-чуть, а кончилось тем что весь сыр съели. Тоже самое и тут. До какого момента мне выбросы удалять. Есть ли метод подсказывающий, что выбросы достаточно уже удалены?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов (1 - 6)
nokh
сообщение 19.07.2015 - 20:06
Сообщение #2





Группа: Пользователи
Сообщений: 1218
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(kont @ 19.07.2015 - 20:55) *
Подскажите, пожалуйста, в программе Statistica выбросы помечаются кружком, а экстримально большие или низкие значения звездочкой (* )
Я не понял выбросы и экстримальные значения это разные вещи?

И такой вопрос, как бы он странно не звучал. До какого момента мне удалять выбросы? Объясняю. На графике вижу выбросы. В статистике есть инструмент кисть. можно нажать на кружок и значение удалится. Однако, как только удалил значение сразу обнаруживается другой выброс в сравнении со всем числовым рядом. Итак можно до бесконечности удалять. Помнится как в мультике, когда медважата пытались сделать кусок сыра ровным, откусывая по чуть-чуть, а кончилось тем что весь сыр съели. Тоже самое и тут. До какого момента мне выбросы удалять. Есть ли метод подсказывающий, что выбросы достаточно уже удалены?

Вообще нельзя ничего из данных удалять! Иначе это будут не данные, а чьи-то представления о том, какими должны быть какие-то данные. Чьи-то! Даже не ваши, т.к. вы в этом пока не разбираетесь. По какому алгоритму программа вычисляет такие значения? Это смотрится в помощи.
Наблюдение можно удалить только если есть 100%-ная уверенность что это - выброс, т.е. элемент другой генеральной совокупности, случайно попавший в выборку. Чаще это просто ошибки набора данных, типа не 3,15, а 315. Графики (видимо речь идёт о коробчатых диаграммах) нужно настроить так, чтобы ничего не помечалось кружочками и т.п. А работать с такими данными следует методами для ненормально распределённых совокупностей: порядковыми или ресэмплинг-техниками; ну или нормализовать с помощью преобразований.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 20.07.2015 - 11:55
Сообщение #3





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(kont @ 19.07.2015 - 18:55) *
Подскажите, пожалуйста, в программе Statistica выбросы помечаются кружком, а экстримально большие или низкие значения звездочкой (* )
Я не понял выбросы и экстримальные значения это разные вещи?

И такой вопрос, как бы он странно не звучал. До какого момента мне удалять выбросы? Объясняю. На графике вижу выбросы. В статистике есть инструмент кисть. можно нажать на кружок и значение удалится. Однако, как только удалил значение сразу обнаруживается другой выброс в сравнении со всем числовым рядом. Итак можно до бесконечности удалять. Помнится как в мультике, когда медважата пытались сделать кусок сыра ровным, откусывая по чуть-чуть, а кончилось тем что весь сыр съели. Тоже самое и тут. До какого момента мне выбросы удалять. Есть ли метод подсказывающий, что выбросы достаточно уже удалены?



Вы должны понимать что работая с выбросами фактически производите отсев данных не подходящих под некую "модель". Выбор этой "модели" будет определять какие данные "описываются моделью" хорошо, а какие плохо.

В простейшем случае "модель" это закон распределения случайной величины. Но как правило "модель" отражает весь проводимый эксперимент (или наблюдение) включая гипотезу которую эксперимент-наблюдение должно опровергнуть или подтвердить.

Если никаких гипотез не выдвигается то собранные данные просто нужно представить в "максимально компактном" (обозримом наблюдателем-экспериментатором) способом. Например снижая размерность... И смотреть "глазами" на эти данные ища в них то что видели ранее смотревшие и то, что ранее смотревшие не видели. Ну и строить "модель" которая на этих данных доказывает что то что увидели при компактном представлении дисперсии данных не является чем то случайно сложившимся.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
kont
сообщение 22.07.2015 - 11:13
Сообщение #4





Группа: Пользователи
Сообщений: 149
Регистрация: 11.02.2014
Пользователь №: 26005



Спасибо вам. Просто из курса мат.статистики, который нам вскользь читали, нам говорили ,что выбросы могут влиять на результат, особенно если пользоваться параметрическими методами. Но ведь есть непараметрика ,которой на выбросы все равно. Данные в основном финансовые. прибыли-убытки. Например, группирующая переменная регион(30 регионов, т.е. 30 групп) и прибыль(убытки организации)
вот и смотрятся средние по регионам. там прибыли могут быть 100 млн, или убытки тоже в млн и есть выбросы.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 22.07.2015 - 14:49
Сообщение #5





Группа: Пользователи
Сообщений: 1218
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(kont @ 22.07.2015 - 13:13) *
Спасибо вам. Просто из курса мат.статистики, который нам вскользь читали, нам говорили ,что выбросы могут влиять на результат, особенно если пользоваться параметрическими методами. Но ведь есть непараметрика ,которой на выбросы все равно. Данные в основном финансовые. прибыли-убытки. Например, группирующая переменная регион(30 регионов, т.е. 30 групп) и прибыль(убытки организации)
вот и смотрятся средние по регионам. там прибыли могут быть 100 млн, или убытки тоже в млн и есть выбросы.

Многие (если не большинство) экономических показателей имеют распределения близкие к логарифмически нормальному. Это - тоже определённая информация, которую можно использовать в анализе, тогда как уход в порядковую статистику сопряжён с потерей мощности. Биологи и медики почему-то с радостью готовы жертвовать мощностью в угоду простым методам и знакомым именам типа Манна - Уитни и Краскела - Уоллиса. Но вот в эконометрике люди предпочитают использовать сложные модели для исходных данных - по крайней мере у меня сложилось именно такое впечатление. Скажем, если не выполняется требование однородности дисперсий в регрессии - используют модели с учётом гетероскедастичности или используют преобразования исходных данных. Поэтому раз работа экономическая, думаю вам будет лучше (понятнее для коллег) работать параметрикой после предварительного преобразования данных по Боксу - Коксу (много информации на этом форуме). Может быть в правильной шкале и "выбросов" никаких не будет.
Также посмотрите сообщение Den-N в этой теме: http://molbiol.ru/forums/index.php?showtopic=551548
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
kont
сообщение 22.07.2015 - 15:43
Сообщение #6





Группа: Пользователи
Сообщений: 149
Регистрация: 11.02.2014
Пользователь №: 26005



nokh, кстати спасибо Вам за мысль. Дело в том, что я думал неоднократно,а можно ли с данными, которые имеют очень большие значения свыше миллиона как- то их преобразовывать, либо через натуральный логарифм (LN) или через бокс кокса. Тем более у меня в данных может быть так, что сигма может быть больше чем среднее. Например, 1000 000+-2000 000 т.к. в одном столбце не только прибыль, но и убытки.
За форум тоже спасибо, не видел такого, тут в основном по R, конечно, но можно почитать.
В дисперсионном анализе какое количество групп возможно в группирующей переменной? Вроде на одну группу нужно минимум 5 наблюдений, но чтоб в целом по всем группам, общее число выборки было не менее 100.
Мои данные согласно Шапиро-Уилкса ненормально распределены p<0,0001, в Statistica есть возможность работать с распределениями. Из всех ,которых я перепробовал почему - то статистика сочла нужным работать только c rectangular distribution

Но возможно, я что-то не так делал, хотя скорее всего много отрицательных значений или нулевых , поэтому экспоненциальное распределение точно не подходило. Если в том же R есть функция определять тип распределения ,я бы мог и через R попробовать.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 26.07.2015 - 06:30
Сообщение #7





Группа: Пользователи
Сообщений: 1218
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(kont @ 22.07.2015 - 17:43) *
В дисперсионном анализе какое количество групп возможно в группирующей переменной? Вроде на одну группу нужно минимум 5 наблюдений, но чтоб в целом по всем группам, общее число выборки было не менее 100.
Мои данные согласно Шапиро-Уилкса ненормально распределены p<0,0001, в Statistica есть возможность работать с распределениями. Из всех ,которых я перепробовал почему - то статистика сочла нужным работать только c rectangular distribution
Но возможно, я что-то не так делал, хотя скорее всего много отрицательных значений или нулевых , поэтому экспоненциальное распределение точно не подходило. Если в том же R есть функция определять тип распределения ,я бы мог и через R попробовать.

Про 5 наблюдений на ячейку - чьи-то религиозные предрассудки. Есть дисперсионные комплексы с единственным наблюдением на ячейку комплекса, с пропущенными ячейками и т.д. Формально, чтобы рассчитать дисперсию в ячейке комплекса необходимо всего 2 значения. Конечно, от уменьшения числа наблюдений страдает мощность анализа, но это не значит, что сам анализ технически невозможен, и уж совсем не значит, что он не может оказаться полезен с предметной точки зрения.
По поводу прямоугольного (равномерного) распределения: нужно ведь не просто поигравшись со статпакетом найти что-то наиболее похожее - должны быть и теоретические предпосылки для такого распределения. Иначе можно пасть жертвой случая: необоснованно приписав данным какое-то распределение мы можем прийти к в корне неверным выводам. Если ни практика других исследований, ни теория не подсказывают какое распределение взять следует ориентироваться на свободные от распределения методы, но я сильно сомневаюсь, что подобные вашим показатели являются белым пятном. Я бы всё-таки начал с параметрики и Бокса- Кокса; последний метод, кстати может подсказать и близкое распределение (правда только из семейства степенных): скажем если лямбда близка к нулю - это логнормальное распределение.

Сообщение отредактировал nokh - 26.07.2015 - 06:39
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему