Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Microsoft Excel как программа, по прикладной статистике
Игорь
сообщение 13.03.2008 - 10:57
Сообщение #1





Группа: Пользователи
Сообщений: 1141
Регистрация: 10.04.2007
Пользователь №: 4040



Денег у ученого народа мало. На приличные (а приличные ли? См. далее) фирменные пакеты явно недостаточно. С другой стороны, в институтах и других конторах, как правило, куплена корпоративная лицензия на Microsoft Office, в который как раз и входят электронные таблицы Microsoft Excel, позиционирующиеся и разработчиком, и многими отечественными и зарубежными авторами в качестве средства [в то числе и] для статистического анализа данных. Одновременно не утихают споры о том, правильно считает Excel статистику, а ряд авторов на данной животрепещущей теме (поиске чужих ошибок) даже сделали себе имя (McCullough, Knusel).

nokh в одной из тем данного форума дал интересную ссылку, материалами которой мы и воспользовались. Пришли, однако, к выводу противоположному тому, что сделал автор материалов по данной ссылке.

Вот ссылка на Jeffrey Simonoff (2002) http://pages.stern.nyu.edu/~jsimonof/class...df/excelreg.pdf, в которой Excel разоблачается, причем сделано это путем сравнения с Minitab. В Minitab строится линейная регрессия для достаточно сложных данных, результат принимается за истину. Затем показано, что Excel врет. Почему врет? Всего лишь потому, что результаты отличаются от Minitab! Анализ показал, что Excel врет не сильно, за исключением коэффициентов детерминации, которые в Excel очень часто считаются просто неверно. А вот регрессия похожа на истину, а врет Minitab. Мы посчитали данную регрессию на Си с двойной точностью и убедились в этом.

На вопрос, можно ли использовать Excel в качестве статистической программы, ответ будет скорее утвердительным, но при условии проверки хотя бы с точки зрения здравого смысла. А компании Microsoft имело бы смысл довести "Пакет анализа", а также другие статистические возможности Excel (линии тренда в Graph, статистические функции рабочего листа) хотя бы до уровня нормальных самоделок, а не только заниматься изысканиями в области пользовательских интерфейсов. Ляпы циркулируют десяток лет из версии в версию, но Microsoft дела до этого, очевидно, нет никакого.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
Игорь
сообщение 13.03.2008 - 14:54
Сообщение #2





Группа: Пользователи
Сообщений: 1141
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(плав @ 13.03.2008 - 13:33) *
Вообще-то неплохо бы описать алгоритмы, которыми считали. Эксель не врет. Он использует не вполне адекватные алгоритмы (которые в случае сложных данных будут давать неправильный результат). Программистских ошибок там нет. В Майкрософте профессиональные программисты (и никакие статистики).

Скажем так, Excel иногда врет. Программистские ошибки там есть. Например, для некоторых наборов данных коэффициент детерминации получается отрицательным! Этот показатель вообще-то меняется от 0 до 1. Чем ближе к 0, тем хуже подгонка кривой. Чем ближе к 1, тем лучше. Ну никак не может он равняться -214! Предвидя вопрос - формула для упомянутого коэффициента есть в Справке Excel.
Цитата(плав @ 13.03.2008 - 13:33) *
Если Вы используете тот же алгоритм, Вы получите данные как и в Экселе, если алгоритм как в Минитабе - получите минитабовские данные. Алгоритмы в Экселе (и в этом их проблема) берутся из книжек, которые были оптимизированы для ручных расчетов в ущерб генерализуемости, посему и проблемы.

Линейная регрессия - она и в Африке регрессия. При чем тут алгоритм? И причем тут ручной или механизированный расчет? Для одинаковых данных результат должен быть одинаковым. На чем, кстати, и базируется доказательство неверности Excel в упомянутом источнике. А получилась неверность Minitab.
Цитата(плав @ 13.03.2008 - 13:33) *
Кроме того, эксель абсолютно не подходит для манипуляции данными. Попробуйте наладить проверку введенных данных в Экселе, расчитать индекс массы тела в базе с 100000 записями при периодически пропущенных весе и росте, а затем сделать факторный анализ и тогда станет понятно, почему эксель нельзя рассматривать как статистическую программу. А расчитывать t-критерий на 20 наблюдениях можно и на калькуляторе (например, в мобильном телефоне).

Как раз для манипуляции данными Excel идеален - ни одна специализированная программа анализа рядом не стояла. Хотя что мы называем манипуляцией данными? Далее. Действительно, в Excel 65536 строк. Это его ограничение. Но обойти можно. Работать с базами данных Excel может. Задача нетривиальная, но решаемая. Храните данные в таблице Access (тоже компонент Office), читайте и обрабатывайте в Excel. Факторный анализ и еще много чего научного Excel также не делает. Это возможно в Excel с помощью надстроек. В свое время время мы делали факторный анализ именно в Excel. Хотя в той надстройке Excel использовался только для ввода и вывода данных. Расчет выполнялся внешними функциями.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 13.03.2008 - 18:29
Сообщение #3





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Игорь @ 13.03.2008 - 14:54) *
Линейная регрессия - она и в Африке регрессия. Для одинаковых данных результат должен быть одинаковым.

Угу и просчитайте факторный анализ методом главных компонент или максимального правдоподобия... И какой из них "правильный"?
А вот попробуйте для бинарной переменной отклика использовать метод наименьших квадратов в регрессии - получите правильные коэффициенты регрессии и неправильные значения ошибки коэффициента. А затем можете использовать метод взвешенной регрессии. И результаты опять в одном случае будут совпадать с MLE, а в некоторых - нет. А MLE всегда "правильная"?

Цитата(Игорь @ 13.03.2008 - 14:54) *
Для одинаковых данных результат должен быть одинаковым. На чем, кстати, и базируется доказательство неверности Excel в упомянутом источнике. А получилась неверность Minitab.

Имеется в виду оценка коэффициентов регрессии или же ошибки коэффициентов регрессии? Вообще при использовании одинаковых данных и одинаковых алгоритмов ее расчета результат также должен быть одинаковый. То, что Вы предполагаете, что программисты, писавшие Minitab сделали ошибку в линейной регрессии и никто до Вас ее не заметил - извините, верится с трудом. Скорее всего проблема в данных и два алгоритма обрабатывают эти данные по разному. Так что на вопрос об алгоритме Вы не ответили. Что же касается
"ошибки" в коэффициенте детерминации. Ошибка означает неправильно введенные формулы. Если же в большинстве случаев результат правильный, а в крайних - нет, значит, неправильно выбран алгоритм. Если же предполагается, что краевые условия не проверили, а если бы проверили, то все было бы в шоколаде, то это неправильный алгоритм с методами сокрытия его неправильности.

Цитата(Игорь @ 13.03.2008 - 14:54) *
Как раз для манипуляции данными Excel идеален - ни одна специализированная программа анализа рядом не стояла. Хотя что мы называем манипуляцией данными? Далее. Действительно, в Excel 65536 строк. Это его ограничение. Но обойти можно. Работать с базами данных Excel может. Задача нетривиальная, но решаемая. Храните данные в таблице Access (тоже компонент Office), читайте и обрабатывайте в Excel. Факторный анализ и еще много чего научного Excel также не делает. Это возможно в Excel с помощью надстроек. В свое время время мы делали факторный анализ именно в Excel. Хотя в той надстройке Excel использовался только для ввода и вывода данных. Расчет выполнялся внешними функциями.

Это теория, а Вы когда-нибудь реально тысячи наблюдений в Эксель вводили? С десятком переменных? Когда в Экселе каждая последующая ячейка может иметь иной тип, нежели вверху (вариант невозможный в БД), т.е. вероятность ошибки возрастает стократ. И еще эти данные вводятся в десяти разных городах? Я-то вообщем-то насмотрелся на результаты использования Экселя в качестве программы для сбора данных - последние десять лет аспиранты именно в нем приносят результаты, поскольку те, кто пишут книги по статистической обработке никогда сами реально большие массивы данных не заносили и с ними не работали. Проблем с типами данных и ошибками - море, а все можно было бы избежать если бы с самого начала взяли вообще бесплатную Эпидату и там сделали базу данных.
Что же касается возражения, что есть надстройки, ну так давайте вообще напишем внешнюю программу каждый аспирант для своей диссертации будет это делать (писать программу).
Вопрос о распространенности Экселя тоже двоякий - распространен он ворованный, а вот если потребуют покупать офис (весь, с акссессом), то тут еще неизвестно что начнется. А вот пакет R абсолютно бесплатный, так почему его не рекомендовать? И алгоритмы проверены. Потому что преподавателям его учить лень?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему