Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Microsoft Excel как программа, по прикладной статистике
Игорь
сообщение 13.03.2008 - 10:57
Сообщение #1





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Денег у ученого народа мало. На приличные (а приличные ли? См. далее) фирменные пакеты явно недостаточно. С другой стороны, в институтах и других конторах, как правило, куплена корпоративная лицензия на Microsoft Office, в который как раз и входят электронные таблицы Microsoft Excel, позиционирующиеся и разработчиком, и многими отечественными и зарубежными авторами в качестве средства [в то числе и] для статистического анализа данных. Одновременно не утихают споры о том, правильно считает Excel статистику, а ряд авторов на данной животрепещущей теме (поиске чужих ошибок) даже сделали себе имя (McCullough, Knusel).

nokh в одной из тем данного форума дал интересную ссылку, материалами которой мы и воспользовались. Пришли, однако, к выводу противоположному тому, что сделал автор материалов по данной ссылке.

Вот ссылка на Jeffrey Simonoff (2002) http://pages.stern.nyu.edu/~jsimonof/class...df/excelreg.pdf, в которой Excel разоблачается, причем сделано это путем сравнения с Minitab. В Minitab строится линейная регрессия для достаточно сложных данных, результат принимается за истину. Затем показано, что Excel врет. Почему врет? Всего лишь потому, что результаты отличаются от Minitab! Анализ показал, что Excel врет не сильно, за исключением коэффициентов детерминации, которые в Excel очень часто считаются просто неверно. А вот регрессия похожа на истину, а врет Minitab. Мы посчитали данную регрессию на Си с двойной точностью и убедились в этом.

На вопрос, можно ли использовать Excel в качестве статистической программы, ответ будет скорее утвердительным, но при условии проверки хотя бы с точки зрения здравого смысла. А компании Microsoft имело бы смысл довести "Пакет анализа", а также другие статистические возможности Excel (линии тренда в Graph, статистические функции рабочего листа) хотя бы до уровня нормальных самоделок, а не только заниматься изысканиями в области пользовательских интерфейсов. Ляпы циркулируют десяток лет из версии в версию, но Microsoft дела до этого, очевидно, нет никакого.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 13.03.2008 - 13:33
Сообщение #2





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Вообще-то неплохо бы описать алгоритмы, которыми считали. Эксель не врет. Он использует не вполне адекватные алгоритмы (которые в случае сложных данных будут давать неправильный результат). Программистских ошибок там нет. В Майкрософте профессиональные программисты (и никакие статистики). Если Вы используете тот же алгоритм, Вы получите данные как и в Экселе, если алгоритм как в Минитабе - получите минитабовские данные. Алгоритмы в Экселе (и в этом их проблема) берутся из книжек, которые были оптимизированы для ручных расчетов в ущерб генерализуемости, посему и проблемы.
Кроме того, эксель абсолютно не подходит для манипуляции данными. Попробуйте наладить проверку введенных данных в Экселе, расчитать индекс массы тела в базе с 100000 записями при периодически пропущенных весе и росте, а затем сделать факторный анализ и тогда станет понятно, почему эксель нельзя рассматривать как статистическую программу. А расчитывать t-критерий на 20 наблюдениях можно и на калькуляторе (например, в мобильном телефоне).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 13.03.2008 - 14:54
Сообщение #3





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(плав @ 13.03.2008 - 13:33) *
Вообще-то неплохо бы описать алгоритмы, которыми считали. Эксель не врет. Он использует не вполне адекватные алгоритмы (которые в случае сложных данных будут давать неправильный результат). Программистских ошибок там нет. В Майкрософте профессиональные программисты (и никакие статистики).

Скажем так, Excel иногда врет. Программистские ошибки там есть. Например, для некоторых наборов данных коэффициент детерминации получается отрицательным! Этот показатель вообще-то меняется от 0 до 1. Чем ближе к 0, тем хуже подгонка кривой. Чем ближе к 1, тем лучше. Ну никак не может он равняться -214! Предвидя вопрос - формула для упомянутого коэффициента есть в Справке Excel.
Цитата(плав @ 13.03.2008 - 13:33) *
Если Вы используете тот же алгоритм, Вы получите данные как и в Экселе, если алгоритм как в Минитабе - получите минитабовские данные. Алгоритмы в Экселе (и в этом их проблема) берутся из книжек, которые были оптимизированы для ручных расчетов в ущерб генерализуемости, посему и проблемы.

Линейная регрессия - она и в Африке регрессия. При чем тут алгоритм? И причем тут ручной или механизированный расчет? Для одинаковых данных результат должен быть одинаковым. На чем, кстати, и базируется доказательство неверности Excel в упомянутом источнике. А получилась неверность Minitab.
Цитата(плав @ 13.03.2008 - 13:33) *
Кроме того, эксель абсолютно не подходит для манипуляции данными. Попробуйте наладить проверку введенных данных в Экселе, расчитать индекс массы тела в базе с 100000 записями при периодически пропущенных весе и росте, а затем сделать факторный анализ и тогда станет понятно, почему эксель нельзя рассматривать как статистическую программу. А расчитывать t-критерий на 20 наблюдениях можно и на калькуляторе (например, в мобильном телефоне).

Как раз для манипуляции данными Excel идеален - ни одна специализированная программа анализа рядом не стояла. Хотя что мы называем манипуляцией данными? Далее. Действительно, в Excel 65536 строк. Это его ограничение. Но обойти можно. Работать с базами данных Excel может. Задача нетривиальная, но решаемая. Храните данные в таблице Access (тоже компонент Office), читайте и обрабатывайте в Excel. Факторный анализ и еще много чего научного Excel также не делает. Это возможно в Excel с помощью надстроек. В свое время время мы делали факторный анализ именно в Excel. Хотя в той надстройке Excel использовался только для ввода и вывода данных. Расчет выполнялся внешними функциями.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 13.03.2008 - 18:29
Сообщение #4





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Игорь @ 13.03.2008 - 14:54) *
Линейная регрессия - она и в Африке регрессия. Для одинаковых данных результат должен быть одинаковым.

Угу и просчитайте факторный анализ методом главных компонент или максимального правдоподобия... И какой из них "правильный"?
А вот попробуйте для бинарной переменной отклика использовать метод наименьших квадратов в регрессии - получите правильные коэффициенты регрессии и неправильные значения ошибки коэффициента. А затем можете использовать метод взвешенной регрессии. И результаты опять в одном случае будут совпадать с MLE, а в некоторых - нет. А MLE всегда "правильная"?

Цитата(Игорь @ 13.03.2008 - 14:54) *
Для одинаковых данных результат должен быть одинаковым. На чем, кстати, и базируется доказательство неверности Excel в упомянутом источнике. А получилась неверность Minitab.

Имеется в виду оценка коэффициентов регрессии или же ошибки коэффициентов регрессии? Вообще при использовании одинаковых данных и одинаковых алгоритмов ее расчета результат также должен быть одинаковый. То, что Вы предполагаете, что программисты, писавшие Minitab сделали ошибку в линейной регрессии и никто до Вас ее не заметил - извините, верится с трудом. Скорее всего проблема в данных и два алгоритма обрабатывают эти данные по разному. Так что на вопрос об алгоритме Вы не ответили. Что же касается
"ошибки" в коэффициенте детерминации. Ошибка означает неправильно введенные формулы. Если же в большинстве случаев результат правильный, а в крайних - нет, значит, неправильно выбран алгоритм. Если же предполагается, что краевые условия не проверили, а если бы проверили, то все было бы в шоколаде, то это неправильный алгоритм с методами сокрытия его неправильности.

Цитата(Игорь @ 13.03.2008 - 14:54) *
Как раз для манипуляции данными Excel идеален - ни одна специализированная программа анализа рядом не стояла. Хотя что мы называем манипуляцией данными? Далее. Действительно, в Excel 65536 строк. Это его ограничение. Но обойти можно. Работать с базами данных Excel может. Задача нетривиальная, но решаемая. Храните данные в таблице Access (тоже компонент Office), читайте и обрабатывайте в Excel. Факторный анализ и еще много чего научного Excel также не делает. Это возможно в Excel с помощью надстроек. В свое время время мы делали факторный анализ именно в Excel. Хотя в той надстройке Excel использовался только для ввода и вывода данных. Расчет выполнялся внешними функциями.

Это теория, а Вы когда-нибудь реально тысячи наблюдений в Эксель вводили? С десятком переменных? Когда в Экселе каждая последующая ячейка может иметь иной тип, нежели вверху (вариант невозможный в БД), т.е. вероятность ошибки возрастает стократ. И еще эти данные вводятся в десяти разных городах? Я-то вообщем-то насмотрелся на результаты использования Экселя в качестве программы для сбора данных - последние десять лет аспиранты именно в нем приносят результаты, поскольку те, кто пишут книги по статистической обработке никогда сами реально большие массивы данных не заносили и с ними не работали. Проблем с типами данных и ошибками - море, а все можно было бы избежать если бы с самого начала взяли вообще бесплатную Эпидату и там сделали базу данных.
Что же касается возражения, что есть надстройки, ну так давайте вообще напишем внешнюю программу каждый аспирант для своей диссертации будет это делать (писать программу).
Вопрос о распространенности Экселя тоже двоякий - распространен он ворованный, а вот если потребуют покупать офис (весь, с акссессом), то тут еще неизвестно что начнется. А вот пакет R абсолютно бесплатный, так почему его не рекомендовать? И алгоритмы проверены. Потому что преподавателям его учить лень?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 15.05.2008 - 06:41
Сообщение #5





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Ну вот, и хорошая новость на тему Excel-я как базы для статистических вычислений. Появилась бесплатная статистическая надстройка для Excel. Находится по ссылке http://attestatsoft.com. На русском.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 16.05.2008 - 06:09
Сообщение #6





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Замечательно! На русском и с русской помощью (уже автоматически хочется написать "хелпом") - явление редкое, а учитывая бесплатность - уникальное. Большое вам спасибо (насколько понял - ваше детище)! Будем тестировать и внедрять.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 16.05.2008 - 23:52
Сообщение #7





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Игорю, спасибо большое за ссылку на Attestat, информационний анализ впервые вижу на русском языке, со всеми ссылками и формулами, да еще за нулевую цену. Я сама лепила по тем же формулам, очень уж хотелось, мы это обсуждали на этом форуме и Игорь мне тогда помог со ссылками. Жаль что нет сравнения индексов, но есть расчет дисперсии к ним, дальше - уже проще. Спасибо огромное!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Dr. Wit
сообщение 19.05.2008 - 20:07
Сообщение #8





Группа: Пользователи
Сообщений: 20
Регистрация: 19.05.2008
Из: Екатеринбург
Пользователь №: 5042



Спасибо. Очень интересная программа. Но..
Сообщение об ошибке: Справка для этой программы была создана в формате справки Windows, который использовался в предыдущих версиях Windows и не поддерживается в Windows Vista.
Есть способы преодолеть эту проблему (исключая переустановку системы)?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 20.05.2008 - 10:07
Сообщение #9





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Dr. Wit @ 19.05.2008 - 20:07) *
Есть способы преодолеть эту проблему (исключая переустановку системы)?

Переустановка не приведет к появлению в системе программы для чтения Справки в формате HLP, которую компания Microsoft (видимо, для уменьшения объема дистрибутива) решила исключить из поставки Windows Vista.

Однако данную программу можно свободно (после проверки подлинности smile.gif) загрузить с сайта Microsoft, о чем сообщает сама Vista при попытке первого же открытия Справки HLP, предлагая данную программу немедленно загрузить. Мы так и поступили. Все прекрасно читается.

Данная информация приводится разработчиком в разделе "Поддержка".


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Dr. Wit
сообщение 21.05.2008 - 14:23
Сообщение #10





Группа: Пользователи
Сообщений: 20
Регистрация: 19.05.2008
Из: Екатеринбург
Пользователь №: 5042



Неточно выразился. Не переустановкой, конечно, а сменой Vista на XP.
Спасибо за помощь. Подлинность проверили. Хорошо, когда лицензионным продуктом пользуешься. Теперь всё читается.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
GSergey
сообщение 29.05.2008 - 20:52
Сообщение #11





Группа: Пользователи
Сообщений: 1
Регистрация: 29.05.2008
Пользователь №: 5068



Уважаемый Игорь. Извините я не аспирант, а врач-терапевт участковый. Но меня интересует Excel. Недавно случайно нашел файл Формы № 025/у-04, утв. Пр.от 22.11.2004 г. №255. Догадался,что она редактируется в Excel(заполняется). В связи с этим решил облегчить себе задачу автоматического заполнения 1-й (титула) страницы (пока).
Так как списки включают по нескольку сот человек. Получилось частично. Некоторые точки ввода по-видимому требуют скриптов. Если Вас эта тема заинтересовала и Вы можете ответить, буду Вам признателен. Далее естестественно возникает желание статистической обработки данных и др. (но о растущих аппетитах я не буду).
С уважением Сергей.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 30.05.2008 - 18:22
Сообщение #12





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(GSergey @ 29.05.2008 - 20:52) *
Уважаемый Игорь. Извините я не аспирант, а врач-терапевт участковый. Но меня интересует Excel. Недавно случайно нашел файл Формы № 025/у-04, утв. Пр.от 22.11.2004 г. №255. Догадался,что она редактируется в Excel(заполняется). В связи с этим решил облегчить себе задачу автоматического заполнения 1-й (титула) страницы (пока).
Так как списки включают по нескольку сот человек. Получилось частично. Некоторые точки ввода по-видимому требуют скриптов. Если Вас эта тема заинтересовала и Вы можете ответить, буду Вам признателен. Далее естестественно возникает желание статистической обработки данных и др. (но о растущих аппетитах я не буду).
С уважением Сергей.

Мы несколько отдалились от статистики. Если интересует мое личное мнение, меня Excel в плане данного раздела форума интересует лишь как удобное средство ввода и вывода данных. Разработка в Excel обычно обсуждается в форумах программистов, которые знают о программировании гораздо больше. Также, помнится, видел толковый раздел о программировании в Excel на сайте http://forum.orlovs.pp.ru.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему