Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Книга для начинающих изучать статистику используя R
p2004r
сообщение 22.02.2012 - 22:37
Сообщение #1





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



А.Б. Шипунов, E.М. Балдин, П.А. Волкова, А.И. Коробейников, С. А.
Назарова, С.В. Петров, В.Г. Суфиянов. Наглядная статистика. Используем
R! -- М.: ДМК Пресс, 2012. -- 298 с.: ил. -- ISBN 978-5-94074-785-828-1

Книга для начинающих осваивать статистику, и выбравших для этого среду анализа данных R. Весь материал изложен и все примеры в книге выполнены в R.


Книга в каталоге Лабиринта:
http://www.labirint.ru/books/323048/

В магазине самого издательства
http://дмк.рф/katalog/komp_yuternaya/nagly...a_ispol_zuem_r/

Альянс-Книга
http://alians-kniga.ru/shop/UID_1112.html

Озон
http://www.ozon.ru/context/detail/id/7952180/

Код
Глава 1. Что такое данные и зачем их обрабатывать?
1.1. Откуда берутся данные
1.2. Генеральная совокупность и выборка
1.3. Как получать данные
1.4. Что ищут в данных
Глава 2. Как обрабатывать данные
2.1. Неспециализированные программы
2.2. Специализированные статистические программы
2.2.1. Оконно-кнопочные системы
2.2.2. Статистические среды
2.3. Из истории S и R
2.4. Применение, преимущества и недостатки R
2.5. Как скачать и установить R
2.6. Как начать работать в R
2.6.1. Запуск
2.6.2. Первые шаги
2.7. R и работа с данными: вид снаружи
2.7.1. Как загружать данные
2.7.2. Как сохранять результаты
2.7.3. R как калькулятор
2.7.4. Графики
2.7.5. Графические устройства
2.7.6. Графические опции
2.7.7. Интерактивная графика
Глава 3. Типы данных
3.1. Градусы, часы и километры: интервальные данные
3.2. <<Садись, двойка>>: шкальные данные
3.3. Красный, желтый, зеленый: номинальные данные
3.4. Доли, счет и ранги: вторичные данные
3.5. Пропущенные данные
3.6. Выбросы и как их найти
3.7. Меняем данные: основные принципы преобразования
3.8. Матрицы, списки и таблицы данных
3.8.1. Матрицы
3.8.2. Списки
3.8.3. Таблицы данных
Глава 4. Великое в малом: одномерные данные
4.1. Как оценивать общую тенденцию
4.2. Ошибочные данные
4.3. Одномерные статистические тесты
4.4. Как создавать свои функции
4.5. Всегда ли точны проценты
Глава 5. Анализ связей: двумерные данные
5.1. Что такое статистический тест
5.1.1. Статистические гипотезы
5.1.2. Статистические ошибки
5.2. Есть ли различие, или Тестирование двух выборок
5.3. Есть ли соответствие, или Анализ таблиц
5.4. Есть ли взаимосвязь, или Анализ корреляций
5.5. Какая связь, или Регрессионный анализ
5.6. Вероятность успеха, или Логистическая регрессия
5.7. Если выборок больше двух
Глава 6. Анализ структуры: data mining
6.1. Рисуем многомерные данные
6.1.1. Диаграммы рассеяния
6.1.2. Пиктограммы
6.2. Тени многомерных облаков: анализ главных компонент
6.3. Классификация без обучения, или Кластерный анализ
6.4. Классификация с обучением, или Дискриминантный анализ
Глава 7. Узнаем будущее: анализ временных рядов
7.1. Что такое временные ряды
7.2. Тренд и период колебаний
7.3. Построение временного ряда
7.4. Прогноз
Глава 8. Статистическая разведка
8.1. Первичная обработка данных
8.2. Окончательная обработка данных
8.3. Отчет
Приложение А. Пример работы в R
Приложение Б. Графический интерфейс (GUI) для R
Б.1. R Сommander
Б.2. RStudio
Б.3. RKWard
Б.4. Revolution-R
Б.5. JGR
Б.6. Rattle
Б.7. rpanel
Б.8. ESS и другие IDE
Приложение В. Основы программирования в R
В.1. Базовые объекты языка R
В.1.1. Вектор
В.1.2. Список
В.1.3. Матрица и многомерная матрица
В.1.4. Факторы
В.1.5. Таблица данных
В.1.6. Выражение
В.2. Операторы доступа к данным
В.2.1. Оператор [ с положительным аргументом
В.2.2. Оператор [ с отрицательным аргументом
В.2.3. Оператор [ со строковым аргументом
В.2.4. Оператор [ с логическим аргументом
В.2.5. Оператор $
В.2.6. Оператор [[
В.2.7. Доступ к табличным данным
В.2.8. Пустые индексы
В.3. Функции и аргументы
В.4. Циклы и условные операторы
В.5. R как СУБД
В.6. Правила переписывания. Векторизация
В.7. Отладка
В.8. Элементы объектно-ориентированного программирования в R
Приложение Г. Выдержки из документации R
Г.1. Среда R
Г.2. R и S
Г.3. R и статистика
Г.4. Получение помощи
Г.5. Команды R
Г.6. Повтор и коррекция предыдущих команд
Г.7. Сохранение данных и удаление объектов
Г.8. Внешнее произведение двух матриц
Г.9. c()
Г.10. Присоединение
Г.11. scan()
Г.12. R как набор статистических таблиц
Г.13. Область действия
Г.14. Настройка окружения
Г.15. Графические функции
Г.15.1. plot()
Г.15.2. Отображение многомерных данных
Г.15.3. Другие графические функции высокого уровня
Г.15.4. Параметры функций высокого уровня
Г.15.5. Низкоуровневые графические команды
Г.15.6. Математические формулы
Г.15.7. Интерактивная графика
Г.15.8. par()
Г.15.9. Список графических параметров
Г.15.10. Края рисунка
Г.15.11. Составные изображения
Г.15.12. Устройства вывода
Г.15.13. Несколько устройств вывода одновременно
Г.16. Пакеты
Г.16.1. Стандартные и сторонние пакеты
Г.16.2. Пространство имен пакета
Приложение Д. Краткий словарь языка R
Приложение Е. Краткий словарь терминов
Литература
Об авторах



Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 14.03.2012 - 12:46
Сообщение #2





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Позавчера забрал с почты от ozon'a. Начал читать, пока всё нравится. Единственные 2 принципиальные вещи, которые меня не устраивают во многих руководствах и в этом тоже, это 1) смешивание задач выборочных сравнений для 2 и более 2 групп и 2) смешивание задач поиска связей (ассоциация, корреляция) и поиска зависимостей (регрессия). Особенно для новичков в статистике эти задачи нужно как можно чётче разграничивать, т.к несмотря на близость математического аппарата между ними существует колоссальная принципиальная разница. Сама книга написана хорошим, живым языком. Удачные наборы примеров. Также порадовал шрифт: он несколько мелковат и книгу можно больше читать, а не больше листать, как часто приходится. И бумага хорошая. У меня не было опыта написания публикаций, где соавторы из более чем 3 мест одновремнно, а здесь аж 7 человек удалось как-то объединить. Короче, авторам большая благодарность, будем осваивать!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
TheThing
сообщение 15.03.2012 - 18:02
Сообщение #3





Группа: Пользователи
Сообщений: 116
Регистрация: 20.02.2011
Пользователь №: 23251



Также решил приобрести книгу несколько дней назад, хотя в языке R более-менее разбираюсь. В большей мере меня интересовал перевод терминов, подача материала и все таки, это ведь одна из первых русскоязычных книг по среде программирования R, поэтому хотелось поддержать авторов за проделанную хорошую работу smile.gif В целом книга понравилась, читается на одном дыхании, большое количество примеров и задач для самостоятельно выполнения (с ответами в конце главы). Перед авторами стала нелегкая задача - в одной книге совместить изучение языка программирования, а также дать основные сведения по статистике. Конечно, на 300 страницах книги это сделать очень тяжело..но, к примеру, одна из моих любимых книг "The R book" хоть и располагается на 900 страницах, но информации там больше в десятки раз, если не в сотни..

Полностью соглашусь с замечаниями, которые упомянул nokh. Также на протяжении всей книги мне резало глаз, что авторы постоянно употребляют выражение "если значение p > 0.05, значит мы принимаем нулевую гипотезу". Нулевая гипотеза не принимается, а говорится, что у нас недостаточно доказательств, чтобы ее отвергнуть/отклонить. Это принципиально разные вещи ибо "Absence of evidence is not evidence of absence" и о неправильной трактовке статистически незначимых результатов можно прочитать например здесь: http://www.bmj.com/content/311/7003/485.full Хорошая цитата Tukey (1991): "Its foolish to ask - are the effects A and B different? They are always different - for some decimal place". Еще один мэтр статистики Cohen пишет: "It can only be true in the bowels of a computer processor running a Monte Carlo study (and even then a stray electron may make it (null hypothesis) false). If it is false, even to a tiny degree, it must be the case that a large enough sample will produce a significant result and lead to its rejection. So if the null hypothesys is always false, what the big deal about rejecting it?". Этот вопрос поднимает проблему NHST (Null Hypothesys Significance Testing) в целом.

Благодарность авторам за проделанный труд!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Вале а
сообщение 16.03.2012 - 16:47
Сообщение #4





Группа: Пользователи
Сообщений: 33
Регистрация: 9.01.2012
Пользователь №: 23408



Цитата(TheThing @ 15.03.2012 - 19:02) *
Также на протяжении всей книги мне резало глаз, что авторы постоянно употребляют выражение "если значение p > 0.05, значит мы принимаем нулевую гипотезу". Нулевая гипотеза не принимается, а говорится, что у нас недостаточно доказательств, чтобы ее отвергнуть/отклонить. Это принципиально разные вещи ибо "Absence of evidence is not evidence of absence" и о неправильной трактовке статистически незначимых результатов можно прочитать например здесь: http://www.bmj.com/content/311/7003/485.full Хорошая цитата Tukey (1991): "Its foolish to ask - are the effects A and B different? They are always different - for some decimal place". Еще один мэтр статистики Cohen пишет: "It can only be true in the bowels of a computer processor running a Monte Carlo study (and even then a stray electron may make it (null hypothesis) false). If it is false, even to a tiny degree, it must be the case that a large enough sample will produce a significant result and lead to its rejection. So if the null hypothesys is always false, what the big deal about rejecting it?". Этот вопрос поднимает проблему NHST (Null Hypothesys Significance Testing) в целом.


Хорошо. А как быть с такой ситуаций. Калибровочный тест Хосмера-Лемешева проверяет нулевую гипотезу о том, что нет различий между наблюдаемыми и ожидаемыми вероятностями интересующего события (например, дефолта). Значение статистики Хосмера?Лемешева не должно быть меньше уровня значимости 0.05. В моем примере оно составляет 0.855. Значит я не могу написать "нулевая гипотеза принимается, можно говорить о высоком качестве модели", нужно писать "нет серьезных оснований отвергнуть нулевую гипотезу"?
может, внести уточнение?

Сообщение отредактировал Вале а - 16.03.2012 - 16:55
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
TheThing
сообщение 16.03.2012 - 17:29
Сообщение #5





Группа: Пользователи
Сообщений: 116
Регистрация: 20.02.2011
Пользователь №: 23251



Цитата(Вале а @ 16.03.2012 - 16:47) *
Хорошо. А как быть с такой ситуаций. Калибровочный тест Хосмера-Лемешева проверяет нулевую гипотезу о том, что нет различий между наблюдаемыми и ожидаемыми вероятностями интересующего события (например, дефолта). Значение статистики Хосмера?Лемешева не должно быть меньше уровня значимости 0.05. В моем примере оно составляет 0.855. Значит я не могу написать "нулевая гипотеза принимается, можно говорить о высоком качестве модели", нужно писать "нет серьезных оснований отвергнуть нулевую гипотезу"?
может, внести уточнение?


Я трактую следующим образом:

р > 0.05 (как в Вашем случае) - при данных условиях эксперимента не удалось обнаружить достаточно доказательств, чтобы отклонить нулевую гипотезу H0. (это не означает, что мы принимает нулевую гипотезу или говорим, что она истинна) - fail to reject null hypothesis

p < 0.05 - в эксперименте удалось собрать достаточно доказательств, чтобы отклонить нулевую гипотезу - reject null hypothesis.

Приведу цитату R. Fisher'a, который, как считают, и придумал p value, хотя скорее всего, придумал его Карл Пирсон для своего хи-квадрата, а Фишер - популяризировал smile.gif

"In relation to any experiment we may speak of..the "null hypothesis" and it should be noted that the null hypothesis should never be proved or established but is possibly disproved in the course of experimentation. Every experiment may be said to exist only in order to give the facts a chance of disproving the null hypothesis".

Кстати, заметил еще одну неточность в книге - авторы считают, что p value - это вероятность ошибки I рода. На самом деле это не так.

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Вале а
сообщение 16.03.2012 - 20:04
Сообщение #6





Группа: Пользователи
Сообщений: 33
Регистрация: 9.01.2012
Пользователь №: 23408



Цитата(TheThing @ 16.03.2012 - 18:29) *
Я трактую следующим образом:

р > 0.05 (как в Вашем случае) - при данных условиях эксперимента не удалось обнаружить достаточно доказательств, чтобы отклонить нулевую гипотезу H0. (это не означает, что мы принимает нулевую гипотезу или говорим, что она истинна) - fail to reject null hypothesis

p < 0.05 - в эксперименте удалось собрать достаточно доказательств, чтобы отклонить нулевую гипотезу - reject null hypothesis.

Приведу цитату R. Fisher'a, который, как считают, и придумал p value, хотя скорее всего, придумал его Карл Пирсон для своего хи-квадрата, а Фишер - популяризировал smile.gif

"In relation to any experiment we may speak of..the "null hypothesis" and it should be noted that the null hypothesis should never be proved or established but is possibly disproved in the course of experimentation. Every experiment may be said to exist only in order to give the facts a chance of disproving the null hypothesis".

Кстати, заметил еще одну неточность в книге - авторы считают, что p value - это вероятность ошибки I рода. На самом деле это не так.

нулевая гипотеза никогда не может быть принята или подтверждена, но лишь, возможно, может быть опровергнута. А можно ссылку на источник для статьи?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
TheThing
сообщение 16.03.2012 - 20:32
Сообщение #7





Группа: Пользователи
Сообщений: 116
Регистрация: 20.02.2011
Пользователь №: 23251



Цитата(Вале а @ 16.03.2012 - 20:04) *
нулевая гипотеза никогда не может быть принята или подтверждена, но лишь, возможно, может быть опровергнута. А можно ссылку на источник для статьи?


Да, конечно.

Вот сам источник: Ronald A. Fisher, The Design of Experiments, 8th ed. (New York: Hafner Publishing Company Inc., 1966), 17.

Внизу прикрепил статью, которая называется: "Why we dont accept the null hypothesis", там довольно подробно это расписано и есть ссылка на Фишера.

Также прикрепил замечательную книгу, некоторые аспекты в ней описаны превосходно, откройте стр. 133, посвященную Hypothsis testing, там эта проблема описывается также. Для статьи лучше наверное указать в качестве первоисточника дедушку Фишера rolleyes.gif


Прикрепленные файлы
Прикрепленный файл  not_accepting_null_hypothesis.pdf ( 150,11 килобайт ) Кол-во скачиваний: 723
Прикрепленный файл  Little_stat_book.pdf ( 1,79 мегабайт ) Кол-во скачиваний: 13992
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
stok1946
сообщение 10.05.2012 - 18:35
Сообщение #8





Группа: Пользователи
Сообщений: 27
Регистрация: 10.05.2012
Пользователь №: 23748



Господи, как много в этой статистике нелепой казуистики.
Следуя обычной элементарной логике, мы имеем альтернативу из двух гипотез (типа двухпозиционного датчика). Отвергая одну из гипотез, мы автоматически принимаем альтернативную гипотезу и наоборот. Так нас учил марксизм: "если ты за красных, значит ты против белых". weep.gif
Но в статистике все с ног на голову: как говорят классики, у нас есть одна единственная возможность - это отвергнуть нулевую гипотезу. Все остальные варианты - сплошная неопределенность, т.к. мы не имеем права принять и Но и Н1, а также отвергнуть Н1.
Все это напоминает схоластические обсуждения работ Ленина совковского периода. А на практике все просто: или эмпирические данные соответствуют нуль-модели, или данные отличаются от нуль-модели.

А что касается R, то в интернете ходят PDF-ные версии таких книжек как:
Буховец и др. СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ В СИСТЕМЕ R
Зарядов ИС Введение в статистический пакет R: типы переменных, структуры данных...
наконец, прекрасно оформленные статьи того же Шипунова и его коллег в 12 номерах электронного журнала Linux Format

Вряд ли новая книжка существенно расширяет то, что есть. Главное - настойчивая практика освоения.
Но появления электронной версии книги буду ждать.

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 13.05.2012 - 00:31
Сообщение #9





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(stok1946 @ 10.05.2012 - 18:35) *
А что касается R, то в интернете ходят PDF-ные версии таких книжек как:
Буховец и др. СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ В СИСТЕМЕ R
Зарядов ИС Введение в статистический пакет R: типы переменных, структуры данных...
наконец, прекрасно оформленные статьи того же Шипунова и его коллег в 12 номерах электронного журнала Linux Format

Вряд ли новая книжка существенно расширяет то, что есть. Главное - настойчивая практика освоения.
Но появления электронной версии книги буду ждать.


LF вполне себе бумажный журнал, а польза практики проистекает чисто из числа встретившихся вариантов употребления... и самотужно (без использования чужого опыта) тут на практике очень быстро наступает предел smile.gif


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему