Немного о непрерывных распределениях

Рассмотрим различные распределения, о которых мы говорили во время регрессионного анализа, и проведем с ними численные эксперименты с помощью R. Данные материал должен пригодится для дальнейшего понимания.

Дополнительно рассмотрен вопрос проведения теста Колмогорова-Смирнова в R.

Читать далее «Немного о непрерывных распределениях»

RStudio — день второй

Выкладываю протокол занятий. Результаты работы программы можно посмотреть по ссылке. Ниже приводится тест на самопроверку с подробными объяснениями ответов. Предлагаю пройти, раз уж я его не поленился и сделал.

Читать далее «RStudio — день второй»

Разведочный анализ данных: квартет Энскомба

В литературе по статистике можно найти немало рекомендаций по выполнению разведочного анализа данных (РДА). В 2010 году в журнале Methods in Ecology and Evolution была опубликована статья Зюра (A. Zuur), Йено (E. Ieno) и Элфика (С. Elphick) в которой все эти рекомендации сведены в единый протокол по выполнению РДА [1] . Несмотря на то, что статья написана для биологов, изложенные в ней принципы, безусловно, верны и в отношении других научных дисциплин. Предлагаемый протокол включает следующие основные элементы:

1) Формулировка исследовательской гипотезы. Выполнение экспериментов или наблюдений для сбора данных.

2) Разведочный анализ данных:

  • Выявление значений-промахов
  • Проверка однородности дисперсий
  • Проверка нормальности распределения данных
  • Выявление избыточного количества нулевых значений
  • Выявление коллинеарных переменных
  • Выявление характера связи между анализируемыми переменными
  • Выявление взаимодействий между переменными-предикторами
  • Выявление пространственно-временных корреляций среди значений зависимой переменной

3) Применение соответствующего ситуации статистического метода (модели).

Авторы статьи отмечают, что РДА наиболее эффективен при использовании разнообразных графических средств, поскольку графики часто позволяют лучше понять структуру и свойства анализируемых данных, чем формальные статистические
тесты [1].

Статья переработана и дополнена. Продолжение про квартет Энскомба см. здесь.

Список источников

  1. Zuur A. F., Ieno E. N., Elphick C. S. A protocol for data exploration to avoid common statistical problems // Methods in Ecology and Evolution. – 2010. – Vol. 1(1). – P. 3–14.

RStudio — день первый

Как обещал, выкладываю протокол сегодняшних занятий. Результаты работы программы можно посмотреть по ссылке или ниже.

Задание на самопроверку усвоенного.

Установите генератор случайных чисел командой

set.seed(2016)

Сгенерируйте случайную нормально распределенную последовательность с математическим ожиданием 2 и стандартным отклонением 3 из 1000 элементов и сохраните её в векторе x. Сделайте случайную выборку из этого вектора из 100 элементов в вектор y. Определите основные статистики (квартили, среднее), постройте гистограмму.

Ответ для самопроверки

Важно! Цифры должны полностью совпасть

    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
-6.61200 -0.06354  2.42500  1.91500  4.01900  9.90900 

rplot

Если не получилось, попробуйте еще раз. Если совсем запутались — код в конце статьи.

Читать далее «RStudio — день первый»

ПО для курса по обработке данных в R

Необходимо установить следующее ПО

  1. Язык R
  2. RStudio

Рекомендуется устанавливать под Windows не в предложенные папки по умолчанию, а в C:\R и C:\RStudio чтобы потом не было проблем с установкой дополнительных пакетов и обновлений из-за конфликта прав доступа.

Богатая библиотека по R и RStudio на русском для самостоятельного изучения доступна вот тут.

Предварительно для занятий согласована аудитория 54-01 на БМ.

Пожалуйста, не забудьте пройти опрос по способу проведению занятий.