Разведочный анализ данных: квартет Энскомба

В литературе по статистике можно найти немало рекомендаций по выполнению разведочного анализа данных (РДА). В 2010 году в журнале Methods in Ecology and Evolution была опубликована статья Зюра (A. Zuur), Йено (E. Ieno) и Элфика (С. Elphick) в которой все эти рекомендации сведены в единый протокол по выполнению РДА [1] . Несмотря на то, что статья написана для биологов, изложенные в ней принципы, безусловно, верны и в отношении других научных дисциплин. Предлагаемый протокол включает следующие основные элементы:

1) Формулировка исследовательской гипотезы. Выполнение экспериментов или наблюдений для сбора данных.

2) Разведочный анализ данных:

  • Выявление значений-промахов
  • Проверка однородности дисперсий
  • Проверка нормальности распределения данных
  • Выявление избыточного количества нулевых значений
  • Выявление коллинеарных переменных
  • Выявление характера связи между анализируемыми переменными
  • Выявление взаимодействий между переменными-предикторами
  • Выявление пространственно-временных корреляций среди значений зависимой переменной

3) Применение соответствующего ситуации статистического метода (модели).

Авторы статьи отмечают, что РДА наиболее эффективен при использовании разнообразных графических средств, поскольку графики часто позволяют лучше понять структуру и свойства анализируемых данных, чем формальные статистические
тесты [1].

Статья переработана и дополнена. Продолжение про квартет Энскомба см. здесь.

Список источников

  1. Zuur A. F., Ieno E. N., Elphick C. S. A protocol for data exploration to avoid common statistical problems // Methods in Ecology and Evolution. – 2010. – Vol. 1(1). – P. 3–14.

Магистрантам на заметку

Уважаемые магистранты 2017 и 2018 гг. выпуска. К сожалению, по нормативам число магистрантов на одного преподавателя не рекомендуется более трех. На сегодня у меня уже трое магистрантов, которые будут защищаться в 2017 году, и семь, которые будут защищаться в 2018 году. Естественно, что я всегда готов дать консультацию, если у вас есть какие-то вопросы по написанию работы, но научным руководителем большего числа студентов я уже, увы, быть не могу.

RStudio — день первый

Как обещал, выкладываю протокол сегодняшних занятий. Результаты работы программы можно посмотреть по ссылке или ниже.

Задание на самопроверку усвоенного.

Установите генератор случайных чисел командой

set.seed(2016)

Сгенерируйте случайную нормально распределенную последовательность с математическим ожиданием 2 и стандартным отклонением 3 из 1000 элементов и сохраните её в векторе x. Сделайте случайную выборку из этого вектора из 100 элементов в вектор y. Определите основные статистики (квартили, среднее), постройте гистограмму.

Ответ для самопроверки

Важно! Цифры должны полностью совпасть

    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
-6.61200 -0.06354  2.42500  1.91500  4.01900  9.90900 

rplot

Если не получилось, попробуйте еще раз. Если совсем запутались — код в конце статьи.

Читать далее «RStudio — день первый»