Разведочный анализ данных: квартет Энскомба

В литературе по статистике можно найти немало рекомендаций по выполнению разведочного анализа данных (РДА). В 2010 году в журнале Methods in Ecology and Evolution была опубликована статья Зюра (A. Zuur), Йено (E. Ieno) и Элфика (С. Elphick) в которой все эти рекомендации сведены в единый протокол по выполнению РДА [1] . Несмотря на то, что статья написана для биологов, изложенные в ней принципы, безусловно, верны и в отношении других научных дисциплин. Предлагаемый протокол включает следующие основные элементы:

1) Формулировка исследовательской гипотезы. Выполнение экспериментов или наблюдений для сбора данных.

2) Разведочный анализ данных:

  • Выявление значений-промахов
  • Проверка однородности дисперсий
  • Проверка нормальности распределения данных
  • Выявление избыточного количества нулевых значений
  • Выявление коллинеарных переменных
  • Выявление характера связи между анализируемыми переменными
  • Выявление взаимодействий между переменными-предикторами
  • Выявление пространственно-временных корреляций среди значений зависимой переменной

3) Применение соответствующего ситуации статистического метода (модели).

Авторы статьи отмечают, что РДА наиболее эффективен при использовании разнообразных графических средств, поскольку графики часто позволяют лучше понять структуру и свойства анализируемых данных, чем формальные статистические
тесты [1].

Статья переработана и дополнена. Продолжение про квартет Энскомба см. здесь.

Список источников

  1. Zuur A. F., Ieno E. N., Elphick C. S. A protocol for data exploration to avoid common statistical problems // Methods in Ecology and Evolution. – 2010. – Vol. 1(1). – P. 3–14.