Октябрь 10

Разведочный анализ данных: квартет Энскомба

В литературе по статистике можно найти немало рекомендаций по выполнению разведочного анализа данных (РДА). В 2010 году в журнале Methods in Ecology and Evolution была опубликована статья Зюра (A. Zuur), Йено (E. Ieno) и Элфика (С. Elphick) в которой все эти рекомендации сведены в единый протокол по выполнению РДА [1] . Несмотря на то, что статья написана для биологов, изложенные в ней принципы, безусловно, верны и в отношении других научных дисциплин. Предлагаемый протокол включает следующие основные элементы:

1) Формулировка исследовательской гипотезы. Выполнение экспериментов или наблюдений для сбора данных.

2) Разведочный анализ данных:

  • Выявление значений-промахов
  • Проверка однородности дисперсий
  • Проверка нормальности распределения данных
  • Выявление избыточного количества нулевых значений
  • Выявление коллинеарных переменных
  • Выявление характера связи между анализируемыми переменными
  • Выявление взаимодействий между переменными-предикторами
  • Выявление пространственно-временных корреляций среди значений зависимой переменной

3) Применение соответствующего ситуации статистического метода (модели).

Авторы статьи отмечают, что РДА наиболее эффективен при использовании разнообразных графических средств, поскольку графики часто позволяют лучше понять структуру и свойства анализируемых данных, чем формальные статистические
тесты [1].

Для подтверждения рассмотрим такой курьезный пример, как <«Квартет Энскомба» — специально подобранные в 1973 году данные английским математиком Ф. Дж. Энскомбом для иллюстрации важности применения графиков для статистического анализа и влияния выбросов значений на свойства всего набора данных. Эти данные состоят из четырёх пар \(x\) и \(y\) с практически равным средним значением (\(M[x_i] = 9\), \(M[y_i] = 7.5\)) и дисперсией между соответствующими элементами пар (\(D[x_i] = 11\), \(D[y_i]\approx 4.13\)) , а также равным коэффициентом корреляции (\(cor(x_i,y_i) = 0.816\)). Модель линейной регрессии, построенная методом МНК для всех вариантов описывается уравнением \(y = 3.00 + 0.500x\) [2]. Графики представлены на рисунке ниже , из которого видно, насколько могут различаться данные, описываемые внешне статистически одинаково. Также привожу код для самостоятельных экспериментов.

load(url("https://tushavin.ru/RStudio/Ansc.Rda"))
options(digits=3) # Устанавливаем вывод 3 знаков
apply(Ansc,2,mean) # считаем средние для колонок
##  x1  x2  x3  x4  y1  y2  y3  y4 
## 9.0 9.0 9.0 9.0 7.5 7.5 7.5 7.5
apply(Ansc,2,var) # считаем дисперсию колонок
##    x1    x2    x3    x4    y1    y2    y3    y4 
## 11.00 11.00 11.00 11.00  4.13  4.13  4.12  4.12
attach(Ansc) # Позволяет обращаться к колонкам по названию столбца
# считаем корелляцию между x и y для каждой пары
cat(cor(x1,y1),cor(x2,y2),cor(x3,y3),cor(x3,y3))
## 0.816 0.816 0.816 0.816
lm(y1~x1) # строим линейную модель для первой пары
## 
## Call:
## lm(formula = y1 ~ x1)
## 
## Coefficients:
## (Intercept)           x1  
##         3.0          0.5
# вывод 4 графиков на лист и смещение границ
# настройки сохраняем
oldpar<-par(mfrow=c(2,2),mar=c(4,4,1,1))
plot(y1~x1,xlab="X",ylab="Y",xlim=c(4,19),ylim=c(4,13),pch=19)
abline(a=3,b=0.5)
plot(y2~x2,xlab="X",ylab="Y",xlim=c(4,19),ylim=c(4,13),pch=19)
abline(a=3,b=0.5)
plot(y3~x3,xlab="X",ylab="Y",xlim=c(4,19),ylim=c(4,13),pch=19)
abline(a=3,b=0.5)
plot(y4~x4,xlab="X",ylab="Y",xlim=c(4,19),ylim=c(4,13),pch=19)
abline(a=3,b=0.5)

 

untitled

par(oldpar) # возвращаем сохраненные настройки
options(digits=7) # Значение по умолчанию
detach(Ansc) # Отсоединяем имена таблиц
rm(Ansc) # Удаляем таблицу из памяти```
Надеюсь, что этот пример наглядно продемонстрировал, что бывают ситуации, когда ориентироваться только на цифры нельзя и к статистическим данным не следует подходить формально

Список источников

  1. Zuur A. F., Ieno E. N., Elphick C. S. A protocol for data exploration to avoid common statistical problems // Methods in Ecology and Evolution. – 2010. – Vol. 1(1). – P. 3–14.
  2. Anscombe F. J. Graphs in statistical analysis // The American Statistician. – 1973. – Vol. 27, no. 1. –– P. 17–21. –– URL: http://www.jstor.org/stable/2682899

Метки:

Опубликовано 10.10.2016 Тушавин В.А. в категории "Изучаем R и RStudio