Минимальный размер выборки

Прежде чем определяться с минимальным размером выборки рассмотрим три типа даных, которые и определяют этот размер.

Статистические модели

В данной таблице представлены основные статистические модели для различных типов данных
ОписаниеКоличественные данные (непрерывные данные)Количественные данные (дискретные)Качественные данные
Релевантная статистическая модель обычно (функция в R)...Нормальное распределение
(pnorm)
Распределение Пуассона
(ppois)
Биноминальное распределение (pbinom)
Когда можно применять эту статистическую модель?Не всегда, валидность модели необходимо проверятьПуассоновскую модель можно применять если процесс управляемыйБиноминальную модель можно применять если процесс управляемый
Обычная статистикаСреднее (mean)
Стандартное отклонение (sd)
Число дефектов на единицу Пропорция (процент)
Полезные графикиГистограмма (hist)
График временного ряда
Гистограмма (hist)
График временного ряда
Столбиковая(полосовая) диаграмма
Диаграмма Парето
График временного ряда

Количественные данные (непрерывные данные)

Для того, чтобы определить размер выборки нужно

  • Определить стандартное отклонение процесса (S)
  • Определить требуемую точность (P)
  • Рассчитать минимальный размер выборки (MSS) по формуле:
    \[\text{MSS}=((2*S)/P)^2\]
Если стандартное отклонение процесса неизвестно, то его можно оценить, если взять известный размах данных (разницу между возможным наибольшим и наименьшим значением) и поделить его на пять. Как известно, обычно размах содержит около шести стандартных отклонений, взяв пять мы просто страхуемся от непредвиденных ситуаций

Пример: собираем данные по времени оплаты наших счетов. Обычно, оплата происходит в диапазоне 10-30 дней, отсюда стандартное отклонение равно 4 дня. Желательная точность ±2 дня. Отсюда, чтобы определить среднее время достаточно ((2*4)/2)2.

Качественные данные

Для того, чтобы определить размер выборки нужно:

  • Определить ожидаемую пропорцию для процесса (p)
  • Определить требуемую точность (d)
  • Рассчитать минимальный размер выборки (MSS) по формуле:
    \[\text{MSS}=((2/d)^2p(1-p)\]
Если пропорция неизвестна, то можно взять 0.5 — это даст наибольшее значение для произведения 0.5*(1-0.5) = 0.25

Пример: собираем данные по удовлетворенности клиентов (ответ да/нет).  Данных о пропорции нет, берем максимум 0.5, желаемая точность 5% — 0.05. Получаем (2/0.05)2*0.5*(1-0.5)=400

Частота выборки данных для процесса

В случае выборки данных для циклических процессов частота выборки должна быть не менее четырех раз за предполагаемый цикл.

Необходимые пояснения

Минимальный размер выборки он действительно является минимальным, от этого надо отталкиваться как от базы в исследованиях. В обязательном порядке проверяйте полученный доверительный интервал, особенно для стратифицированных данных.

Откуда взялись эти формулы, спросит меня любопытный читатель. Рассмотрим нормальное распределение. Стандартная ошибка для генеральной совокупности равна:

\[\sigma_\bar{x}\ = \frac{\sigma}{\sqrt{n}}\]

Стандартная ошибка выборочного среднего равна

\[\text{SE}_\bar{x}=\text{s}_\bar{x}\ = \frac{s}{\sqrt{n}}\]

где \(\sigma\) — стандартное отклонение генеральной совокупности, s — выборочное стандартное отклонение, n — число измерений. О том, чем отличаются эти статистики рекомендую посмотреть вот тут.  Для 95% доверительного интервала ( что достаточно в большинстве случаев), имеем

\[\text{CI} = \bar{x}  \pm \Phi ^{-1}(1- \varepsilon /2)(\text{SE}) = \bar{x} \pm 1.96\text{SE} \]

Где \(\Phi(x)\) — функция стандартного нормального распределения, \(\Phi^{-1}(x)\) — обратная к функции стандартного нормального распределения (функция квантилей), а 1.96 — квантиль 0.975 стандартного нормального распределения \(\Phi ^{-1}(1- \varepsilon /2)\) при \(\varepsilon=0.05\).


> qnorm(0.975)
[1] 1.959964

В данном случае, отталкиваясь от ожидаемой стандартной ошибки нетрудно рассчитать размер выборки. Получаем формулу приведенную выше. Вместо 1.96 вполне можно использовать 2.

Что же касается второго случая, то 95% доверительный интервал для биноминального распределения равен
\[\text{CI} = \bar{x}  \pm \Phi^{-1}(1-\epsilon/2)\sqrt{p(1-p)/n} =\bar{x}  \pm 1.96\sqrt{p(1-p)/n} \]

Строго говоря, использование в данном случае квантилей нормального распределения, основанное на центральной предельной теореме, работает при достаточно больших n, когда np>5 и n(p-1)>5. Для малых n существуют другие способы расчета, например, основанные на квантилях биномиального распределения. Подробнее можно посмотреть вот здесь.

Отсюда без труда выводится вторая формула.

Источник: Brook Q. Lean Six Sigma and Minitab (4th Edition): The Complete Toolbox Guide for Business Improvement 4th Edition (revised) Edition / OPEX Resources. 2014. 314 P.