Прежде чем определяться с минимальным размером выборки рассмотрим три типа даных, которые и определяют этот размер.
Статистические модели
В данной таблице представлены основные статистические модели для различных типов данныхОписание | Количественные данные (непрерывные данные) | Количественные данные (дискретные) | Качественные данные |
Релевантная статистическая модель обычно (функция в R)... | Нормальное распределение (pnorm) | Распределение Пуассона (ppois) | Биноминальное распределение (pbinom) |
Когда можно применять эту статистическую модель? | Не всегда, валидность модели необходимо проверять | Пуассоновскую модель можно применять если процесс управляемый | Биноминальную модель можно применять если процесс управляемый |
Обычная статистика | Среднее (mean) Стандартное отклонение (sd) | Число дефектов на единицу | Пропорция (процент) |
Полезные графики | Гистограмма (hist) График временного ряда | Гистограмма (hist) График временного ряда | Столбиковая(полосовая) диаграмма Диаграмма Парето График временного ряда |
Количественные данные (непрерывные данные)
Для того, чтобы определить размер выборки нужно
- Определить стандартное отклонение процесса (S)
- Определить требуемую точность (P)
- Рассчитать минимальный размер выборки (MSS) по формуле:
\[\text{MSS}=((2*S)/P)^2\]
Пример: собираем данные по времени оплаты наших счетов. Обычно, оплата происходит в диапазоне 10-30 дней, отсюда стандартное отклонение равно 4 дня. Желательная точность ±2 дня. Отсюда, чтобы определить среднее время достаточно ((2*4)/2)2.
Качественные данные
Для того, чтобы определить размер выборки нужно:
- Определить ожидаемую пропорцию для процесса (p)
- Определить требуемую точность (d)
- Рассчитать минимальный размер выборки (MSS) по формуле:
\[\text{MSS}=((2/d)^2p(1-p)\]
Пример: собираем данные по удовлетворенности клиентов (ответ да/нет). Данных о пропорции нет, берем максимум 0.5, желаемая точность 5% — 0.05. Получаем (2/0.05)2*0.5*(1-0.5)=400
Частота выборки данных для процесса
В случае выборки данных для циклических процессов частота выборки должна быть не менее четырех раз за предполагаемый цикл.
Необходимые пояснения
Минимальный размер выборки он действительно является минимальным, от этого надо отталкиваться как от базы в исследованиях. В обязательном порядке проверяйте полученный доверительный интервал, особенно для стратифицированных данных.
Откуда взялись эти формулы, спросит меня любопытный читатель. Рассмотрим нормальное распределение. Стандартная ошибка для генеральной совокупности равна:
\[\sigma_\bar{x}\ = \frac{\sigma}{\sqrt{n}}\]
Стандартная ошибка выборочного среднего равна
\[\text{SE}_\bar{x}=\text{s}_\bar{x}\ = \frac{s}{\sqrt{n}}\]
где \(\sigma\) — стандартное отклонение генеральной совокупности, s — выборочное стандартное отклонение, n — число измерений. О том, чем отличаются эти статистики рекомендую посмотреть вот тут. Для 95% доверительного интервала ( что достаточно в большинстве случаев), имеем
\[\text{CI} = \bar{x} \pm \Phi ^{-1}(1- \varepsilon /2)(\text{SE}) = \bar{x} \pm 1.96\text{SE} \]
Где \(\Phi(x)\) — функция стандартного нормального распределения, \(\Phi^{-1}(x)\) — обратная к функции стандартного нормального распределения (функция квантилей), а 1.96 — квантиль 0.975 стандартного нормального распределения \(\Phi ^{-1}(1- \varepsilon /2)\) при \(\varepsilon=0.05\).
> qnorm(0.975)
[1] 1.959964
В данном случае, отталкиваясь от ожидаемой стандартной ошибки нетрудно рассчитать размер выборки. Получаем формулу приведенную выше. Вместо 1.96 вполне можно использовать 2.
Что же касается второго случая, то 95% доверительный интервал для биноминального распределения равен
\[\text{CI} = \bar{x} \pm \Phi^{-1}(1-\epsilon/2)\sqrt{p(1-p)/n} =\bar{x} \pm 1.96\sqrt{p(1-p)/n} \]
Отсюда без труда выводится вторая формула.
Источник: Brook Q. Lean Six Sigma and Minitab (4th Edition): The Complete Toolbox Guide for Business Improvement 4th Edition (revised) Edition / OPEX Resources. 2014. 314 P.