Расчет ошибки репрезентативности и доверительных интервалов при построении моделей.


Простая случайная выборка заключается в отборе единиц из генеральной совокупности в целом, без разделения ее на группы, подгруппы или серии отдельных единиц. При этом единицы отбираются в случайном порядке, не зависящем ни от последовательности расположения единиц в совокупности, ни от значений их признаков.  Прежде чем производить собственно-случайный отбор, необходимо убедиться, что все без исключения единицы генеральной совокупности имеют абсолютно равные шансы попадания в выборку, в списках или перечне отсутствуют пропуски, игнорирования отдельных единиц и т.п.

Упрощенным вариантом метода прямой реализации является отбор единиц в выборочную совокупность на основе таблицы случайных чисел. Для проведения отбора могут быть использованы цифры любого столбца данной таблицы, при этом необходимо учитывать объем генеральной совокупности. 

При проведении бесповторного отбора повторяющиеся номера следует учитывать только один раз. При повторном отборе, если тот или иной номер случайно встретится еще один или более раз, соответствующая этому номеру единица в каждом случае повторно включается в выборочную совокупность.

После проведения отбора с использованием какого-либо алгоритма, реализующего принцип случайности, или на основе таблицы случайных чисел, необходимо определить границы генеральных характеристик. Для этого рассчитываются средняя и предельная ошибки выборки.

Между признаками выборочной совокупности и признаками генеральной совокупности, как правило, существует некоторое расхождение, которое называют ошибкой статистического наблюдения. При массовом наблюдении ошибки неизбежны, но возникают они в результате действия различных причин. Величина возможной ошибки выборочного признака слагается из ошибок регистрации и ошибок репрезентативности. Ошибки регистрации, или технические ошибки, связаны с недостаточной квалификацией наблюдателей, неточностью подсчетов, несовершенством приборов и т. п.

Под ошибкой репрезентативности (представительства) понимают расхождение между выборочной характеристикой и предполагаемой характеристикой генеральной совокупности.

Ошибки репрезентативности бывают случайными и систематическими.

Систематические ошибки связаны с нарушением установленных правил отбора.

Случайные ошибки объясняются недостаточно равномерным представлением в выборочной совокупности различных категорий единиц генеральной совокупности.

В результате первой причины (систематические ошибки) выборка легко может оказаться смещенной, так как при отборе каждой единицы допускается ошибка, всегда направленная в одну и ту же сторону. Эта ошибка получила название ошибки смещения. Ее размер может превышать величину случайной ошибки. Особенность ошибки смещения состоит в том, что, представляя собой постоянную часть ошибки репрезентативности, она увеличивается с увеличением объема выборки. Случайная же ошибка с увеличением объема выборки уменьшается. Кроме того, величину случайной ошибки можно определить, в то время как размер ошибки смещения непосредственно практически определить очень сложно, а иногда и невозможно. Поэтому важно знать причины, вызывающие ошибку смещения, и предусмотреть мероприятия по ее устранению.

   Ошибки смещения бывают преднамеренными и непреднамеренными. Причиной возникновения преднамеренной ошибки является тенденциозный подход к выбору единиц из генеральной совокупности. Чтобы не допустить появления такой ошибки, необходимо соблюдать принцип случайности отбора единиц.

   Непреднамеренные ошибки могут возникать на стадии подготовки выборочного наблюдения, формирования выборочной совокупности и анализа ее данных. Чтобы не допустить появления таких ошибок, необходима хорошая основа выборки, т. е. та генеральная совокупность, из которой предполагается производить отбор, например список единиц отбора. Основа выборки должна быть достоверной, полной и соответствовать цели исследования, а единицы отбора и их характеристики должны соответствовать действительному их состоянию на момент подготовки выборочного наблюдения. Нередки случаи, когда в отношении некоторых единиц, попавших в выборку, трудно собрать сведения из-за их отсутствия на момент наблюдения, нежелания дать сведения и т. п. В таких случаях эти единицы приходится заменять другими. Необходимо следить, чтобы замена осуществлялась равноценными единицами.

   Случайная ошибка выборки возникает в результате случайных различий между единицами, попавшими в выборку, и единицами генеральной совокупности, т. е. она связана со случайным отбором. Теоретическим обоснованием появления случайных ошибок выборки являются теория вероятностей и ее предельные теоремы.

   Сущность предельных теорем состоит в том, что в массовых явлениях совокупное влияние различных случайных причин на формирование закономерностей и обобщающих характеристик будет сколь угодно малой величиной или практически не зависит от случая. Так как случайная ошибка выборки возникает в результате случайных различий между единицами выборочной и генеральной совокупностей, то при достаточно большом объеме выборки она будет сколь угодно мала.

   Предельные теоремы теории вероятностей позволяют определять размер случайных ошибок выборки. Различают среднюю (стандартную) и предельную ошибку выборки. Под средней (стандартной) ошибкой выборки понимают расхождение между средней выборочной и генеральной совокупностей. Предельной ошибкой выборки принято считать максимально возможное расхождение, т. е. максимум ошибки при заданной вероятности ее появления.

   В математической теории выборочного метода сравниваются средние характеристики признаков выборочной и генеральной совокупностей и доказывается, что с увеличением объема выборки вероятность появления больших ошибок и пределы максимально возможной ошибки уменьшаются. Чем больше обследуется единиц, тем меньше будет величина расхождений выборочных и генеральных характеристик. На основании теоремы, доказанной П. Л. Чебышевым, величину средней (стандартной) ошибки повторной простой случайной выборки при достаточно большом объеме выборки (n) можно определить по формуле:

Расчет ошибки репрезентативности и доверительных интервалов при построении моделей.

где Расчет ошибки репрезентативности и доверительных интервалов при построении моделей. - стандартная ошибка.

Из этой формулы средней (стандартной) ошибки повторной простой случайной выборки видно, что величина Расчет ошибки репрезентативности и доверительных интервалов при построении моделей.  зависит от изменчивости признака в генеральной совокупности (чем больше вариация признака, тем больше ошибка выборки) и от объема выборки n чем больше обследуется единиц, тем меньше будет величина расхождений выборочных и генеральных характеристик).

В математической статистике употребляют коэффициент доверия t, и значения функции F(t) табулированы при разных его значениях, при этом получают соответствующие уровни доверительной вероятности.

Коэффициент доверия или коэффициент кратности ошибки репрезентативности, (t-критерий Стьюдента) позволяет вычислить предельную ошибку простой случайной выборки. С учетом выбранного уровня вероятности и соответствующего ему значения t предельная ошибка повторной простой случайной выборки составит:

Расчет ошибки репрезентативности и доверительных интервалов при построении моделей.

Из формулы вытекает, что предельная ошибка выборки равна кратному числу средних ошибок выборки.

Таким образом, величина предельной ошибки выборки может быть установлена с определенной вероятностью.

Выборочное наблюдение дает возможность определить среднюю арифметическую выборочной совокупности Расчет ошибки репрезентативности и доверительных интервалов при построении моделей. и величину предельной ошибки этой средней Расчет ошибки репрезентативности и доверительных интервалов при построении моделей. которая показывает с определенной вероятностью, насколько выборочная может отличаться от генеральной средней в большую или меньшую сторону.

Тогда величина генеральной средней будет представлена интервальной оценкой. Интервал, в который с данной степенью вероятности будет заключена неизвестная величина оцениваемого параметра, называю доверительным, а вероятность Р – доверительной вероятностью. Чаще всего доверительную вероятность принимают равной 0,95 или 0,99. Это означает, что доверительный интервал с заданной вероятностью заключает в себе генеральную среднюю.

Тогда можно утверждать, что при заданной вероятности генеральная средняя будет находиться в следующих границах:

Расчет ошибки репрезентативности и доверительных интервалов при построении моделей.

Чем больше величина средней ошибки выборки, тем больше величина доверительного интервала и тем, следовательно, ниже точность оценки. Средняя (стандартная) ошибка выборки зависит от объема выборки и степени вариации признака в генеральной совокупности.

Пример.

Предположим, в результате выборочного обследования доходов домохозяйств региона, осуществленного на основе собственно-случайной повторной выборки, получен следующий ряд распределения.

Расчет ошибки репрезентативности и доверительных интервалов при построении моделей.

 

Рассмотрим определение границ генеральной средней, в данном примере – среднего дохода домохозяйства в целом по данному региону, опираясь только на результаты выборочного обследования. Для определения средней ошибки выборки нам необходимо прежде всего рассчитать выборочную среднюю величину и дисперсию изучаемого признака.

 

Расчет ошибки репрезентативности и доверительных интервалов при построении моделей.

 

Расчет ошибки репрезентативности и доверительных интервалов при построении моделей.

Средняя ошибка выборки составит:

Расчет ошибки репрезентативности и доверительных интервалов при построении моделей.

Определим предельную ошибку выборки с вероятностью 0,954 (t=2):

Расчет ошибки репрезентативности и доверительных интервалов при построении моделей.

Установим границы генеральной средней (тыс.руб.):

Расчет ошибки репрезентативности и доверительных интервалов при построении моделей. или Расчет ошибки репрезентативности и доверительных интервалов при построении моделей.

Таким образом, на основании проведенного выборочного обследования с вероятностью 0,954 можно заключить, что средний доход домохозяйства  в целом по региону лежит в пределах от 11,3 до 11,9 тыс.руб.

При расчете средней ошибки простой случайной бесповторной выборки необходимо учитывать поправку на бесповторность отбора:

Расчет ошибки репрезентативности и доверительных интервалов при построении моделей.

Если предположить, что представленные в таблице данные являются результатом 5%-ного бесповторного отбора (следовательно, генеральная совокупность включает 22000 домохозяйств), то средняя ошибка выборки будет несколько меньше:

Расчет ошибки репрезентативности и доверительных интервалов при построении моделей.

Соответственно уменьшится и предельная ошибка выборки, что вызовет сужение границ генеральной средней. Особенно ощутимо влияние поправки на бесповторность отбора при относительно большом проценте выборки.

Предыдущие материалы: Следующие материалы: