5.2. Оценка генеральной совокупности по выборке

Выявить ошибки репрезентативности можно, сравнив значения определенного параметра в выборочной и в генеральной совокупностях. Разность значений этого параметра может характеризовать величину ошибки, но эти значения весьма условны, неточны, а истинные значения параметров генеральной совокупности исследователю неизвестны, в противном случае отпала бы необходимость в выборочных исследованиях. Для более строгой оценки значений параметра необходимы процедуры перехода от данных выборочной к данным генеральной совокупности.

Способы оценки параметров генеральной совокупности на основе выборочных данных:

1 Точечная оценка – мода, медиана, среднее арифметическое, дисперсия, выраженные одним числом, рассматриваются как оценки соответствующих генеральных параметров.

2 Интервальные оценки. Случай, когда вместо точечной оценки находится некоторый интервал значений, одна из точек которого и является величиной искомого параметра.

3 Проверка статистических гипотез.

Для оценки параметров генеральной совокупности введем понятие нормального распределения, которое наблюдается в тех случаях, когда на величину признака действует множество случайных независимых факторов, каждый из которых играет в общей сумме примерно одинаковую роль. Приведем формулу нормального распределения

где 

Здесь s — стандартное отклонение; e — основание натурального логарифма; p — 3,14…; m  — среднее значение (математическое ожидание). 

Разброс значений признака происходит вокруг его среднего значения. Смысл нормального распределения заключается в следующем: чем больше отличается значение случайной величины признака от его среднего значения, тем реже признак принимает такое значение. Если изменять значение средней величины, то кривая будет (как целое) смещаться: самая высокая ее точка всегда расположена над точкой m. Кривая распределения смещается в зависимости от различных значений m. Величина s характеризует ширину кривой: чем больше стандартное отклонение, тем кривая шире и расплывчатее  и соответственно ниже, ибо площадь под всей кривой всегда равна единице. При малом отклонении кривая представляет собой очень узкий и высокий пик. Следовательно, разброс значений величины признака от среднего значения встречается редко. Нормальное распределение полностью задается с помощью этих двух величин.         

Для нормального распределения характерны следующие соотношения: 68 % наблюдений заключены в пределах  ±1 стандартного отклонения от средней величины, т.е. при повторении выборок в 68 % случаев среднее значение признака находилось бы в интервале от  m — ( s/  √n  )    до  m + ( s/ √n );   95 % наблюдений заключены в пределах   ± 2 стандартного отклонения от средней величины; 99,7 % наблюдений заключены в пределах   ± 3 стандартного отклонения от средней величины.       

Предположим, что мы имеем некоторую совокупность со средним и стандартным отклонением  s . Заметим, что в научной литературе широко распространено соглашение, согласно которому характеристики генеральной совокупности называются параметрами и обозначаются греческими буквами, а характеристики выборочной совокупности называются статистиками и обозначаются  латинскими буквами.

Из этой генеральной совокупности мы извлекаем одну за другой ряд случайных выборок. Подсчитав для каждой, например, среднее арифметическое, мы обнаружим, что значения их несколько отличаются друг от друга. Однако существует надежное теоретическое обоснование того, что распределение средних значений всех возможных случайных выборок из исходной совокупности обладает следующими особенностями:

1) его средняя равна средней для исходной совокупности (m);

2) стандартное отклонение равно     s/ √n;

3) распределение подчиняется нормальному закону, за исключением случая, когда объем выборки невелик.

Подобные рассуждения справедливы и для других параметров. Опираясь на эти установленные особенности, можно выделить критерии наилучшей оценки параметров генеральной совокупности по выборке. Качество оценок  определяется по следующим свойствам: несмещенность, состоятельность, эффективность. Статистика выборки называется  несмещенной, если при любом объеме выборки среднее выборочное распределение статистики равно величине оцениваемого параметра. Статистика выборки называется  состоятельной, если при увеличении объема выборки величина этой статистики приближается к значению оцениваемого параметра. Статистика выборки называется  эффективной, если ее выборочное распределение имеет наименьшую возможную дисперсию (при заданном объеме выборки).