3.3. Выполнение группировки по количественному признаку

При составлении структурных группировок на основе варьирующих количественных признаков необходимо определить количество групп и интервалы группировки.

Интервал – количественное значение, отделяющее одну единицу (группу) от другой, т.е. он очерчивает количественные границы групп.

Группировки с равными интервалами применяются в тех случаях, когда вариация проявляется в сравнительно узких границах и распределение является практически равномерным.

Для группировок с равными интервалами  величина интервала определяется:

,

где x max, x min – наибольшее и наименьшее значение признака, п – число групп.

Количество групп и величина интервала связаны между собой: чем больше образовано групп, тем меньше интервал и наоборот. Количество групп зависит от числа единиц исследуемого объекта и степени колеблемости группировочного признака. При определении числа групп необходимо стремиться к тому, чтобы были учтены особенности изучаемого явления. Поэтому количество групп должно быть оптимальным и при решении вопроса о численности единиц в группах нужно руководствоваться не формальными признаками, а знанием сущности изучаемого явления.

На количество выделяемых групп существенное влияние оказывает степень колеблемости группировочного признака: чем она больше, тем больше следует образовывать групп.

Ориентировочно определить оптимальное количество групп с равными интервалами можно по формуле американского ученого Стерджесса:

n = 1 + 3,322 lg N,

где N – число единиц совокупности.

Эта формула пригодна при условии, что распределение единиц совокупности по данному признаку приближается к нормальному, и при этом применяются равные интервалы в группах. Чтобы получить группы, адекватные действительности, необходимо руководствоваться сущностью изучаемого явления.

Если, например, требуется произвести группировку с равными интервалами по данным об уровне месячной заработной платы работников, которая в 2001 году колебалась в пределах от 6000 до 7500 рублей, при этом необходимо выделить 5 групп, то величина интервала, рублей:

.

Если  в результате деления получится нецелое число, и возникает необходимость в округлении, то округлять нужно, как правило, в большую сторону, а не в меньшую.

Нижняя граница интервала равна минимальному значению признака, верхняя граница интервала равна нижней плюс шаг интервала.

Прибавляя к минимальному значению признака (в данном случае 6000 рублей) найденное значение интервала, получаем верхнюю границу первой группы, рублей:

6300  + 300 = 6300 и т.д.

В результате получим такие группы работников по размеру заработной платы, рублей: 6000-6300; 6300-6600; 6600-6900; 6900-7200; 7200-7500.

В этом распределении имеет место неопределенность: к какой группе отнести работника  с заработной платой 6300 рублей, к первой или второй. Для устранения неопределенности используют принцип единообразия – левое число включает в себя обозначенное значение, а правое – не включает. Значит, работник, получающий 6300 рублей, должен быть отнесен ко второй группе.

Если интервалы открытые, то последнюю группу следует обозначать, например, «7500 и выше» или «свыше 7500». Подобные функции выполняют слова «до», «менее», «более».