Группировка данных и построение ряда распределения. Статистическая сводка и группировка

При большом числе наблюдений (порядка сотен) простая статистическая совокупность перестает быть удобной формой записи статистического материала - она становится слишком громоздкой и мало наглядной. Для придания ему большей компактности и наглядности статистический материал должен быть подвергнут дополнительной обработке - строится так называемый «статистический ряд».

Предположим, что в нашем распоряжении результаты наблюдений над непрерывной случайной величиной , оформленные в виде простой статистической совокупности. Разделим весь диапазон наблюденных значений на интервалы или «разряды» и подсчитаем количество значений , приходящееся на каждый -й разряд. Это число разделим на общее число наблюдений и найдем частоту, соответствующую данному разряду:

Сумма частот всех разрядов, очевидно, должна быть равна единице.

Построим таблицу, в которой приведены разряды в порядке их расположения вдоль оси абсцисс и соответствующие частоты. Эта таблица называется статистическим рядом:

Здесь -обозначение -го разряда - его границы; - соответствующая частота; - число разрядов.

Пример 1. Произведено 500 измерений боковой ошибки наводки при стрельбе с самолета по наземной цели. Результаты измерений (в тысячных долях радиана) сведены в статистический ряд:

Здесь обозначены интервалы значений ошибки наводки; - число наблюдений в данном интервале, - соответствующие частоты.

При группировке наблюденных значений случайной величины по разрядам возникает вопрос о том, к какому разряду отнести значение, находящееся в точности на границе двух разрядов. В этих случаях можно рекомендовать (чисто условно) считать данное значение принадлежащим в равной мере к обоим разрядам и прибавлять к числам , того и другого разряда по .

Число разрядов, на которые, следует группировать статистический материал, не должно быть слишком большим (тогда ряд распределения становится невыразительным, и частоты в нем обнаруживают незакономерные колебания); с другой стороны, оно не должно быть слишком малым (при малом числе разрядов свойства распределения описываются статистическим рядом слишком грубо). Практика показывает, что в большинстве случаев рационально выбирать число разрядов порядка 10 – 20. Чем богаче и однороднее статистический материал, тем большее число разрядов можно выбирать при составлении статистического ряда. Длины разрядов могут быть как одинаковыми, так и различными. Проще, разумеется, брать их одинаковыми. Однако при оформлении данных о случайных величинах , распределенных крайне неравномерно, иногда бывает удобно выбирать в области наибольшей плотности распределения разряды более узкие, чем в области малой плотности.

Статистический ряд часто оформляется графически в виде так называемой гистограммы. Гистограмма строится следующим образом. По оси абсцисс откладываются разряды, и на каждом из разрядов как их основании строится прямоугольник, площадь которого равна частоте данного разряда. Для построения гистограммы нужно частоту каждого разряда разделить на его длину и полученное число взять в качестве высоты прямоугольника. В случае равных по длине разрядов высоты прямоугольников пропорциональны соответствующим частотам. Из способа построения гистограммы следует, что полная площадь ее равна единице.

В качестве примера можно привести гистограмму для ошибки наводки, построенную по данным статистического ряда, рассмотренного в примере 1 (рис. 7.3.1).

Очевидно, при увеличении числа опытов можно выбирать все более и более мелкие разряды; при этом гистограмма будет все более приближаться к некоторой кривой, ограничивающей площадь, равную единице. Нетрудно убедиться, что эта кривая представляет собой график плотности распределения величины .

Пользуясь данными статистического ряда, можно приближенно построить и статистическую функцию распределения величины . Построение точной статистической функции распределения с несколькими сотнями скачков во всех наблюденных значениях слишком трудоемко и себя не оправдывает. Для практики обычно достаточно построить статистическую функцию распределения по нескольким точкам. В качестве этих точек удобно взять границы разрядов, которые фигурируют в статистическом ряде. Тогда, очевидно,

(7.3.2)

Соединяя полученные точки ломанной линией или плавной кривой, получим приближенный график статистической функции распределения.

Пример 2. Построить приближенно статистическую функцию распределения ошибки наводки по данным статистического ряда примера 1.

Статистический ряд распределения - упорядоченное распределение единиц совокупности на группы по определенному признаку. Он характеризует состав (структуру) изучаемого явления, позволяет судить об однородности совокупности, закономерности распределения и границах варьирования единиц совокупности.

Ряды распределения, построенные по атрибутивным (качественным) признакам, называются атрибутивными (распределение населения по полу, занятости, национальности, профессии и т.д.).

Ряды распределения, построенные по количественному признаку, называются вариационными (распределение населения по возрасту, рабочих – по стажу работы, зарплате и т.д.). Вариационные ряды распределения состоят из двух элементов: вариантов и частот. Варианты – отдельные значения признака, которые он принимает в ряду. Частоты – это численность отдельных вариантов или каждой группы вариационного ряда, т.е. это числа, показывающие, как часто встречаются те или иные варианты в ряду распределения. Сумма всех частот называется объемом совокупности и определяет число элементов всей совокупности. Частости – это частоты, выраженные в долях единиц или в % к итогу.

Вариационные ряды в зависимости от характера вариации подразделяются на дискретные и интервальные. Дискретные вариационные ряды основаны на дискретных (прерывных) признаках, имеющих только целые значения, на дискретных признаках, представленных в виде интервалов. Интервальные вариационные ряды основаны на непрерывных признаках (имеющих любые значения, даже дробные).

7. Табличное и графическое представление статистических данных.

Результаты сводки и группировки излагаются в виде таблиц. Таблица – рациональная, наглядная и компактная форма стат.материала.

Статистическая таблица – таблица, содержащая результаты подсчета практических данных и является итогом сводки первоначальной информации.

Таблица характеризует совокупность по одному или нескольким признакам, взаимосвязанным логикой.

Статистическая таблица имеет свое подлежащее и сказуемое. Подлежащее – объект, характеризующийся цифрами. Сказуемое таблицы - система показателей.

Таблицы бывают простые и сложные. В простой таблице дается простой перечень объектов. Сложная таблица содержит группировку единиц совокупности одновременно по 2-м и более признакам. Таблица д/б компактной, заголовки краткими, информация в столбцах и графах должна завершаться итоговой строкой. Графы и строки должны иметь единицы измерения, затем необходимо провести четную и логическую проверку таблицы.

Статистический график – чертеж, на котором стат.совокупности, характеризуемые определенными показателями описываются с помощью условных геометрических образов или знаков. При построении графика необходимо соблюдать требования: наглядность, выразительность, понятность. Поле графика – часть плоскости, где расположены графические образы. Виды графиков: линейные, столбиковые, полосовые, круговые, секторные, фигурные, точечные, объемные, применяются диаграммы и стат.карты. Картограмма – схематическая географическая карта, на которой выделены отрасли промышленности или структура состава населения.

В результате обработки и систематизации первичных данных статистического наблюдения получают группировки, называемые рядами распределения.

Статистические ряды распределения представляют собой упорядоченное расположение единиц изучаемой совокупности на группы по группировочному признаку.

Различают атрибутивные и вариационные ряды распределения.

Атрибутивный – это ряд распределения, построенный по качественным признакам. Он характеризует состав совокупности по различным существенным признакам.

По количественному признаку строится вариационный ряд распределения. Он состоит из частоты (численности) отдельных вариантов или каждой группы вариационного ряда. Данные числа показывают, насколько часто встречаются различные варианты (значения признака) в ряду распределения. Сумма всех частот определяет численность всей совокупности.

Численности групп выражаются в абсолютных и относительных величинах. В абсолютных величинах выражается числом единиц совокупности в каждой выделенной группе, а в относительных величинах – в виде долей, удельных весов, представленных в процентах к итогу.

В зависимости от характера вариации признака различают дискретные и интервальные вариационные ряды распределения. В дискретном вариационном ряде распределения группы составлены по признаку, изменяющемуся дискретно и принимающему только целые значения.

В интервальном вариационном ряде распределения группиро–вочный признак, составляющий основание группировки, может принимать в определенном интервале любые значения.

Вариационные ряды состоят из двух элементов: частоты и варианты.

Вариантой называют отдельное значение варьируемого признака, которое он принимает в ряду распределения.

Частота – это численность отдельных вариант или каждой группы вариационного ряда. Если частоты выражены в долях единицы или в процентах к итогу, то их называют частостями.

Правила и принципы построения интервальных рядов распределения строятся по аналогичным правилам и принципам построения статистических группировок. Если интервальный вариационный ряд распределения построен с равными интервалами, частоты позволяют судить о степени заполнения интервала единицами совокупности. Для проведения сравнительного анализа заполненности интервалов определяют показатель, который будет характеризовать плотность распределения.

Плотность распределения – это отношение числа единиц совокупности к ширине интервала.

2. Графическое изображение рядов распределения

Анализ рядов распределения можно проводить на основе их графического изображения . Линейчатые и круговые диаграммы строятся для отображения структуры совокупности.

Применяются вместе с диаграммами и такие линии, как полигон, кумулята, огива, гистограмма. При изображении дискретных вариационных рядов используется полигон.

Полигон – ломаная кривая, строится на основе прямоугольной системы координат, когда по оси Х откладываются значения признака, а по оси У – частоты.

Гладкая кривая, соединяющая точки – это эмпирическая плотность распределения.

Кумулята – ломаная кривая, строящаяся на основе прямоугольной системы координат, когда по оси Х откладываются значения признака, а по оси У – накопленные частоты.

Для дискретных рядов на оси откладываются сами значения признака, а для интервальных – середины интервалов.

На основе гистограмм можно строить диаграммы накопленных частот с последующим построением интегральной эмпирической функции распределения.

3. Статистические таблицы

В виде статистических таблиц оформляются результаты сводки и группировки материалов наблюдения.

Статистическая таблица – это особый способ краткой и наглядной записи сведений об изучаемых общественных явлениях. Статистическая таблица позволяет охватить материалы статистической сводки в целом, она также является системой мыслей об исследуемом объекте, излагаемых цифрами на основе определенного порядка в расположении систематизированной информации.

По внешнему виду статистическая таблица представляет собой ряд пересекающихся горизонтальных и вертикальных линий , образующих по горизонтали строки, а по вертикали – графы (столбцы, колонки), которые в совокупности составляют как бы скелет таблицы.

В образовавшиеся внутри таблицы клетки записывается информация. Составленную таблицу принято называть макетом таблицы, в котором мысленно определяются в деталях цель обследования, объем разработки материалов сводки.

Статистическая таблица имеет свое подлежащее и сказуемое. Подлежащее таблицы показывает, о каком явлении идет речь в таблице, и представляет собой группы и подгруппы, которые характеризуются рядом показателей. Сказуемым таблицы называются числовые показатели, с помощью которых характеризуется объект, т. е. подлежащее таблицы.

Показатели, образующие подлежащее, располагают в левой части таблицы, а показатели, составляющие сказуемое, помещают справа.

Составленная и оформленная статистическая таблица должна иметь общий, боковые и верхние заголовки. Общий заголовок обычно располагается над таблицей и выражает ее основное содержание. Помещенные слева боковые заголовки раскрывают содержание строк подлежащего, а верхние – вертикальных граф (сказуемого таблицы),

В коммерческой деятельности разрабатываются и составляются различные статистические таблицы, которые в зависимости от построения подлежащего делятся на три вида: перечневые, групповые и комбинационные.

Простые таблицы не содержат в подлежащем систематизации изучаемых единиц статистической совокупности.

По характеру представляемого материала эти таблицы бывают собственно перечневые, территориальные и хронологические.

Простая таблица в подлежащем содержит перечисление единиц изучаемой совокупности.

Сведения простой таблицы применяют и для оценки изменения какого–либо явления во времени. Хронологическую таблицу можно составлять за любые по величине отрезки времени или на моменты, отстоящие друг от друга по времени на различную длину Таблицы, в подлежащем которых приводится перечень территорий (районов, областей и т. п.), называются перечневыми территориальными.

Групповые статистические таблицы дают более информативный материал для анализа изучаемых явлений благодаря образованным в их подлежащем группам по существенному признаку или выявлению связи между рядом показателей.

Комбинационными называют статистические таблицы, которые имеют в подлежащем группировку по двум или более группи–ровочным признакам, связанным между собой.

С помощью групповых и комбинационных таблиц можно изучать состав явлений, а также связь и зависимость числовых показателей сказуемого от группировочных признаков подлежащего.

Комбинационная таблица устанавливает взаимное действие на результативные признаки (показатели) и существующую связь между факторами группировки.

Одними из ответственных моментов построения статистических таблиц являются разработка сказуемого, определение его содержания, правильное установление связи между группировоч–ными признаками и показателями, их характеризующими.

Сказуемое, находясь во взаимосвязи с подлежащим таблицы должно быть построено так, чтобы с помощью системы его показателей можно было получить полную характеристику выделенных групп, охватить их существенные черты.

Сказуемое статистических таблиц бывает простым и сложным. При простой разработке показатели сказуемого располагаются последовательно один за другим. Распределяя показатели на группы по одному или нескольким признакам в определенном сочетании, получают сложное сказуемое.

4. Основные правила составления таблиц

Таблица должна быть составлена компактно, т. е. быть небольшой по размеру и легко обозримой.

Общий заголовок таблицы должен кратко выражать ее основное содержание. В нем стараются указать время, территорию, к которым относятся данные, единицы измерения, если они выступают едиными для всей совокупности.

Строки подлежащего и графы сказуемого располагают в виде частных слагаемых с последующим подытоживанием по каждому из них.

Для удобства анализа таблицы при большом числе строк подлежащего и граф сказуемого возникает потребность в нумерации тех из них, которые заполняются данными.

При заполнении таблиц нужно использовать следующие условные обозначения : при отсутствии явления пишется (-) прочерк, если нет информации о явлении, ставится многоточие (…) или пишется: «нет сведений».

Одинаковая степень точности, обязательная для всех чисел, обеспечивается соблюдением правил их округления (от 0,1 до 0,01 и т. д.). Когда одна величина превосходит другую многократно, полученные показатели динамики лучше выражать не в процентах (%), а в разах.

Если в таблице с отчетными данными приводятся сведения расчетного порядка, то нужно сделать соответствующую оговорку.

Графы и строки должны содержать единицы измерения, соответствующие поставленным в подлежащем и сказуемом показателям. При этом используются общепринятые сокращения единиц измерения, например: чел., руб. и т. д. Если графы имеют единую единицу измерения, то она выносится в заголовок таблицы.

Для удобной работы с цифровым материалом числа в таблицах следует расставлять в середине граф, одно под другим: единицы под единицами, запятая под запятой и т. д., четко соблюдая при этом их разрядность.

В таблицу можно включать примечания, в которых будут указываться источники данных, более подробное содержание показателей и другие необходимые пояснения.

В наше время необходимо научиться составлять и пользоваться статистическими таблицами.

Для того чтобы проанализировать данные, которые содержит таблица, необходимо прежде ознакомиться с названием таблицы заголовками ее граф и строк, установить, на какую дату и к какой территории относятся зафиксированные в таблице статистические данные, обратить внимание на единицы измерения и установить, какие процессы характеризуются средними и относительными величинами.

Анализ статистической таблицы логичнее начинать с общего итога, который позволяет получить общую характеристику совокупности, затем переходить к изучению данных отдельных строк и граф, т. е. к оценке частей изучаемого объекта, исследуя при этом вначале наиболее важные, а потом уже и все остальные элементы таблицы.

Пусть из генеральной совокупности извлечена выборка, причем х 1 наблюдалось п 1 раз, х 2 - п 2 раз, х к - п к раз и - объем выборки. Наблюдаемые значения х 1 называют вариантами, а последовательность вариант, записанных в возрастающем порядке - вариационным рядом .

Число наблюдений варианты называют частотой, а ее отношение к объему выборки - относительной частотой .

Определение. Статистическим (эмпирическим) законом распределения выборки, или просто статистическим распределением выборки называют последовательность вариант и соответствующих им частот п i или относительных частот .

Статистическое распределение выборки удобно представлять в форме таблицы распределения частот, называемой статистическим дискретным рядом распределения:

(сумма всех относительных частот равна единице ).

Пример 1 . При измерениях в однородных группах обследуемых получены следующие выборки: 71, 72, 74, 70, 70, 72, 71, 74, 71, 72, 71, 73, 72, 72, 72, 74, 72, 73, 72,74 (частота пульса). Составить по этим результатам статистический ряд распределения частот и относительных частот.

Решение. 1) Статистический ряд распределения частот:

Контроль: 0,1 + 0,2 + 0,4 + 0,1 + 0,2 = 1.

Полигоном частот называют ломаную, отрезки, которой соединяют точки Для построения полигона частот на оси абсцисс откладывают варианты х 2 , а на оси ординат - соответствующие им частоты п i . Точки соединяют отрезками и получают полигон частот.

Полигоном относительных частот называют ломаную, отрезки, которой соединяют точки . Для построения полигона относительных частот на оси абсцисс откладывают варианты х i , а на оси ординат соответствующие им частоты w i . Точки соединяют отрезками и получают полигон относительных частот

Пример 2. Постройте полигон частот и полигон относительных частот по данным примера 1.

Решение: Используя дискретный статистический ряд распределения, составленный в примере 1 построим полигон частот и полигон относительных частот:


2. Статистический интервальный ряд распределения. Гистограмма .

Статистическим дискретным рядом (или эмпирической функцией распределения) обычно пользуются в том случае, когда отличных друг от друга вариант в выборке не слишком много, или тогда, когда дискретность по тем или иным причинам существенна для исследователя. Если же интерисующий нас признак генеральной совокупности Х распределен непрерывно или его дискретность нецелесообразно (или невозможно) учитывать, то варианты группируются в интервалы.


Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал).

1. R(размах) = X max -X min

2. k- число групп

3. (формула Стерджеса)

4. a = x min , b = x max

Полученную группировку удобно представить в форме частотной таблицы, которая носит название статистический интервальный ряд распределения:

Интервалы группировки ...
Частоты ...

Аналогическую таблицу можно образовать, заменяя частоты n i относительными частотами.

Предположим, что в результате измерений параметров исследуемых объектов имеется статистическая совокупность, представляющая собой множество значений СВ Х, полученное в результате измерений(наблюдений).

Построение гистограммы осуществляется в следующем порядке.

1. Весь диапазон измерений СВ () делится на интервалы и подсчитывается количество значений , приходящееся на каждый -й интервал. Это число делится на общее количество измерений (изделий) и определяется частота, соответствующая данному интервалу.

Сумма частот всех разрядов очевидно должна быть равна единице.

2. Строится таблица 1.1 , в которой приведены интервалы в порядке их расположения вдоль оси абсцисс и соответствующие частоты. Эта таблица называется статистическим рядом .

Таблица 1.1

Статистический ряд значений СВ

Интервал,
Количество значений
Частота,

Здесь -обозначение i-го интервала; - его границы; k- число интервалов.

При группировке наблюденных значений СВ по интервалам может возникнуть ситуация, при которой значение попадает на границу интервала. В этом случае встает вопрос о том, к какому разряду отнести это значение. Рекомендуется считать данное значение принадлежащим в равной мере обоим интервалам и прибавлять к числам того и другого интервала по 0,5.

3. Определение числа интервалов.

Число интервалов, на которые следует группировать статистический ряд, не должно быть слишком большим, поскольку в этом случае ряд распределения становится невыразительным, и частоты в нем обнаруживают незакономерные колебания. С другой стороны оно не должно быть слишком малым, так как при малом числе интервалов свойства распределения описываются статистическим рядом слишком грубо.

Практика показывает, что в большинстве случаев рационально выбирать число интервалов в пределах 10¸20. Чем больше и однороднее статистический материал, тем большее количество интервалов можно выбирать при составлении статистического ряда.

Для определения количества интервалов можно также использовать эмпирические формулы, предлагаемые различными авторами. В работе в качестве таких формул предлагается использовать следующие выражения

Эти выражения получены для наиболее часто встречающихся на практике распределений с эксцессом, находящимся в пределах от 1,8 до 6, то есть от равномерного до распределения Лапласа.

Длины интервалов могут быть как одинаковыми, так и различными. Очевидно, что проще их брать одинаковыми. Однако, при оформлении данных о СВ, распределенных слишком неравномерно, иногда бывает удобно выбирать в области наибольшей плотности распределения интервалы более узкие, чем в области малой плотности.

4. Оформление гистограммы графически.

Статистический ряд оформляется графически в виде так называемой гистограммы (рис.1.1). Она строится следующим образом. По оси абсцисс откладываются интервалы, а на каждом из интервалов как основании строится прямоугольник, площадь которого равна частоте данного интервала. Для построения гистограммы нужно частоту каждого интервала разделить на его длину и полученное число взять в качестве высоты прямоугольника. В случае равных по длине интервалов высоты прямоугольников пропорциональны соответствующим частотам. Из способа построения гистограммы следует, что полная площадь ее равна единице.

Очевидно, что при увеличении числа опытов можно выбирать все более мелкие интервалы, и при этом верх гистограммы будет все более приближаться к кривой, ограничивающей площадь, равную единице. Эта кривая представляет собой график функции плотности распределения вероятности f(x) ( дифференциальная функция распределения для непрерывных СВ ).

5. Статистическая функция распределения .

Пользуясь данными статистического ряда, можно построить и статистическую(эмпирическую) функцию распределения СВ Х. Для этого из ряда берутся точки x i границ интервалов и соответствующие им суммы частот p i , приходящиеся на прямоугольники гистограммы, лежащие левее этих точек. Эти частоты и их суммы обозначают как F(x i). Тогда получим систему выражений, определяющих точки статистической функции распределения. Соединяя их ломаной линией или плавной кривой, получим приближенный график статистической функции распределения ( интегральной функции распределения для непрерывных СВ ) F(x) (рис.1.2).

просмотров