48.
Основные понятия математической статистики
Основной целью математической статистики является установление закономерностей, которым подчиняются массовые случайные явления. Для этого решаются следующие основные задачи: определение способов сбора и обработки информации — результатов наблюдений.Пусть требуется определить наличие какого-либо признака, характеризующего объект, в большой совокупности однородных объектов. Например, это может быть дефект детали в большой партии одинаковых деталей. Для этого можно провести сплошное исследование всей партии деталей (совокупности). Однако часто такой подход оказывается невозможным по ряду причин. Во-первых, совокупность однородных объектов может быть очень большой, и тогда, анализ всей совокупности оказывается очень трудоемким. Во-вторых, исследование может быть очень дорогим или быть связано с разрушением объекта, и тогда, сплошное исследование становится бессмысленным. В таких случаях поступают по-другому: из всей совокупности отбирают некоторое число объектов и исследуют только их. Это число должно быть мало по сравнению со всей совокупностью, но достаточно велико, чтобы в этой отобранной группе уже начали проявляться статистические закономерности. Введем основные понятия, использующиеся в математической статистике.Определение. Выборочной совокупностью (или выборкой) называют совокупность случайно отобранных объектов.Определение. Генеральной совокупностью называют совокупность всех объектов, из которых производится выборка.Определение. Объемом совокупности называют число объектов в этой совокупности.Пример 48.1Из 10000 деталей случайным образом выбирают 100 для исследования. Объем выборки — 100 деталей, объем генеральной совокупности — 10000 деталей.Выборку можно осуществлять различными способами. Если отобранный предмет после исследования возвращается в генеральную совокупность и снова может участвовать в отборе, то такую выборку называют повторной. Разумеется, такой способ возможен, когда объект не разрушается в результате исследования. Если отобранный предмет после исследования не возвращается в генеральную совокупность, то такую выборку называют бесповторной. По смыслу выборки она должна быть мала по сравнению с генеральной совокупностью, поскольку иначе можно было бы проводить сплошное исследование. Именно такой случай малых выборок мы и будем в дальнейшем иметь в виду. Тогда, при возвращении объекта в генеральную совокупность после исследования, вероятность отобрать его снова мала и, фактически, нет разницы между повторной и бесповторной выборками. Поэтому в дальнейшем мы не будем конкретизировать способ выборки, а будем пользоваться более удобным способом в вычислениях.В определении выборки указывалось, что это совокупность случайно отобранных объектов. Задача случайного отбора не всегда является тривиальной и, в ряде случаев, требует специальных построений для того, чтобы отбор был действительно случайным. Кроме того, объем выборки должен быть достаточно большим, что бы начали проявляться закономерности обусловленные законом больших чисел. Такую выборку часто называют репрезентативной (представительной) выборкой.Чтобы обеспечить репрезентативность выборки, выделяют несколько способов отбора объектов.
  1. Простой случайный отбор. Объекты перемешивают и вытаскивают по одному наудачу. Если перемешивание объектов технически неосуществимо, то объекты перенумеровывают и вытаскивают наудачу соответствующие номера объектов. В частности, это можно сделать на компьютере с помощью генератора случайных чисел. Компьютер генерирует случайную последовательность чисел, и объекты с соответствующими номерами отбираются в выборку.
  2. Типический отбор. Генеральная совокупность делится на отдельные части и из каждой части наудачу отбирается некоторое количество объектов, при этом пропорции между количеством отобранных предметов каждой из частей определяются пропорциями объемов этих частей в генеральной совокупности. Такой способ отбора удобен, когда отдельные части генеральной совокупности имеют сильно различающиеся свойства. Например, при проведении опроса о предпочтениях избирателей на выборах в выборку отбираются избиратели из различных групп — возрастных, по месту проживания, роду деятельности и т.п. в пропорциях соответствующих доле той или иной группы среди всех избирателей.
  3. Механический отбор. Генеральная совокупность делится по порядку на столько групп, сколько объектов должно войти в выборку, и из каждой группы выбирается один объект. Например, для проверки берут каждую десятую деталь, изготовленную станком. При таком отборе надо иметь в виду, что периодичность отбирания деталей в выборку не должна совпадать с каким-либо другим периодом в формировании объектов. Если через каждые десять изготовленных деталей на станке нужно менять фрезу, то отбор каждой десятой детали нецелесообразен, поскольку если деталь берут сразу после замены фрезы, то такая выборка будет давать качество деталей лучше, чем на самом деле. Если деталь взять перед заменой фрезы, то такая выборка ухудшит показатели по сравнению с реальными.
  4. Серийный отбор. Генеральная совокупность делится на группы и для исследования берется одна из групп. Такой способ удобен, когда различные группы не сильно отличаются по своим свойствам. Например, если детали изготовлены на большом количестве одинаковых станков, то для исследования можно выбрать детали, изготовленные одним из станков.
Применяют также и различные комбинации упомянутых выше способов отбора.Пусть из генеральной совокупности извлечена выборка из n объектов. Пусть значение некоторого признака объекта x1 наблюдалось n1 раз, x2наблюдалось n2 раз и так далее. Разумеется, . Значения xi называются вариантами, а значения ni — частотами. Варианты, записанные в возрастающем порядке, называют вариационным рядом. Отношения называют относительными частотами, при этом .Определение. Статистическим распределением выборки называют совокупность вариантов и соответствующих им частот (или относительных частот).Определение. Эмпирической функцией распределения (или функцией распределения выборки) называют функцию , где nx — число вариант со значением меньше x.Определение. Теоретической функцией распределения называют функцию распределения генеральной совокупности.Следует отметить, что относительная частота обладает всеми свойствами вероятности, статистическое распределение обладает всеми свойствами закона распределения, а эмпирическая функция распределения обладает всеми свойствами функции распределения случайной величины. В силу закона больших чисел, при больших n относительная частота, статистическое распределение и эмпирическая функция распределения будут близки к вероятности, закону распределения и функции распределения соответственно.Несложно обобщить данные понятия и на случай когда варианты принимают не дискретные, а непрерывные значения, нужно только под каждым xi понимать некоторый интервал значений.Для графического представления статистического распределения используют следующие инструменты.
  1. Полигон частот. Это набор точек (xi, ni), возможно, соединенных ломаной линией. Сюда же относится полигон относительных частот. Это набор точек (xi, wi), возможно, соединенных ломаной линией.
  2. Гистограмма. Часто используется для графического представления статистического распределения с непрерывными значениями признака. Для ее построения ось абсцисс разделяется на интервалы и на каждом интервале строится прямоугольник с высотой равной числу вариант попавших в этот интервал (или доле этих вариант от объема выборки). Площадь под гистограммой относительных частот равна единице.Примеры полигона частот и гистограммы представлены на рисунках ниже.
ris_48-01.gifВидеолекция «Основные понятия математической статистики»: