» » Основные понятия математической статистики. Методы математической статистики Помощью методов математической статистики что

Основные понятия математической статистики. Методы математической статистики Помощью методов математической статистики что

Математическая статистика - это раздел математики, изучающий приближенные методы сбора и анализа данных по результатам эксперимента для выявления существующих закономерностей, т.е. отыскания законов распределения случайных величин и их числовых характеристик.

В математической статистике принято выделять два основных направления исследований :

1. Оценка параметров генеральной совокупности.

2. Проверка статистических гипотез (некоторых априорных предположений).

Основными понятиями математической статистики являются: генеральная совокупность, выборка, теоретическая функция распределения.

Генеральной совокупностью является набор всех мыслимых статистических данных при наблюдениях случайной величины.

Х Г = {х 1 , х 2 , х 3 , …, х N , } = { х i ; i=1,N }

Наблюдаемая случайная величина Х называется признаком или фактором выборки. Генеральная совокупность - есть статистический аналог случайной величины, ее объем N обычно велик, поэтому из нее выбирается часть данных, называемая выборочной совокупностью или просто выборкой.

Х В = {х 1 , х 2 , х 3 , …, х n , } = { х i ; i=1,n }

Х В Ì Х Г, n £ N

Выборка - это совокупность случайно отобранных наблюдений (объектов) из генеральной совокупности для непосредственного изучения. Количество объектов в выборке называется объемом выборки и обозначается n. Обычно выборка составляет 5%-10% от генеральной совокупности.

Использование выборки для построения закономерностей, которым подчинена наблюдаемая случайная величина, позволяет избежать ее сплошного (массового) наблюдения, что часто бывает ресурсоемким процессом, а то и просто невозможным.

Например, популяция представляет собой множество индивидуумов. Изучение целой популяции трудоемко и дорого, поэтому собирают данные по выборке индивидуумов, которых считают представителями этой популяции, позволяющими сделать вывод относительно этой популяции.

Однако, выборка обязательно должна удовлетворять условию репрезентативности , т.е. давать обоснованное представление о генеральной совокупности. Как сформировать репрезентативную (представительную) выборку? В идеале стремятся получить случайную (рандомизированную) выборку. Для этого составляют список всех индивидуумов в популяции и случайно их отбирают. Но иной раз затраты при составлении списка могут оказаться недопустимыми и тогда берут приемлемую выборку, например, одну клинику, больницу и исследуют всех пациентов в этой клинике с данным заболеванием.

Каждый элемент выборки называется вариантой . Число повторений варианты в выборке называется частотой встречаемости . Величина называется относительной частотой варианты, т.е. находится как отношение абсолютной частоты варианты ко всему объему выборки. Последовательность вариант, записанных в возрастающем порядке, называется вариационным рядом .


Рассмотрим три формы вариационного ряда: ранжированный, дискретный и интервальный.

Ранжированный ряд - это перечень отдельных единиц совокупности в порядке возрастания изучаемого признака.

Дискретный вариационный ряд представляет собой таблицу, состоящую из граф, либо строк: конкретного значения признака х i и абсолютной частоты n i (или относительной частоты ω i) проявления i-го значения признака x.

Примером вариационного ряда служит таблица

Написать распределение относительных частот.

Решение : Найдем относительные частоты. Для этого разделим частоты на объем выборки:

Распределение относительных частот имеет вид:

0,15 0,5 0,35

Контроль: 0,15 + 0,5 + 0,35 = 1.

Дискретный ряд можно изобразить графически. В прямоугольной декартовой системе координат отмечаются точки с координатами () или (), которые соединяются прямыми линиями. Такую ломаную называют полигоном частот.

Построить дискретный вариационный ряд (ДВР) и начертить полигон распределения 45 абитуриентов по числу баллов, полученных ими на приемных экзаменах:

39 41 40 42 41 40 42 44 40 43 42 41 43 39 42 41 42 39 41 37 43 41 38 43 42 41 40 41 38 44 40 39 41 40 42 40 41 42 40 43 38 39 41 41 42.

Решение : Для построения вариационного ряда различные значения признака x (варианты) располагаем в порядке их возрастания и под каждым из этих значений записываем его частоту.

Построим полигон этого распределения:

Рис. 13.1. Полигон частот

Интервальный вариационный ряд используется при большом числе наблюдений. Для построения такого ряда надо выбрать число интервалов признака и установить длину интервала. При большом числе групп величина интервала будет минимальна. Число групп в вариационном ряду можно найти по формуле Стерджеса : (k-число групп, n - объем выборки), а ширину интервала -

где - максимальное; - минимальное значения вариант, а их разность R носит название размаха вариации .

Исследуется выборка из 100 человек из совокупности всех студентов медицинского ВУЗа.

Решение : Рассчитаем число групп: . Таким образом, для составления интервального ряда данную выборку лучше разбить на 7 или 8 групп. Совокупность групп, на которые разбиваются результаты наблюдений и частот получения результатов наблюдений в каждой группе, называют статистической совокупностью .

Для наглядного представления статистического распределения пользуются гистограммой.

Гистограмма частот - это ступенчатая фигура, состоящая из смежных прямоугольников, построенных на одной прямой, основания которых одинаковы и равны ширине интервала, а высота равна или частоте попадания в интервал или относительной частоте ω i .

Наблюдения за числом частиц, попавших в счетчик Гейгера, в течение минуты дали следующие результаты:

21 30 39 31 42 34 36 30 28 30 33 24 31 40 31 33 31 27 31 45 31 34 27 30 48 30 28 30 33 46 43 30 33 28 31 27 31 36 51 34 31 36 34 37 28 30 39 31 42 37.

Построить по этим данным интервальный вариационный ряд с равными интервалами (I интервал 20-24; II интервал 24-28 и т.д.) и начертить гистограмму.

Решение : n = 50

Гистограмма этого распределения имеет вид:

Рис. 13.2. Гистограмма распределения

Варианты заданий

№ 13.1. Через каждый час измерялось напряжение тока в электросети. При этом были получены следующие значения (В):

227 219 215 230 232 223 220 222 218 219 222 221 227 226 226 209 211 215 218 220 216 220 220 221 225 224 212 217 219 220.

Построить статистическое распределение и начертить полигон.

№ 13.2. Наблюдения за сахаром крови у 50 человек дали такие результаты:

3.94 3.84 3.86 4.06 3.67 3.97 3.76 3.61 3.96 4.04

3.82 3.94 3.98 3.57 3.87 4.07 3.99 3.69 3.76 3.71

3.81 3.71 4.16 3.76 4.00 3.46 4.08 3.88 4.01 3.93

3.92 3.89 4.02 4.17 3.72 4.09 3.78 4.02 3.73 3.52

3.91 3.62 4.18 4.26 4.03 4.14 3.72 4.33 3.82 4.03

Построить по этим данным интервальный вариационный ряд с равными интервалами (I - 3.45-3.55; II - 3.55-3.65 и т. д.) и изобразить его графически, начертить гистограмму.

№ 13.3. Построить полигон частот распределения скорости оседания эритроцитов (СОЭ) у 100 человек.

Данным, полученным в результате эксперимента, свойственна изменчивость, которая может быть вызвана случайной ошибкой: погрешностью измерительного прибора, неоднородностью образцов и т.д. После проведения большого количества однородных данных экспериментатору необходимо их обработать для извлечения как можно более точной информации о рассматриваемой величине. Для обработки больших массивов данных измерений, наблюдений и т.п., которые могут быть получены при проведении эксперимента, удобно применять методы математической статистики .

Математическая статистика неразрывно связана с теорией вероятностей, но между этими науками есть существенное различие. Теория вероятностей использует уже известные распределения случайных величин , на основе которых рассчитываются вероятности событий, математическое ожидание т.д. Задача математической статистики – получить как можно более достоверную информацию о распределении случайной величины на основе экспериментальных данных.

Типичные направления математической статистики:

  • теория выборок;
  • теория оценок;
  • проверка статистических гипотез;
  • регрессионный анализ;
  • дисперсионный анализ.

Методы математической статистики

Методы оценки и проверки гипотез основываются на вероятностных и гиперслучайных моделях происхождения данных.

Математическая статистика оценивает параметры и функции от них, которые представляют важные характеристики распределений (медиану, математическое ожидание, стандартное отклонение, квантили и др.), плотности и функции распределения и пр. Используются точечные и интервальные оценки.

Современная математическая статистика содержит большой раздел – статистический последовательный анализ , в котором допускается формирование массива наблюдений по одному массиву.

Математическая статистика также содержит общую теорию проверки гипотез и большое количество методов для проверки конкретных гипотез (например, о симметрии распределения, о значениях параметров и характеристик, о согласии эмпирической функции распределения с заданной функцией распределения, гипотеза проверки однородности (совпадение характеристик или функций распределения в двух выборках) и др.).

Проведением выборочных обследований , связанных с построением адекватных методов оценки и проверки гипотез, со свойствами разных схем организации выборок, занимается раздел математической статистики, имеющий большое значение. Методы математической статистики непосредственно использует следующие основные понятия.

Выборка

Определение 1

Выборкой называются данные, которые получены при проведении эксперимента.

Например, результаты дальности полета пули при выстреле одного и того же или группы однотипных орудий.

Эмпирическая функция распределения

Замечание 1

Функция распределения дает возможность выразить все важнейшие характеристики случайной величины.

В математической стаитистике существует понятие теоретической (заранее не известной) и эмпирической функции распределения.

Эмпирическая функция определяется по данным опыта (эмпирические данные), т.е. по выборке.

Гистограмма

Гистограммы используются для наглядного, но довольно приближенного, представления о неизвестном распределении.

Гистограмма представляет собой графическое изображение распределения данных.

Для получения качественной гистограммы придерживаются следующих правил :

  • Количество элементов выборки должно быть существенно меньше объема выборки.
  • Интервалы разбиения должны содержать достаточное число элементов выборки.

Если выборка очень большая зачастую интервал элементов выборки разбивают на одинаковые части.

Выборочное среднее и выборочная дисперсия

С помощью данных понятий можно получить оценку необходимых числовых характеристик неизвестного распределения, не прибегая к построению функции распределения, гистограммы и т.п.

  • 7. Базовая аппаратная конфигурация персонального компьютера. Системный блок: понятия, виды. Внутреннее устройство системного блока.
  • 8.Метеринская плата компьютера: понятие, назначение, хар-ка, логические схемы.
  • 9.Структура и основная хар-ка процессора как основной микросхемы комп-ра.Связь процессора с др устройствами. Компоненты магистрали комп-ра.
  • 10. Внутренняя память компьютера: оперативная и кэш-память, микросхема пзу и система bios, энергонезависимая память cmos. Носители и устройства внешней памяти.
  • 11. Конструкция, принцип действия, основные параметры жесткого диска.
  • 1. Протокол передачи данных.
  • 12. Классификация устройств ввода и вывода информации, порты комп-ра для подключения периферийных устройств.
  • 13. Виды и основные пользовательские характеристики современных мониторов.
  • 14. Принтеры: понятие, назначение, виды, принципы работы.
  • 15. Клавиатура: группы клавиш, назначение клавиш.
  • 16. Виды, принцип действия, регулируемые параметры мыши. Доп. Устройства комп-ра: модем, тв-тюнер, звуковая карта.
  • 17. Понятие и структура программного обеспечения персонального компьютера.
  • 18. Назначение, типы, ведущие функции операционной системы пк. Основные компоненты операционной системы: ядро, интерфейс, драйверы устройств.
  • 19. Понятие и типы файлов. Файловая структура комп-ра. Обслуживание файловой структуры персонального комп-ра.
  • 20. Прикладное по: понятие, значение, структура, виды, программы.
  • 21. Назначение и виды языков программирования. Составные компоненты системы программирования.
  • 22. Назначение и классификация служебных программных средств.
  • 23. Компьютерный вирус. Признаки вирусного заражения.
  • 24. Классификация вирусов.
  • 25. Виды антивирусных программ. Меры по защите эвм от вирусов.
  • 26. Понятие архивации. Методы и форматы сжатия информации. Основные идеи алгоритмов rle, Лемпеля-Зива, Хаффмана.
  • 27. База данных. Классификация. Модели баз данных. Достоинства и недостатки.
  • 28. Субд. Виды. Основные принципы создания.
  • 29. Автоматизированное рабочее место мед специалиста. Назначение, основные требования и принципы разработки.
  • 30. Совокупность решаемых с помощью арм задач и основные направления применения автоматизированных рабочих мест мед персоналом.
  • 31. Структурные компоненты и функциональные модули автоматизированных рабочих мест медицинских работников. Классификация автоматизированных рабочих мест сотрудников медицинских организаций.
  • 32. Знания как основа функционирования экспертных систем. Понятие, свойства и виды знаний.
  • 33. Экспертная система: понятие, назначение и структурные компоненты. Основные этапы разработки экспертной системы
  • 34. Базовые функции экспертных систем и требования к работе медицинских экспертных систем.
  • 35. Режимы функционирования и виды современных экспертных систем. Экспертная система и специалист: сравнительные преимущества и недостатки
  • 36. Понятие компьютерной сети. Основные требования, предъявляемые к современным компьютерным сетям
  • 37. Основные компоненты компьютерной сети
  • 38. Классификация компьютерных сетей. Топология кс. Виды. Преимущества и недостатки.
  • 39. Глобальная сеть Интернет. История создания. Общая характеристика Интернет. Принцип коммутации пакетов
  • 40. Протокол сети интернет. Возможности сети. «Всемирная паутина». Язык html.
  • 41. Телемедицина, задачи телемедицины. История развития. Основные направления телемедицины
  • 42. Предмет, цели и задачи медицинской информатики. Виды медицинской информации
  • 43. Классификация медицинских информационных систем (мис). Задачи мис
  • 44. Информационные технологии. Информационные системы
  • 45. Виды технологических информационных медицинских систем. Уровни развития мис
  • 46. История развития эвм. Поколения эвм. Современный этап развития вычислительной техники и ее перспективы
  • 47. Математическая статистика ее методы. Основные этапы статистической работы.
  • 48. Генеральная совокупность и выборка. Способы формирования выборки
  • 49. Вариационный ряд и его наглядное изображение. Построение гистограммы (алгоритм)
  • 50. Характеристики статистического распределения: характеристики положения; характеристики формы; характеристики рассеяния.
  • 51. Оценка параметров генеральной совокупности. Точечная и интервальная оценка. Доверительный интервал. Уровень значимости
  • 52. Дисперсионный анализ. Градации факторов и анализ. Простейшая схема варьирование при различий по одному фактору
  • 53. Дисперсионный анализ. Рабочая формула для вычисления средних квадратов
  • 54. Вычисление f-критерия для определения влияния изучаемого фактора. Количественная оценка влияния отдельных факторов.
  • 55. Понятие корреляции. Функциональная и корреляционная зависимости. Графики рассеяния.
  • 56. Коэффициент корреляции и его свойства.
  • 57. Регрессионный анализ. Линейная регрессия
  • 58. Ряды динамики. Понятие временного ряда. Виды ряда. Определение тренда
  • 59. Выравнивание динамических рядов: метод скользящей средней
  • 60. Выравнивание динамических рядов: метод наименьших квадратов
  • 61. Выравнивание динамических рядов: метод удлинения периодов
  • 62. Анализ динамических рядов. Хронологическая средняя. Абсолютный прирост ряда. Коэффициент роста
  • 63. Анализ динамических рядов. Хронологическая средняя. Темп роста. Темп прироста
  • 47. Математическая статистика ее методы. Основные этапы статистической работы.

    Математическая статистика - это научная дисциплина, предметом изучения которой является разработка методов регистрации, описания и анализа статистических экспериментальных данных, полученных в результате наблюдений массовых случайных явлений.

    Основными задачами математической статистики являются:

      определение закона распределения случайной величины или системы случайных величин;

      проверка правдоподобия гипотез;

      определение неизвестных параметров распределения.

    Все методы математической статистики основаны на теории вероятностей. Однако в силу специфичности решаемых задач математическая статистика выделяется из теории вероятностей в самостоятельную область. Если в теории вероятностей считается заданной модель явления и производится расчет возможного реального течения этого явления (рис.1), то в математической статистике подбирается подходящая теоретико-вероятностная модель, исходя из статистических данных (рис.2).

    Рис.1. Общая задача теории вероятностей

    Рис.2. Общая задача математической статистики

    Как научная дисциплина математическая статистика развивалась вместе с теорией вероятностей. Математический аппарат этой науки построен во второй половине XIX века.

    Основные этапы статистической работы.

    Любое статистическое исследование в себя 3 основных этапа:

      сбор – это массовое научно-организованное наблюдение, посредством которого получают первичную информацию об отдельных фактах (единицах) изучаемого явления. Данный статистический учет большого числа или всех входящих в состав изучаемого явления единиц является информационной базой для статистических обобщений, для формулирования выводов об изучаемом явлении или процессе;

      группировка и сводка. Под этими данными понимают распределение множества фактов (единиц) на однородные группы и подгруппы, итоговый подсчет по каждой группе и подгруппе и оформление полученных итогов в виде статистической таблицы;

      обработка и анализ. Статистический анализ заключает стадию статистического исследования. Он содержит в себе обработку статистических данных, которые были получены при сводке, интерпретацию полученных результатов с целью получения объективных выводов о состоянии изучаемого явления и о закономерностях его развития.

    48. Генеральная совокупность и выборка. Способы формирования выборки

    Генеральная совокупность (в англ. - population) - совокупность всех объектов (единиц), относительно которых учёный намерен делать выводы при изучении конкретной проблемы.

    Генеральная совокупность состоит из всех объектов, которые подлежат изучению. Состав генеральной совокупности зависит от целей исследования. Иногда генеральная совокупность - это все население определённого региона (например, когда изучается отношение потенциальных избирателей к кандидату), чаще всего задаётся несколько критериев, определяющих объект исследования. Например, мужчины 30-50 лет, использующие бритву определённой марки не реже раза в неделю, и имеющие доход не ниже $100 на одного члена семьи.

    Выборка или выборочная совокупность - множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.

    Характеристики выборки:

      Качественная характеристика выборки – кого именно мы выбираем и какие способы построения выборки мы для этого используем

      Количественная характеристика выборки – сколько случаев выбираем, другими словами объём выборки.

    Необходимость выборки

      Объект исследования очень обширный. Например, потребители продукции глобальной компании – огромное количество территориально разбросанных рынков.

      Существует необходимость в сборе первичной информации.

    Объём выборки

    Объём выборки - число случаев, включённых в выборочную совокупность. Из статистических соображений рекомендуется, чтобы число случаев составляло не менее 30 – 35.

    Основные способы формирования выборки

    Формирование выборки прежде всего основывается на знании контура выборки, под которым понимается список всех единиц совокупности, из которого выбираются единицы выборки. Например, если в качестве совокупности рассматривать все автосервисные мастерские города Москвы, то надо иметь список таких мастерских, рассматриваемый как контур, в пределах которого формируется выборка.

    Контур выборки неизбежно содержит ошибку, называемую ошибкой контура выборки и характеризующую степень отклонения от истинных размеров совокупности. Очевидно, что не существует полно официального списка всех автосервисных мастерских г. Москвы. Исследователь должен информировать заказчика работы о размерах ошибки контура выборки.

    При формировании выборки используются вероятностные (случайные) и невероятностные (неслучайные) методы.

    Если все единицы выборки имеют известный шанс (вероятность) быть включенными в выборку, то выборка называется вероятностной. Если эта вероятность неизвестна, то выборка называется невероятностной. К сожалению, в большинстве маркетинговых исследований из-за невозможности точного определения размера совокупности не представляется возможным точно рассчитать вероятности. Поэтому термин «известная вероятность» скорее основан на использовании определенных методов формирования выборки, чем на знании точных размеров совокупности.

    Вероятностные методы включают в себя:

      простой случайный отбор;

      систематический отбор;

      кластерный отбор;

      стратифицированный отбор.

    Невероятностные методы:

      отбор на основе принципа удобства;

      отбор на основе суждений;

      формирование выборки в процессе опроса;

      формирование выборки на основе квот.

    Смысл метода отбора на основе принципа удобства заключается в том, что формирование выборки осуществляется самым удобным с позиций исследователя образом, например с позиций минимальных затрат времени и усилий, с позиций доступности респондентов. Выбор места исследования и состава выборки производится субъективным образом, например, опрос покупателей осуществляется в магазине, ближайшем к месту жительства исследователя. Очевидно, что многие представители совокупности не принимают участия в опросе.

    Формирование выборки на основе суждения основано на использовании мнения квалифицированных специалистов, экспертов относительно состава выборки. На основе такого подхода часто формируется состав фокус-группы.

    Формирование выборки в процессе опроса основано на расширении числа опрашиваемых исходя из предложений респондентов, которые уже приняли участие в обследовании. Первоначально исследователь формирует выборку намного меньшую, чем требуется для исследования, затем она по мере проведения расширяется.

    Формирование выборки на основе квот (квотный отбор) предполагает предварительное, исходя из целей исследования, определение численности групп респондентов, отвечающих определенным требованиям (признакам). Например, в целях исследования было принято решение, что в универмаге должно быть опрошено пятьдесят мужчин и пятьдесят женщин. Интервьюер проводит опрос, пока не выберет установленную квоту.

    Рассмотрим некоторые понятия и основные подходы к классификации погрешностей. По способу вычисления погрешности можно подразделить на абсолютные и относительные.

    Абсолютная погрешность равна разности среднего измерения величины х и истинного значения этой величины:

    В отдельных случаях, если это необходимо, рассчитывают погрешности еди­ничных определений:

    Заметим, что измеренной величиной в химическом анализе может быть как содержание компонента, так и аналитический сигнал. В зависимости от того, завышает или занижает погрешность результат анализа, погрешности могут быть положительные и отрицательные.

    Относительная погрешность может быть выражена в долях или про­центах и обычно знака не имеет:

    или

    Можно классифицировать погрешности по источникам их происхождения. Так как источников погрешностей чрезвычайно много, то их классификация не может быть однозначной.

    Чаще всего погрешности классифицируют по характеру при­чин, их вызывающих. При этом погрешности делят на систематиче­ ские и случайные, выделяют также промахи (или грубые погрешности).

    К систематическим относят погрешности, которые вызваны постоянно действующей причиной, постоянны во всех измерениях или меняются по постоянно действующему закону, могут быть выявлены и устранены.

    Случайные погрешности, причины появления которых неизвестны, могут быть оценены методами математической статистики.

    Промах - это погрешность, резко искажающая результат анализа и обычно легко обнаруживаемая, вызванная, как правило, небрежностью или некомпетентностью аналитика. На рис. 1.1 представлена схема, поясняющая понятия систематических и погрешностей и промахов. Прямая 1 отвечает тому идеальному случаю, когда во всех N определениях отсутствуют систематические и случайные погрешности. Линии 2 и 3 тоже идеализированные примеры химического анализа. В одном случае (прямая 2) полностью отсутствуют случайные погрешности, но все N определений имеют постоянную отрицательную систематическую погрешность Δх; в другом случае (линия 3) полностью отсутствует систематическая погрешность. Реальную ситуацию отражает линия 4: имеются как случайные, так и систематические погрешности.

    Рис. 4.2.1 Систематические и случайные погрешности химического анализа.

    Деление погрешностей на систематические и случайные в известной степени условно.

    Систематические погрешности одной выборки результатов при рассмотрении большего числа данных могут переходить в случайные. Например, систематическая погрешность, обусловленная неправильными показаниями прибора, при измерении аналитического сигнала на разных приборах в разных лабораториях переходит в случайную.

    Воспроизводимость характеризует степень близости друг к другу единичных определений, рассеяние единичных результатов относительно среднего (рис. 1.2).

    Рис. 4.2..2. Воспроизводимость и правильность химического анализа

    В отдельных случаях наряду с термином «воспроизводимость» используют термин «сходимость». При этом под сходимостью понимают рассеяние результатов параллельных определений, а под воспроизводимостью - рас­сеяние результатов, полученных разными методами, в разных лабораториях, в разное время и т. п.

    Правильность - это качество химического анализа, отражающее близость к нулю систематической погрешности. Правильность характеризует отклонение полученного результата анализа от истинного значения измеряемой величины (см. рис.1.2).

    Генеральная совокупность - гипотетическая совокупность всех мыслимых результатов от -∞ до +∞;

    Анализ экспериментальных данных показывает, что большие по значению погрешности наблюдаются реже , чем малые. Отмечается также, что при увеличении числа наблюдений одинаковые погрешности разного знака встречаются одинаково часто. Эти и другие свойства случайных погрешностей описываются нормальным распределением или уравнением Гаусса, которое описывает плотность вероятности
    .

    где х -значение случайной величины;

    μ – генеральное среднее (математическое ожидание -постоянный параметр);

    Математическое ожидание - для непрерывной случайной величины представляет собой предел, к которому стремится среднее при неограниченном увеличении выборки. Таким образом, математическое ожидание является средним значением для всей генеральной совокупности в целом, иногда его называют генеральным средним.

    σ 2 -дисперсия (постоянный параметр) - характеризует рассеяние случайной величины относительно своего математического ожидания;

    σ – стандартное отклонение.

    Дисперсия – характеризует рассеяние случайной величины относительно своего математического ожидания.

    Выборочная совокупность (выборка) - реальное число (n) результатов, которое имеет исследователь, n = 3 ÷ 10.

    Нормальный закон распределения неприемлем для обработки малого числа изменений выборочной совокупности (обычно 3 – 10) – даже если генеральная совокупность в целом распределена нормально. Для малых выборок вместо нормального распределения используют распределение Стьюдента (t – распределение) , которое связывает между собой три основные характеристики выборочной совокупности –

    Ширину доверительного интервала;

    Соответствующую ему вероятность;

    Объем выборочной совокупности.

    Перед обработкой данных с применением методов математической статистики необходимо выявить промахи (грубые ошибки) и исключить их из числа рассматриваемых результатов. Одним из наиболее простых является метод выявления промахов с применением Q – критерия с числом измерений n < 10:

    где R = х макс - х мин – размах варьирования; х 1 – подозрительно выделяющееся значение; х 2 – результат единичного определения, ближайший по значению к х 1 .

    Полученное значение сравнивают с критическим значением Q крит при доверительной вероятности Р = 0,95. Если Q > Q крит, выпадающий результат является промахом и его отбрасывают.

    Основные характеристики выборочной совокупности . Для выборки из n результатов рассчитывают среднее, :

    и дисперсию , характеризующую рассеяние результатов относительно среднего:

    Дисперсия в явном виде не может быть использована для количественной характеристики рассеяния результатов, поскольку ее размерность не совпадает с размерностью результата анализа. Для характеристики рассеяния используют стандартное отклонение, S .

    Эту величину называют также средним квадратичным (или квадратическим) отклонением или средней квадратичной погрешностью отдельного результата.

    О тносительное стандартное отклонение или коэффициент вариации (V) вычисляют по соотношению

    Дисперсию среднего арифметического вычисляют:

    и стандартное отклонение среднего

    Следует отметить, что все величины – дисперсия, стандартное отклонение и относительное стандартное отклонение, а так же дисперсия среднего арифметического и стандартное отклонение среднего арифметического – характеризуют воспроизводимость результатов химического анализа.

    Используемое при обработке небольших (n<20) выборок из нормально распределенной генеральной совокупности t – распределение (т.е. распределение нормированной случайной величины) характеризуется соотношением

    где t p , f распределение Стьюдента при числе степеней свободы f = n -1 и доверительной вероятности Р=0,95 (или уровня значимости р=0,05) .

    Значения t - распределения приведены в таблицах, по ним рассчитывают для выборки в n результатов величину доверительного интервала измеряемой величины для заданной доверительной вероятности по формуле

    Доверительный интервал характеризует как воспроизводимость результатов химического анализа, так и – если известно истинное значение х ист – их правильность.

    Пример выполнения контрольной работы № 2

    Задание

    При а нализе воздуха на содержание азота хроматографическим методом для двух серий опытов получены следующие результаты:

    Решение :

    Проверяем ряды на наличие грубых ошибок по Q-критерию. Для чего их располагаем результаты в ряд по убыванию (от минимума к максимуму или наоборот) :

    Первая серия:

    77,90<77,92<77,95<77,99<78,05<78,07<78,08<78,10

    Проверяем крайние результаты ряда (не содержат ли они грубую ошибку).

    Полученное значение сравниваем с табличным (табл.2 приложения). Для n=8, p=0,95 Q таб =0,55.

    Т.к. Q таб >Q 1 расчет, левая крайняя цифра не является «промахом».

    Проверяем крайнюю правую цифру

    Q расч

    Крайняя правая цифра так же не является ошибочной.

    Располагаем результаты второго ря да в порядке их возрастания:

    78,02<78,08<78,13<78,14<78,16<78,20<78,23<78,26.

    Проверяем крайние результаты опытов - не являются ли они ошибочными.

    Q (n=8, p=0,95)=0,55. Табличное значение.

    Крайнее левое значение – не ошибочное.

    Крайняя правая цифра (не является ли она ошибочной).

    Т.е. 0,125<0,55

    Крайнее правое число не является «промахом».

    Подвергаем результаты опытов статистической обработке.

      Вычисляем средневзвешенные результатов:

    - для первого ряда результатов.

    - для второго ряда результатов.

      Дисперсия относительно среднего:

    - для первого ряда.

    - для второго ряда.

      Стандартное отклонение:

    - для первого ряда.

    - для второго ряда.

      Стандартное отклонение среднего арифметического:

    При небольших (n<20) выборках из нормально распределенной генеральной совокупности следует использовать t – распределение, т.е. распределение Стьюдента при числе степени свободы f=n-1 и доверительной вероятности p=0,95.

    Пользуясь таблицами t – распределения, определяют для выборки в n – результатов величину доверительного интервала измеряемой величины для заданной доверительной вероятности. Этот интервал можно рассчитать:

    Сравниваем дисперсии и средние результаты двух выборочных совокупностей.

    Сравнение двух дисперсий проводится при помощи F- распределения (распределения Фишера). Если мы имеем две выборочные совокупности с дисперсиями S 2 1 и S 2 2 и числами степеней свободы f 1 =n 1 -1 и f 2 =n 2 -1, соответственно, то рассчитываем значение F:

    F=S 2 1 / S 2 2

    Причем в числителе всегда находится большая из двух сравниваемых выборочных дисперсий. Полученный результат сравнивают с табличным значением. Если F 0 > F крит (при р=0,95; n 1 , n 2), то расхождение между дисперсиями значимо и рассматриваемые выборочные совокупности различаются по воспроизводимости.

    Если расхождение между дисперсиями незначимо, возможно сравнить средние x 1 и х 2 двух выборочных совокупностей, т.е. выяснить, есть ли статистически значимая разница между результатами анализов. Для решения поставленной задачи используют t – распределение. Предварительно рассчитывают средневзвешенное двух дисперсий:

    И средневзвешенное стандартное отклонение

    а затем – величину t:

    Значение t эксп сравнивают с t крит при числе степеней свободы f=f 1 +f 2 =(n 1 +n 2 -2) и выборочной доверительной вероятности р=0,95. Если при этом t эксп > t крит ,то расхождение между средними и значимо и выборка не принадлежит одной и той же генеральной совокупности. Если t эксп < t крит, расхождение между средними незначимо, т.е. выборки принадлежат одной и той же генеральной совокупности, и, следовательно, данные обеих серий можно объединить и рассматривать их как одну выборочную совокупность из n 1 +n 2 результатов.

    Контрольное задание № 2

    Анализ воздуха на содержание компонента Х хроматографическим методом для двух серий дал следующие результаты (таблица-1).

    3. Принадлежат ли результаты обеих выборок и одной и той же генеральной совокупности. Проверить по критерию Стьюдента t (р = 0,95; n = 8).

    Таблица-4.2.1- Исходные данные по контрольному заданию № 2

    № варианта

    Ком-понент

    3.1.1 Задачи и методы математической статистики

    Математическая статистика - это раздел математики, посвященный методам сбора, анализа и обработки результатов статистических данных наблюдений для научных и практических целей. Методы математической статистики используют в тех случаях, когда изучают распределение массовых явлений , т.е. большой совокупности предметов или явлений, распределенных по определенному признаку .

    Пусть подлежит изучению совокупность однородных объектов, объединенных общим признаком или свойством качественного или количественного характера. Отдельные элементы такой совокупности называются ее членами. Все число членов совокупности составляет ее объем . Совокупность всех объектов, объединенных по некоторому признаку, будем называть генеральной совокупностью . Например, изучается доход населения, рыночная стоимость акций или отклонение от Госстандарта в ходе качественной оценки изготавливаемой продукции.

    Математическая статистика тесно связана с теорией вероятности и опирается на ее выводы. В частности, понятию генеральной совокупности в математической статистике соответствует понятие пространства элементарных событий в теории вероятностей.

    Изучение всей генеральной совокупности чаще всего невозможно или нецелесообразно из-за значительных материальных затрат, порчи или уничтожения объекта исследования. Так, невозможно получить объективную и полную информацию о доходе населения всего региона, т.е. каждого конкретного его обитателя. В связи с порчей объекта исследования, невозможно получить достоверную информацию о качестве, например, некоторых лекарственных средств или продуктов питания.

    Основная задача математической статистики заключается в исследовании генеральной совокупности по выборочным данным в зависимости от поставленной цели, то есть изучение вероятностных свойств совокупности: закона распределения, числовых характеристик и т.д. для принятия управленческих решений в условиях неопределенности.

    3.1.2 Виды выборки

    Одним из методов математической статистики является выборочный метод . На практике чаще всего исследуется не вся генеральная совокупность, а ограниченного объема выборка из нее.

    Выборкой (выборочной совокупностью) называют совокупность случайно отобранных объектов. С помощью выборочного метода исследуется не вся генеральная совокупность, а выборка (х 1 , х 2 ,...,x n ) как результат ограниченного ряда наблюдений. Затем по вероятностным свойствам данной выборки из некоторой генеральной совокупности выносится суждение о всей генеральной совокупности. Для получения выборки применяют различные методы отбора. Объекты исследования после изучения можно в генеральную совокупность, что соответствует
    выборке.

    Выборка называется репрезентативной или представительной , если она хорошо воспроизводит генеральную совокупность, то есть вероятностные свойства выборки совпадают или близки к свойствам самой генеральной совокупности.

    Итак, результативность применения выборочного метода повышается при соблюдении ряда условий, к которым можно отнести следующие:

      Количество исследуемых элементов выборки достаточно для выводов , то есть выборка представительна или «репрезентативна ».

    Так, достаточное количество деталей в партии, проверяемой на качество (брак), устанавливается с помощью законов теории вероятностей и математической статистики.

      Элементы выборки должны быть разнообразны, взяты случайно, т.е. должен соблюдаться принцип рандомизации.

      Изучаемый признак характерен , типичен для всех элементов множества изучаемых объектов т.е. для всей генеральной совокупности.

      Изучаемый признак является существенным для всех элементов данного класса.

    Изменение признака статистической совокупности, изучаемого выборочным методом, называется вариацией , а наблюдаемые значения признака x i - вариантой. Абсолютной частотой (частотой или частостью ) варианты x i называется число членов совокупности (генеральной или выборки), имеющих значение x i (т.е. это число частиц i - го сорта).

    Ранжированная группировка вариант по отдельным значениям признака (или по интервалам изменения), т.е. последовательность вариант, расположенная в порядке возрастания, называется вариационным рядом . Любую функцию (X 1 ,X 2 ,…,X n ) от результатов наблюдений X 1 ,X 2 ,…,X n исследуемой случайной величины называют статистикой .

    Принято объем генеральной совокупности обозначать N , ее абсолютные частоты - N i , объем выборки - n , ее абсолютные частоты - n i . Очевидно, что

    ,
    .

    Отношение частоты к объему совокупности называется относительной частотой или статистической вероятностью и обозначается W i или :

    .

    Если количество вариант велико или близко к объему выборки (при дискретном распределении), а также если выборка производится из непрерывной генеральной совокупности, то вариационный ряд составляют не по отдельным – точечным – значениям, а по интервалам значений генеральной совокупности. Вариационный ряд, представленный таблицей, построенный с помощью процедуры группировки, будем называть интервальным. При составлении интервального вариационного ряда первая строка таблицы заполняется равными по длине интервалами значений исследуемой совокупности, вторая – соответствующими абсолютными или относительными частотами.

    Пусть из некоторой генеральной совокупности в результате n наблюдений извлечена выборка объема п . Статистическим распределением выборки называется перечень вариант и соответствующих им абсолютных или относительных частот. Точечный вариационный ряд абсолютных частот может быть представлен таблицей:

    x i

    х k

    n i

    n k

    причем
    .

    Точечный вариационный ряд относительных частот представляют таблицей:

    x i

    х k

    причем
    .

    При построении интервального распределения существуют правила в выборе числа интервалов или величины каждого интервала. Критерием здесь служит оптимальное соотношение: при увеличении числа интервалов улучшается репрезентативность, но увеличивается объем данных и время на их обработку. Разность x max - x min между наибольшим и наименьшим значениями вариант называют размахом выборки.

    Для подсчета числа интервалов k обычно применяют эмпирическую формулу Стерджесса:

    k = 1+3,3221g n (3.1)

    (подразумевается округление до ближайшего целого). Соответственно, величину каждого интервала h можно вычислить по формуле:

    . (3.2)

    x min = x max - 0,5h .

    Каждый интервал должен содержать не менее пяти вариант. В том случае, когда число вариант в интервале меньше пяти, соседние интервалы принято объединять.