рефераты рефераты
 

Главная

Разделы

Новости

О сайте

Контакты

 
рефераты

Авиация и космонавтика
Административное право
Арбитражный процесс
Архитектура
Астрология
Астрономия
Банковское дело
Безопасность жизнедеятельности
Бизнес-план
Биология
Бухучет управленчучет
Водоснабжение водоотведение
Военная кафедра
География и геология
Геодезия
Государственное регулирование и налогообложение
Гражданское право
Гражданское процессуальное право
Животные
Жилищное право
Иностранные языки и языкознание
История и исторические личности
Коммуникации связь цифровые приборы и радиоэлектроника
Краеведение и этнография
Кулинария и продукты питания
Культура и искусство
Литература
Логика
Логистика
Маркетинг
Масс-медиа и реклама
Математика
Медицина
Международное и Римское право
Уголовное право уголовный процесс
Трудовое право
Журналистика
Химия
География
Иностранные языки
Без категории
Физкультура и спорт
Философия
Финансы
Фотография
Химия
Хозяйственное право
Цифровые устройства
Таможенная система
Теория государства и права
Теория организации
Теплотехника
Технология
Товароведение
Транспорт
Трудовое право
Туризм
Уголовное право и процесс
Управление
Радиоэлектроника
Религия и мифология
Риторика
Социология
Статистика
Страхование
Строительство
Схемотехника
История
Компьютеры ЭВМ
Культурология
Сельское лесное хозяйство и землепользование
Социальная работа
Социология и обществознание

рефераты
рефераты

НАУЧНАЯ БИБЛИОТЕКА - РЕФЕРАТЫ - Математическая статистика

Математическая статистика

ИДА Кривой Рог

IBM

Частное Учебное Заведение

Институт Делового Администрирования

Private Educational Institution

Institute of Business Managment

Кафедра информационных систем

и

высшей математики

Математическая cтатистика

[pic]

” Конспект лекций ?

для специальностей УА, ФК 1995

© Г.И. Корнилов ?

? 1997 ?

Введение в курс

1 Основные определения

Несмотря на многообразие используемых в литературе определений термина

“статистика”, суть большинства из них сводится к тому, что статистикой

чаще всего называют науку, изучающую методы сбора и обработки фактов и

данных в области человеческой деятельности и природных явлений.

В нашем курсе, который можно считать введением в курс “Экономическая

статистика”, речь будет идти о так называемой прикладной статистике, ( т.е.

только о сущности специальных методов сбора, обработки и анализа информации

и, кроме того, о практических приемах выполнения связанных с этим расчетов.

Великому американскому сатирику О’Генри принадлежит ироническое

определение статистики: “Есть три вида лжи ( просто ложь, ложь злостная и

…статистика!”. Попробуем разобраться в причинах, побудивших написать эти

слова.

Практически всему живому на земле присуще воспринимать окружающую

среду как непрерывную последовательность фактов, событий. Этим же свойством

обладают и люди, с той лишь разницей, что только им дано анализировать

поступающую информацию и (хотя и не всем из них это удается) делать выводы

из такого анализа и учитывать их в своей сознательной деятельности.

Поэтому можно смело утверждать, что во все времена, все люди занимались и

занимаются статистическими “исследованиями”, даже не зная иногда такого

слова ( “статистика”.

Все наши наблюдения над окружающем нас миром можно условно разделить

на два класса:

( наблюдения за фактами ( событиями, которые могут произойти или не

произойти;

( наблюдения за физическими величинами, значения которых в момент

наблюдения могут быть различными.

И атеист и верующий в бога человек, скорее всего, согласятся с

несколько необычным заявлением ( в окружающем нас мире происходят только

случайные события, а наблюдаемые нами значения всех показателей внешней

среды являются случайными величинами (далее везде – СВ) . Более того,

далее будет показано, что иногда можно использовать только одно понятие (

случайное событие.

Не задерживаясь на раскрытии философской сущности термина

“случайность” (вполне достаточно обычное, житейское представление),

обратимся к чрезвычайно важному понятию ( вероятность. Этот термин обычно

используют по отношению к событию и определяют числом (от 0 до 1),

выражающим степень нашей уверенности в том, что данное событие произойдет.

События с вероятностью 0 называют невозможными, а события с вероятностью 1

( достоверными (хотя это уже – неслучайные, детерминированные события).

Иногда в прикладной статистике приходится иметь дело с так называемыми

редкими (маловероятными) событиями. К ним принято относить события,

значение вероятности которых не превышает определенного уровня, чаще всего

– 0.05 или 5 %.

В тех случаях, когда профессионалу(статистику приходится иметь дело со

случайными величинами, последние часто делят на две разновидности:

( дискретные СВ, которые могут принимать только конкретные, заранее

оговоренные значения (например, ( значения чисел на верхней грани брошенной

игральной кости или порядковые значения текущего месяца);

( непрерывные СВ (чаще всего ( значения некоторых физических величин:

веса, расстояния, температуры и т.п.), которые по законам природы могут

принимать любые значения, хотя бы и в некотором интервале.

2 Вероятности случайных событий

Итак, основным “показателем” любого события (факта) А является

численная величина его вероятности P(A), которая может принимать значения

в диапазоне [0…1] ( в зависимости от того, насколько это событие случайно.

Такое, смысловое, определение вероятности не дает, однако, возможности

указать путь для вычисления ее значения.

Поэтому необходимо иметь и другое, отвечающее требованиям практической

работы, определение термина “вероятность”. Это определение можно дать на

основании житейского опыта и обычного здравого смысла.

Если мы интересуемся событием A, то, скорее всего, можем наблюдать,

фиксировать факты его появления. Потребность в понятии вероятности и ее

вычисления возникнет, очевидно, только тогда, когда мы наблюдаем это

событие не каждый раз, либо осознаем, что оно может произойти, а может не

произойти. И в том и другом случае полезно использовать понятие частоты

появления события fA ( как отношения числа случаев его появления

(благоприятных исходов или частостей) к общему числу наблюдений.

Интуиция подсказывает, что частота наступления случайного события

зависит не только от степени случайности самого события. Если мы наблюдали

за событием [pic] всего пять раз и в трех случаях это событие произошло, то

мало кто примет значение вероятности такого события равным 0.6 или 60 %.

Скорее всего, особенно в случаях необходимости принятия каких–то важных,

дорогостоящих решений любой из нас продолжит наблюдения. Здравый смысл

подсказывает нам, что уж если в 100 наблюдениях событие [pic] произошло 14

раз, то мы можем с куда большей уверенностью полагать его вероятность

равной 14 % .

Таким образом, мы (конечно же, ( не первые) сформулировали второе

определение понятия вероятности события ( как предела, к которому

стремится частота наблюдения за событием при непрерывном увеличении числа

наблюдений. Теория вероятностей, специальный раздел математики, доказывает

существование такого предела и сходимость частоты к вероятности при

стремлении числа наблюдений к бесконечности. Это положение носит название

центральной предельной теоремы или закона больших чисел.

Итак, первый ответ на вопрос ( как найти вероятность события, у нас

уже есть. Надо проводить эксперимент и устанавливать частоту наблюдений,

которая тем точнее даст нам вероятность, чем больше наблюдений мы имеем.

Ну, а как быть, если эксперимент невозможен (дорог, опасен или

меняет суть процессов, которые нас интересуют)? Иными словами, нет ли

другого пути вычисления вероятности событий, без проведения экспериментов?

Такой путь есть, хотя, как ни парадоксально, он все равно основан на

опыте, опыте жизни, опыте логических рассуждений. Вряд ли кто либо будет

производить эксперименты, подбрасывая несколько сотен или тысячу раз

симметричную монетку, чтобы выяснить вероятность появления герба при одном

бросании! Вы будете совершенно правы, если без эксперимента найдете

вероятность выпадения цифры 6 на симметричной игральной кости и т.д., и

т.п.

Этот путь называется статистическим моделированием – использованием

схемы случайных событий и с успехом используется во многих приложениях

теоретической и прикладной статистики. Продемонстрируем этот путь,

рассматривая вопрос о вероятностях случайных величин дальше. Обозначим

[pic] величину вероятности того, что событие A не произойдет. Тогда из

определения вероятности через частоту наступления события следует, что

P(A)+[pic] = 1,

{1–1}

что полезно читать так ( вероятность того, что событие произойдет или

не произойдет, равна 100 %, поскольку третьего варианта попросту нет.

Подобные логические рассуждения приведут нас к более общей формуле (

сложения вероятностей. Пусть некоторое случайное событие может произойти

только в одном из 5 вариантов, т.е. пусть имеется система из трех

несовместимых событий A, B и C .

Тогда очевидно, что:

P(A) + P(B) + P(C) = 1;

{1–2} и столь же простые рассуждения приведут к выражению

для вероятности наступления одного из двух несовместимых событий (например,

A или B):

P(A(B) = P(A) + P(B);

{1–3} или одного из трех:

P(A(B(C) = P(A) + P(B) + P(C);

{1-4} и так далее.

Рассмотрим чуть более сложный пример. Пусть нам надо найти вероятность

события C, заключающегося в том, что при подбрасывании двух разных монет мы

получим герб на первой (событие A) и на второй (событие B). Здесь речь идет

о совместном наступлении двух независимых событий, т.е. нас интересует

вероятность P(C) = P(A( B).

И здесь метод построения схемы событий оказывается чудесным помощником

( можно достаточно просто доказать, что

P(A(B) =P(A)(P(B).

{1-5} Конечно же, формулы {1-4} и {1-5} годятся для любого

количества событий: лишь бы они были несовместными в первом случае и

независимыми во втором.

Наконец, возникают ситуации, когда случайные события оказываются

взаимно зависимыми. В этих случаях приходится различать условные

вероятности:

P(A / B) – вероятность A при условии, что B уже произошло;

P(A / [pic]) – вероятность A при условии, что B не произошло,

называя P(A) безусловной или полной вероятностью события A .

Выясним вначале связь безусловной вероятности события с условными.

Так как событие A может произойти только в двух, взаимоисключающих

вариантах, то, в соответствии с {1–3} получается, что

P(A) = P(A/B)(P(B) + P(A/)( P([pic]).

{1–6}

Вероятности P(A/B) и P(A/[pic]) часто называют апостериорными (“a

posteriopri” – после того, как…), а безусловную вероятность P(A) –

априорной (“a priori” – до того, как…).

Очевидно, что если первым считается событие B и оно уже произошло, то

теперь наступление события A уже не зависит от B и поэтому вероятность

того, что произойдут оба события составит

P(A(B) = P(A/B)(P(B).

{1–7} Так как события

взаимозависимы, то можно повторить наши выводы и получить

P(B) = P(B/A)(P(A) + P(B/[pic])(P([pic]);

{1–8}

а также P(A(B) = P(B/A)(P(A).

{1–9}

Мы доказали так называемую теорему Байеса

P(A/B)(P(B) = P(B/A)(P(B);

{1–10} – весьма важное средство анализа, особенно в области

проверки гипотез и решения вопросов управления на базе методов прикладной

статистики.

Подведем некоторые итоги рассмотрения вопроса о вероятностях случайных

событий. У нас имеются только две возможности узнать что либо о величине

вероятности случайного события A:

( применить метод статистического моделирования ( построить схему

данного случайного события и (если у нас есть основания считать, что мы

правильно ее строим) и найти значение вероятности прямым расчетом;

( применить метод статистического испытания ( наблюдать за появлением

события и затем по частоте его появления оценить вероятность.

На практике приходится использовать оба метода, поскольку очень редко

можно быть абсолютно уверенным в примененной схеме события (недостаток

метода моделирования) и столь же редко частота появления события

достаточно быстро стабилизируется с ростом числа наблюдений (недостаток

метода испытаний).

Распределения вероятностей случайных величин

1 Шкалирование случайных величин

Как уже отмечалось, дискретной называют величину, которая может

принимать одно из счетного множества так называемых “допустимых” значений.

Примеров дискретных величин, у которых есть некоторая именованная единица

измерения, можно привести достаточно много.

Прежде всего, надо учесть тот факт что все физические величины (вес,

расстояния, площади, объемы и т.д.) теоретически могут принимать

бесчисленное множество значений, но практически ( только те значения,

которые мы можем установить измерительными приборами. А это значит, что в

прикладной статистике вполне допустимо распространить понятие дискретных СВ

на все без исключения численные описания величин, имеющих единицы

измерения.

Вместе с тем надо не забывать, что некоторые СВ просто не имеют

количественного описания, естественных единиц измерения (уровень знаний,

качество продукции и т. п.).

Покажем, что для решения вопроса о “единицах измерения” любых СВ, с

которыми приходится иметь дело в прикладной статистике, достаточно

использовать четыре вида шкал.

( Nom. Первой из них рассмотрим так называемую номинальную шкалу —

применяемую к тем величинам, которые не имеют природной единицы измерения.

В ряде случаев нам приходится считать случайными такие показатели предметов

или явлений окружающего нас мира, как марка автомобиля; национальность

человека или его пол, социальное положение; цвет некоторого изделия и т.п.

В таких ситуациях можно говорить о случайном событии ( "входящий в

магазин посетитель оказался мужчиной", но вполне допустимо рассматривать

пол посетителя как дискретную СВ, которая приняла одно из допустимых

значений на своей номинальной шкале.

Итак, если некоторая величина может принимать на своей номинальной

шкале значения X, Y или Z, то допустимыми считаются только выражения типа:

X # Y, X=Z , в то время как выражения типа X ( Z, X + Z не имеют никакого

смысла.

( Ord. Второй способ шкалирования – использование порядковых шкал. Они

незаменимы для СВ, не имеющих природных единиц измерения, но позволяющих

применять понятия предпочтения одного значения другому. Типичный пример:

оценки знаний (даже при числовом описании), служебные уровни и т. п. Для

таких величин разрешены не только отношения равенства (= или #), но и знаки

предпочтения (> или 6) = (1+8) / 256 ( 0.036. Осталось

построить решающее правило – критерий для принятия окончательного решения в

отношении выдвинутых гипотез (основной Њ0 и альтернативной Њ1).

Заметим, что при выдвинутой нами основной гипотезе Њ0:(p=q)

альтернативную гипотезу можно выдвигать по разному:

Њ1: (p#q) – монета несимметрична, ненаправленная гипотеза, требующая

использования двухсторонних вероятностей;

Њ1: (p6) ( 0.072, т.е. больше порогового значения

Решение: нулевую гипотезу не отвергаем, монетку считаем симметричной.

( Нулевая гипотеза Њ0: (p=q). Альтернативная гипотеза Њ1: (pq) или (p0. Всего вариантов 16, а вариантов с нулевой

или положительной суммой 9. Вероятность ошибки при отклонении Њ0

оказалась равной 9/16(0.57, что намного больше контрольных 5 % . Как и

следовало ожидать, нам нет смысла отбрасывать нулевую гипотезу – слишком

велика ошибка первого рода.

Все было бы хорошо, но если мы выдвинем другую нулевую гипотезу о

математическом ожидании выручки, например – Њ0: M(G)= 196 гривен, то после

аналогичных расчетов получим результат – и эту гипотезу нет оснований

отбрасывать, правда вероятность ошибки первого рода теперь будет иной –

“всего лишь” 0.125. Столько же составит вероятность этой ошибки и при Њ0:

M(G)= 214. Таким образом, все нулевые гипотезы со значениями от 196 до 214

можно не отвергать (не достигнуто пороговое значение 0.05). Можно ли

рекомендовать принятие альтернативной гипотезы и, если – да, то при каком

значении гипотетического математического ожидания?

Теория прикладной статистики отвечает на этот вопрос однозначно – нет,

рекомендовать нам это она не вправе!

Вспомним “неудобное” свойство статистических выводов или рекомендаций

– они никогда не бывают однозначными, конкретными. Поэтому наивно ожидать

решения задачи об оценке математического ожидания по данным наблюдений в

виде одного, конкретного числа.

Еще раз продумаем, чего мы добиваемся, меняя значение в нулевой

гипотезе? Ведь самая большая ошибка первого рода была как раз тогда, когда

мы выдвинули такое понятное предположение – математическое ожидание равно

среднему.

Более того, проверка нулевой гипотезы такого вида была совершенно

бессмысленным делом. Практически всегда в этих случаях альтернативная

гипотеза окажется самой вероятной, но практически никогда вероятность ее

истинности не достигнет желанных 95 %.

Всё дело в том, что просчитать последствия своего решения мы умеем

только отвергая нулевую гипотезу, но, принимая ее, последствия просчитать

не можем.

Вот если бы, передвигая воображаемый указатель по шкале СВ мы

получили сигнал “СТОП, достаточно! Достигнут уровень ошибки 5 %”, то мы бы

запомнили данное значение как левую (или правую) границу интервала, в

котором почти “наверняка” лежит искомое нами математическое ожидание. В

нашем примере этого не произошло и, оказывается и не могло произойти.

Дело в том, что у нас всего 4 наблюдения (196,208,210,214) со средним

значением 207 и среднеквадратичным отклонением около 13.5 гривен (т.е.

более 6 % от среднего). И получить значимые статистические выводы в этом

случае просто невозможно – надо увеличить объем выборки, число наблюдений.

А вот на вопрос – а сколько же надо наблюдений, каково их достаточное

число, прикладная статистика имеет ответ: для “преодоления 5 % барьера”

достаточно 5 наблюдений.

Попробуем решить другую задачу об оценке математического ожидания СВ

на интервальной шкале, но будем решать её не “по чувству”, а “по разуму”.

( Наблюдения над случайной величиной X: 19,17,15,13,12,11,10,8,7.

( Количество наблюдений: 9, возможных исходов 512.

( Њ0: M(X)= 9, Њ1: M(X)# 9.

Найдем сумму отклонений от гипотетического среднего, S = 31.

Из 512 возможных вариантов суммы отклонений выберем только те, в

которых эта сумма составляет 31 и более. Таких вариантов всего 11, значит

при принятии нулевой гипотезы Њ0: M(X)= 9 вероятность наблюдать такие суммы

P(S (31) составляет 11/512 ( 0.02 , что меньше порогового значения в 5 % .

Вывод: гипотезу Њ0 следует отвергнуть и считать приемлемым по

надежности неравенство M(X) # 9.

До сих пор мы выдвигали гипотезу о значении математического ожидания

на “левом крае” распределения наблюдений и могли бы повторять проверки,

задаваясь значениями M(X) в 10, 11 и т.д., до тех пор, пока вероятность

ошибки первого рода не достигла бы порогового значения.

Можно также исследовать правый край распределения – проверять гипотезы

при больших значениях математического ожидания.

Например:

( Наблюдения над случайной величиной X: 19,17,15,13,12,11,10,8,7.

( Количество наблюдений: 9, возможных исходов 512.

( Њ0: M(X)= 17, Њ1: M(X)# 17.

Теперь сумма отклонений от гипотетического среднего окажется S = –

41.

Из 512 возможных вариантов суммы отклонений выберем только те, в

которых эта сумма составляет –41 и менее. Таких вариантов всего 3, значит

при принятии нулевой гипотезы Њ0: M(X)= 17 вероятность наблюдать такие

суммы составляет P(S ( – 31) = 3/512 ( 0.006 , что намного меньше

порогового значения в 5 % . Следовательно, можно попробовать гипотезы с

меньшим M(X), сужая диапазон или так называемый доверительный интервал

для неизвестного нам математического ожидания.

2 Оценка наблюдений при известном законе распределения

Не всегда закон распределения СВ представляет для нас полную тайну.

В ряде случаев у нас могут быть основания предполагать, что случайные

события, определяющие наблюдаемые нами значения этой величины, подчиняются

определенной вероятностной схеме.

В таких случаях использование методов выдвижения и проверки гипотез

даст нам информацию о параметрах распределения, что может оказаться вполне

достаточно для решения конкретной экономической задачи.

1 Оценка параметров нормального распределения

Нередки случаи, когда у нас есть некоторые основания считать

интересующую нас СВ распределенной по нормальному закону. Существуют

специальные методы проверки такой гипотезы по данным наблюдений, но мы

ограничимся напоминанием природы этого распределения – наличия влияния на

значение данной величины достаточно большого количества случайных факторов.

Напомним себе также, что у нормального распределения всего два

параметра – математическое ожидание ( и среднеквадратичное отклонение (.

Пусть мы произвели 40 наблюдений над такой случайной величиной X и

эти наблюдения представили в виде:

Таблица 5-2

|Xi |85 |105 |125 |145 |165 |185 |205 |225 |Всего|

|ni |4 |3 |3 |2 |4 |7 |12 |5 |40 |

|f i |0.100|0.075|0.075|0.050|0.100|0.175|0.300|0.125|1 |

Если мы усредним значения наблюдений, то формула расчета

выборочного среднего

Mx = [pic]( Xi ( ni =( Xi ( fi

{5–1} будет отличаться от

выражения для математического ожидания ( только использованием частот

вместо вероятностей.

В нашем примере выборочное среднее значение составит Mx = 171.5 , но

из этого пока еще нельзя сделать заключение о равенстве ( = 171.5.

( Во-первых, Mx – это непрерывная СВ, следовательно, вероятность ее

точного равенства чему-нибудь вообще равна нулю.

( Во-вторых, нас настораживает отсутствие ряда значений X.

( В-третьих, частоты наблюдений стремятся к вероятностям при

бесконечно большом числе наблюдений, а у нас их только 40. Не мало ли?

Если мы усредним теперь значения квадратов отклонений наблюдений от

выборочного среднего, то формула расчета выборочной дисперсии

Dx = (Sx)2 = [pic]( (Xi – Mx)2 ( ni =( (Xi)2 ( fi – (Mx)2

{5–2} также не будет отличаться от формулы, определяющей

дисперсию (2 .

В нашем примере выборочное значение среднеквадратичного отклонения

составит Sx= 45.5 , но это совсем не означает, что ( =45.5.

И всё же – как оценить оба параметра распределения или хотя бы один

из них по данным наблюдений, т.е. по уже найденным Mx и Sx?

Прикладная статистика дает следующие рекомендации:

( значение дисперсии (2 считается неизвестным и решается первый

вопрос – достаточно ли число наблюдений N для того, чтобы использовать

вместо величины ( ее выборочное значение Sx;

( если это так, то решается второй вопрос – как построить нулевую

гипотезу о величине математического ожидания ( и как ее проверить.

Предположим вначале, что значение ( каким–то способом найдено. Тогда

формулируется простая нулевая гипотеза Њ0: (=Mx и осуществляется её

проверка с помощью следующего критерия. Вычисляется вспомогательная функция

(Z–критерий)

[pic] ,

{5-3} значение и знак которой зависят от

выбранного нами предполагаемого (.

Доказано, что значение Z является СВ с математическим ожиданием 0 ,

дисперсией 1 и имеет нормальное распределение.

Теперь важно правильно построить альтернативную гипотезу Њ1. Здесь

чаще всего применяется два подхода.

Выбор одного из них зависит от того – большое или малое (по модулю)

значение Z у нас получилось. Иными словами – как далеко от расчетного Mx

мы выбрали гипотетическое (..

( При малых отличиях между Mx и ( разумно строить гипотезы в виде

Њ0: (= Mx;

Њ1: неизвестное нам значение ( лежит в пределах

Mx – [pic](Z 2k ( ( ( Mx + [pic](Z 2k

{5–4}

Критическое (соответствующее уровню значимости в 5%) значение критерия

составляет при этом = 1.96 (двухсторонний критерий). Если оказывается,

что выборочное значение критерия (Z( < 1.96, то гипотеза Њ0: (=Mx

принимается, данные наблюдений не противоречат ей.

Если же это не так, то мы “в утешение” получаем информацию другого

вида – где, на каком интервале находится искомое значение (.

( При больших отличиях (в большую или меньшую сторону) между ( и Mx

гипотезы строятся иначе Њ0: (= Mx; Њ1: неизвестное нам значение ( лежит вне

пределов, указанных в {5–4}.

Теперь критическое (соответствующее уровню значимости в 5%) значение

критерия составляет Z 1k = 1.645 (односторонний критерий). Если

оказывается, что выборочное значение критерия(Z( ( 1.645, то гипотеза Њ0:

( =Mx отвергается, данные наблюдений противоречат ей.

Если же это не так, то мы получаем информацию другого вида – где, на

каком крае интервале находится искомое значение (. Разумеется, для других

(не 5%) значений уровня значимости Z1k и Z 2k являются другими.

Чуть сложнее путь проверки гипотез о математическом ожидании ( в

случаях, когда ( нам неизвестна и приходится довольствоваться выборочным

значением среднеквадратичного отклонения по данным наблюдений.

В этом случае вместо “z –критерия” используется т.н. “t–критерий” или

критерий Стьюдента

[pic] ,

{5–5} в котором используется значение “несмещенной”

оценки для дисперсии (2

(Sx)2 = [pic]( (Xi – Mx)2 ( ni .

{5–6}

Далее используется доказанное в теории положение – случайная величина

t имеет специальное распределение Стьюдента с m=N–1 степенями свободы.

Существуют таблицы для этого распределения по которым можно найти

вероятность ошибки первого рода или, что более удобно, – граничное значение

этой величины при заданных заранее ( и m. Таким образом, если вычисленное

нами значение (t(( t((,m), то Њ0 отвергается, если же это не так – Њ0

принимается. Конечно, при большом количестве наблюдений (N>100…120)

различие между z– и t–критериями несущественно. Значения критерия

Стьюдента для (=0.05 при разных количествах наблюдений составляют:

Таблица 5–3

|m |1 |2 |3 |4 |5 |6 |7 |8 |9 |10 |20 |30 |40 |120|

|t |12.|4.3|3.1|2.7|2.5|2.4|2.3|2.3|2.2|2.2|2.0|2.0|2.0|1.9|

| |7 |0 |8 |8 |7 |5 |6 |1 |6 |3 |9 |4 |2 |8 |

2 Оценка параметров дискретных распределений

В ряде случаев работы с некоторой дискретной СВ нам удается построить

вероятностную схему событий, приводящих к изменению значений данной

величины. Иными словами – закон распределения нам известен, но неизвестны

его параметры. И наша задача – научиться оценивать эти параметры по данным

наблюдений.

Начнем с наиболее простого случая. Пусть у нас есть основания считать,

что случайная величина X может принимать целочисленные значения на

интервале [0…k…n] с вероятностями

P(X=k)=[pic][pic]pk[pic](1– p)n-k,

т.е. распределена по биномиальному закону. Так вот, – единственный

параметр p этого распределения нас как раз и интересует.

Примером подобной задачи является чисто практический вопрос о контроле

качества товара.

Пусть мы решили оценить качество одной игральной кости из партии,

закупленной для казино. Проведя n=200 бросаний мы обнаружили появлений

цифры 6 в X = 25 случаях.

Выдвинем нулевую гипотезу Њ0: кость симметрична, то есть p= 1/6.

Вроде бы по наблюдениям частота выпадения цифры 6, составившая 25/200

не совпадает с гипотетическим значением вероятности 1/6. Но это чисто

умозрительное, дилетантское заключение.

Теория прикладной статистики рекомендует вычислить значение

непрерывной СВ

[pic],

{5–7} т.е. использовать z–критерий (см. {5–3}).

В нашем примере наблюдаемое значение Z составит около –1.58.

Следовательно, при пороговой вероятности в 5% условие (Z(< 1.96

выполняется и у нас нет оснований отбрасывать нулевую гипотезу о симметрии

игральной кости.

Отметим, что z–критерий позволяет решать еще одну важную задачу – о

достаточном числе испытаний.

Пусть нам требуется проверить качество товара – некоторых изделий,

каждое из которых может быть годным или негодным (бракованным). Пусть

допустимый процент брака составляет p=5%. Ясно, что чем больше испытаний мы

проведем, тем надежнее будет наш статистический вывод – браковать партию

товара (например, – 10000 штук) или считать её пригодной.

Если мы провели n=500 проверок и обнаружили X=30 бракованных изделий,

то выдвинув гипотезу Њ0: p=5% , мы найдем выборочное значение критерия по

{5–7}. Оно составит около 1.03, что меньше “контрольного” 1.96 . Значит, у

нас нет оснований браковать всю партию.

Но возникает вопрос – сколько проверок достаточно для принятия решения

с уровнем значимости в 5%? Для этого достаточно учесть допустимый процент

брака (т.е. задать p), указать допустимое расхождение между ним и

наблюдаемым процентом брака в выборке (d= p–X/n) и воспользоваться

выражением

[pic]

{5–8}

Если мы примем d=(0.02, то получим ответ – вполне достаточно 456

проверок, чтобы убедиться в том, что реальный процент брака отличается от

допустимого не более чем на 2%.

Выборочные распределения на шкале Nom

Напомним, что случайная величина X, принимающая одно из n допустимых

значений A, B, C и т.д. имеет номинальную шкалу тогда, когда для любой

пары этих значений применимы только понятия “равно” или “неравно”.

Для подобных СВ не существует понятий математического ожидания, как и

других моментов распределения. Но понятие закона распределения имеет смысл

– это ряд вероятностей PA = P(X=A) для каждого из допустимых значений.

Соответственно, итоги наблюдения над такой СВ дадут нам частоты fA. Если у

нас имеется всего N наблюдений за такой величиной, то иногда имеется

возможность выдвинуть и проверить гипотезы о природе такой случайной

величины, ее законе распределения и параметрах этого закона. Ситуации,

когда это возможно сделать, не так уж и редки – всё зависит от понимания

нами природы, сути случайных событий, от многозначности случайной величины

и, конечно же, от количества наблюдений.

1 Случай двухзначной случайной величины, N50

При достаточно больших выборках можно поступать и иначе. В качестве

правила проверки гипотез используют так называемый критерий "хи–квадрат”

(2 = ([pic].

{6–1}

Эта непрерывная случайная величина была предложена видным статистиком

Р.Фишером для проверки гипотез о соответствии выборочного распределения

некоторому заданному закону. Для этого используются экспериментальные

частости NE и вычисленные в соответствии Њ0 “теоретические” NH .

Разумеется, суммирование ведется по всем допустимым значениям СВ. В нашем

примере у нее всего лишь два значения (изделие годно или бракованное),

поэтому в числителе надо иметь т.н. поправку на непрерывность. Она

корректирует влияние природы распределений: дискретное у наблюдаемой

величины и непрерывное у критерия Фишера.

Изменим условия предыдущего примера – пусть N= 100, число бракованных

изделий составило NE–=12. Нетрудно определить NE+=88, но что касается

"гипотетических" частостей NH– и NH+, то эти величины зависят от того,

как мы сформулируем гипотезы. Если их оставить без изменения, то эти

частости составят NH+ = 90 и NH– = 10. Вычисление выборочного значения

(2–критерия не вызывает проблем, важнее знать – как использовать результат

расчета. В нашем примере расчетное значение критерия составит 0.25. Кроме

конкретного значения критерия надо учесть так называемое число степеней

свободы. В нашем случае это 1, а в общем случае надо уменьшить число

допустимых значений n на единицу. Ну, а далее требуется взять стандартные

статистические таблицы, учесть пороговое значение ошибки первого рода – и

получить ответ. Для примера приведем часть такой таблицы при (=0.05

Таблица 6–1

|Степеней свободы|1 |2 |3 |4 |5 |6 |7 |8 |9 |

|Критическое (2 |3.84 |5.99 |7.82 |9.49 |11.1 |12.6 |14.1 |15.5 |16.9 |

Если наблюдаемое значение (2 меньше критического, гипотеза Њ0 может

быть принята.

В условиях нашего примера расчетное значение критерия (2 составляет

всего лишь 0.25, что меньше критического 3.48 (для одной степени свободы)

и отвергать гипотезу Њ0 (браковать всю партию) нет оснований. Но, если

бы мы наблюдали не 12, а 17 случаев брака, то расчетное значение критерия

составило бы около 4.62 и гипотезу Њ0 пришлось бы отвергнуть.

3 Случай многозначной случайной величины

Существует достаточно обширный класс задач со случайными величинами,

распределенными на номинальной шкале с тремя и более допустимыми

значениями.

В таких задачах обычно используется все тот же критерий (2 с числом

степеней свободы более одной. По сути дела, используют почти ту же формулу

(2 = ([pic],

{6–2} в которой просто не используется поправка на непрерывность.

Так, например, наблюдая численности покупок четырех категорий

некоторого товара, мы могли зафиксировать следующие данные:

Таблица 6–1

|Товары |A |B |C |D |Всего |

|Число покупок |30 |55 |27 |48 |160 |

Выдвинем гипотезы:

Њ0: Все товары одинаково популярны или РА=РB=РC=РD=0.25

Њ1: Популярности товаров значимо различны.

Несложный расчет дает расчетную величину критерия около 14, т.е.

ощутимо больше критического значения 7.8 для 3–х степеней свободы по табл.

6–1. Это дает нам основание отвергнуть гипотезу о равной популярности этих

видов товара.

Выборочные распределения на шкале Ord

Случайные величины с порядковой шкалой измерения – это дискретные,

для всех допустимых значений которых, кроме отношений“=" или "#”, разрешены

отношения “”. Классическим примером порядковых величин являются

оценки знаний, успеваемости, приоритета. Для таких СВ, как и для

номинальных, не имеют смысла понятия моментов распределений.

Продемонстрируем ряд задач, возникающих при оперировании такими

величинами и рассмотрим специальные методы непараметрической статистики в

применении к этим задачам.

Следует различать ситуации, связанные с величинами на порядковой

шкале:

( случайная величина имеет всего два допустимых значения (одно из них

больше, предпочтительнее второго);

( случайная величина имеет более двух допустимых значений.

В первом случае мы имеем по сути дела двух позиционную номинальную

шкалу и все сказанное выше о распределениях на шкале Nom вполне приемлемо

для решения задач на такой шкале Rel. К примеру – задачи о проверке

симметрии монеты или о допустимом количестве бракованных изделий вполне

могут рассматриваться с использование порядковой шкалы, если считать герб

“старше” решки, бракованное изделие “хуже” исправного.

Второй тип СВ предполагает наличие нескольких фиксированных значений,

упорядоченных по некоторому признаку, свойству или нашему предпочтению. В

этих случаях говорят, что случайная величина (например – оценка знаний,

сорт товара) может быть величиной “первого ранга”, “второго ранга” и т.д.

В принципе корректная постановка задач о распределении СВ на

порядковых (ранговых) шкалах ничем не отличается от рассмотренных ранее

методов статистики для интервальных, относительных и номинальных шкал.

Пусть мы наблюдали, зафиксировали оценки знаний 100 обучаемых по

четырех ранговой шкале (“отлично”, “хорошо”, “удовлетворительно” и

“плохо”)

Таблица 7–1

|Оценка знаний |Отл. |Хор. |Удовл.|Плохо |Всего |

|Ранг оценки по смыслу |1 |2 |3 |4 | |

|Количество наблюдений |25 |45 |20 |10 |100 |

|Ранг по итогам наблюдений|2 |1 |3 |4 | |

Как обычно, далее приходится строить гипотезы и подбирать критерии для

их проверки. При выдвижении нулевой гипотезы надо, прежде всего, помнить о

необходимости с её помощью рассчитать распределение СВ – в нашем случае это

означает расчет количества оценок в условиях истинности Њ0.

Конечно, без “технологических” представлений о природе СВ выдвижение и

проверка гипотез (а затем использование статистических выводов) – пустая

трата времени.

Пусть мы осознаем зависимость оценки знаний от предварительной

подготовки обучаемых (она может быть одинакова у всех или значимо

отличаться), от эффективности системы обучения и, наконец, от способа

проверки знаний. Тогда результаты наблюдений могут оказаться полезными при

решении задач управления обучением и, по крайней мере, контроля процесса

обучения.

Если у нас есть основания считать предварительную подготовку обучаемых

одинакового уровня для всех и способ проверки знаний достаточно

объективным, то тогда можно выдвинуть нулевую гипотезу Њ0: система

обучения эффективна. Конечно, мы не можем теоретически предсказать

количество оценок каждого из рангов. Но этого и не нужно – оценки не числа,

и частота наблюдения оценки “отлично” не может быть умножена на значение

этой оценки. Другое дело, если мы договоримся считать систему обучения

эффективной только в том случае, если она по отношению к одинаково

подготовленным обучаемым дает большие числа более высоких оценок.

Тогда, в соответствии с Њ0 ранги 2–й строки табл.7–1 могут

рассматриваться как гипотетические, а ранги 4-й строки – как выборочные,

наблюдаемые. Осталось установить – какой же критерий принять для проверки

нашей гипотезы. Один из часто используемых в подобных задачах критериев

носит название коэффициента ранговой корреляции Спирмэна

[pic] ,

{7–1}

в котором di – разности гипотетических и наблюдаемых рангов; n – число

рангов.

Величина коэффициента ранговой корреляции имеет непрерывное

распределение на интервале [–1…+1] с математическим ожиданием 0 – если,

конечно, гипотеза Њ0 верна. Поэтому значение вычисленного Rs можно

использовать в качестве критерия проверки гипотез. В нашем примере сумма

квадратов разностей рангов равна S=2 и для n=4 коэффициент Спирмэна по

итогам наблюдений составит Rs = 0.8. Обратимся теперь к статистическим

таблицам и рассмотрим ту, которая рассчитана для числа рангов n=4.

Таблица 7–2

|Наблюдаемое значение суммы S |2 |4 |6 |8 |10 |

|Вероятность S при ошибочности Њ0 |0.042 |0.167 |0.208 |0.375 |0.458 |

Для нашего примера предположение о полной эффективности системы

обучения вполне обосновано.

Мы ознакомились только с одним из существующих методов статистического

анализа СВ со шкалой Ord. Существуют и другие, обоснованные и

апробированные методы (коэффициент ранговой корреляции Кэндалла). Отличие

между ними только в способе расчета критерия принятия или отбрасывания

нулевой гипотезы.Вместе с тем мы не затронули вопроса о проблемах,

возникающих при наличии нескольких величин с ранговой шкалой измерения.

Эти проблемы связаны с множественной ранговой корреляцией или конкордацией

(согласованностью рангов).

Пусть у нас имеются ранжировки m=4 экспертов по отношению к n=6

факторам, которые определяют эффективность некоторой экономической системы:

|Эксперты / Факторы |F1 |F2 |F3 |F4 |F5 |F6 |( |

|A |5 |4 |1 |6 |3 |2 |21 |

|B |2 |3 |1 |5 |6 |4 |21 |

|C |4 |1 |6 |3 |2 |5 |21 |

|D |4 |3 |2 |5 |1 |6 |21 |

|Сумма рангов |15 |11 |10 |19 |12 |17 |84 |

|Суммарный ранг |4 |2 |1 |6 |3 |5 | |

|Отклонение суммы рангов от 84/6 |+1 |-3 |-4 |+5 |-2 |+3 | |

|=14 | | | | | | | |

|Квадраты этих отклонений |1 |9 |16 |25 |4 |9 |64 |

Заметим, что полная сумма рангов составляет 84, что дает в среднем по

14 на фактор. Для общего случая n факторов и m экспертов среднее

значение суммы рангов для любого фактора определится выражением

( [pic] 0.5(m((n+1)

{7–2}

Теперь можно оценить степень согласованности мнений экспертов по

отношению к шести факторам. Для каждого из факторов наблюдается отклонение

суммы рангов, указанных экспертами, от среднего значения такой суммы.

Поскольку сумма этих отклонений всегда равна нулю, для их усреднения

разумно использовать квадраты значений. В нашем случае сумма таких

квадратов составит S= 64, а в общем случае эта сумма будет наибольшей

только при полном совпадении мнений всех экспертов по отношению ко всем

факторам:

Smax[pic] m2 ( (n3– n) / 12

{7 –3} что в нашем примере

дает 280.

М. Кэндаллом предложен показатель согласованности или коэффициент

конкордации, определяемый как

W = S / Smax

{7–4} принимающий, в отличие от обычных (парных)

коэффициентов ранговой корреляции, значения от 1 (при наибольшей

согласованности) до 0.

В нашем примере значение коэффициента конкордации составляет около

0.23 и явно недостаточно для принятия гипотезы о согласованности мнений

экспертов.

Существуют специальные таблицы, позволяющие отыскивать значения сумм

S, настолько близких к Smax , что вероятность ошибки при принятии гипотезы

о полной согласованности мнений экспертов не превосходит 5%. Вот одна из

таких таблиц с критическими (достаточными) значениями сумм квадратов

отклонений рангов S для n=3…7 факторов при m= 3…15 экспертов.

|m \ n |3 |4 |5 |6 |7 |

|3 |– |– |64 |104 |157 |

|4 |– |50 |88 |143 |217 |

|5 |– |63 |112 |182 |276 |

|6 |– |76 |136 |221 |335 |

|8 |48 |102 |184 |299 |453 |

|10 |60 |128 |231 |377 |571 |

|15 |90 |193 |350 |571 |865 |

Для нашего примера указанная вероятность соответствует сумме квадратов

отклонений S= 143, что намного больше наблюдаемой суммы 64. Поэтому

гипотезу о согласованности мнений экспертов придется отбросить.

Материал семинарских занятий

1 Введение в комбинаторику

При изучении курса математической статистики приходится использовать

методы одного из разделов математики, который хотя формально и не

относится к высшей, вузовской математике, но, к сожалению, не изучается в

средней школе.

Этот раздел – комбинаторика, “наука о способах подсчета вариантов”.

Эта наука имеет тот же, примерно 300 летний возраст, что и сама статистика.

Комбинаторика – сверстница теории вероятностей, теоретического фундамента

прикладной статистики. Как и в древней, в современной статистике невозможно

обойтись без навыков просчитывать в уме или, по крайней мере, быстро, по

простым формулам, варианты событий, размещений предметов, значений величин

и т.п.

Замечание о расчетах в уме сделано не случайно. Знание основ

комбинаторики позволит хотя бы оценивать числа вариантов и соотношения

между ними также “профессионально” как и делаете это вы, оценивая возраст

встреченного человека.

В этом плане комбинаторику можно называть “логикой вариантов” и это

будет вполне резонно – в этой науке больше чистой логики, чем математики.

Для демонстрации необходимости знаний комбинаторики и в качестве

первой практической задачи рассмотрим несколько простых, практических

вопросов.

( Вам, очевидно, известно, что внутренний, “машинный” язык компьютера

люди построили по образу и подобия человеческого языка: буквы, слова,

предложения.

Обстоятельства надежности записи и чтения на этом языке привели к

решению сделать компьютерный язык предельно бедным. В нем всего две буквы

(“0” и “1”, “+ " и “–”, “да” и “нет”, – в зависимости от физического

процесса записи), всегда 8 букв в слове, отсутствует пробел между словами

(это была бы третья буква).

И вот возникает вопрос – а сколько вариантов у машинного слова, т.е. у

одного байта? Еще проще – если одним байтом записывать числа, то сколько

положительных целых чисел можно охватить 1 байтом? В поисках ответа можно

терпеливо выписывать все возможные варианты слов из 8 нулей и единиц:

00000000, 00000001, 00000010 и т.д. до 11111111. Но ведь это долго и надо

быть уверенным, что ничего не пропустили!

Так вот – законы комбинаторики позволяют мгновенно решить эту задачу и

получить ответ – вариантов записи байта ровно 256.

Это чисто практический вопрос – ведь компьютер с возможностью считать

в целых числах от –128 до 127 никто не купит.

Ну, если целые числа хранить в 2-х машинных словах, в 2-х байтах или в

16 “разрядах”.? Уж это новое число вариантов никто не согласится вычислять

простым перебором! А ответ комбинаторики все тот же прост – в этом случае

есть возможность работать с целыми числами от –32768 до 32767.

Оказывается, что эти числа не надо запоминать, поскольку алгоритм их

расчетов очень прост и посилен человеку, осилившему только арифметику.

( Рассмотрим второй пример решения практического вопроса с

использованием правил комбинаторики. Пусть решается вопрос об установлении

проводной связи между 25 предприятиями фирмы по следующему принципу –

каждое предприятие должно иметь отдельный канал связи со всеми остальными.

Сколько таких каналов придется установить в фирме?

Для решения вопроса можно нарисовать выпуклый 25–угольник и провести в

нем все диагонали, пересчитав в конце их число и не забыв добавить число

сторон. Человек, знающий комбинаторику, во-первых, не сделает ошибки

–25(24=600 каналов. Во-вторых, он мгновенно укажет верный ответ – всего

требуется 300 каналов. Комментарии излишни…

Для освоения наиболее популярных применений комбинаторики нам

потребуется использовать, по крайней мере, два ее основных понятия –

перестановки и сочетания.

Перестановками называют операции над упорядоченным рядом из n

различных объектов, в процессе которых “списочный состав” ряда не

изменяется, но “места” объектов в этом ряду изменяются от варианта к

варианту. Не будем тратить время на обоснование расчетной формулы для

произвольного n, а попробуем найти число перестановок в ряду из 1, 2 и 3

предметов.

Воспользуемся для этого простенькой схемой:

n=1 A

1 вариант.

n=2 AB BA

1(2= 2 варианта.

n=3 ABC ACB BCA BAC CAB CBA 1(2(3= 6

вариантов.

Можно доказать строго, что в общем случае число перестановок в ряду из

n элементов составит

[pic]

{8–1}

Сочетаниями называют операции над множеством из n различных

объектов, в процессе которых образуют подмножества из k элементов, взятых

из исходного множества, так, чтобы варианты подмножеств отличались друг от

друга хотя бы одним элементом.

Опустим доказательство формулы для расчета числа сочетаний из n по k в

общем виде и приведем лишь примеры для числа сочетаний из 3 по 2 и из 5 по

3.

( Элементы исходного множества A, B, C.

Варианты подмножеств: AB, AC, BC – всего три.

( Элементы исходного множества A, B, C, D, E.

Варианты подмножеств: ABC, ABD, ABE, ACD, ACE, ADE, BCD, BCE, BDE,

CDE – всего десять.

В общем случае число вариантов сочетаний или просто – число сочетаний

из n по k определяется по формуле

[pic]=[pic] {8–2}

Существует еще один способ вычисления числа сочетаний из n по k – с

использованием коэффициентов в развернутой форме бинома (p+q)n. В самом

деле, например, при n=3 коэффициенты при степенях разложения составляют 1,

3, 3, 1 – а это и есть сочетания из 3 по 0, 1, 2, 3 и 4 элементов.

Известна также схема простого расчета биномиальных коэффициентов,

которая носит названия треугольника Паскаля:

Для n

| | | | | | | |1 | |1 | | | | | | | | |1 | | |

| | | | | | |1 | |2 | |1 | | | | | | | |2 | | |

| | | | | |1 | |3 | |3 | |1 | | | | | | |3 | | |

| | | | |1 | |4 | |6 | |4 | |1 | | | | | |4 | | |

| | | |1 | |5 | |10| |10| |5 | |1 | | | | |5 | | |

| | |1 | |6 | |15| |20| |15| |6 | |1 | | | |6 | | |

| |1 | |7 | |21| |35| |35| |21| |7 | |1 | | |7 | | |

Первый элемент любого основания равен 1, второй – номеру основания, а

все последующие – сумме двух "вышестоящих".

2 Методы вычисления моментов распределений

При вычислении моментов распределения случайных величин полезно

использовать некоторые удобные (как для прямого расчета, так и для

составления компьютерных программ) выражения.

( Пусть требуется просуммировать ряд чисел T1, T2, ……Tk, …Tm и мы

замечаем, что они отличаются друг от друга на одну и ту же величину d, т.е.

образуют арифметическую прогрессию. В этом случае полезна замена –

[pic]

{8–3}

Таким образом, среднее значение для ряда таких чисел составит:

[pic][pic].

{8–4}

( Для вычисления суммы чисел натурального ряда или суммы квадратов

этих чисел удобны формулы:

[pic]; [pic] . {8–5}

( Если некоторая случайная величина Y может быть выражена через

другую в виде

Y= a(X+b, то справедливы соотношения:

M(Y) = a(M(X)+b; D(Y) = a2 ( D(X).

{8–6}

( Если некоторая случайная величина X имеет математическое ожидание

M(X) и среднеквадратичное отклонение S(X) , то "нормированная" случайная

величина:

[pic]

{8–7} имеет нулевое математическое

ожидание и единичную дисперсию.

3 Алгоритмы простейших статистических расчетов

Несмотря на относительную простоту, статистические расчеты требуют

значительных затрат времени, повышенного внимания и, связанного с этим

риска ошибок. Кроме того, в большинстве случаев практики после расчетов

выборочных значений и выдвижения гипотез почти всегда приходится обращаться

к статистическим таблицам, т.е. к данным классических распределений.

Большую часть этих трудностей можно преодолеть – путем использования

специальных статистических программ (или целого набора – пакета прикладных

программ).

На сегодня программное обеспечение статистических расчетов выполнено,

как правило, на уровне глобальных задач прикладной статистики, системного

анализа и т.п. Надежных, простых в употреблении компьютерных программ

практически нет – считается, что писать и распространять такие программы не

престижно! С другой стороны, потребители таких программ – профессиональные

статистики не испытывают затруднений в самостоятельном написании удобных

(для себя) программ и даже пакетов. То, что есть – не хорошо и не плохо,

просто это традиция и нарушать ее нет желания ни у фирм, производящих

программы, ни у потенциальных пользователей.

Поэтому имеет смысл затратить некоторое время на анализ определенных

трудностей, которые наверняка будут проявляться при программировании

типовых статистических расчетов.

Оказывается, что здесь программиста поджидают "подводные камни",

тупики и прочие неприятности, связанные не только с реальными возможностями

компьютера, но и с самими формулами статистики, особенностями этой науки.

1 Вычисление моментов выборочных распределений

Пусть у нас имеется массив выборочных значений случайной величины и

соответствующие частости (числа наблюдений) этих значений, то есть матрица

из двух столбцов и m строк.

Обозначим такой массив W и рассмотрим вопрос о вводе исходных

данных. Конечно же, мы быстро сообразим, что ввод надо организовать для пар

значений Xi, ni – только в этом варианте можно снизить вероятность ошибок.

Вопрос об общем количестве наблюдений можно не ставить в начале

диалога – освободить пользователя от необходимости вычислять N = n1 + n2 +

… + nm. Организовать сигнал конца ввода не представляет проблем – скажем,

ввести отрицательное число наблюдений на очередном шаге.

Как организовать подготовку данных для расчета выборочных моментов –

например, выборочного среднего Mx и выборочной дисперсии Dx?

Среди многих вариантов наилучшим будет, пожалуй, следующий.

Приготовить три контрольных величины M1, M2 и NN, предварительно

присвоив им нулевые значения до начала ввода, что на языке Pascal будет

выглядеть так –

Var NN, I, X, Y: Integer;

W: Array [1…2,1…m] of Integer;

M1, M2, D, S, V: Real;

M1:=0; M2:=0; NN:=0; I:= 0;

Теперь можно организовать суммирование поступающих с клавиатуры (или

прямо из уже готового массива, записанного где–то на диске) выборочных

данных Xi и ni.

Пусть у нас такой массив уже есть, тогда с каждой очередной парой

чисел следует поступить так

Repeat

I:=I + 1; X:=W[I,1]; Y:=W[I,2];

NN:=NN+Y;

M1:=(M1+X(Y); M2:=M2+Sqr(X) (Y

Until I < m;

Операцию надо повторять до тех пор, пока мы не достигнем конца массива

(при вводе с клавиатуры – пока не будет введено отрицательное значение

очередного ni).

Если ввод окончен, то далее выборочные среднее, дисперсия и

коэффициент вариации

N:=NN; M1:=M1/N;

D:=M2/N – Sqr(M1); S:=Sqrt(D); If M1#0 Then V:=S/M1;

2 Проблема переполнения

В предыдущем примере программирования процедуры вычисления моментов

была не отмечена опасность "переполнения" – суммы M1 и M2 могут выйти за

"разрядную сетку" компьютера.

Если такая угроза очевидна, то простейший выход из положения –

вычислить предварительно общее число наблюдений N и потом выполнять

описанный выше алгоритм суммирования с использованием не частостей, а

частот.

Более надежным, однако, является другой подход к этой проблеме.

Достаточно на каждом шаге суммирования преобразовывать "старые" значения

сумм M1 и M2 в "новые".

Var N, NN, I, X, Y: Integer;

W: Array [1… 2,1… m] of Integer;

А, B, M1, M2, D, S, V: Real;

M1:=0; M2:=0; N:=0; I :=0;

Repeat

I:=I + 1;

X:=W[I,1]; NN:=N+W[I,2]:

A:=N/NN; B:=W[I,2]/NN;

M1:=M1(A+X(B;

M2:=M2(A+Sqr(X) (B; N:=NN

Until I< m;

D:=M2 – Sqr(M1); V:= Sqrt(D);

If M1#0 Then V:=S/M1;

Более остро стоит проблема переполнения при вычислении факториалов,

входящих в формулы вероятностей многих классических законов дискретных

случайных величин.

Продемонстрируем метод решения подобной проблемы при вычислении

биномиальных коэффициентов.

Если нам необходимо найти k–й коэффициент бинома n–й степени, то

вполне надежным будет следующий алгоритм.

A:=N; B:=K; C:=1;

Repeat

C:=C(A/B; A:=A-1; B:=B-1

Until B>0;

Полезно также знать, что при достаточно больших N вычисление

факториала можно производить по формуле Стирлинга , однако приведенный

алгоритм намного проще алгоритма использования этой формулы.

3 Моделирование законов распределения

Практика прикладной статистики невозможна без использования данных о

классических, стандартных законах распределения. Чтобы избежать

непосредственного использования статистических таблиц при выполнения

расчетов – особенно в части проверки гипотез, можно поступить двояко.

( Ввести содержание таблиц в память компьютера (непосредственно в

рабочую программу или в виде отдельного файла – приложения к этой

программе). Но этого мало. Надо научить компьютер "водить пальцем по

таблице", т.е. запрограммировать иногда не совсем элементарный алгоритм

пользования таблицей. Работа эта хоть и занудная, но зато не требующая

никаких знаний, кроме умения программировать решение корректно поставленных

задач – описания пользования таблицами составлены четко и алгоритмично.

( Можно поступить более рационально. Поскольку речь идет о

классических распределениях дискретных или непрерывных случайных величин,

то в нашем распоряжении всегда имеются формулы вычисления вероятности (или

интеграла вероятности). Бытует мнение, что программирование расчетов по

формулам является чуть ли не самым низким уровнем искусства

программирования. На самом же деле это не совсем так, а при

программировании законов распределения вероятностей – совсем не так!

Без понимания природы процесса, который порождает данную случайную

величину, без знания основ теории вероятностей и математической статистики

нечего и пытаться строить такие программы. Но если всё это есть, то можно

строить компьютерные программы с такими возможностями статистического

анализа, о которых не могли и мечтать отцы–основатели прикладной

статистики. Покажем это на нескольких простых примерах.

Нам уже известно, что выдвижение в качестве нулевой гипотезы о

некотором стандартном законе распределения связано только с одним

обстоятельством – мы можем предсказывать итоги наблюдения в условиях её

справедливости. Но это предсказание невозможно без использования

конкретных значений параметра (или нескольких параметров) закона. Во всех

"до–компьютерных" руководствах по прикладной статистике рано или поздно

приходится читать – "а теперь возьмем таблицу … и найдем для наших условий

…". Хочется проверить ту же гипотезу при другом значении параметра? Нет

проблем! Повтори все расчеты при этом новом значении и снова работай с

таблицей.

Иными словами, в "до–компьютерную" эпоху вопрос – а что вообще можно

получить из данного наблюдения (или серии наблюдений), какова максимальная

информация о случайной величине заключена в этих наблюдениях, – не

ставился.

Причина этого очевидна – сложность и большие затраты времени на

расчеты. Но дело еще и в том, что неопределенность статистических выводов

приводила к тупиковой ситуации, когда затраты на проведение сложных,

требующих особого внимания и безупречной логики расчетов, могли оказаться

куда больше возможного экономического выигрыша при внедрении результатов.

Поэтому сегодня, отдав должное изобретательности творцов прикладной

статистики, следует ориентировать практику статистических расчетов

исключительно на применение компьютерных программ.

Это могут быть, условно говоря, "параметрические" программы,

ориентированные на тот или иной тип распределения. Их назначение – найти по

данным имеющихся наблюдений статистическую значимость гипотез о параметрах

таких распределений или, наоборот, по заданным пользователем параметрам

рассчитать вероятности всех (!) заданных им ситуаций.

Вполне реально создание и использование "непараметрических" программ –

способных анализировать входные данные наблюдений и проверять гипотезы о

принадлежности случайной величины к любому из "известных этой программе"

закону распределения.

Наконец, использование компьютерной техники современного уровня

позволяет решать за вполне приемлемое время и небольшую цену еще один вид

задач – статистического моделирования. Сущность этого термина раскрывается

в специальной области кибернетики – системном анализе, но кратко может быть

раскрыта следующим образом.

Пусть некоторая случайная величина Z является, по нашим

представлениям, функцией двух других случайных величин – X и Y. При этом

оказывается, что X зависит от двух также случайных величин A и B, а Y

зависит от трех случайных событий C, D и E.

Так вот, в этом "простом" случае мы знаем или предполагаем, что знаем

вероятности всех событий и законы распределения всех случайных величин,

кроме "выходной" величины Z.

Для простоты будем считать функциональные зависимости также известными

(например, – вытекающими из некоторых законов природы):

Z = X – [pic]; X = A + [pic];

A = 1, 2 , … 16 и распределена по биномиальному закону с параметром p=

0.42;

B – распределена по нормальному закону с (=12 и ( =2;

Y = 42, если произошло событие C, а события D и E не произошли;

Y = 177, если произошли события D и E, независимо от того, произошло

ли C;

Y = –15 во всех остальных случаях.

Ясно, что попытка строить для этого примера–шутки логическую схему, по

которой можно было бы вычислять возможные значения Z и соответствующие

этим значениям вероятности, обречена на провал – слишком сложными и не

поддающимися аналитическому описанию окажутся наши выкладки.

Однако же, при наличии знаний хотя бы основных положений прикладной

статистики и умении программировать, вполне оправданно потратить некоторое

время на создание программы и ее обкатку, проверку по правилам статистики.

Далее можно будет "проигрывать" все возможные ситуации и буквально

через секунды получать "распределение случайной величины Z" в любом виде

(кроме, разумеется, формульного).

Итак, надо уметь программировать операции, дающие случайную величину с

заранее оговоренным законом распределения. Большинство языков

программирования высокого уровня имеют встроенные подпрограммы (процедуры

или функции в языке Pascal), обеспечивающие генерацию случайной величины

R, равномерно распределенной в диапазоне 0…1. Будем полагать, что в нашем

распоряжении имеется такой "датчик случайных чисел".

[pic]Покажем, как превратить такую величину R в дискретную с

биномиальным законом распределения. Пусть нам нужна случайная величина K, с

целочисленными значениями от 0 до N при значении заданном значении

параметра p. Один из вариантов алгоритма такой генерации мог бы выглядеть

так.

Var X, P: Real;

I, K, N: Integer;

K:=0;

For I:=1 to N Do

Begin

X:= R;

If X>(1– p)

Then K:=K+1

End;

После очередного цикла генерации мы получаем случайную величину K,

распределенную по биномиальному закону настолько надежно, насколько удачной

является функция генерации числа R. Во избежание сомнений стоит потратить

время на обкатку такого алгоритма – повторив цикл 100 или 1000 раз и

проверив надежность генерации по данным "наблюдений" с помощью

теоретических значений математического ожидания N(p и дисперсии N(p((1–p).

[pic]Несколько более сложно генерировать непрерывные случайные

величины, в частности для популярных распределений – нормального,

"хи–квадрат", Стьюдента и т.п.

Дело здесь в том, что непрерывная случайная величина имеет бесконечное

число допустимых значений, даже если интервал этих значений ограничен.

Но, вместе с тем, для конкретного закона распределения непрерывной

случайной величины известна плотность вероятности – предел, к которому

стремится вероятность попадания такой величины в заданный интервал при

сужении интервала до нуля.

Покажем эти трудности и пути их преодоления на примере нормального

распределения. Пусть нам требуется генерировать нормированную случайную

величину Z с нормальным законом распределения.

Для такой величины ( =0, ( =1, а попадание ее значений в диапазон

более 3 или менее –3 практически невероятно (около 0.0027).

Разобьем диапазон –3…+3 на 2N+1 интервалов, шириной 2d каждый. При

достаточно малом d= 3 / N, вероятность попадания Z в любой из них

вычисляется легко:

P(–d 50 6—29

6.3 Случай многозначной случайной величины 6—30

7. Выборочные распределения на шкале Ord 7—31

8. Материал семинарских занятий 8—34

8.1 Введение в комбинаторику 8—34

8.2 Методы вычисления моментов распределений 8—36

8.3 Алгоритмы простейших статистических расчетов 8—36

8.3.1 Вычисление моментов выборочных распределений 8—37

8.3.2 Проблема переполнения 8—37

8.3.3 Моделирование законов распределения 8—38

9. Литература 9—42

-----------------------

Y

Y

Y

Y

( (X)

99.73 %

( – 3( ( (+3(

Рис.4–1

Њ0:

Неверна

Верна

Принята

Принята

Отброшена

Отброшена

Нет ошибки

Ошибка

2 рода

Ошибка

1 рода

Њ0: дневная выручка имеет некоторый закон распределения

с математическим ожиданием в M(G)=207 гривен.

рефераты
© РЕФЕРАТЫ, 2012

рефераты