Математика
Тема 12: Элементы комбинаторики, статистики. Профильный уровеньУрок 4: Элементы математической статистики
- Видео
- Тренажер
- Теория
Ознакомление со статистикой и ее необходимостью
Статистика имеет дело с огромными массивами исходной информации. Как, например, определить среднюю продолжительность жизни мужчин или женщин по стране? Нужны миллионы первоначальных замеров. Но большие размеры исходных данных не наглядны и не удобны для анализа. Их нужно предварительно обработать, представить в удобном виде, для дальнейшего анализа и дальнейшей обработки.
Ознакомление с представлением данных в табличном виде
Пусть первоначальные замеры – это время на дорогу от дома до спецшколы у пятидесяти ее учеников. Данные опросов округлили до десяти минут и получили исходную таблицу данных: 50 чисел.
20 |
100 |
20 |
30 |
40 |
50 |
30 |
80 |
90 |
40 |
30 |
50 |
20 |
50 |
30 |
30 |
50 |
60 |
60 |
50 |
30 |
40 |
60 |
50 |
100 |
60 |
90 |
10 |
20 |
50 |
90 |
80 |
20 |
40 |
50 |
10 |
50 |
40 |
30 |
40 |
60 |
120 |
30 |
40 |
60 |
20 |
60 |
10 |
50 |
60 |
И что видно из этой таблицы? Много учеников живет далеко от школы? Даже на такой вопрос ответ неясен. Действительно, необходима предварительная обработка информации, ее дизайн. Обработка начинается с группировки информации. Информация группируется в пределах 10–180 минут, так как менее 10 минут никто из учеников не заявил, более 3 часов в один конец никто не ездит. Вывод: при измерении могли получиться следующие числа в минутах.
Измерение |
Общий ряд данных |
Время проезда (мин) |
10, 20, 30, …, 170, 180 |
Получили так называемый общий ряд данных – это возможные результаты измерений. Среди общего числа, в нашем примере встретились числа: 10, 20, 30, 40, 50, 60, 80, 90, 100, 120. Не встретились числа: 70, 110, 170.
Определение: варианта измерения – это один из результатов этого измерения. Фактически, числа, встретившиеся в нашем примере, и есть варианта измерений.
Если варианты перечислить по порядку и без повторений, то получим ряд данных измерения.
Измерение |
Общий ряд данных |
Ряд данных измерения |
Время проезда (мин) |
10, 20, 30, …, 170, 180 |
10, 20, 30, 40, 50, 60, 80, 90, 100, 120 |
Если варианта встретилась в измерении раз, то число называется кратностью этой варианты. Например: кратность варианты 60 минут равна восьми, а варианты 120 равна единице.
В таблице представлены варианты для всех десятков минут из нашего примера.
|
Варианта, дес. мин |
Сумма |
|||||||||
1 |
2 |
3 |
4 |
5 |
6 |
8 |
9 |
10 |
12 |
||
Кратность |
3 |
6 |
8 |
7 |
10 |
8 |
2 |
3 |
2 |
1 |
50 |
Варианта и ее кратность – основа табличного представления информации.
В данной таблице представлены в верхнем ряду все варианты – все измерения, которые случились, и их кратности, в нижнем ряду. Для краткости измерения представлены в десятках минут.
Теперь становится ясно, что одна пятая всех учеников, а именно 10 учеников из 50, едет в школу 50 минут. Сумма кратностей – это объем измерений. Через объем кратность варианты переводится в частоту варианты: .
Кратность варианты может быть представлена через частоту варианты или в процентах: .
На основании этих формул получим следующую таблицу измерений.
Варианта, дес. мин |
Сумма |
||||||||||
1 |
2 |
3 |
4 |
5 |
6 |
8 |
9 |
10 |
12 |
||
Кратность |
3 |
6 |
8 |
7 |
10 |
8 |
2 |
3 |
2 |
1 |
50 |
Частота |
0,06 |
0,12 |
0,16 |
0,14 |
0,2 |
0,16 |
0,04 |
0,06 |
0,04 |
0,02 |
1 |
Частота,% |
6 |
12 |
16 |
14 |
20 |
16 |
4 |
6 |
4 |
2 |
100 |
Верхний ряд данной таблицы содержит все варианты, далее идет ряд с кратностями каждой варианты, после этого – частота и в завершении – частота в процентах. Заметим, что сумма всех частот равна единице, а сумма частот в процентах равна сотне. Из таблицы предельно ясно, что 20% учеников добираются до школы 50 минут.
На данном этапе информация сгруппирована и составлена таблица распределения данных – теперь информация приобрела наглядность. Теперь разберемся с графическим представлением информации.
Построение графиков по основным данным
Отдельные точки графика сведены в таблицу, по оси абсцисс будут располагаться варианты, а по оси ординат – кратность.
Варианты |
1 |
2 |
3 |
4 |
5 |
6 |
8 |
9 |
10 |
12 |
Кратность |
3 |
6 |
8 |
7 |
10 |
8 |
2 |
3 |
2 |
1 |
Соединим отдельные точки и получим многоугольник, или полигон распределения данных ( – варианты, – кратность) (рис. 1).
Также информацию можно выкладывать и в других измерениях: например, частота в процентах (рис. 2).
Варианты |
1 |
2 |
3 |
4 |
5 |
6 |
8 |
9 |
10 |
12 |
Частота,% |
6 |
12 |
16 |
14 |
20 |
16 |
4 |
6 |
4 |
2 |
Группировка данных
На данном этапе исходная информация была сгруппирована, были составлены таблицы распределения данных, а затем переведены в графики распределения данных. Характер информации прояснился, стал более наглядным и удобным, но подобные действия с информацией даже при небольшом объеме данных очень трудоемки. Поэтому на практике используются методы приближенной группировки данных, в частности, варианты измерения заменяются промежутком.
Приведем пример группировки информации с теми же данными:
Все 50 человек разделили на три группы:
1) Живут близко (10 – 30 минут).
2) Живут недалеко (40 – 60 минут).
3) Живут далеко (более 60 минут).
Получается, вместо десяти стало три варианты:
1) Близко (10 – 30 минут).
2) Недалеко (40 – 60 минут).
3) Далеко (80 – 120 минут).
Теперь проще получить таблицу распределенных новых, укрупненных данных.
|
Варианта |
Сумма |
||
близко |
недалеко |
далеко |
||
Кратность |
17 |
25 |
8 |
50 |
Частота,% |
34 |
50 |
16 |
100 |
При укрупнении неизбежно теряются некоторые детали. Например: теперь неизвестно, сколько человек тратит на дорогу ровно 60 минут. Однако получено более ясное и удобное представление информации. Например, всю информацию теперь легко представить на следующей диаграмме (рис. 3).
На диаграмме ясно изображено, что 50% живут недалеко, 16% – далеко и 34% – близко. Это паспорт измерений: здесь выявлены основные характеристики исходной информации.
В результате неудобная объемная информация из начальной таблицы была преобразована в более удобный, табличный и графический вид. Изначально трудозатраты были весьма велики, так как вариантой здесь выступало конкретное число. Чтобы снизить трудозатраты, исходную информацию укрупнили, после этого вариантой стало не число, а числовой промежуток. Всю информацию теперь удобно было представить в виде круговой диаграммы, которую легко анализировать.
Напомним формулу успешного управления академика Трапезникова: «Знают – могут – хотят – успевают». Знают – важное звено. Откуда знают? Из предварительного сбора и обработки информации.
Теперь приведем ответ для нашего примера: администрация школы, проанализировав эту информацию, может принять решения по следующим вопросам:
- Вводить или не вводить занятия в субботу, ведь 16% учеников живут далеко?
- Целесообразно ли организовать ночлег для учеников, которые живут далеко?
- Кому и в каких объемах возместить затраты на дорогу до школы и обратно?
Числовые характеристики исходных данных
На этом простом примере видна огромная роль информации и ее предварительной обработки. Была произведена предварительная обработка информации в удобный вид, на очереди выявление числовых характеристик массива исходных данных.
1) Размах измерения – важнейшая из характеристик, разность между максимальной и минимальной вариантами. В нашем примере: 120 – 10 = 110 минут.
2) Мода измерения – варианта измерения, которая в измерении встретилась чаще других, то есть у которой наибольшая кратность. Моду легко получить из таблиц или графика распределения. В нашем примере: 50 минут, так как ее кратность (10) наибольшая.
3) Среднее (среднее арифметическое числового ряда). Средним арифметическим массива из чисел называют число . Отсюда ясно, что для нахождения среднего значения следует просуммировать все данные измерения и полученное число разделить на количество измерений. В нашем примере: варианта 1 встречалась 3 раза, 2 – 6 раз, 3 – 8 раз, 4 – 7 раз, 5 – 10 раз, 6 – 8 раз, 8 – 2 раза, 9 – 3 раза, 10 – 2 раза, 12 – 1 раз, значит, среднее значение вычисляется следующим образом: (десятков минут) (минут). Получается, в среднем, каждый ученик тратит на дорогу 48 минут.
Мы рассмотрели три числовые характеристики: размах, мода, среднее. В целом они все же дают некоторое представление о массиве исходных данных, это упрощенный паспорт исходных данных.
Итак, было выяснено:
1) Необходима предварительная обработка исходных данных – группировка, представление в виде таблиц, представление в виде графиков распределений.
2) Необходимо нахождение основных числовых характеристик исходного массива данных – размах измерений, мода, среднее.
Решение задач
Задача на понятие «общий ряд данных».
Выписать общий ряд данных следующего измерения: месяц рождения учеников данного класса.
Решение
Присвоим каждому месяцу порядковые номера, начиная с единицы: январь – 1, февраль – 2, март – 3, апрель – 4, май – 5, июнь – 6, июль – 7, август – 8, сентябрь – 9, октябрь – 10, ноябрь – 11, декабрь – 12.
Тогда получим ответ: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12.
Примечание: этот ряд содержит все возможные результаты измерения, но возможно нет родившихся в некоторых месяцах.
Задача на понятие «варианта измерения».
Назовите варианты измерения, если не оказалось родившихся в январе, феврале, мае, ноябре, декабре.
Решение
Присвоив каждому месяцу те же порядковые номера, получим: март – 3, апрель – 4, июнь – 6, июль – 7, август – 8, сентябрь – 9, октябрь – 10.
Ответ: 3, 4, 6, 7, 8, 9, 10.
Задача на понятие «ряд данных измерения».
Определить ряд данных измерения: март, апрель, июнь, июль, август, сентябрь, октябрь.
Решение
Присвоив каждому месяцу те же порядковые номера, получим: март – 3, апрель – 4, июнь – 6, июль – 7, август – 8, сентябрь – 9, октябрь – 10.
Ответ: 3, 4, 6, 7, 8, 9, 10.
Задача на понятия «кратность варианты», «табличное представление информации».
Составьте таблицу распределения данных, если в июне и июле родилось по пять человек, а в марте, апреле, августе, сентябре, октябре родилось по два человека.
Решение
Присвоив каждому месяцу те же порядковые номера, получим: март – 3, апрель – 4, июнь – 6, июль – 7, август – 8, сентябрь – 9, октябрь – 10.
Ответом является таблица, где вариантами выступают номера месяцев.
|
Варианта |
Сумма |
||||||
3 |
4 |
6 |
7 |
8 |
9 |
10 |
||
Кратность |
2 |
2 |
5 |
5 |
2 |
2 |
2 |
20 |
Частота |
0,1 |
0,1 |
0,25 |
0,25 |
0,1 |
0,1 |
0,1 |
1 |
Частота,% |
10 |
10 |
25 |
25 |
10 |
10 |
10 |
100 |
Рассмотрим типовую задачу.
Даны оценки (от 0 до 10 баллов) 40 учеников на олимпиаде.
6 |
7 |
7 |
8 |
9 |
2 |
10 |
6 |
5 |
6 |
7 |
3 |
7 |
9 |
9 |
2 |
3 |
2 |
6 |
6 |
6 |
7 |
8 |
8 |
2 |
6 |
7 |
9 |
7 |
5 |
9 |
8 |
2 |
6 |
6 |
3 |
7 |
7 |
6 |
6 |
Выполнить предварительную обработку данных – выявить варианты измерения, составить ряд данных, составить таблицу и график распределения данных. Найти числовые характеристики исходных данных.
Решение
Ряд данных: 2, 3, 5, 6, 7, 8, 9, 10.
Объем данных: 40.
Соберем все варианты и их кратности в таблицу распределения данных, где вариантами выступают баллы учеников.
|
Варианта |
Сумма |
|||||||
2 |
3 |
5 |
6 |
7 |
8 |
9 |
10 |
||
Кратность |
5 |
3 |
2 |
11 |
9 |
4 |
5 |
1 |
40 |
Частота |
0,125 |
0,075 |
0,05 |
0,275 |
0,225 |
0,1 |
0,125 |
0,025 |
1 |
Частота,% |
12,5 |
7,5 |
5 |
27,5 |
22,5 |
10 |
12,5 |
2,5 |
100 |
Приведем пример получения табличных данных на примере варианты 2 балла.
Кратность равна 5, частота равна , частота в процентах равна .
Построим график распределения данных ( – варианты, – частота) (рис. 4).
Вычисляем числовые характеристики:
1) Размах измерения: .
2) Мода: 6, так как оценка встретилась 11 раз, что является максимумом.
3) Средняя оценка на экзамене: .
Выводы
На данном уроке мы ознакомились с основными понятиями математической статистики и научились решать простые задачи по математической статистике.
Список рекомендованной литературы
- Башмаков М.И. Алгебра 8 класс. М.: Просвещение. 2004 г.
- Дорофеев Г.В., Суворова С.Б., Бунимович Е.А. и др. Алгебра 8. 5 издание. М.: Просвещение. 2010 г.
- Никольский С.М., Потапов М.А., Решетников Н.Н., Шевкин А.В. Алгебра 8 класс. Учебник для общеобразовательных учреждений. М.: Просвещение. 2006 г.
Рекомендованное домашнее задание
- Зачем нужна математическая статистика?
- Что такое табличный вид данных?
- Зачем нужны графики и диаграммы в статистике?
- Выпишите общий ряд данных следующего измерения: годы проведения олимпиад XXI века (по текущий год).
- Какой будет размах измерения (в годах) для олимпиад XXI века (по текущий год), если олимпиады проводились каждый год?
Рекомендованные ссылки на ресурсы сети Интернет
- Интернет-портал Yaklass.ru (Источник).
- Интернет-портал Mathematics-tests.com (Источник).
- Интернет-портал Festival.1september.ru (Источник).