Элементы статистики. Начальный уровень.

Начни готовиться к ЕГЭ по математике или ГИА по математике бесплатно!

Краткое изложение темы и содержание всего раздела смотри здесь.

Людмила Прокофьевна Калугина (или просто “Мымра”) в замечательном фильме «Служебный роман» поучала Новосельцева: «Статистика – это наука, она не терпит приблизительности». Чтобы не попасть под горячую руку строгой начальнице Калугиной (а заодно и запросто решать задания из ЕГЭ и ГИА с элементами статистики), постараемся разобраться с некоторыми понятиями статистики, которые могут пригодиться не только в тернистом пути покорения экзамена по ЕГЭ, но и просто в повседневной жизни.

Так что же такое Статистика и зачем она нужна? Слово «статистика» происходит от латинского слова «status» (статус), что означает «состояние и положение дел/вещей». Статистика занимается изучением количественной стороны массовых общественных явлений и процессов в числовой форме, выявляя особые закономерности. На сегодняшний день статистика применяется практически во всех сферах общественной жизни, начиная от моды, кулинарии, садоводства и заканчивая астрономией, экономикой, медициной.

Перво-наперво, при знакомстве со статистикой необходимо изучить основные статистические характеристики, применяемые для анализа данных. Ну вот, с этого и начнем!

Статистические характеристики

К основным статистическим характеристикам выборки данных (какая еще такая «выборка»!? Не пугайся, все под контролем, это непонятное слово лишь для запугивания, на самом деле, под словом «выборка» подразумевается просто данные, которые ты собираешься исследовать) относятся:

  1. объем выборки,
  2. размах выборки,
  3. среднее арифметическое,
  4. мода,
  5. медиана,
  6. частота,
  7. относительная частота.

Стоп-стоп-стоп! Сколько новых слов! Давай обо всем по порядку.

Объем и Размах

Выборка состоит из элементов \({{x}_{1}},{{x}_{2}},\ …,\ {{x}_{n}}\), попавших в нее. Количество этих элементов \(\left( n \right)\) называется объемом выборки.

Например, в таблице ниже приведен рост игроков сборной по футболу:

таблица 1

Данная выборка представлена \(\displaystyle 11\) элементами \(\displaystyle \left( {{x}_{1}}=183;\ {{x}_{2}}=194;\ {{x}_{3}}=187;\ …;\ {{x}_{11}}=181 \right)\). Таким образом, объем выборки \(\displaystyle \left( n \right)\) равен \(\displaystyle 11\).

Разность между максимальным и минимальным значениями элементов выборки называется размахом выборки.

Или, размах выборки \(={{x}_{\max }}-{{x}_{\min }}\)

Размах представленной выборки составляет \({{x}_{\max }}-{{x}_{\min }}=194-176=18\) см.

Среднее арифметическое

Среднее арифметическое ряда чисел \(\left( {{x}_{cp.}} \right)\) – это частное от деления суммы этих чисел \(\left( {{x}_{1}}+{{x}_{2}}+…+{{x}_{n}} \right)\) на их количество \(\left( n \right)\).

Или, \({{x}_{cp.}}=\frac{{{x}_{1}}+{{x}_{2}}+{{x}_{3}}+…+{{x}_{n}}}{n}\).

 

Не очень понятно? Давай смотреть на наш пример.

таблица 2

Определите средний рост игроков.

Ну что, приступим? Мы уже разбирались, что \(\displaystyle {{x}_{1}}=183;\ {{x}_{2}}=194;\ {{x}_{3}}=187;\ …;\ {{x}_{11}}=181\); \(\displaystyle n=11\).

Можем сразу смело все подставлять в нашу формулу:

\(\displaystyle {{x}_{cp.}}=\frac{{{x}_{1}}+{{x}_{2}}+{{x}_{3}}+…+{{x}_{n}}}{n}\)

\(\displaystyle {{x}_{cp.}}=\frac{183+194+187+181+176+190+189+184+178+179+181}{11}=183,8\)

Таким образом, средний рост игрока сборной составляет \(\displaystyle 183,8\) см.

Ну или вот такой пример:

Ученикам 9 класса на неделю было задано решить как можно больше примеров из задачника. Количество примеров, решенных учениками за неделю, приведены ниже:

эл-стат-з-1

Найдите среднее количество решенных задач.

Итак, в таблице нам представлены данные по \(\displaystyle 20\)  ученикам. Таким образом, \(\displaystyle n=20\). \(\displaystyle {{x}_{1}}=88;\ {{x}_{2}}=90;\ {{x}_{3}}=51;\ …;\ {{x}_{20}}=47.\) Ну что ж, найдем для начала сумму (общее количество) всех решенных задач двадцатью учениками:

\(\displaystyle \begin{array}{l}88+90+51+85+58+105+77+89+100+109+77+83+92+77+\\+44+81+50+77+80+47=1560\end{array}\)

Теперь можем смело приступать к расчету среднего арифметического решенных задач, зная, что \(\displaystyle {{x}_{1}}+{{x}_{2}}+…+{{x}_{n}}=1560\), а \(\displaystyle n=20\):

\(\displaystyle {{x}_{cp.}}=\frac{1560}{20}=78\).

Таким образом, в среднем ученики 9 класса решили по \(\displaystyle 78\) задач.

Вот еще один пример для закрепления.

Пример.

На рынке помидоры реализуются \(\displaystyle 7\) продавцами, причем цены за \(\displaystyle 1\) кг распределены следующим образом (в руб.): \(\displaystyle 60,\text{ }55,\text{ }54,\text{ }70,\text{ }65,\text{ }67,\text{ }63\). Какова средняя цена килограмма помидоров на рынке?

Решение.

Итак, чему в данном примере равно \(\displaystyle n\)? Все верно: семь продавцов предлагают семь цен, значит, \(\displaystyle n=7\)! \(\displaystyle {{x}_{1}}=60;\ {{x}_{2}}=55;\ …;\ {{x}_{n}}=63\). Ну вот, со всеми составляющими разобрались, теперь можем приступить к расчету средней цены:

\(\displaystyle {{x}_{cp.}}=\frac{{{x}_{1}}+{{x}_{2}}+…+{{x}_{n}}}{n}=\frac{60+55+54+70+65+67+63}{7}=\frac{434}{7}=62\) (рубля)

Ну что, разобрался? Тогда посчитай самостоятельно среднее арифметическое в следующих выборках:

  1. \(\displaystyle 34;\ 46;\ 67;\ 37;\ 45;\text{ }60\)
  2. \(\displaystyle 5;\ 4;\ 7;\ 9;\ 10;\ 12;\ 17;\ 8\)
  3. \(\displaystyle 156;\ 180;\ 164;\ 172\)

Ответы: \(\displaystyle 48,17;\text{ }9;\ 168\).

Решил? Можем двигаться дальше.

Мода и медиана

Модой ряда чисел называется число, наиболее часто встречающееся в данном ряду.

Обратимся снова к нашему примеру со сборной по футболу:

таблица 4

Чему в данном примере равна мода? Какое число наиболее часто встречается в этой выборке? Все верно, это число \(\displaystyle 181\), так как два игрока имеют рост \(\displaystyle 181\) см; рост же остальных игроков не повторяется. Тут все должно быть ясно и понятно, да и слово знакомое, правда?

Перейдем к медиане, ты ее должен знать из курса геометрии. Но мне не сложно напомнить, что в геометрии медиана (в переводе с латинского- «средняя») — отрезок внутри треугольника, соединяющий вершину треугольника с серединой противоположной стороны. Ключевое слово СЕРЕДИНА. Если ты знал это определение, то тебе легко будет запомнить, что такое медиана в статистике.

Медианой ряда чисел с нечетным числом членов называется число, которое окажется посередине, если этот ряд упорядочить (проранжировать, т.е. расположить значения в порядке убывания или возрастания).

Медианой ряда чисел с четным числом членов называется среднее арифметическое двух чисел, записанных посередине, если этот ряд упорядочить.

Ну что, вернемся к нашей выборке футболистов?

таблица 4

 

Ты заметил в определении медианы важный момент, который нам еще здесь не встречался? Конечно, «если этот ряд упорядочить»! Наведем порядок в ряду? Для того, чтобы в ряду чисел был порядок, можно расположить значения роста футболистов как в порядке убывания, так и в порядке возрастания. Мне удобней выстроить этот ряд в порядке возрастания (от самого маленького к самому большому). Вот, что у меня получилось:

6

Так, ряд упорядочили, какой еще есть важный момент в определении медианы? Правильно, четное и нечетное количество членов в выборке. Заметил, что для четного и нечетного количества даже определения отличаются? Да, ты прав, не заметить – сложно. А раз так, то нам надо определиться, четное у нас количество игроков в нашей выборке или нечетное? Все верно – игроков \(\displaystyle 11\), значит, количество нечетное! Теперь можем применять к нашей выборке менее заковыристое определение медианы для нечетного количества членов в выборке. Ищем число, которое оказалось посередине в нашем упорядоченном ряду:таблица 7

Ну вот, чисел у нас \(\displaystyle 11\), значит, по краям остается по пять чисел, а рост \(\displaystyle 183\) см будет медианой в нашей выборке. Не так уж и сложно, правда?

А теперь разберем пример с нашими отчаянными ребятами из 9 класса, которые решали примеры в течение недели:

эл-стат-з-1

Готов искать в этом ряду моду и медиану?

Для начала, упорядочим этот ряд чисел (расположим от самого маленького числа к самому большому). Получился вот такой вот ряд:

эл-стат-з-2

Теперь можно смело определить моду в данной выборке. Какое число встречается чаще других? Все верно, \(\displaystyle 77\)! Таким образом, мода в данной выборке равна \(\displaystyle 77\).

Моду нашли, теперь можем приступать к нахождению медианы. Но прежде, ответь мне: каков объем рассматриваемой выборки? Посчитал? Все верно, объем выборки равен \(\displaystyle 20\). А \(\displaystyle 20\) – это четное число. Таким образом, применяем определение медианы для ряда чисел с четным количеством элементов. То есть нам надо в нашем упорядоченном ряду найти среднее арифметическое двух чисел, записанных посередине. Какие два числа располагаются посередине? Все верно, \(\displaystyle 80\) и \(\displaystyle 81\)!

таблица 10

Таким образом, медианой этого ряда будет среднее арифметическое чисел \(\displaystyle 80\) и \(\displaystyle 81\):

\(\frac{80+81}{2}=\frac{161}{2}=80,5\)

\(80,5\)- медиана рассматриваемой выборки.

Частота и относительная частота

Частота представляет собой число повторений, сколько раз за какой-то период происходило некоторое событие, проявлялось определенное свойство объекта либо наблюдаемый параметр достигал данной величины.

То есть частота определяет то, как часто повторяется та или иная величина в выборке.

Разберемся на нашем примере с футболистами. Перед нами вот такой вот упорядоченный ряд:

таблица 11

Частота – это число повторений какой-либо величины параметра. В нашем случае, это можно считать вот так. Сколько игроков имеет рост \(176\)? Все верно, один игрок. Таким образом, частота встречи игрока с ростом \(176\) в нашей выборке равна \(1\). Сколько игроков имеет рост \(178\)? Да, опять же один игрок. Частота встречи игрока с ростом \(178\) в нашей выборке равна \(1\). Задавая такие вопросы и отвечая на них, можно составить вот такую табличку:

таблица 12

Ну вот, все довольно просто. Помни, что сумма частот должна равняться количеству элементов в выборке (объему выборки). То есть в нашем примере: \(1+1+1+2+1+1+1+1+1+1=11\)

Перейдем к следующей характеристике – относительная частота.

Относительная частота – это отношение частоты к общему числу данных в ряду. Как правило, относительная частота выражается в процентах.

Обратимся опять к нашему примеру с футболистами. Частоты для каждого значения мы рассчитали, общее количество данных в ряду мы тоже знаем \(\left( n=11 \right)\) . Рассчитываем относительную частоту для каждого значения роста и получаем вот такую табличку:

13

А теперь сам составь таблицы частот и относительных частот для примера с 9-классниками, решающими задачи.

Больше задач — после регистрации.

Графическое изображение данных

Очень часто для наглядности данные представляются в виде диаграмм/графиков. Остановимся на рассмотрении основных из них:

  1. столбчатая диаграмма,
  2. круговая диаграмма,
  3. гистограмма,
  4. полигон

Столбчатая диаграмма

Столбчатые диаграммы используют тогда, когда хотят продемонстрировать динамику изменения данных во времени или распределения данных, полученных в результате статистического исследования.

Например, у нас есть вот такие данные об оценках написанной контрольной работы в одном классе:

Статистические данные об оценках

 

Количество получивших такую оценку – это у нас и есть частота. Зная это, мы можем составить вот такую вот табличку:

Статистические данные об оценках. Рисунок 2

Теперь мы можем построить наглядные столбчатые графики на основе такого показателя как частота (на горизонтальной оси отражены оценки \(\displaystyle \left( 2,3,4,5 \right)\) на вертикальной оси откладываем количество учеников, получивших соответствующие оценки):

Частота оценок

Или же можем построить соответствующий столбчатый график на основе относительной частоты:

Относительная частота оценок

Рассмотрим пример по типу задания В3 из ЕГЭ.

Пример.

На диаграмме показано распределение добычи нефти в \(\displaystyle 7\) странах мира (в тоннах) за 2011 год. Среди стран первое место по добыче нефти занимала Саудовская Аравия, седьмое место – Объединенные Арабские Эмираты. Какое место занимали США?

Распределение добычи нефти

Ответ: третье.

Больше задач — после регистрации.

Круговая диаграмма

Для наглядного изображения соотношения между частями исследуемой выборки удобно использовать круговые диаграммы.

По нашей табличке с относительными частотами распределения оценок в классе мы можем построить круговую диаграмму, разбив круг на секторы, пропорциональные относительным частотам.

Вот так:

Распределение расходов семьи

Круговая диаграмма сохраняет свою наглядность и выразительность только при небольшом числе частей совокупности. В нашем случае, таких частей четыре (в соответствии с возможными оценками \(\displaystyle 2,3,4,5\)), поэтому применение такого типа диаграммы достаточно эффективно.

Рассмотрим пример по типу задания 18 из ГИА.

Пример.

На диаграмме показано распределение расходов семьи во время отдыха на море. Определите, на что семья потратила больше всего?

рисунок 2

Ответ: проживание.

Больше задач — после регистрации.

Полигон

Динамику изменения статистических данных во времени часто изображают с помощью полигона. Для построения полигона отмечают в координатной плоскости точки, абсциссами которых служат моменты времени, а ординатами – соответствующие им статистические данные. Соединив последовательно эти точки отрезками, получают ломанную, которую называют полигоном.

Вот, к примеру нам даны среднемесячные температуры воздуха в Москве.

Среднемесячные температуры воздуха в Москве

Сделаем приведенные данные более наглядными – построим полигон.

На горизонтальной оси отражены месяцы, на вертикальной – температура. Строим соответствующие точки и соединяем их. Вот, что получилось:

Плигон. Среднемесячные температуры воздуха в Москве

Согласись, сразу стало наглядней!

Полигон, используют также для наглядного изображения распределения данных, полученных в результате статистического исследования.

Вот построенный полигон на основе нашего примера с распределением оценок:

Полигон. Распределение оценок.

Рассмотрим типовое задание В3 из ЕГЭ.

Пример.

На рисунке жирными точками показана цена алюминия на момент закрытия биржевых торгов во все рабочие дни с \(\displaystyle 7\) по \(\displaystyle 20\) августа \(\displaystyle 2014\) года. По горизонтали указываются числа месяца, по вертикали — цена тонны алюминия в долларах США. Для наглядности жирные точки на рисунке соединены линией. Определите по рисунку, какого числа цена алюминия на момент закрытия торгов была наименьшей за данный период.

Цена алюминия на момент закрытия биржевых торгов

Ответ: \(\displaystyle 14\).

Больше задач — после регистрации.

Гистограмма

Интервальные ряды данных изображают с помощью гистограммы. Гистограмма представляет собой ступенчатую фигуру, составленную из сомкнутых прямоугольников. Основание каждого прямоугольника равно длине интервала, а высота – частоте или относительной частоте. Таким образом, в гистограмме, в отличие от обычной столбчатой диаграммы, основания прямоугольника выбираются не произвольно, а строго определены длиной интервала.

Вот, к примеру, у нас есть следующие данные о росте игроков, вызванных в сборную:

Данные о росте игроков, вызванных в сборную

Итак, нам дана частота (количество игроков с соответствующим ростом). Мы можем дополнить табличку, рассчитав относительную частоту:Данные о росте игроков, вызванных в сборную. Рисунок 2

Ну вот, теперь можем строить гистограммы. Сначала построим на основании частоты. Вот, что получилось:

Частота. Распределение игроков по росту

А теперь на основании данных об относительной частоте:

Относительная частота. Распределение игроков по росту

Пример.

На выставку по инновационным технологиям приехали представители \(\displaystyle 50\) компаний. На диаграмме показано распределение этих компаний по количеству персонала. По горизонтали представлено количество сотрудников в компании, по вертикали — количество компаний, имеющих данное число сотрудников.

Распределение компаний по количеству персонала

Какой процент составляют компании с общим числом сотрудников больше \(\displaystyle 50\) человек?

Ответ: \(\displaystyle 68\%\).

Краткие итоги

  • Объем выборки — количество элементов в выборке.
  • Размах выборки – разность между максимальным и минимальным значениями элементов выборки.
  • Среднее арифметическое ряда чисел – это частное от деления суммы этих чисел на их количество (объем выборки).
  • Мода ряда чисел — число, наиболее часто встречающееся в данном ряду.
  • Медиана упорядоченного ряда чисел с нечетным числом членов — число, которое окажется посередине.
  • Медиана упорядоченного ряда чисел с четным числом членов — среднее арифметическое двух чисел, записанных посередине.
  • Частота — число повторений определенного значения параметра в выборке.
  • Относительная частота – это отношение частоты к общему числу данных в ряду.
  • Для наглядности удобно представлять данные в виде соответствующих диаграмм/графиков

Проверь себя — реши задачи на элементы статистики.
Хочешь подготовиться к ЕГЭ/ГИА — начни обучение.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *