Границы интервалов в excel
Построение доверительных интервалов для среднего. Описательная статистика в Excel
ПРАКТИЧЕСКОЕ ЗАНЯТИЕ 3
Описательная статистика в Excel
Вычисление границ доверительных интервалов в Excel
Использование инструмента Пакета анализа Описательная статистика.
Построение доверительных интервалов для среднего.
В пакете Excel помимо мастера функций имеется набор более мощных инструментов для работы с несколькими выборками углубленного анализа данных, называемый Пакет анализа, который может быть использован для решения задач статистической обработки выборочных данных.
Для установки раздела Анализ данных в пакете Excel сделайте следующее:
— в меню Сервис выберите команду Надстройки;
— в появившемся списке установите флажок Пакет анализа.
Ввод данных. Исследуемые данные следует представить в виде таблицы, где столбцами являются соответствующие показатели. При создании таблицы Excel информация вводится в отдельные ячейки. Совокупность ячеек, содержащих анализируемые данные, называется входным диапазоном.
Последовательность обработки данных. Для использования статистического пакета анализа данных необходимо:
— указать курсором мыши на пункт меню Сервис и щелкнуть левой кнопкой мыши;
— в раскрывающемся списке выбрать команду Анализ данных (если команда Анализ данных отсутствует в меню Сервис, то необходимо установить в Excel пакет анализа данных);
— выбрать необходимую строку в появившемся списке Инструменты анализа;
— ввести входной и выходной диапазоны и выбрать необходимые параметры.
Нахождение основных выборочных характеристик. Для определения характеристик выборки используется процедура Описательная статистика. Процедура позволяет получить статистический отчет, содержащий информацию о центральной тенденции и изменчивости входных данных. Для выполнения процедуры необходимо:
— выполнить команду Сервис > Анализ данных;
— в появившемся списке Инструменты анализа выбрать строку Описательная статистика и нажать кнопку ОК (рис. 1);
— в появившемся диалоговом окне указать входной диапазон, то есть ввести ссылку на ячейки, содержащие анализируемые данные. Для этого следует навести указатель мыши на левую верхнюю ячейку данных, нажать левую кнопку мыши и, не отпуская ее, протянуть указатель мыши к правой нижней ячейке, содержащей анализируемые данные, затем отпустить левую кнопку мыши;
Рис. 1. Окно выбора метода обработки данных
— указать выходной диапазон, то есть ввести ссылку на ячейки, в которые будут выведены результаты анализа. Для этого следует поставить переключатель в положение Выходной диапазон (навести указатель мыши и щелкнуть левой клавишей), далее навести указатель мыши в поле ввода Выходной диапазон и щелкнуть левой кнопкой мыши, затем указатель мыши навести на левую верхнюю ячейку выходного диапазона и щелкнуть левой кнопкой мыши;
— в разделе Группировка переключатель установить в положение по столбцам; о установить флажок в поле Итоговая статистика;
— нажать кнопку ОК.
В результате анализа в указанном выходном диапазоне для каждого столбца данных выводятся следующие статистические характеристики: среднее, стандартная ошибка (среднего), медиана, мода, стандартное отклонение, дисперсия выборки, эксцесс, асимметричность, интервал, минимум, максимум, сумма, счет, наибольшее, наименьшее, уровень надежности.
Пример 1. Рассматривается зарплата основных групп работников гостиницы: администрации, обслуживающего персонала и работников ресторана. Были получены следующие данные:
Необходимо определить основные статистические характеристики в группах данных.
1. Для использования инструментов анализа исследуемые данные следует представить в виде таблицы, где столбцами являются соответствующие показатели. Значения зарплат сотрудников администрации введите в диапазон А1:А5, обслуживающего персонала— в диапазон В1:В8 и т. д. В результате получится таблица, представленная на рис. 2.
Рис. 2. Таблица из примера
2. Далее необходимо провести элементарную статистическую обработку. Для этого, указав курсором мыши на пункт меню Сервис, выберите команду Анализ данных. Затем в появившемся списке Инструменты анализа выберите строку Описательная статистика.
Рис. 3. Пример заполнения диалогового окна Описательная статистика
3. В появившемся диалоговом окне (рис. 3) в рабочем поле Входной интервал укажите входной диапазон —А1:С8. Активировав переключателем рабочее поле Выходной интервал, укажите выходной диапазон — ячейку А9. В разделе Группировка переключатель установите в положение по столбцам. Установите флажок в поле Итоговая статистика и нажмите кнопку ОК. В результате анализа (рис. 4) в указанном выходном диапазоне для каждого столбца данных получим соответствующие результаты.
Рис. 4. Результаты работы инструмента Описательная статистика.
1. Найдите наиболее популярный туристический маршрут из четырех реализуемых фирмой (моду), если за неделю последовательно были реализованы следующие маршруты (приводятся номера маршрутов): 1, 3, 3, 2, 1, 1, 4, 4, 2, 4, 1, 3, 2, 4, 1, 4, 4, 3, 1, 2, 3, 4, 1, 1, 3.
2. В рабочей зоне производились замеры концентрации вредного вещества. Получен ряд значений (в мг/м3): 12, 16, 15, 14, 10, 20, 16, 14, 18, 14, 15, 17, 23, 16. Необходимо определить основные выборочные характеристики.
Функция ДОВЕРИТ
В этой статье описаны синтаксис формулы и использование достоверности . функция в Microsoft Excel.
Описание
Возвращает доверительный интервал для среднего генеральной совокупности с нормальным распределением.
Доверительный интервал — это диапазон значений. Примерное среднее значение x — это центр этого диапазона, а диапазон — x ± достоверности. Например, если x — это выборочное среднее время доставки продуктов, заказанных по почте, то ДОВЕРИТЕЛЬный интервал x ± является диапазоном Генеральной совокупности. Для любого математического ожидания Генеральной совокупности, μ0 в этом диапазоне, вероятность получения выборочного среднего из μ0, чем x, больше альфа-канала; для любого математического ожидания Генеральной совокупности, μ0, а не в этом диапазоне, вероятность получения выборочного среднего из μ0, чем x, меньше альфа-канала. Другими словами, предположим, что мы используем x, standard_dev и size для создания двустороннего теста на уровне значимости предположения о том, что среднее Генеральной совокупности является μ0. Затем мы не будем отклонять эту гипотезу, если μ0 находится в пределах доверительного интервала и отклонили эту гипотезу, если μ0 не находится в пределах доверительного интервала. Доверительный интервал не позволяет нам определить вероятность 1 – альфа-канала, после которого наш следующий пакет займет время доставки в течение доверительного интервала.
Важно: Эта функция была заменена одной или несколькими новыми функциями, которые обеспечивают более высокую точность и имеют имена, лучше отражающие их назначение. Хотя эта функция все еще используется для обеспечения обратной совместимости, она может стать недоступной в последующих версиях Excel, поэтому мы рекомендуем использовать новые функции.
Чтобы узнать больше о новых функциях, см. в разделах Функция ДОВЕРИТ.НОРМ и Функция ДОВЕРИТ.СТЬЮДЕНТ.
Синтаксис
Аргументы функции ДОВЕРИТ описаны ниже.
Альфа — обязательный аргумент. Уровень значимости, используемый для вычисления доверительного уровня. Доверительный уровень равен 100*(1 — альфа) процентам или, иными словами, значение аргумента «альфа», равное 0,05, означает 95-процентный доверительный уровень.
Стандартное_откл — обязательный аргумент. Стандартное отклонение генеральной совокупности для диапазона данных, предполагается известным.
Размер — обязательный аргумент. Размер выборки.
Замечания
Если какой-либо из аргументов не является числом, функция ДОВЕРИТ возвращает #VALUE! значение ошибки #ЗНАЧ!.
Если альфа-канал ≤ 0 или ≥ 1, то функция ДОВЕРИТ Возвращает #NUM! значение ошибки #ЗНАЧ!.
Если Standard_dev ≤ 0, то функция ДОВЕРИТ возвращает значение #NUM! значение ошибки #ЗНАЧ!.
Если значение аргумента «размер» не является целым числом, оно усекается.
Пример
Скопируйте образец данных из следующей таблицы и вставьте их в ячейку A1 нового листа Excel. Чтобы отобразить результаты формул, выделите их и нажмите клавишу F2, а затем — клавишу ВВОД. При необходимости измените ширину столбцов, чтобы видеть все данные.
Границы интервалов в excel
Pers.narod.ru. Обучение. Excel: выбор номера интервала, в который попадает значение и подсчёт количества значений в интервале
Довольно часто в Excel требуется определить, в какой из нескольких числовых интервалов попадает некоторое числовое значение. Это бывает нужно как в численных методах, так и в финансовых или естественнонаучных расчётах. Давайте решим эту задачу корректно, начав с простейшего примера. В ячейках A1:A4 набраны 4 числа, показывающие границы интервалов, например, 1 ; 2 ; 3 ; 4 , разумеется, числа могут быть любыми другими, но они должны быть упорядочены по возрастанию, иначе потом не будет работать поиск. Сортировка в Excel делается элементарно (меню Данные , пункт Сортировка ), так что выполнения этого условия нетрудно добиться.
В ячейке B1 набрано число, которое мы будем проверять на попадание в интервалы, например, значение 1,5 (полтора). Элементарно определить «карман», в который попадает числовое значение, можно с помощью стандартной функции ПОИСКПОЗ :
Третий параметр функции здесь равен единице, это означает, что ПОИСКПОЗ находит наибольшее значение, которое меньше либо равно, чем искомое значение из ячейки B1 , то есть, мы берём левые границы интервалов. В случае, если нужны правые границы, следует здесь и далее упорядочить данные по убыванию и везде ставить в ПОИСКПОЗ третий параметр, равный -1 .
У кода минимум два недостатка — если величина из B1 меньше границы самого левого интервала, выведется системное сообщение #Н/Д («не найдено»), кроме того, если искомая величина больше последней из границ интервала, Excel решит, что величина всё равно попадает в последний интервал, что неприемлемо.
Избавляемся от первого недостатка (теперь Excel пишет «Неверная точка» для слишком маленьких чисел):
Избавляемся от второго недостатка, предусмотрев случай, когда ПОИСКПОЗ дал последний интервал, но при этом значение в ячейке B1 больше, чем значение в последней ячейке интервала. В этом случае продублируется сообщение «Неверная точка»:
Формула здесь и далее показана с разрывом строки, вставить её в это не помешает.
Для других данных изменится только интервал, но ещё нужно будет не забыть про отдельно стоящую ссылку на A4 , правую границу последнего интервала. Давайте ещё немного усложним формулу, чтобы действительно менять только интервал.
Это работает вполне приемлемо.
Наконец, часто нужно из выборки получить количество чисел, попадающих в некоторый интервал. Эта задача намного проще, и есть масса вариантов её решения.
Для того, чтобы определить количество числовых значений из диапазона A1:A10 , находящихся, например, в интервале от 2,5 до 6,15 включительно, можно использовать любую из семи представленных ниже формул:
Последние четыре формулы являются формулами массива, их ввод необходимо завершать комбинацией клавиш Ctrl+Shift+Enter .
Скачать пример в Excel XP/2003 (14 Кб)
Построение выборочной функции распределения в Excel
Выборочный метод и выборочная функция распределения
На практике часто бывают ситуации, когда полное исследование каждого объекта из интересующей совокупности по различным причинам невозможно. В этих случаях из всей совокупности объектов случайным образом отбирают ограниченное число объектов и подвергают их исследованию. Вся совокупность объектов, из которых производится выборка называется генеральной совокупностью. Совокупность случайно отобранных из генеральной совокупности объектов называется выборочной совокупностью. Число объектов в совокупности называется ее объемом. На практике сведения о законе распределения случайной величины получают независимыми многократными повторениями опыта. На основе полученной информации из полученной выборки можно вычислить приблизительные значения для функции распределения и другие характеристики случайной величины. Выборочной или эмпирической функцией распределения случайной величины называют функцию равную частоте появления событий F (x)= nx/n.
Для построения выборочной функции распределения весь диапазон изменения случайной величины Х разбивают на ряд интервалов одинаковой ширины (от 5 до 15) и затем вычисляют количество значений случайной величины Х, попав-ших в каждый интервал.
Построение выборочной функции распределения
В табличном процессоре для построения выборочной функции распределения используется специальная функция ЧАСТОТА и инструмент пакета анализа Гистограмма . Функция ЧАСТОТА вычисляет частоты появления случайных величин в интервалах значений и выводит их как массив чисел. Функция имеет параметры:
ЧАСТОТА ( массив_данных; массив_интервалов ),
где:
— массив_данных – массив или ссылка на диапазон данных, для которых вычисляются частоты;
— массив_интервалов – массив или ссылка на множество интервалов, в которые группируются значения аргумента массив_данных . Количество элементов в возвращаемом массиве на единицу больше, чем в задано в параметре массив_интервалов. Дополнительный элемент содержит количество значений больших, чем максимальное значение в интервалах.
Инструмент Гистограмма служит для вычисления выборочных и интегральных частот попадания данных в указанные интервалы значений. Выходным результатом является таблица и гистограмма. Чтобы включить инструмент Гистограмма следует на ленте Данные в группе Анализ выбрать Анализ данных (Data Analysis) .
В раскрывшемся диалоговом окне Анализ данных из списка следует выбрать Гистограмма (Histogram) (рис. 1) – откроется диалоговое окно Гистограмма . Вид диалогового окна Гистограмма приведен на рис. 2.
Диалоговое окно имеет следующие параметры:
— Входной интервал (Input Range) – поле, предназначенное указания адресной ссылки на диапазон, содержащий исследуемые данные;
— Интервал карманов ( Bin Range )– поле, в котором может быть указана ссылка на диапазон ячеек, содержащий выбранные интервалы, в которые группируются значения аргумента Входной интервал ;
-поле Выходной диапазон ( Output Range ) предназначено для ввода адресной ссылки на верхнюю левую ячейку выходного диапазона;
-опция Интегральный процент (Comulative Percentage) устанавливает режим генерации интегральных процентных соотношений и включает в гистограмму график интегральных процентов;
— опция Вывод графика (Chart Output) устанавливает режим автоматического вывода графика на рабочий лист, содержащий входной диапазон.
Технологию построения эмпирического распределения рассмотрим на примере.
Пример . Построить эмпирическое распределение рейтинга студентов по результатам экзаменов, оцененных в баллах для следующей произвольной выборки: 48, 51, 64, 62, 55, 71, 74, 79, 80, 86, 91, 99, 83, 50. Задачу решить двумя способами: с применением функции ЧАСТОТА с применением инструмента Гистограмма пакета анализа.
Решение с применением функции ЧАСТОТА
1. В ячейку A2 рабочего листа введем текст “Наблюдения”, а в диапазон A3:A16 – числа из заданной выборки (см рис. 3).
2. В ячейке B2 запишем текст “ Шкала баллов ”, а в ячейки диапазона B3:B6 – баллы, соответствующие шкале для вывода пятибалльной оценки – 50, 70, 85, 100. Это означает, что баллы диапазона 1 – 50 эквивалентны оценке “неудовлетворительно”, баллы, находящиеся в диапазоне 51 – 70 – оценке “удовлетворительно” и т.д.
3. В ячейки C2, D2 и E2 введем тексты “ Абсолютные частоты ”, “ Относительные частоты ” и “ Накопленные частоты ” соответственно. Абсолютные частоты – это частота попадания случайной величины из выборки в соответствующий интервал. Относительная частота представляет собой частное от деления значения относительной частоты на количество элементов выборки. Накопленные частоты – это сумма относительных частот.
4. Выделим диапазон C3:C7 и на ленте Формулы выберем Вставить функцию . В открывшемся окне диалога Мастер функций выберите категорию Статистические , а в списке функций – функцию ЧАСТОТА (рис. 4).
Раскроется диалоговое окно функции ЧАСТОТА .
5. Установим параметры функции:
— массив_данных – установим ссылку на диапазон, содержащий выборку случайных величин (A3:A16);
— массив_интервалов – установим ссылку на диапазон, содержащий шкалу для вывода оценки (B3:B6).
6. Так как функция ЧАСТОТА возвращает результат в виде массива, нажмем комбинацию клавиш Ctrl + Shift + Enter. В ячейки диапазона C3:C7 будет выведен результат – абсолютные частоты попадания случайных величин в интервалы, заданные в ячейках диапазона B3:B6 (рис. 3).
Таким образом, в результате проведенного исследования получены статистические оценки частот по случайной выборке: неудовлетворительно – 2, удовлетворительно – 4, хорошо – 5, отлично – 3.
Решение с применением инструмента Гистограмма
1. В ячейку A2 рабочего листа введем текст “Наблюдения”, а в диапазон A3:A16 – числа из заданной выборки (см. рис. 5).
2. В ячейке B2 запишите текст “ Шкала баллов ”, а в ячейки диапазона B3:B6 – баллы, соответствующие шкале для вывода пятибалльной оценки.
3. На ленте Данные в группе Анализ выберем Анализ данных – откроется диалоговое окно Анализ данных.
4. В окне диалога Анализ данных выберем из списка Гистограмма – откроется диалоговое окно Гистограмма .
5. Введите параметры в соответствующие поля диалогового окна Гистограмма :
— Входной диапазон – укажем диапазон ячеек, в котором размещены результаты выборки (A3:A16);
— Интервал карманов –укажем ссылку на диапазон ячеек, содержащий выбранные интервалы – шкалу для вывода оценки (B3:B6);
-установим переключатель Выходной_интервал ;
— Выходной диапазон — введем адресную ссылку на верхнюю левую ячейку выходного диапазона (C2);
-установим опцию Интегральный процент ;
-установим опцию Вывод графика .
6. Кликнем на кнопке ОК. В результате на рабочий лист будет выведена таблица и диаграмма .
Как видно из полученных результатов оба рассмотренные способа дают одинаковые результаты. На основании полученных результатов выборочную функцию распределения можно записать в виде:
Практическая работа 3: Вычисление точечных оценок в Excel
Практическая работа 3
Вычисление точечных оценок в Excel
является несмещённой точечной оценкой для дисперсии случайной величины, и такую оценку называют исправленной дисперсией. Для вычисления выборочного значения этой оценки можно использовать статистическую функцию функцию Excel ДИСП, обращение к которой имеет вид:
=ДИСП(арг1; арг2; …; арг30),
где арг1; арг2; …; арг30 – числа или адреса ячеек, содержащих числовые величины.
При изменении диаметра валика после шлифовки была получена следующая выборка (объемом n = 55):
По выборке вычислить оценку
Решение. Первоначально, начиная с ячейки А3, введем в столбец А 55 элементов выборки (рис. 1). Затем, используя функции КВАДРОТКЛ, ДИСП (как показано на рис. 3), вычислим оценку. Видно ожидаемое совпадение двух вычисленных значений.
Рисунок 1 Вычисление исправленной дисперсии
Вычисление оценок максимального правдоподобия
В общем случае не удается получить простых соотношений и оценки вычисляются непосредственным определением точек максимума функционала правдоподобия, т. е. необходимо решить оптимизационную задачу.
Для решения такой задачи в Excel есть команда Поиск решения пункта меню Сервис. Эта команда позволяет решать не только задачи безусловной оптимизации, но и задачи условной оптимизации, т. е. когда ищется максимум функционала с учетом дополнительных ограничений на значения искомых оценок. Например, значение дисперсии не может быть отрицательным.
Применение команды Поиск решения для вычисления оценок максимального правдоподобия покажем на следующем примере.
♦ Пример 2. По выборке примера 1 вычислить оценки максимального правдоподобия для математического ожидания a и дисперсии σ 2 из условия максимума функционала правдоподобия вида:
предполагая при этом, что выборка порождена случайной величиной, подчиняющейся нормальному распределению.
Решение. Первоначально, начиная с ячейки А3, введем в столбец А 55 элементов выборки (диапазон А3:А57). Затем в ячейку С8 занесем произвольное значение a (например, 10), в ячейку D8 – значение σ (например, значение 4 > 0), в ячейке Е8 вычислим σ 2 .
В ячейках В3:В57 запрограммируем вычисление разностей (рис. 3). В ячейке С5 запрограммируем вычисление величины функционала . В верхней части документа на рис.2 показана запрограммированная формула.
Рисунок 2 Подготовка рабочего листа
После этих подготовительных операций можно перейти к выполнению команды Поиск решения. Для этого необходимо обратиться к пункту основного меню Сервис и в появившемся меню щелкнуть мышью на команде Поиск решения. Затем в появившемся диалоговом окне выполнить следующие действия (см. рис. 3):
Рисунок 3 Задание параметров команды Поиск решения
· в поле ввода Установить целевую ячейку: ввести адрес ячейки, в которой вычисляется значение минимизируемого функционала (в нашем примере С5);
· включить опцию Равной: максимальному значению (ищутся
значения, при которых функционал достигает максимального значения);
· в поле Изменяя ячейки: ввести адреса ячеек, в которых находятся значения искомых оценок (в нашем примере это ячейки С8:D8);
щелкнув мышью на кнопке Добавить, сформировать ограничения на значения искомых оценок (в нашем примере это требование σ ≥ 0.0 чтобы ln(σ ) не был равен –∞).
Рисунок 4 Результаты выполнения команды Поиск решения
Из рис. 4 видно, что вычисленные значения оценок находятся в ячейках С8, D8 и равны а = 17.907, σ = 2.933. Ячейка С5 содержит значение максимизируемого функционала, равное –137.22.
Сравнивая вычисленные значения оценок a =17.907 и σ 2 = 8.601 с выборочными оценками, видим их полное совпадение.
Вычисление описательных статистик. Описательные статистики можно разделить на следующие группы:
• характеристики положения описывают положение данных на числовой оси (среднее, минимальное и максимальное значения, медиана и др.);
• характеристики разброса описывают степень разброса данных относительно своего центра (дисперсия, размах выборки, эксцесс, среднеквадратическое отклонение и др.);
• характеристики асимметрии определяют симметрию распределения данных относительно своего центра (коэффициент асимметрии, положение медианы относительно среднего и др.);
• характеристики, описывающие закон распределения (частоты, относительные частоты, гистограммы и др.).
Основные характеристики положения, разброса и асимметрии можно вычислить, используя режим Описательная статистика команды Пакет анализа.
Для вызова режима Описательная статистика необходимо обратиться к пункту Сервис, команде анализ данных, выбрать в списке режимов Описательная статистика и щелкнуть на кнопке ОК. В появившемся диалоговом окне Описательная статистика задать следующие параметры (рис. 5):
Рисунок 5 Диалоговое окно описательной статистики
Входной интервал: – адреса ячеек, содержащих элементы вы-
Группирование: – задает способ расположения (по столбцам
или по строкам) элементов выборки.
Метки в первой строке – включается, если первая строка
(столбец) во входном интервале содержит заголовки. Выходной интервал: / Новый рабочий лист: / Новая рабочая
книга – определяет место вывода результатов вычислений. При
включении Выходной интервал: в поле вводится адрес ячейки, начиная с которой будут выводиться результаты.
Итоговая статистика: – включается, если необходимо вывести по одному полю для каждой из вычисленных характеристик.
Уровень надежности: – включается, если необходимо вычислить доверительный интервал для математического ожидания с задаваемым ( в % ) уровнем надежности γ .
К-й наименьший: – включается, если необходимо вычислить к-й наименьший (начиная с min x ) элемент выборки. При к = 1 вычисляется наименьшее значение.
К-й наибольший: – включается, если необходимо вычислить к-й наибольший (начиная с max x ) элемент выборки. При к = 1 вычисляется наибольшее значение.
Пример задания параметров приведен на рис. 5.
Результаты работы режима Описательная статистика выводятся в виде таблицы, в левом столбце которой приводится название вычисленной характеристики, позволяющее однозначно трактовать характеристику. Тем не менее, поясним следующие названия характеристик:
• Интервал – определяет размах выборки ;
• Сумма – определяет сумму всех элементов выборки;
• Счет – определяет число обработанных элементов выборки;
• Уровень надежности – определяет величину x Δ , от которой зависит доверительный интервал для математического ожидания, имеющий вид
где xв – выборочное среднее.
По выборке примера 1 вычислить описательные статистики, используя режим Описательная статистика.
Решение. Первоначально, начиная с ячейки А3, введем в столбец А 55 элементов выборки. После этого обратимся к пункту Сервис, команде Пакет анализа. В списке режимов выберем Описательная статистика. В появившемся диалоговом окне включим параметры, показанные на рис. 3.6, и щелкнем ОК. Вычисленные характеристики приведены в таблице 1.