Какое значение называют вторым квартилем q2

КВАРТИЛЬ

в теории вероятностей — частный случай квантили. К. наз. квантили К _р, соответствующие значениям р, равным 1/4 (нижняя К.) и 3 /₄ (верхняя К.).

Смотреть что такое КВАРТИЛЬ в других словарях:

КВАРТИЛЬ

1) Орфографическая запись слова: квартиль2) Ударение в слове: кварт`иль3) Деление слова на слоги (перенос слова): квартиль4) Фонетическая транскрипция . смотреть

КВАРТИЛЬ

величина, составляющая четвертую часть распределения данных. Выделяют верхний (Q3) и нижний (Q1) квартили. Значение второго квартиля (Q2) равно медиане (Ме). Q1 — такое значение признака, когда одна четвертая часть всех объектов имеет значения, меньшие его, а три четверти значения, большие него. Первый квартиль (Q1) показывает точку оси, до которой лежит 25 % полученных оценок суждения. Q2 — такое значение, когда половина всех объектов имеет значения, меньшие него, а половина — большие. Второй квартиль называют медианой и обозначают как Ме. Q3 — означает точку, выше которой лежит 25 % оценок; когда значения трех четвертей объектов меньше его, а одной четверти больше. . смотреть

КВАРТИЛЬ

Квартили – это набор квантилей для p=0.25, 0.5, 0.75. Их оценками (квартилями эмпирического распределения) являются величины, делящие выборку данных на четыре группы, содержащие (по возможности) одинаковые количества наблюдений. Когда говорят о квартилях, обычно имеют в виду верхний q3 и нижний q1 квартили; второй квартиль q2 равен медиане. Нижний квартиль q1 – это значение, ниже которого в упорядоченном множестве данных находится четверть данных, а верхний квартиль q3 – это значение, выше которого в упорядоченном множестве данных находится четверть значений. Разность q3 — q1, интерквартильная широта, является робастной мерой рассеяния. . смотреть

КВАРТИЛЬ

КВАРТИЛЬ (quartile) Четвертая часть всей совокупности данных выборки, представленной в виде вариационного ряда. Экономика. Толковый словарь. — М. смотреть

КВАРТИЛЬ

Риа Рвать Рать Рак Лить Литр Литка Литва Лита Лира Ликь Лик Ливр Ларь Ларв Лак Лавр Крит Криль Крат Клир Клавир Кит Кира Киль Килт Кил Кивать Квт Квит Квартиль Ква Кат Карл Калит Кали Кал Каир Итр Итл Итак Ирка Ирак Илька Икт Икра Икар Врать Враль Враки Влить Витька Вить Вита Вит Вира Вилт Вилка Викар Вика Риал Рик Рита Вар Валить Валик Тавр Артикль Таль Тальк Тварь Алик Актив Акт Аки Аир Аил Тир Трак Трал Авт Авил Триал Тикаль Акр Тик Акрил Альт Арк Талик Арт Таир Вак Вал. смотреть

КВАРТИЛЬ

-я, ч., мат. 1) Одна з трьох точок, які розділяють упорядкований розподіл на чотири частини, кожна з яких містить одну четверту множини. 2) Одна з чот. смотреть

КВАРТИЛЬ

1. Одна из трех точек, разделяющих упорядоченное распределение на четыре части, каждая из которых содержит одну четверть множества. 2. Одна из четырех частей распределения, разделенного таким образом. См. партиль и центиль о проблемах употребления, с которыми сталкиваются из-за противоречивых значений. смотреть

КВАРТИЛЬ

-я, ч. , мат. 1》 Одна з трьох точок, які розділяють упорядкований розподіл на чотири частини, кожна з яких містить одну четверту множини.2》 Одна з чо. смотреть

КВАРТИЛЬ

ж., стат. (одна из четырех частей распределения) quartile

КВАРТИЛЬ

КВАРТИЛЬ quartil adj.? Одна из числовых характеристик случайных величин, применяемых в математической статистике. БСЭ-3.

КВАРТИЛЬ

Rzeczownik квартиль m kwartyl m

Квартиль

Квартили – это набор квантилей для p=0.25, 0.5, 0.75. Их оценками (квартилями эмпирического распределения)
являются величины, делящие выборку данных на четыре группы, содержащие (по
возможности) одинаковые количества наблюдений.
Когда говорят о квартилях, обычно
имеют в виду верхний q3 и нижний q1
квартили; второй квартиль q2 равен медиане. Нижний квартиль q1 –
это значение, ниже которого в упорядоченном множестве данных находится четверть
данных, а верхний квартиль q3 – это значение, выше которого в
упорядоченном множестве данных находится четверть значений. Разность q3 — q1, интерквартильная широта,
является робастной мерой рассеяния.

Что такое квартиль и где его искать: навигация по базам данных Web of Science и Scopus

О том, что такое квартиль и как определить квартиль журнала по той и другой базе данных, — в сегодняшнем выпуске «Окон роста».

Квартиль — это категория научных журналов, определяемая библиометрическими показателями, отражающими уровень цитируемости, то есть востребованности журнала научным сообществом. В результате ранжирования каждый журнал попадает в один из четырёх квартилей: от Q1 (самого высокого) до Q4 (самого низкого). Наиболее авторитетные журналы принадлежат, как правило, к первым двум квартилям — Q1 и Q2. Для определения квартиля журнала используются следующие показатели: импакт-фактор Journal Citation Reports (JCR) — для базы данных Web of Science (WoS), индексирующей около 12500 журналов, и SCIMago Journal Rank (SJR) — для базы данных Scopus, индексирующей около 21000 журналов, в том числе подавляющее большинство журналов, индексируемых WoS.

Импакт-фактор, или JCR — показатель цитируемости, рассчитываемый на основе годового количества ссылок на статьи, опубликованные в журнале за предшествующие два года. Например, импакт-фактор журнала за 2012 год определяется как отношение числа ссылок из всех публикаций во всех индексируемых WoS журналах, вышедших в 2012 году, на публикации, вышедшие в данном журнале в 2010–2011 годах, к числу публикаций в данном журнале за 2010–2011 годы. Официальное определение и принцип расчёта импакт-фактора приведены на сайте Web of Knowledge. Рейтинг журналов по импакт-фактору публикуется ежегодно в базе отчётов Journal Citation Reports (JCR), входящей в состав системы Web of Knowledge (доступна со всех компьютеров ВШЭ по адресу isiknowledge.com).

Импакт-фактор был разработан в 1960-е годы американским Институтом научной информации (Institute for Scientific Information, ныне Thomson Scientific в составе медиакомпании Thomson Reuters) для сопоставления близких по тематике журналов и не даёт возможности сравнивать журналы из разных научных областей. Для многих журналов из области гуманитарных наук официальный импакт-фактор не публикуется; для оценки публикаций в таких журналах будет применяться SJR.

SCIMago Journal Rank (SJR) (сегодня используется вторая версия этого индикатора, известная как SJR2) — значительно более сложно рассчитываемый по сравнению с импакт-фактором показатель, учитывающий наряду с цитируемостью степень авторитетности журналов, ссылающихся на данный журнал (так, ссылка из Nature «весит» больше, чем аналогичная ссылка из малоизвестного издания), а также близость их тематики. Официальное определение и порядок расчёта SJR приведены здесь. Рейтинг журналов по SJR публикуется ежегодно на интернет-платформе SCIMago Journal Ranking.

SJR был разработан в 2000-х годах исследовательской группой SCImago испанского Университета Гранады на основе базы данных Scopus, принадлежащей одному из крупнейших издательских домов мира — Elsevier. В отличие от импакт-фактора SJR охватывает более широкий спектр журналов и публикуется в открытом доступе (доступен с любых компьютеров по адресу scimagojr.com).

Импакт-фактор и SJR рассчитываются только для тех журналов, которые индексируются в базах достаточное время для их расчёта. Журналы, включённые в базы недавно (менее четырёх лет назад — для Web of Science и один-два года назад — для Scopus), этих показателей ещё не имеют.

Тематические категории

Все журналы в Web of Science и Scopus приписаны к тематическим категориям (научным областям). В Web of Science их около 250, в Scopus — около 350; при этом классификаторы баз по некоторым позициям не совпадают. Журналы в пределах одной тематической категории ранжируются по величине импакт-фактора или SJR, в результате чего попадают в тот или иной квартиль.

И в той, и в другой базе один журнал может быть приписан одновременно к нескольким тематическим категориям. В обеих базах возможна ситуация, когда журнал с несовпадающими значениями импакт-фактора JCR или SJR в разных тематических категориях попадает в разные квартили по разным категориям.

Как найти импакт-фактор, SJR и квартиль журнала?

В SCImago JR (Scopus):

Зайти с любого компьютера на адрес;
Ввести в окошко «Search Query — in Journal Title» полное название журнала либо часть названия, нажать кнопку Search;
Выбрать из числа найденных журналов нужный, кликнуть на него;
В появившемся профиле журнала указаны все его тематические категории (Subject Category) с соответствующими квартилями.
Показатель SJR за разные годы указан на графике (навести мышку на точку, соответствующую нужному году).

В Journal Citation Reports (Web of Science):

Зайти с компьютера, находящегося в ВШЭ, на сайт isiknowledge.com, вверху страницы выбрать «Journal Citation Reports»;
Выбрать в разделе «Select a JCR edition and year» тематическую принадлежность журнала (естественные или общественные науки), а в разделе «Select an option» выбрать «Search for a specific journal», нажать кнопку Submit;
Ввести в окошко «Type search term» полное название журнала, нажать кнопку Search;
На странице с результатами поиска кликнуть на сокращённое название найденного журнала (Abbreviated Journal Title);
На странице профиля журнала нажать кнопку Journal Ranking (последняя строчка раздела «Journal Information»).
На откроющейся странице будет приведён перечень всех тематических категорий журнала (Subject Category) с указанием соответствующего квартиля, а также значение импакт-фактора журнала за последний рассчитываемый год (указан в поле «Issues/Year»).

Как найти ведущие журналы в своей тематической категории?

Для того чтобы найти ведущие журналы в своей тематической категории, нужно предпринять следующие шаги:

В SCImago JR (Scopus):

Зайти с любого компьютера на адрес;
Выбрать в выпадающем меню интересующую тематическую категорию (Subject Category), нажать кнопку Refresh.
Выпадет список журналов, ранжированных по величине SJR (в порядке убывания). Слева от показателя SJR отображается значок квартиля.

В Journal Citation Reports (Web of Science):

Зайти с компьютера, находящегося в ВШЭ, на сайт isiknowledge.com;
В верхнем меню выбрать «Journal Citation Reports»;
Выбрать в разделе «Select a JCR edition and year» тематическую категорию (естественные или общественные науки), а в разделе «Select an option» выбрать «View a group of journals by Subject Category», нажать кнопку Submit.
В верхней строке выпавшего меню выбрать нужную тематическую категорию из списка, в нижней строке выбрать «View Journal Data — sort by: Impact Factor», нажать Submit.
Выпадет список журналов, ранжированных по величине импакт-фактора (в порядке убывания): от более высокого квартиля к более низкому. Чтобы узнать квартиль конкретного журнала, выбрать его из списка.
На странице профиля журнала нажать кнопку Journal Ranking (последняя строчка раздела «Journal Information»).
На открывшейся странице будет приведена табличная форма с указанием соответствующего квартиля (в правом столбце).

Материал предоставлен Управлением академических исследований и Управлением академической экспертизы.

Статистический анализ

Прежде чем строить какую-либо модель по собранным данным, прогнозисту нужно понять, с чем именно он имеет дело и убедиться в том, что перед ним адекватный временной ряд, не содержащий ошибки. Для этого обычно используют графический анализ и / или статистический анализ данных.

Лирическое отступление

Начиная с этого параграфа мы будем рассматривать примеры в R. Поэтому рекомендую прежде чем читать дальше, ознакомиться с параграфом «Использование R».

Здесь и далее для наших примеров мы будем иногда обращаться к пакетам «dataset» и «Mcomp», так что выполним предварительно следующие команды в R:

library("dataset") library("Mcomp")

Так же в этом параграфе мы попробуем проанализировать условные переменные. Сгенерируем одну из них вот так:

Самое простое, что можно сделать прежде чем прибегать к каким-либо инструментам статистического или графического анализа — это просто посмотреть на имеющийся ряд данных в табличном виде. Беглый взгляд на данные позволяет понять, имеются ли в ряде выбивающиеся либо пропущенные значения, каким наблюдениям они соответствуют и есть ли в ряде данных какая-нибудь явная тенденция.

Пример в R
В RStudio ряд данных можно либо вывести в консоль, набрав его имя:

либо посмотреть в отдельной закладке набрав:

View(x)

Глядя на этот ряд сделать однозначный вывод о том, имеются ли в нём какие-то особенности, нельзя. Но иногда можно заметить выбросы либо грубые ошибки, допущенные при сборе данных.

Если в распоряжении исследователя имеется малая выборка (с числом наблюдений, например, не более 20), содержащая 2 — 3 переменных, то провести такой элементарный анализ несложно. Однако проблемы начинаются, когда либо число наблюдений оказывается существенным, либо число переменных больше 3-х — глаза просто разбегаются от такого количества данных. А как быть, когда выборка содержит в себе высокочастотные данные (например, пятиминутные измерение потребления электроэнергии)?! В этом случае уже точно нужно обращаться к специальным статистическим инструментам.

Многие базовые статистические методы анализа рядов данных основываются на идеи упорядочивания ряда данных от меньшего значения к большему. Проведя такое упорядочивание можно сосчитать число наблюдений и рассчитать квантили распределения.

Квантиль — это значение, ниже которого лежит определённое число наблюдений, соответствующих выбранной частоте. Здесь и далее квантили мы будем обозначать как «\( q_ \)», где \( \alpha \) — это выбранная частота. Например, \( q_ \) будет соответствовать тому значению ряда, ниже которого лежит 0.1 всей выборки.

С понятием квантиля плотно связано понятия «процентиль». Процентиль показывает процент наблюдений, лежащих ниже выбранного значения. То есть фактически если бы мы вместо \( \alpha = 0.1 \) использовали \( \alpha = 10% \), то мы получили бы десяти процентный процентиль, который был бы равен \( q_ \). Фактически разницы между квантилем и процентилем нет, всё упирается лишь в удобство обозначения и использования. Здесь и далее мы будем пользоваться названием «квантиль» даже в тех случаях, когда говорим о процентах от числа наблюдений (ибо не следует множить сущее сверх необходимого).

Пример в R
В R любой квантиль можно вывести с помощью команды:

quantile(x,0.1)

Можно даже попросить R вывести несколько квантилей, что бывает полезно при построении доверительных и прогнозных интервалов:

quantile(x,c(0.05,0.95))

Квартили распределения — это квантили, кратные 25%, то есть соответствующие 25%, 50% и 75%. Их ещё иногда называют соответственно «первый», «второй» и «третий» либо «нижний», «средний» и «верхний». Обозначать мы их будем через «\( Q_1 \)», «\( Q_2 \)» и «\( Q_3 \)» соответственно.

Второй квартиль является самостоятельной полезной статистической величиной, так как показывает, что 50% наблюдений в выборке лежит ниже данного числа, а остальные — соответственно выше, то есть он фактически делит выборку пополам. Чаще в различной литературе его можно встретить под названием «медиана». Мы не будем отступать от этого обозначения.

Ещё две статистические характеристики, имеющие важное значение — это максимум и минимум переменной, которые фактически можно было бы назвать нулевым и единичным квантилями.

Ну и, конечно же, ни одно статистическо-аналитическое торжество не обходится без средней величины (которая на английском обычно называется «mean»), вычисляющейся по банальной и известной всем формуле:

Эта же величина в математической статистике соответствует выборочному математическому ожиданию случайной величины, которое мы будем обозначать как «\( E(x) \)».

Пример в R
В R на все эти характеристики можно посмотреть, набрав команду «summary»:

summary(x)

Она выдаст нам минимум, \( Q_1 \), медиану, среднее значение, \( Q_3 \) и максимум.
Если нам нужны отдельные величины, то мы можем обратиться к соответствующим функциям: «quantile», «mean», «median», «min», «max».

Достаточно часто в анализе можно ограничиться средней величиной и медианой, что, конечно же, не даёт всей той информации, которая иногда бывает необходима для адекватного анализа. Некоторые исследователи допускают ошибку и ограничиваются вообще только средней. Но это уже в корне неправильно, потому что средняя величина является эффективной характеристикой распределения только в случае с симметричным распределением случайной величины, типичным представителем которого является нормальной распределение:

Нормальное распределение

По этому графику видно, что медиана и средняя совпали. Но произошло это из-за пресловутой симметричности в распределении. Если же распределение несимметрично, то средняя величина оказывается сдвинутой ближе к длинному хвосту распределения. Например так:

Асимметричное распределение

На этом графике показаны вымышленные заработные платы вымышленного персонала в вымышленном вузе. По графику видно, что медиана оказалась ближе к пику распределения, чем средняя величина. Если делать выводы только на основе средней, то может сложиться впечатление, что средняя вымышленная заработная плата составляет порядка 1.75 вымышленных единиц (в.е.). Однако этот вывод будет некорректным, так как большая часть профессорско-преподавательского состава получает чуть меньше 1 в.е., при этом ректор и проректора получают значительно больше — от 8 до 10 в.е. Из-за их высокой зарплаты средняя заработная плата выглядит прилично. Медианная же заработная плата оказалась ближе к пику и составляет нечто в районе 1 в.е., что даёт нам как исследователям значительно больше информации о том, что твориться в вымышленном вузе на самом деле: 50% вымышленных сотрудников получает вымышленную заработную плату в размере ниже 1 в.е. А всё это из-за того, что медиана в меньшей степени подвержена влиянию выбросов, чем средняя величина (как говорят, она более робастная величина, чем средняя). Если бы мы рассчитали квартили этого распределения то могли бы получить информацию о том, что 25% всех вымышленных сотрудников получает меньше 0.5 в.е., а 75% — соответственно меньше 2 в.е.

Более точной оценкой пика распределения вообще-то является мода, которая показывает наиболее часто встречающееся значение в ряде данных, однако на практике использование её связано с различными трудностями. Обычно они вызваны тем, что мы очень часто имеем дело с непрерывными случайными величинами, а значит для оценки моды нужно идти на всякие ухищрения типа разбиения ряда на интервалы. Другая проблема, возникающая на практике, связана с таким явлением, как «мультимодальность». Оно выражается в наличии нескольких пиков в распределении. Выбрать корректный пик в этом случае — нетривиальная задача.

Итак, зная рассмотренные выше показатели мы уже можем одним взглядом объять всю выборку, имеющуюся в нашем распоряжении. Мы даже можем сделать вывод о симметричности распределения нашей переменной, сравнив медиану со средней. Однако это не даёт нам представлений о том, какими именно особенностями обладает выборка. Для того, чтобы понять, что к чему, нам нужно обратиться к момента распределения.

Моментом распределения называется величина, рассчитываемая по формуле:

где \( c \) — некоторая константа, а \( k \) — это номер момента.

Если константа \( c \) равна нулю, то мы получаем начальные моменты распределения. Первый начальный момент распределения есть ни что иное, как математическое ожидание, что становится очевидно при сравнении формул \eqref и \eqref.

Когда \( c \) равна математическому ожиданию \( E(x) \), такой момент называют центральным:

Обычно именно центральные моменты и представляют наибольший интерес, так как с помощью них можно оценить ряд характеристик распределения нашей случайной величины. Рассмотрим эти характеристики.

Первый центральный момент скучный и всегда равен нулю. Это следует из формул \eqref и \eqref. Зато центральные моменты других порядков несут значительно больше информации.

Одной из ключевых величин, основанных на центральном моменте, является дисперсия. Дисперсия — это второй центральный момент распределения. Она показывает меру колебаний случайной величины и рассчитывается (как следует из \eqref) по следующей формуле:

За счёт возведения отклонений от математического ожидания в квадрат происходит избавление от знаков, в результате чего получается значение, характеризующее средние отклонения слева и справа от математического ожидания. Чем выше дисперсия, тем выше разброс значений в ряде данных.

Если из дисперсии взять корень квадратный, то получится среднеквадратическое отклонение (ака «ско»):

Несмотря на название, ско не является какой бы то ни было «средней» оценкой. Это со всей очевидностью следует из формул \eqref и \eqref: наблюдения в ско учитываются в форме «\( \frac > \)», а не «\( \frac \)», поэтому о каком-то усреднении говорить здесь не стоит.

На практике обычно дисперсия рассчитывается немного по другой формуле, а вызвано это тем, что в статистике есть доказательства того, что дисперсия, рассчитанная по формуле \eqref будет смещённой (в данном случае она будет занижена по сравнению с дисперсией в «генеральной совокупности»). Поэтому обычно вместо формул \eqref и \eqref рассчитывают формулы с поправкой на это смещение:

Величина \( s \) в таком случае уже называется «стандартным отклонением».

Обычно дисперсия и стандартное отклонение бывают нужны для построения доверительных интервалов, однако сделать каких-либо выводов о разбросе значений имея только их невозможно. Более-менее полезную информацию можно получить, рассчитав коэффициент вариации по следующей формуле:

Коэффициент вариации позволяет производить сравнение разброса значений в разных выборках, так как по сути приводит ско в разных выборках к безразмерным величинам. Однако по значению этого коэффициента делать какие-то выводы о том имеем ли мы дело с большим или малым разбросом всё так же некорректно. А всё потому, что этот коэффициент очень чувствителен к масштабу: если среднее значение показателя лежит близко к нулю, то, как следует из формулы \eqref, коэффициент вариации будет принимать очень большие значения вне зависимости от того, какое получено ско.

Пример в R
В R расчёт дисперсии осуществляется с помощью формулы «var»:

var(x)

Стандартное отклонение может быть рассчитано двумя методами:

sqrt(var(x))

Рассчитаем для интереса дисперсию для следующей нормально распределённой случайной величины x с нулевым математическим ожиданием и единичной дисперсией:

Сравните выводы формул:

var(x)

mean((x-mean(x))^2)

Для интереса так же рассчитаем коэффициент вариации:

sd(x) / mean(x)

А теперь увеличим число наблюдений в x. В этому случае разница между выводами этих двух формул будет значительно меньше:

Ну и для полноты картины так же рассчитаем коэффициент вариации:

sd(x) / mean(x)

Что можно сказать по полученным значениям?

Однако продолжим наше увлекательнейшее путешествие по моментам распределений.

Иногда центральные моменты стандартизируют. Делается это путём деления центрального момента на ско (или на стандартное отклонение в случае малых выборок):

Нужно это обычно для избавления от масштаба случайной величины. Однако это так же позволяет получить интересную информацию об имеющемся распределении. А интересна она вот чем. В формуле \eqref фактически все значения разделяются на две группы: лежащие в пределах одного ско, и лежащие снаружи. Это лучше заметно, если взглянуть на следующие неравенства, характеризующие числитель \eqref:

Что это нам даёт? Очень просто. После такой нормализации при возведении дроби в степень \( k \) эти две группы будут вести себя по-разному. Например, если \( k=4 \), то значения, лежащие в пределах одного ско будут существенно уменьшены и приближены к нулю. Так число 0.5 при возведении в 4-ю степень даёт 0.0625. В противоположность этому значения, лежащие дальше одного ско будут увеличены. Так число 2 в 4-й степени равно 16. То есть происходит ещё более серьёзное разделение выборки на две части. Если значений, лежащих за пределами одного ско, много, то они будут приводить к увеличению финального значение суммы в формуле \eqref.

Этот принцип используют два следующих полезных коэффициента.

Коэффициент асимметрии (skewness) — это ни что иное, как третий центральный стандартизированный момент. Рассчитывается он, как следует из \eqref, по формуле:

Из \eqref видно, что конкретные значения, лежащие слева и справа от математического ожидания не теряют свои знаки. Более того, они значительно увеличиваются в размере в случае, если лежат дальше одного ско. Поэтому, если слева от математического ожидания лежит какое-то очень большое значение (то есть оно отрицательное и велико по модулю), то возведение его в третью степень «потянет» коэффициент асимметрии в отрицательную сторону. Если в распределении таких отрицательных экстремальных величин несколько, но они встречаются редко (что характерно для распределений с длинным левым хвостом), то коэффициент асимметрии будет отрицательным. В противоположном случае коэффициент асимметрии будет положительным. Значения, лежащие в пределах одного ско нивелируют друг друга, поэтому коэффициент асимметрии показывает, какой из хвостов распределения длиннее.

У симметричных распределений коэффициент асимметрии равен нулю. Однако какие-то другие выводы кроме «положительный» или «отрицательный» по этому коэффициенту сделать нельзя — его величина ничем не ограничена и зависит лишь от того, как далеко от математического ожидания лежат те или иные значения.

Распределения и их коэффициенты асимметрии

На рисунке выше показаны разные стандартизированные распределения случайных величин. Видно, как меняется значение коэффициента асимметрии в зависимости от длины одного из хвостов распределений.

Коэффициент эксцесса (kurtosis) — это четвёртый центральный стандартизированный момент. Он не так часто используется в анализе и несёт не так много информации, как предыдущие коэффициенты, но тем не менее обладает некоторой ценностью. Вот его формула:

Смысл этого коэффициента мы фактически уже начали рассматривать ранее. Он является своеобразным показателем средней толщины хвостов распределения: большее значение коэффициента указывает на наличие большого числа величин, лежащих за пределами одного ско. Впрочем, он так же может просто указывать на наличие выбросов, потому что такие значения оказывают очень большое влияние на величину \eqref. Однако это не всё. Обычно симметричные распределения так же характеризуются высотой пика вокруг математического ожидания. Из-за стандартизации в формуле \eqref те распределения, у которых толстые хвосты ещё и характеризуются высоким пиком. Действительно, если к нормальному распределению добавить несколько выбросов, лежащих за пределами, например, 6 сигма с разных сторон, то ско, оценённое по формуле \eqref увеличится. Это за счёт увеличения знаменателя в \eqref приведёт к тому, что число наблюдений, лежащих в пределах 1 ско вырастет, а значит и увеличится пик распределения (больше наблюдений будет лежать в пределах 1 ско). Это всё найдёт отражение в большей величине коэффициента эксцесса.

Коэффициент эксцесса на самом деле имеет наибольший смысл в случае с симметричными распределениями. В случае асимметрии он показывает ситуацию сродни «средней температуре по больнице»: толстые или же худые у распределения хвосты с обеих сторон в среднем.

В связи с тем, что коэффициент эксцесса ограничен только снизу (он не может быть отрицательным) и его тяжело интерпретировать, его обычно сравнивают с эксцессом нормального распределения, который равен трём. Поэтому формулу \eqref обычно модифицируют следующим образом:

В этом случае интерпретируется коэффициент так. Если он больше нуля, то у распределения имеются более толстые хвосты и больший пик, чем в нормальном распределении. Если же он меньше нуля, то мы имеем обратную ситуацию: более тонкие хвосты и меньший пик.

Распределения и их коэффициенты эксцесса

На рисунке выше показаны разные распределения и соответствующие им значения коэффициента эксцесса. Распределением с самыми толстыми хвостами на рисунке выше является распределение Лапласа. Видно, что чем выше пик распределения (по сравнению с нормальным), тем больше значение коэффициента.

Пример в R
Рассмотрим в R пример со следующим условным рядом:

Рассчитаем коэффициент асимметрии:

skewness(x)

Коэффициент получился положительным, что говорит о том, что у распределения имеется длинный правый хвост (по сравнению с коротким справа).
Теперь посмотрим на коэффициент эксцесса:

kurtosis(x)

Он должен получиться больше нуля, что указывает на то, что пик в нашем случае превышает пик нормального распределения, а хвосты в распределении оказались толще хвостов нормального распределения.

Помимо рассмотренных нами здесь четырёх моментов распределения, существуют и моменты более высоких порядков, но практического применения в прогнозировании они не нашли.
Стоит заметить, что у моментов более высокого порядка есть свои явные недостатки: их значения подвержены влиянию выбросов (в случае появления экстраординарного значения в выборке, коэффициенты взлетают в небеса), а сами их значения ничем не ограничены, что приводит к затруднениям в интерпретации. Иногда для нивелирования первой проблемы используют другие коэффициенты, в основе которых уже не лежит возведение в целые степени.

Так вместо дисперсии для решения первой проблемы и получения более робастной оценки иногда используют среднее абсолютное отклонение (Mean Absolute Deviation, «MAD»):

\begin \label
MAD = \frac \sum_^T \left| x_t — E(x) \right|
\end

В этом случае не происходит возведения в степень, а значит и наблюдения, лежащие на удалении от математического ожидания, не влияют на финальную оценку так сильно, как при расчёте дисперсии.

Иногда аббревиатурой «MAD» обозначают совершенно другой показатель — медианное абсолютное отклонение (при этом медиану в литературе по прогнозированию принято обозначать «Md», поэтому здесь мы такой показатель будем обозначать «MdAD»). Как следует из названия, эта величина ещё более робастна. Рассчитывается она по следующей формуле:

\begin \label
MdAD = Md \left| x_t-Md(x) \right|
\end

Кроме того, в статистике существует доказательство того, что асимптотически относительно MdAD нормально распределённой случайной величины выполняется следующее условие:

\begin
\sigma = \frac<\Phi^<-1>(3/4)> \cdot MdAD \approx 1.4826 \cdot MdAD .
\end

То есть эта величина связана с ско и может быть использована для его оценки в случае наличия выбросов в распределении.

Пример в R

Для MdAD в R есть специальная функция, которая по умолчанию производит умножение финального значения на 1.4826. Для того, чтобы получить чистое значение по формуле \eqref нужно использовать следующую команду:

mad(x,constant=1)

Среднее абсолютное отклонение по формуле \eqref можно рассчитать так:

mean(abs(x-mean(x)))

Зная основы статистического анализа, можно получить много полезной информации об имеющихся данных. Однако имея в своём инвентаре ещё и графический анализ, можно творить аналитические чудеса!

Comments (6):

Интересная статья, спасибо.

Алексей Соловьев

Спасибо,доступно и с примерами для проверки в R .
Я иногда использую online компилятор на сайте https://rextester.com/ ,базовые пакеты установлены и можно даже в телефоне попробовать ваши примеры.
Вопрос:есть продажи за 12 месяцев : 0.0.0.0.1.61.62.0.0.0.0.2.
Визуально бросается два выброса «61 и 62».
Таких «товаров» может быть 81000*35 строк, и нет возможности использовать R.
Только эксель с VBA.
Как можно предварительно оценить выборки на наличие выбросов ,а потом использовать IRQ?
Эксцесс не поможет,т.к. 61.62. расположены «рядом»
А прогонять все выборки через алгоритм «boxplot» в экселе займет много ресурсов.
Спасибо

Любопытно.
Один из вариантов (не идеальный, а скорее просто решение на коленке) — рассчитать MAD для каждого ряда, по нему — по формуле (17) ско. Затем построить 95% прогнозные интервалы по выборке на основе нормального распределения (с оценённым мат. ожиданием и ско), и смотреть, что вышло за границы. В таком методе очень много ограничений и неестественных допущений, но это быстрое решение проблемы.

Алексей Соловьев

Спасибо за быстрый ответ.

Ольга Саранчукова

опечатка — в статье есть термин «кваРтиль» 🙂
но огромное спасибо за ваш труд

Здравствуйте, Ольга! Спасибо за комментарий, но тут нет опечатки. Квартиль — это квантиль, кратный 25%. То есть это частный случай квантиля.

Добавить комментарий Отменить ответ

Записи в блоге

Комплексное Экспоненциальное Сглаживание
ISF2021: Как починить мультипликативные модели ETS
Что делать с прерывистым спросом: современный взгляд на проблему
Точность прогнозных методов: а есть ли разница?
Прогнозирование как самоцель