15.02.2021

Статистика оценки


Статистика оценки (оценочная статистика, англ. Estimation statistics) — подход к анализу данных, который включает в себя комбинацию из методов: размера эффекта, доверительных интервалов, планирования точности и метаанализа для планирования экспериментов, анализа данных и интерпретации результатов. Этот подход отличается от проверки значимости нулевой гипотезы (NHST), который считается менее информативным. Статистика оценки, или просто оценка, также известная как новая статистика, используется в области психологии, медицинских исследований, наук о жизни и в широком спектре других экспериментальных наук, где проверка значимости нулевой гипотезы всё ещё остается распространённым подходом, несмотря на то, что в течение последних нескольких десятилетий статистика оценки рекомендуется в качестве предпочтительного подхода.

Основная цель статистики оценки — сообщить размер эффекта (точечную оценку) вместе с его доверительным интервалом, который связан с точностью оценки. Доверительный интервал суммирует диапазон вероятных значений основного эффекта популяции. Сторонники статистики оценки предпочитают сообщать о размере эффекта с его доверительными интервалами вместо p-уровня значимости и считают, что статистика оценки должна заменить метод проверки значимости для анализа данных.

История

В физике давно используется метод средневзвешенных значений, аналогичный метаанализу.

История статистики оценки началась с разработки Якобом Коэном стандартизированной величины эффекта в 1960-х годах. Первые исследования с использованием оценочной статистики были впервые проведены Джином В. Глассом вместе с разработкой метода метаанализа в 1970-х годах. С тех пор методы статистики оценки были усовершенствованы Ларри Хеджесом, Майклом Боренштейном, Дугом Альтманом, Мартином Гарднером, Джеффом Каммингом и другими. Систематический обзор в сочетании с метаанализом — это смежный метод, который широко используется в медицинских исследованиях. Несмотря на широкое распространение метаанализа, подход статистики оценки до сих пор не используется на постоянной основе в главенствующих биомедицинских исследованиях.

В 1990-х редактор Кеннет Ротман запретил использование p-значений в журнале Epidemiology; авторы поддержали инициативу, но это не повлияло на их аналитическое мышление при проведении исследований.

В последнее время методы статистики оценки применяются в таких областях, как нейробиология, психология образования и психология.

В руководстве по публикациям Американской психологической ассоциации рекомендуется оценка (estimation), а не проверка (testing) гипотез. В документе «Единые требования к рукописям, представляемым в биомедицинские журналы» содержится аналогичная рекомендация: «Избегайте полагаться исключительно на статистическую проверку гипотез, такую как p-значения, которая не может передать важную информацию о величине эффекта».

В 2019 году журнал Общества нейробиологии eNeuro ввел политику, рекомендующую использовать графики статистики оценки в качестве предпочтительного метода для представления данных.

Методология

У многих тестов значимости есть аналог в статистике оценки. Почти в каждом случае результат теста (или его p-значение) можно просто заменить размером эффекта и оценкой точности. Например, вместо использования t-критерия Стьюдента аналитик может сравнить две независимые группы, вычислив среднюю разницу и ее 95 % доверительный интервал. Соответствующие методы могут использоваться для парного t-критерия и множественных сравнений. Точно так же для регрессионного анализа аналитик должен сообщить коэффициент детерминации (R2) и уравнение модели вместо p-значения модели.

Однако сторонники оценочной статистики рекомендуют анализировать и представлять данные с помощью визуализации данных в дополнение к цифровым расчетам. Примерами подходящей визуализации являются точечный график для регрессии и графики Гарднера-Альтмана для двух независимых групп. В то время как классические графики (например, гистограммы, ящики с усами и скрипичные графики) не отображают сравнение, графики статистики оценки добавляют вторую ось для четкой визуализации размера эффекта.

График Гарднера — Альтмана

График разности средних Гарднера — Альтмана был впервые описан Мартином Гарднером и Дугом Альтманом в 1986 г. Этот статистический график отображает данные из двух независимых групп. Также есть версия графика, подходящая для связанных выборок. Ключевые инструкции по составлению этой диаграммы следующие: (1) отобразить все наблюдаемые значения для обеих групп рядом; (2) поместить вторую ось справа, сместив её, чтобы показать шкалу разности средних; и (3) построить на графике разность средних с ее доверительным интервалом в виде маркера со значением погрешности. Графики Гарднера-Альтмана могут быть созданы с помощью специального кода с использованием пакетов Ggplot2, seaborn или DABEST; в качестве альтернативы аналитик может использовать удобное программное обеспечение, такое как приложение Estimation Stats.

График Камминга

Для нескольких групп Джефф Камминг ввел дополнительную панель для построения двух или более разностей средних и их доверительных интервалов, помещенных под первой панелью наблюдаемых значений: такое расположение позволяет легко сравнивать различия средних («дельты») по нескольким группам данных. Графики Камминга могут быть созданы с помощью пакетов ESCI, DABEST, или приложения Estimation Stats.

Другие методологии

Помимо разницы средних, существует множество других типов размера эффекта, со своими преимуществами относительно друг друга. Основные типы включают размеры эффекта типа Cohen’s d и коэффициент детерминации (R2) для регрессионного анализа. Для ненормальных распределений существует ряд более надежных способов расчета размеров эффекта, включая дельту Клиффа и статистику Колмогорова-Смирнова.

Недостатки в проверке гипотез

При проверке гипотез основной целью статистических вычислений является получение p-значения — вероятности увидеть полученный результат или более экстремальный результат, если предполагается, что нулевая гипотеза верна. Если значение p низкое (обычно <0,05), практикующему специалисту в области статистики рекомендуется отвергнуть нулевую гипотезу. Сторонники статистики оценки отвергают валидность подхода проверки гипотез по следующим причинам:

  • P-значения легко и часто неправильно интерпретируются. Например, p-значение часто ошибочно принимают за «вероятность того, что нулевая гипотеза верна».
  • Нулевая гипотеза всегда неверна для каждого набора наблюдений: всегда есть какой-то эффект, даже если он незначительный.
  • Проверка гипотез дает произвольно дихотомические ответы «да-нет», отбрасывая при этом важную информацию о величине эффекта.
  • Любое конкретное p-значение возникает в результате взаимодействия размера эффекта, размера выборки (при прочих равных, больший размер выборки дает меньшее p-значение) и ошибки выборки.
  • При низкой мощности симуляция данных показывает, что ошибка выборки делает p-значения чрезвычайно непостоянными.

Преимущества статистики оценки

Преимущества доверительных интервалов

Доверительные интервалы ведут себя предсказуемо. По определению, 95 % доверительные интервалы имеют 95 % шанс уловить среднее значение популяции (μ). Эта функция остается неизменной с увеличением размера выборки; что меняется, так это то, что интервал становится меньше (точнее). Кроме того, 95 % доверительные интервалы также являются 83 % интервалами прогноза: доверительный интервал одного эксперимента имеет 83 % вероятность захвата среднего значения любого будущего эксперимента. Таким образом, знание 95 % доверительных интервалов отдельного эксперимента дает аналитику правдоподобный диапазон для среднего значения совокупности и правдоподобные результаты любых последующих экспериментов по репликации.

Доказательная статистика

Психологические исследования восприятия статистики показывают, что интервалы оценки позволяют получить более точное восприятие данных, чем отчеты p-значений.

Планирование точности (Precision planning)

Точность оценки формально определяется как 1/дисперсия, и, как и мощность, которая увеличивается с увеличением размера выборки. Как и мощность, высокая точность трудозатратны. Заявки на грант на исследования в идеале должны включать анализ точности/затрат. Сторонники статистики оценки считают, что планирование точности должно заменить мощность, поскольку сама статистическая мощность концептуально связана с проверкой значимости.


Похожие новости:

Оценочная деятельность

Оценочная деятельность
Оценочная деятельность — профессиональная деятельность по установлению стоимости материальных и нематериальных объектов, с учётом прав на них и интересов в отношении них субъектов гражданских прав. В

ФК «Барселона» в сезоне 1930/1931

ФК «Барселона» в сезоне 1930/1931
Сезон 1930/31 — 3-й сезон для «Барселоны» в чемпионате Испании, а также 32-й год со дня основания футбольного клуба. Состав команды Статистика сезона Бомбардиры Включает в себя все официальные

Математическая статистика

Математическая статистика
Математическая статистика — наука, разрабатывающая математические методы систематизации и использования статистических данных для научных и практических выводов. Во многих своих разделах

Успехи и проблемы лабораторного животноводства (часть 3)

Успехи и проблемы лабораторного животноводства (часть 3)
Актуальными задачами лабораторного животноводства являются поиск, подбор и создание новых видов животных для моделирования заболеваний человека, а также для сравнительной оценки различных
Комментариев пока еще нет. Вы можете стать первым!

Добавить комментарий!

Ваше Имя:
Ваш E-Mail:
Введите два слова, показанных на изображении: *
Популярные новости
Торцовочная пила и особенности ее выбора
Торцовочная пила и особенности ее выбора
Собственник деревообрабатывающей мастерской обязательно закупает только надежные, проверенные,...
Автоматические ворота
Автоматические ворота
Крепкие ворота и добротный забор – обязательное дополнение любого хорошего дома. «Лицом» участка...
Индикаторы для трейдеров
Индикаторы для трейдеров
Среди практикующих трейдеров наиболее дискуссионным остается длительное время вопрос использования...
Все новости