TL;DR:
— В рамках большого репликационного проекта в психологии не были подтверждены больше половины из 100 результатов;
— Наиболее высокими шансами на удачное воспроизведение обладают результаты с исходно большим размером эффекта (чаще встречающиеся в когнитивной психологии);
— Причиной низкой воспроизводимости скорее всего является существующая система публикаций, придающая неадекватно большое значение статистической значимости и новизне результатов;
— В целом, репликационный проект показывает как серьезность методических проблем в психологии, так и направленность на их скорейшее решение;
…с нескольким опозданием, но и мы в
Проблема
Содержание
Прежде всего давайте спокойно, без истерики, посмотрим на то, что произошло. В течение последних трех лет героический Брайан Нозек из Университета Вирджинии руководил командой из 270 человек, занявшейся прямой репликацией сотни опубликованных психологических экспериментов. Эта мега-репликация была вызвана все возрастающим пониманием того, что многие из исследовательских и публикационных практик, принятых в сообществе, ухудшают качество получаемых результатов.
За последние несколько лет в психологии было вскрыто несколько больших проблемных тем (например, очень громкой оказалась
Кроме того, стало понятно, что для того, чтобы внести неразбериху в психологическую литературу, необязательно быть монстром-фальсификатором,
Эти проблемы, спасибо журналам, публикующим только положительные результаты, существуют во всех науках, но в случае с психологией и её и без того хрупкими эффектами масштаб трагедии казался ошеломляющим. Брайан Нозек решил все же попробовать её измерить.
Подход
Для начала авторы (270!) выбрали исследования для повторения. В
Участники репликационного проекта активно общались с авторами оригинальных исследований, пытаясь максимально приблизить условия репликации к условиям первоначальных экспериментов. Кроме собственно “волшебной” цифры (какой процент результатов удастся подтвердить), авторов интересовал разброс успешности репликаций между субдисциплинами, а также факторы, влияющие на успешность репликаций (например, склонны ли к удачным воспроизведениям более опытные исследователи).
Результаты
Перейдем к результатам, на примере самого банального критерия успешности – p-значений. Следите за руками. Взяли 100 экспериментов. В 97 из них был заявлен положительный результат (из них 4 имели p > .05, но это в данном случае уже мелочи). Средняя мощность репликации по имеющимся у исследователей данным составляла 92%. Это означает, что если все оригинальные эффекты существуют и были правильно измерены(!), реплицировать получится 89 из них (0.97 * 0.92). На самом деле получилось реплицировать 35 (40%). Правда, здесь есть ловушка – та самая правильность исходного измерения. Если авторы оригинальных исследований переоценивали величину искомого эффекта, реальная мощность репликации была ниже, а значит и “волшебный процент” мог быть недооценен, то есть 40% это довольно консервативная оценка.
Далее, внутри этих 40% авторы обнаружили существенный разброс между субдисциплинами (точнее, статьями из двух специализированных журналов: по социальной и личностной психологии vs когнитивной психологии). Если социальнопсихологические результаты подтверждались в 25% случаев (14 из 55), то когнитивнопсихологические – в 50% случаев (21 из 42).
Не менее грустную в целом, но более информативную картину показывает сравнение размеров эффекта в оригинале и репликации – в среднем, репликации достигают лишь половины оригинального размера эффекта. Предлагаемый авторами механизм здесь довольно прост и ожидаем – в публикации попадают “лучшие образцы” результатов, зачастую в сочетании с маломощным дизайном, тогда как репликации лишены этих искажений.
Помимо измерения реплицируемости, на основе всех полученных данных авторами были выделены предикторы успешности репликаций – неудивительно, но ими оказались большой размер эффекта и низкое p-значение в оригинальном исследовании. На примере p-значений – результаты с p < .001 достигали значимости при репликации в 63% случаях, а результаты с p > .04 – в 18%. К тому же, чем “удивительнее” был исходный эффект и чем сложнее было его реплицировать, тем ниже оказалась вероятность успеха (привет Psychological Science и в целом упору на новизну).
Кроме того, редко реплицируются результаты тестов интеракций по сравнению с тестами собственных эффектов факторов. Зато в отношении реплицируемости не имеет предсказательной способности опытность авторов (как оригинала так и репликации), субъективная важность результата и даже субъективное качество репликации.
Go Bayes
Но что мы все о p-значениях. Интересный взгляд на те же результаты показывает байесовская статистика. Данный анализ не проводился авторами статьи в Science, но на выложенные в открытый доступ данные накинулись десятки любопытных исследователей, и некоторые из дополнительных выводов уже вовсю обсуждаются в блогах. Прелесть байесовского подхода к анализу репликаций в том, что он позволяет не только оценить успешность репликации в дихотомии “получилось/не получилось”, но и рассмотреть результаты как свидетельство в пользу гипотезы о наличии либо гипотезы об отсутствии описанного в оригинальном исследовании результате.
Таким образом можно определить, какие из репликаций показали весомое свидетельство наличия эффекта, какие – весомое свидетельство отсутствия эффекта, а какие оказались неинформативны.
Кто виноват
Таким образом, если корректно подходить к интерпретации основного результата, то все, что мы можем сказать – 35 из 97 исследований получили дополнительные доказательства в свою пользу. Остальные – не получили, и сложно сказать, почему. Возможно, потому что искомые эффекты очень слабые и репликациям не хватило мощности. Или потому что этих эффектов действительно не существует. Либо в одной из двух попыток (оригинале или репликации) что-то незаметно пошло не так. Либо это случай. Либо немного отличались выборки и материал (а репликации не всегда проводились в той же стране, что исходное исследование).
Причин неудачи может быть масса, так что однозначно списывать со счетов конкретные невоспроизведенные исследования не стоит. Туда же относится вопрос “Можно ли официально считать когнитивную психологию круче социальной, если ее результаты чаще воспроизводятся?”. Боюсь, что социальным психологам и без того досталось. Скорее всего, когнитивистам благодарить за воспроизводимость нужно не математически-естественнонаучную шапочку, а удобные внутригрупповые дизайны и в целом сильные эффекты, обладающие относительно небольшой вариабельностью внутри популяции, а социальным психологам в этом смысле можно посочувствовать.
Что делать
Вернемся к громким журнальным заголовкам. Если это огромное исследование не было призвано оправдать или осудить психологию как науку, и даже не показало, каким результатам можно верить, а каким нет, что оно дало? В первую очередь, это смелая и трудоемкая работа по описанию проблемы, с которой борется психология, это донесение как до публики, так и до самих исследователей важности перепроверки и укрепления ранних результатов. Возможно ли повысить цифру 40% до чего-то более приятного?
Пожалуй, да. Более того, за счет распространения более аккуратных исследовательских практик она скорее всего возросла с 2008 года, когда были опубликованы рассматриваемые работы. В предыдущие десятилетия те же проблемы проходила, например, медицина и генетика. Клинические испытания в итоге приняли за норму обязательную перерегистрацию исследований для того, чтобы отделить планируемые результаты от менее жестких творческих находок ученых. Генетики перешли к командной работе и крупным коллаборациям. Психология тоже идет этим путем.
Все больше журналов практикует
В общем, хоть цифры и выглядят пессимистично, ничего особенно пугающего нам не открылось. Как это и должно быть, наука перепроверяет, критикует и оздоравливает себя, так что научность психологии (если кто-то за нее волновался) подтверждается самим фактом проведения подобного исследования. А теперь все выдохнули и повторяем за мной:
“Science isn’t broken. It’s just fucking hard.”
Дополнительно:
Все
Отличный
Источник
Комментарии (0)