С. Ричи. «Наукообразная чушь». Глава из книги
Приложение. Как читать научную статью
Помните наказ Даниэля Канемана из второй главы о том, что «вам придется» поверить в поведенческие эффекты «прайминга» — которые позднее при попытках их воспроизвести показали свою несостоятельность? Основная идея этой книги такова: сталкиваясь с научным результатом, вы обладаете свободой выбора — вы вправе решить воздерживаться от высказывания своего мнения до тех пор, пока тщательным образом не проверите, как и откуда этот результат взялся.
Но как? Бесспорно, чтобы полностью понять сильные и слабые стороны какого-либо исследования, обычно требуются годы подготовки в соответствующей научной области. И тем не менее если вы решите провести небольшой поиск в интернете, то зачастую сумеете получить необходимое представление о достоинствах и недостатках работы. А если пожелаете проверить саму статью, есть набор красных флагов, которые могут проглядывать даже сквозь непроницаемый технический жаргон.
Разумеется, проверка интересующей вас статьи предполагает, что вы можете ее скачать, правда, полный открытый доступ к научной литературе пока не стал реальностью, так что публикация, вероятно, окажется платной. С этим можно кое-что попытаться сделать, если вы, конечно, не хотите просто выложить деньги за доступ к статье — с чем совершенно точно не следует торопиться, пока вы не испробовали все остальные варианты, которые я сейчас опишу (а когда они провалились, не расхотели вообще читать эту работу). Во-первых, имеет смысл проверить, не выложена ли на личных или рабочих сайтах авторов бесплатная версия для скачивания, иногда в несверстанном виде. Обычный поиск статьи в Google Scholar, когда вы нажимаете под каждым элементом из списка выдачи на «версии» документа, часто может привести вас к этим бесплатным рукописям статей. Во-вторых, можно проверить, не был ли выложен препринт — они всегда выкладываются в открытом доступе, и хотя иногда препринт немного отличается от финальной, публикуемой в журнале версии, которая прошла этап рецензирования, чаще всего препринт и статья очень похожи. (Как мы видели, бывает, что именно препринт попадает в основные средства массовой информации, откуда вы, возможно, и узнали об исследовании.) В-третьих, можно написать по электронной почте авторам: хоть мы и обсуждали, что ответы приходят печально редко, когда люди, намеревающиеся воспроизвести исследование, просят у авторов их данные, однако просьба поделиться статьей вряд ли вызовет проблемы (на самом деле многим ученым будет скорее приятно: кого-то настолько заинтересовало их исследование, что он даже готов прочитать статью). В-четвертых, поговаривают, что еще есть разные пиратские способы, позволяющие добыть статью в интернете нелегально, но об этом я ничего не знаю1.
Допустим, вы заполучили полную версию статьи. При ее прочтении вы можете применить почти все знания, почерпнутые из этой книги, используя приведенный ниже список из десяти главных вопросов.
1. Все ли прозрачно? Во-первых, основное: авторы из вроде бы заслуживающих доверия университетов, компаний и лабораторий? Журнал, где опубликована работа, выглядит профессиональным? Если сайт издания ужасен, словно из каких-нибудь 90-х, это, вероятно, один из удручающе распространенных «хищнических» журналов, которые встретились нам в седьмой главе. Ничему из опубликованного в подобных местах доверять не стоит, поскольку там даже и не пытаются рецензировать статьи2.
2. Насколько все открыто? Иными словами, насколько исследование отвечает идеям открытой науки, описанным в восьмой главе? Было ли оно предварительно зарегистрировано? Утвердительный ответ никоим образом не гарантирует, что результаты верны, так же как ответ отрицательный не означает, что они ошибочны. Но если вы сумели отыскать онлайн-регистрацию исследования, то можете быть по крайней мере немного увереннее, что результаты обусловлены не только лишь p-хакингом3. Просматривая документы предварительной регистрации, вы также можете определить, отличается ли анализ результатов в итоговой статье от ранее заявленного: то есть не прибегли ли ученые к переключению на другие исходы? А еще: доступны ли данные и другие материалы онлайн? Как мы обсуждали, не каждый набор данных возможно сделать общедоступным, вдруг он, например, содержит информацию, которая позволит идентифицировать конкретных участников исследования. Впрочем, такие случаи редки. Если есть ссылка на полный набор данных, которую легко найти, это убедительное свидетельство в пользу того, что ученые с читателем откровенны4.
3. Правильно ли исследование спланировано? В пятой главе мы говорили, что в настораживающе большой доле статей, посвященных работе на животных, рандомизация и ослепление даже не упоминаются. А это существенные аспекты в дизайне эксперимента, так что, если в статье они никак не обсуждаются — как минимум в работах, посвященных клиническим испытаниям, где эти аспекты критически важны, — ваша подозрительность должна усилиться. Кроме того, для многих исследований необходима подходящая контрольная группа. Когда ваш взгляд цепляется в статье за сенсационное утверждение, всегда надо задаваться вопросом «по сравнению с чем?». Если ответ — «по сравнению с контрольной группой, отличавшейся от лечебной по важным параметрам еще до начала эксперимента», то перед вами плохо спланированное исследование.
4. Насколько велика выборка? Размер выборки имеет значение, главным образом из-за статистической мощности. Это правда, что статистическую мощность можно увеличить и другими способами, поэтому размер выборки — не единственный фактор. Для некоторых видов исследований, где, например, ожидаются большие эффекты или участники тестируются снова и снова, скромной выборки совершенно достаточно. И даже огромные выборки бывают безнадежно смещенными, если они неслучайны или нерепрезентативны. Но для исследований в таких областях, как нейронаука, экология и психология, это распространенная ошибка — искать в крошечных выборках в принципе слабые эффекты; такая стратегия оказывается хуже, чем просто бесполезной. Еще нужно следить за тем, сколько испытуемых оказались исключены из финальной выборки. Некоторые исключения абсолютно в порядке вещей и обычно даже неизбежны. Например, люди, участвующие в исследовании, редко все поголовно следуют указаниям, как должны были бы. Тем не менее, если исключений слишком уж много, скажем больше половины выборки, вы вправе засомневаться, можно ли обобщать результаты на изучавшуюся популяцию, или авторы просто отобрали тех участников, которые демонстрировали желаемый эффект, а остальных выкинули.
5. Насколько велик эффект? Первое, что надо проверить: статистически значим ли заявленный в статье эффект и каков уровень значимости. Высчитано ли много p-значений, которые чуть ниже порога в 0,05? Используют ли авторы туманные выражения вроде «тенденция в сторону значимости», дабы сгладить тот факт, что их результаты недостаточно хороши? Впрочем, это лишь начало — еще вы должны задаться вопросом, насколько велик обнаруженный в исследовании эффект. Как он соотносится с другими исследованиями или с другими релевантными эффектами? К примеру, если в работе анализируется новое медицинское вмешательство или образовательная инициатива, как результаты соотносятся с другими, уже устоявшимися медицинскими методами и образовательными практиками? Не интерпретируется ли средствами массовой информации или самими учеными какой-то небольшой эффект так, словно он единственное, что имеет значение? Поскольку мы знаем, что на ту же тему может существовать несколько исследований с отрицательными результатами, запрятанных в «картотечный ящик», полезно в уме немного уменьшить величину эффекта. Проблема в том, что неправдоподобно большие эффекты — которые, попросту говоря, слишком хороши, чтобы быть правдой, — также должны вызывать подозрение, что с исследованием не все в порядке. То же касается и p-значений: при виде исследования, сообщающего исключительно или почти исключительно о статистически значимых результатах, стоит удивленно выгибать бровь. Ибо, как мы видели, исследования никогда не обладают идеальной статистической мощностью, а часто она на самом деле очень низка. Поэтому, даже если заявленные эффекты правдивы, все равно логично ожидать, что некоторые p-значения не перевалят через порог 0,05. Ровный строй статистически значимых результатов в исследовании, где вычислялось много p-значений, намекает на p-хакинг (или на что похуже).
6. Адекватны ли выводы? Как мы видели, ученые регулярно впадают в «причинно-следственный» тон, даже если провели всего лишь корреляционное исследование. Если ученые на основании результатов наблюдательного исследования говорят о том, как переменная X влияет или оказывает воздействие на переменную Y, они выходят за пределы своих данных. В наблюдательном исследовании нет никакого рандомизированного вмешательства, поэтому выводов о причинно-следственных связях обычно сделать нельзя. Аналогично, если эксперимент выполнен на мышах или крысах либо на компьютерной модели, заключение, что такой опыт обязательно дает нам некую информацию о том, «как все устроено у людей», попросту неверно. То же касается исследований, проведенных лишь на небольшой выборке людей, но представленных так, будто результаты сообщают нам что-то о человечестве в целом.
7. Есть ли предвзятости? Нет ли у исследования явной политической или социальной подоплеки? И не сообщают ли о ней ученые кажущимся не слишком уж беспристрастным образом? Мы видели, что преувеличения и подача под нужным углом часто ужасающи, даже в рецензируемых статьях. Не профинансировано ли исследование — полностью или частично — каким-либо коллективом или компанией, для которых предпочтительным был бы один конкретный исход? Некоторое представление об этом можно получить, заглянув в разделы «Источники финансирования» и «Конфликт интересов», обязательные почти для всех журналов (но имейте в виду, что сейчас там не требуется упоминать о таких вещах, как контракты с издательствами и лекционные туры, а ведь они могут быть напрямую связаны с результатами статьи; вероятно, вам захочется проверить подобный второстепенный вид деятельности авторов на их сайтах). Если авторы подобающе осторожны при обсуждении своих открытий и не отыскиваются материалы средств массовой информации, где эти ученые говорили бы журналистам, как их результаты отчетливо согласуются с некой политической позицией или конкретным политическим курсом, это хороший знак, свидетельствующий о том, что они сдерживают свои предубеждения. Между прочим, еще важнее отслеживать предвзятости, когда исследование согласуется с вашими личными идеологическими предубеждениями. Стоит спросить себя: я подвергаю исследование несоразмерно жесткой проверке, поскольку не согласен с его выводами, или же не глядя принимаю слабую работу, потому что в ней подкрепляются мои предрассудки?
8. Насколько все вообще правдоподобно? Если речь идет об исследовании с участием людей, полезно представить, будто вы сами были его участником5. Например, в случае работы по эпидемиологии питания подумайте, насколько точно при заполнении опросника по частоте потребления различных пищевых продуктов вы сумели бы вспомнить свои привычки, касающиеся перекусов, за последние десять лет или хотя бы за несколько последних недель. Наверняка ответ — «не очень уж точно». Не выматывались бы вы к концу всех тестирований в поведенческом эксперименте и учитывалось ли это исследователями? Точно ли обстановка, в какой проводится исследование (скажем, лаборатория в университете), имитирует условия, которые, собственно, и интересуют ученых (например, как при собеседовании на высокую должность)? Иными словами, действительно ли исследование отвечает поставленной задаче? Когда вы ставите себя на место участника, это помогает определиться с подобными базовыми вопросами, касающимися правдоподобности работы.
9. Воспроизводилось ли исследование? Нам нужно прекратить всецело доверять отдельным работам. Надежнее, когда ученые повторно получили собственные результаты, а еще лучше, если их воспроизвели и другие исследователи из совершенно независимых лабораторий. Первое, что надо сделать, — поискать, не опубликованы ли какие-то исследования-повторения6. Еще может найтись обзор или метаанализ, посвященный основным результатам статьи или же сходным результатам, который покажет, не является ли интересующее вас исследование просто некой аномалией, а также вписываются ли его результаты в более общую теорию (помните, что заинтересовавшее вас исследование само может быть неудавшейся попыткой воспроизвести более ранний результат). Разумеется, обзоры и метаанализы и сами бывают искажены из-за публикационного смещения и плохого качества исходных работ; если вам удалось найти метаанализ исследований, каждое из которых было заранее зарегистрировано, вы сорвали джекпот — правда, сам я, кажется, никогда не сталкивался с таким уникальным случаем (хотя в будущем это может измениться, поскольку предварительная регистрация становится все популярнее). Естественно, нельзя рассчитывать на то, что существует работа, воспроизводящая интересующее вас исследование, если оно совсем свежее и новаторское, однако можно воздержаться от суждений о его достоверности, пока такая работа не появится.
10. Что думают об этом исследовании другие ученые? В лучших новостных материалах о научных работах обычно цитируются слова какого-нибудь независимого ученого, выражающего свое мнение, так что имеет смысл посмотреть, нет ли уже где-то отзывов. Есть и организации, занимающиеся этим систематически: например, британская благотворительная организация «Научный пресс-центр» всякий раз, как выходит пресс-релиз о новой статье, запрашивает комментарии и отзывы у многих независимых экспертов и публикует на своем сайте7. Это хороший пример того, как рецензирование может происходить даже после официального выхода статьи. Еще стоит поискать информацию на сетевых ресурсах вроде Pubpeer, анонимного сайта с комментариями к научным статьям, где впервые вскрылось, что изображения из публикации о стволовых клетках Харуко Обокаты подделаны, и где разоблачались хитрости еще многих других мошенников8. Поискать какие-нибудь блоги или любые сайты, где обсуждается статья, в Google или даже пошерстить в твиттере тоже бывает полезно, только нужно отдавать себе отчет, что таким образом можно обнаружить как грамотное, так и бестолковое, как серьезное, так и шутливое, как непредвзятое, так и предвзятое обсуждение исследования9. Если работа вышла не вчера, вы можете использовать функцию «Цитируется» в Google Scholar, чтобы посмотреть, есть ли на эту статью ссылки, и проверить, как ее чаще цитируют — в положительном или же отрицательном ключе10.
Ни один из этих довольно общих приемов не идеален, и не все они применимы к каждому виду исследований. Очевидно, что всегда лучше обладать какими-то предварительными знаниями и опытом в определенной научной области, чтобы полнее оценить сильные и слабые стороны конкретного исследования. Впрочем, все лучше, чем просто принимать чьи-то утверждения за чистую монету.
Еще важно помнить, чему мы научились благодаря саге о Стивене Джее Гулде, Сэмюэле Мортоне и нескончаемых дебатах о размерах черепов: даже если вы читаете кажущуюся разгромной критику некоего исследования, сам критический разбор может оказаться ошибочным, как и критика критического обзора. Это относится и ко всему, о чем я написал в этой книге.
Фундаментальный урок таков: нужно скромнее оценивать то, что мы знаем и чего не знаем. На первый взгляд может показаться, что это противоречит идее научного исследования, которая определенно в том и состоит, чтобы открывать новые факты о мире и всегда наращивать знание. Но поразмыслите хорошенько — и вы обнаружите, что сама суть науки в этом.
1 Himmelstein D. S. Sci-Hub Provides Access to Nearly All Scholarly Literature. eLife. 7 (2018): e32822.
2 Еще можно свериться с одним из опубликованных в интернете списков хищнических журналов, например, здесь.
3 Вот тут для многих стран и регионов можно найти ссылки на сайты, где регистрируются клинические испытания: www.hhs.gov/ohrp/international/clinical-trial-registries/index.html. Для других видов исследований рекомендую проверять сайты вроде таких: https://arxiv.org; www.biorxiv.org; https://osf.io. Многие предварительно зарегистрированные статьи будут содержать ссылку на веб-страницу с их регистрацией, а клинические испытания будут иметь свой регистрационный номер, который вы сможете использовать.
4 Часто ссылку на полный набор данных можно найти в конце опубликованной работы. Еще некоторые журналы сейчас обозначают статьи с открытыми данными и методами и предварительной регистрацией цветными плашками. Список таких журналов можно посмотреть здесь.
5 Это идея моей подруги Салони Даттани.
6 Функция «Цитируется» в Google Scholar очень удобно расположена под записью о каждой статье.
7 www.sciencemediacentre.org. «Научный пресс-центр» есть и в некоторых других странах, например в Германии: www.sciencemediacenter.de. Подробнее см. Callaway E. Science Media: Centre of Attention. Nature. 499, no. 7457 (2013): 142–4.
9 Можно просто вставить URL-адрес журнальной статьи в поисковую строку твиттера — так вы увидите все сообщения со ссылками на эту статью и все комментарии к ним. Многие ученые стараются делать критические обзоры статей, относящихся к их области исследования, в доступной форме в твиттере, так что это источник комментариев для широкой публики, который мало кто использует.
10 Интересный новый инструмент, позволяющий лучше понять, как цитируется то или иное исследование, — scite. Алгоритм (при его обучении использовались суждения реальных ученых) анализирует контекст, в котором упоминается цитируемая статья, и классифицирует его как «подтверждающий», «противоречащий» или просто «упоминающий» (то есть нейтральный). Хотя алгоритм еще дорабатывается и функционирует небезупречно, он предоставляет отрывки текста из каждой статьи, где цитируется интересующая вас работа, чтобы вы могли сделать собственные выводы. Это лишь один пример технологических инструментов, которые постоянно появляются, чтобы облегчить жизнь ученым — и предотвратить их ошибки.