Опубликовано 09 января 2019, 13:56

Статистике нельзя доверять. Как ошибаются соцопросы

С вероятностью 146%

Вокруг нас много бессмысленной и ложной информации, поэтому мы так любим статистику — нам кажется, что сухие факты объективнее риторики. Автор книги «Как лгать при помощи статистики» Даррелл Хафф объясняет, как отличить информацию, заслуживающую доверия, от ситуаций, когда красивые цифры превращаются в вульгарный способ вас запутать.

Всё тайное останется тайным

«Средний выпускник Йельского университета 1924 года зарабатывает $25 111 в год» — это было опубликовано однажды в журнале Time в ответ на какой-то материал, вышедший в нью-йоркской газете Sun.

Ну что ж, зарабатывает — вот и молодец!

Но погодите-ка. А что, собственно, означает эта внушительная цифра? Будет ли она, как это кажется на первый взгляд, свидетельством того, что, если вы отправите своего отпрыска учиться в Йельский университет, вам уже не придётся работать на старости лет (да и ему тоже)?

Уже при первом настороженном взгляде на эту цифру бросаются в глаза две особенности. Сама цифра на удивление точна. И потом, она неправдоподобно велика. Маловероятно, чтобы средний доход любой сколько-нибудь обширной группы был бы известен с точностью до последнего доллара. Не так уж вероятно, чтобы вы с такой же точностью можете сказать, каким был ваш собственный доход в прошлом году, разве что весь он был получен исключительно за счёт зарплаты. А годовой доход в размере $25 000 редко когда складывается только из заработной платы; люди с доходом такого уровня склонны делать инвестиции, причём их вложения предусмотрительно и с умом распределены между несколькими «корзинами».

Кроме того, этот восхитительный средний показатель рассчитан, несомненно, на основании тех сумм, которые, как сообщили сами выпускники Йеля, они зарабатывают. Даже если в 1924 году у них там в Нью-Хейвене и имелась система доверия, то где гарантия, что и сегодня, четверть века спустя, она по-прежнему существует и все данные, представленные этими выпускниками, соответствуют действительности? Иные, отвечая на вопрос о личных доходах, склонны преувеличивать их — то ли из тщеславия, то ли потому, что настроены оптимистически. Другие же намеренно занижают свои доходы, особенно (и на то есть причины) в своих налоговых декларациях.

Вполне могло быть так, что эти две тенденции (завышать свои доходы или занижать их) нейтрализуют одна другую, но едва ли это вероятно. Одна из двух может быть намного сильнее другой, а вот которая — нам не известно.

Мы начали с того, что проанализировали цифру, которая, как подсказывает здравый смысл, вряд ли соответствует действительности. А теперь давайте разберёмся с возможной причиной серьёзной ошибки: почему эти самые $25 111 указываются в качестве среднего дохода неких людей, чей фактический средний доход с таким же успехом может быть и вполовину меньше названной суммы?

Причина тому — процедура составления выборки, и именно она представляет собой сердцевину большей части статистических данных, которые встречаются в самых разнообразных сферах. Основа этой процедуры довольно проста, а вот старания усовершенствовать её на поверку только заводили на всяческие глухие окольные тропы, иногда весьма малопочтенные.

Если у вас есть мешок бобов, часть из которых красного, а часть белого цвета, то единственный способ точно определить, сколько у вас белых бобов и сколько красных, — это пересчитать их. Однако есть и более простой способ приблизительно оценить количество красных и белых бобов — зачерпнуть пригоршню и сосчитать, сколько в ней будет белых бобов и сколько красных, исходя из предположения, что и в общем объёме белые и красные бобы содержатся в такой же пропорции. Если взятая вами для исследования пригоршня бобов, то есть выборка, достаточно велика и правильно отобрана, то для большинства надобностей она будет вполне репрезентативной. В противном случае выборка даст вам значительно менее точное представление о целом, чем сколько-нибудь обоснованные прикидки, а её единственным достоинством будет разве что иллюзорное впечатление научной точности.

Как ни печально, а выводы на основе такого рода выборок (необъективных или слишком малых, чтобы верно отразить свойства целого, или страдающих обоими этими изъянами) как раз и лежат в основе большинства из того, о чём нам доводится читать, или того, что мы, как нам представляется, знаем.

Щекотливый вопрос

Упомянутые газетой сведения о доходах выпускников Йельского университета основаны на выборке. В этом можно не сомневаться, поскольку, как подсказывает здравый смысл, невозможно опросить всех выпускников 1924 года. Для некоторых анкет, рассылаемых по почте, 5–10% ответивших уже считается достаточно высоким результатом. Данная анкета, надо полагать, добилась большего успеха, но её результат явно далёк от стопроцентного.

“

«Не беспокойтесь, — говорит этот парень своему боссу, — я стыжусь размера этой суммы не меньше вас»

Итак, мы выяснили, что размер дохода вычислен на основе выборки, составленной из всех выпускников, адреса которых были известны и которые ответили на анкету. Репрезентативная ли это выборка? Иными словами, можно ли считать эту группу выпускников равной с точки зрения доходов группе выпускников, не представленных в выборке, то есть тех, чьи адреса не удалось раздобыть, и тех, кто не пожелал заполнить анкету?

Вполне правдоподобной представляется догадка, что найти не удалось имена тех выпускников, кто двадцать пять лет назад покинул стены Йельского университета с дипломом бакалавра гуманитарных наук, но так и не сумел заявить о себе чем-нибудь выдающимся. Это простые клерки, механики, бродяги, безработные алкоголики или перебивающиеся с хлеба на воду писатели и художники. В общем, те, кто только вшестером, если не больше, могли бы общими усилиями наскрести $25 111 в год. Люди подобного сорта не так уж часто изъявляют желание встретиться со своими однокашниками, хотя бы по той причине, что не могут позволить себе подобную поездку.

Резонно предположить, что многие из тех, кто получил анкету по почте и не стал на неё отвечать, не могут похвастаться своими заработками. Они чем-то напоминают парня, который получил свою первую зарплату и увидел, что к чеку пришпилена записка. В ней выражалась уверенность, что он считает размер своей заработной платы конфиденциальной информацией и не станет обсуждать её в разговорах с коллегами. «Не беспокойтесь, — говорит этот парень своему боссу, — я стыжусь размера этой суммы не меньше вас».

Итак, нам уже ясно, что в выборку не были включены две группы выпускников, чьи доходы, скорее всего, уменьшили бы средний показатель годового заработка. И вот сумма $25 111 получает наконец своё объяснение. Если эта цифра и вправду в чем-то верна, то она относится всего лишь к определённой группе йельских выпускников — к тем, чьи адреса известны и кто пожелал открыто заявить, сколько зарабатывает в год. Но даже этот вывод следует основывать на том допущении, что все эти достойные господа сказали правду.

Не замечаем тех, кто не нравится

Давайте представим, что вам поручили встать на углу улицы и задать ряд вопросов какому-то одному человеку. Вам попадаются на глаза двое прохожих, и оба вроде бы подходят под ту категорию, представителя которой вам предписано опросить, а именно — горожанина в возрасте старше сорока лет. Один прохожий одет чисто и аккуратно, другой же — во что-то непотребное, да к тому же угрюм и неприветлив на вид. Вы, чтобы выполнить задание, естественно, обратитесь к тому из двоих, кто выглядит приличнее, и точно так же поступают ваши коллеги-интервьюеры по всей стране.

Среди прочих сильнейшая неприязнь к опросам общественного мнения наблюдается в кругах либералов и сторонников левых идей, где довольно-таки прочно укоренилось мнение, что социологические опросы в большинстве своём — подтасовки и надувательство. Если верить опросам, указывают они, то получается, что победят республиканцы, даже когда через считаные дни избиратели делают иной выбор.

На самом деле, как мы уже убедились, это вовсе не означает, что социологические опросы фальсифицируются — иными словами, что кто-то намеренно искажает их результаты, чтобы создать ложное впечатление. Свойственная выборке тенденция к систематическому смещению в сторону более состоятельных респондентов может исказить результаты любого опроса.

Фотография на обложке: Multi-bits / Getty Images

Подписывайтесь на «Секрет фирмы» в «Яндекс.Дзене»!

Автор:Редакция «Секрета»