Соблазн Больших данных
Служит ли улучшению качества знаний огромное количество данных, которые стали нам доступны, а также возможности их обработки в невиданном прежде масштабе?
Мирослав Шредер (Mirosław Szreder)
Наше упоение масштабами информации, которая оказалась у нас под рукой, неудивительно, ведь мы так долго стремились получить то, что предлагают сейчас так называемые Big Data. В будничной жизни и науке поиск информации, новых фактов и данных, а также технологий для их обработки и анализа был вещью естественной. Однако мы слишком часто некритично подходим к соотношению между количеством и качеством данных, слишком быстро поддаемся иллюзии, что больше всегда означает лучше.
Кнут против больших чисел
Среди сторонников Больших данных бытует мнение, что увеличивающийся объем может компенсировать недостаточное качество. Авторы нашумевшей книги «Big Data: революция, которая изменит наше мышление, работу и жизнь» Виктор Майер-Шенбергер (Viktor Mayer-Schönberger) и Кеннет Кукьер (Kenneth Cukier) однозначно разделяют такой подход. Они пишут: «Наблюдение за более широким спектром данных освобождает нас от необходимости сохранять особую тщательность. (…) Теперь во многих новых ситуациях отсутствие точности, небольшой беспорядок могут оказать положительным качеством, а не изъяном». В свою очередь, другие люди, чтобы придать этому убеждению какой-то научный вес, ссылаются на закон больших чисел. Они утверждают, что большое количество наблюдений всегда ведет к выявлению определенной тенденции. Однако при этом они забывают, что закон больших чисел относится к математике и имеет конкретные принципы. Если их не учитывать, опираться на него нельзя. Иными словами, если, например, мы не обеспечим идентичные условия для исследуемых событий или решим отождествить случайные наблюдения с наблюдениями, сделанными на основе выборки, использовать закон больших чисел будет ошибкой.
Если бы это было не так, все репрезентативные исследования, в том числе общественного мнения, уже давно проводились бы в форме интернет-опросов, в которых обычно принимает участие в несколько десятков раз больше людей, чем попадает в стандартную выборку исследователя. Например, известный Институт Гэллапа в США продолжает проводить подавляющее число своих исследований на относительно маленьких, тщательно отобранных группах респондентов. 60% — это обычно абоненты мобильных телефонов, и 40% — домашних. На разных порталах на те же самые темы голосует, порой, в сто раз больше людей. Однако никто не распространяет эти результаты на всех интернет-пользователей, а тем более на все общество. Эмоциональное утверждение авторов упомянутой выше книги, что «обращаться к выборкам в эпоху Big Data, все равно, что хвататься за кнут в эпоху автомобилей», пока не нашло своего подтверждения на практике.
Почему? Потому что в наше время проблема статистических исследований состоит не в количестве информации, а в ее качестве. Простое увеличение числа наблюдений не ведет к улучшению качества выводов.
Когда весной прошлого года оказалось, что ни один из исследовательских центров не смог предвидеть значительное превосходство Консервативной партии над Лейбористской перед парламентскими выборами в Великобритании, это дело решили расследовать. Однако ни одна из версий источника ошибки не говорила о том, что выборки респондентов были недостаточными большими. Мало того, один из центров провел свой последний опрос перед выборами на выборке из 10 000 респондентов. И в его результатах была та же погрешность, что и в исследованиях других центров, работавших с выборкой в 1000 и 4000 человек.
В статистических исследованиях нет прямой взаимосвязи между качеством и количеством. Увеличение количества данных с одновременным попустительством в плане точности лишь создает иллюзию получения более качественного знания.
Когда ошибка не уменьшается
Эта иллюзия происходит из уверенности, что мы сможем избежать ошибок, если подвергнем наблюдению все или почти все единицы данной группы. Многие полагают, что самая большая погрешность исследований проистекает из факта, что изучается лишь выборка, а не вся популяция (так называемая статистическая ошибка выборки). Между тем это только одна из ошибок, которые могут оказать влияние на результат статистического исследования. Вдобавок, статистики лучше всего умеют ее контролировать, более того, она часто бывает самой малой составляющей общей погрешности исследования.
Ведь в исследованиях появляются также систематические ошибки выборки, в особенности, связанные с инструментами измерения или, хотя бы, с нежеланием респондентов отвечать на вопросы. Специфика всех ошибок систематического свойства заключается в том, что с увеличением размера выборки они не уменьшаются. Если, например, семьи с самым высоким доходом часто отказываются от участия в любого рода опросах, даже самая большая выборка не ликвидирует погрешность результата исследования. Увеличение количества не отразится на качестве.
Такой же ответ следует дать всем тем, кто требует перед выборами сделать исследование, которое сможет с большой долей вероятности предсказать их исход. Они хотят, чтобы статистическая погрешность составляла не 3%, что нормально для большинства опросов, а 1% или даже меньше. Им очевидно, что для этого нужно увеличить количество респондентов в выборке и, соответственно, расходы на исследование.
Количество и качество
Однако не расходы на увеличения размера выборки с 1067 до 9600 человек останавливают исследовательские центры перед проведением таких опросов. Просто они знают, что это лишь увеличит статистическую ошибку, а остальные, то есть ошибки систематические, не только останутся на своем месте, но их влияние на окончательный результат исследования возрастет.
У получателя такого исследования сложится впечатление, что статистическая погрешность в нем мала (1%), однако в действительности по сравнению с выборкой из 1100 человек, изменится она очень незначительно.
Что это значит для людей, увлеченных новыми возможностями получения и анализа огромных массивов данных? Неужели от Big Data нет никакой пользы?
В новых источниках информации содержится большое количество ценных знаний, нужно только их извлечь. Однако здесь возникает большой риск некритичного подхода к этим источникам, который проистекает из убежденности в том, что все большое заслуживает доверия («раз тысячи наблюдений это подтверждают, разве может быть иначе?»), а также из ложной идеи, что увеличение количества позволит нам компенсировать недостающее качество. Эта последняя мысль, особенно в науке, может привести к огромному количеству неверных выводов, обнаружению мнимых причинно-следственных связей или взаимопротиворечащих закономерностей.
Источник: