Читать книгу Работа с данными в любой сфере онлайн | страница 12

Короче говоря, если вы просто не в состоянии работать с данными, то можете назвать их большими данными. Когда ученые используют термин, они делают это не просто так. Он применяется, чтобы привлечь внимание к тому, что стандартных методов для анализа данных, о которых идет речь, недостаточно.

Почему такая суета вокруг больших данных?

Вам может показаться странным, что мы только начали понимать, насколько значимыми могут быть данные. Но когда мы в прошлом собирали данные, единственное, что мешало нам превратить их во что-то полезное, было отсутствие технологий. В конце концов, важно не то, насколько огромны данные; важно, что вы с ними делаете. Любые данные, «большие» или иные, полезны, только если из них можно извлечь информацию, и до того, как была разработана соответствующая технология, чтобы помочь нам проанализировать и масштабировать эти данные, их полезность могла быть измерена только интеллектуальными возможностями человека, пытавшегося с ними совладать. Но для сортировки больших данных требуется более быстрый и мощный процессор, чем человеческий мозг. До технологических разработок XX в. данные хранились на бумаге, в архивах, библиотеках и хранилищах. Теперь почти все новые данные, которые мы собираем, хранятся в цифровом формате (и даже старые данные активно преобразуются в цифровые, о чем свидетельствует огромное количество ресурсов, сосредоточенных в таких цифровых собраниях, как Europeana Collections и Google Books).

Хранение и обработка данных

С изобретением компьютера появилась возможность автоматизации процесса хранения и обработки данных. Но большие массивы данных увязли в первых машинах; ученым, работавшим с электронными массивами данных в 1950-х гг., приходилось ждать решения простой задачи несколько часов. Вскоре пришли к выводу, что для правильной обработки больших массивов данных – для установления связей между элементами и использования этих связей с целью получения точных и значимых прогнозов – нужно создавать информационные носители, которые могли бы управлять данными и справляться с их хранением. Разумеется, по мере совершенствования технологий, основанных на вычислениях, менялись и возможности компьютеров по хранению и обработке данных. И за последние 70 лет мы не только научились эффективно хранить информацию, но и смогли сделать эту информацию переносимой. Те же самые данные, которые в 1970-х гг. помещались только на 177 778 гибких дисках, к 2000-му могли поместиться на одном флеш-накопителе. Сегодня вы можете хранить все это и многое другое в облаке (хранилище с виртуализированной инфраструктурой, которая позволяет просматривать ваши личные файлы из любой точки мира)[2]. Когда вы в следующий раз обратитесь к личным документам, хранящимся в местной библиотеке, у вас на работе или просто в вашем мобильном устройстве, имейте в виду: вы фактически делаете то, что в 1970-х гг. потребовало бы использования более 100 000 дискет.


Представленный фрагмент книги размещен по согласованию с распространителем легального контента ООО "ЛитРес" (не более 15% исходного текста). Если вы считаете, что размещение материала нарушает ваши или чьи-либо права, то сообщите нам об этом.