Big Data – золотые пески XXI века


Термин “big data” давно уже перешел из технических в коммерческие. Он мелькает в новостях, бизнес-отчетах, рекламных проспектах, прогнозах аналитиков. Но не все понимают, что стоит за этими словами, а маркетинговые проспекты едва ли проясняют картину.


Big data – лишь один из аспектов информационной революции


Которая началась с бума доткомов и продолжилась в середине двухтысячных. Этимология этого выражения лежит в добывающей промышленности – терминами “big oil” или “big gas” называли проекты по освоению крупных месторождений, как правило, требовавших значительных вложений и суливших значительные прибыли. Аналогично этим примерам, big data – это техники, ПО и процессы, относящиеся к обработке больших массивов данных. Выделенный сервер может быть разным для разных организаций – некоторым придется пересмотреть практики работы уже при наличии массива в несколько сот гигабайт, для других этот порог может быть гораздо выше. Впрочем, все пропорционально, так что у организаций, производящих больше данных порог будет выше.


Big Data – золотые пески XXI века


Бинарное золото

Мы не зря привели выше сравнение с нефтью. Как и месторождения нефти, массивы big data содержат ценную информацию – скажем, один массив, содержащий данные о приобретениях, совершаемых покупателями в сети супермаркетов в течение нескольких дней, может содержать достаточно информации для целого статистического исследования. В больших массивах гораздо легче выделять общие для индустрии или покупательской массы тренды, прогнозировать будущие изменения, или устанавливать связи между разрозненными событиями. Такой массив должен обладать следующими особенностями (в западной литературе их называют V3):


• значительным объемом массива;
• значительные потоки вводимой/выводимой информации;
• неоднородность массива (содержит данные разных типов, которые поступают из множества источников).

Такие массивы образовываются в ходе сбора данных в различных отраслях – крупные предприятия, широкомасштабные научные исследования, социальные сети. Это как “золотые рудники” – для того чтобы извлечь из данных ценную информацию, необходимо обработать тонны “пустой породы”. И работать лучше не ситом и черпаком, а шагающим экскаватором. То есть необходима действительно мощная вычислительная техника.


Heavy metal

Немногие компании сами располагают мощностями, необходимыми для обработки таких объемов данных, тем более в сжатые сроки. Именно поэтому “big data” и “облачные вычисления” так часто встречаются в одном предложении. Если своих мощностей нет – их можно арендовать, что будет намного дешевле, чем строить свои с нуля. Более того, существует множество компаний, которые служат посредниками между провайдерами облачных сервисов (Amazon, Google) и клиентами, упрощая задачу последних до выбора наиболее подходящего варианта в списке. Это, как правило, небольшие компании-стартапы, основанные выходцами из компаний-провайдеров и хорошо знакомые с их “внутренней кухней”.


Однако, самым важным вопросом, пожалуй, является безопасность. Когда такие объемы информации проходят через такое количество рук, на этих руках наверняка что-нибудь да остается. Более того, какой-либо общепринятой политики безопасности по обращению с big data пока что не существует из-за относительной молодости этих разработок. Во всем придется полагаться на знания и здравый смысл.


Но игнорировать эту область тоже нельзя. Big data является одним из “направлений прорыва”, куда вкладываются значительные средства исследователями, государством и бизнесом. А скопление значительных вычислительных мощностей и огромных объемов данных создает условия для развития других инновационных разработок – машинного обучения, и как знать искусственного интеллекта?


  • Дата: 10-05-2017, 21:58

Предыдущие статьи сайта:

Понравилась статья? Ставь лайки, рассказывай друзьям!



Отзывы о статье: Big Data – золотые пески XXI века

Технологии, секреты и фишки Apple: Iphone, iPad, iPod