Термин Big Data уже давно повторяют на все лады телеком-операторы, интернет-магазины, авиакомпании, правительства, но когда начинаешь задавать наводящие вопросы, сразу обнаруживается, что каждый имеет в виду что-то свое. Что, в общем-то, и не удивительно, потому что Big Data – это хаотическое скопление самых разных, порой вообще несвязанных между собой данных. И в этой куче, верхушка которой уходит за облака, умные дяди и тети пытаются найти что-то полезное. И все говорят, что вот-вот найдут. Давно говорят.

Компания Teradata, производящая мощную технику и программное обеспечение для исследования Big Data, попыталась понятно для всех объяснить, что же такое “большие данные” и что можно анализировать с их помощью. Как известно, лучше один раз увидеть, чем сто раз услышать. И поэтому Big Data решили нарисовать. Проект назвали The Art of Analytics – «Искусство Аналитики».

Вместо графиков, цифр и табличек каждый случай работы с Big Data представлен абстрактной картиной, напоминающей ассоциативную графику.

Вот, например, работа «Эпицентр шторма» (эта и все остальные картинки кликабельные).

Шторм

Похоже на глаз. На деле — не совсем. Это аналитика больших данных во время twitter-шторма по поводу кончины Маргарет Тэтчер (твиттер-шторм — это когда злобные хейтеры расчехляют айпадики, и на какой-то твит сразу же появляется огромное количество ответов и ретвитов). Красные точки – это пользователи-хейтеры, белые точки – сторонники политики железной леди, желтые – оппозиция. Все линии между ними – информационная связь (то есть кто кому и чего ответил).

Первая мысль – «Ну, прикольно. И чо?»

Смысл в том, что если углубиться в технологию, то каждая точка – это ID пользователя. Юзер публикует твит – на картине появляется новая точка. Таким образом, можно узнать, кто являлся «отправной точкой» того или иного поста, понять причины, установить виновных и наказать всех подряд.

Такие механизмы могут, как минимум, найти зачинщиков террористических акций, а то и предотвратить их. Заявление громкое, понимаю. И главное тут – не данные, как таковые, а умение разглядеть за деревьями лес. Для этого одних инструментов – аппаратных и программных – недостаточно, нужны светлые и прокачанные соответствующим образом головы.

Следующая картинка называется «Финансовые фонтаны».

Финансовые фонтаны

Этот милый букет из чего-то, напоминающего цветы шелковой акации, перемещения денег между разными компаниями, у каждой из которых свой цвет. Линии – это количество транзакций. Чем больше линий, тем, скорее всего, компания успешнее. Получается, что крупная компания будет выделять на картинке крупные цветки, и, скорее всего, работать именно с ними. А хилые цветочки – рискованные предприятия – будут привлекать внимание различных инвесторов, не затрагивая таким образом весь рынок и не подвергая риску экономику в целом. Хотя, конечно, это надо отслеживать в динамике – растет цветочек или дает дуба. Во втором случае может уже и не быть особого смысла инвестировать.

Контролирующим органам тоже будет занятно увидеть, если какой-то цветочек рос себе в уголке, а потом внезапно расцвел и захорошел. Всегда же интересно понять, откуда людям привалило счастье.

«Круги звонков» — совершенно оруэлловский сюжет.

Круги звонков

На первый взгляд похоже на ананас. Но на самом деле на картине изображены «линии звонков», где длинные – долгие звонки, короткие – непродолжительные. Линия соединяет две точки. То есть тот, у кого есть доступ к такой информации, знает не только то, что у вас есть мобильный телефон, но и то, как часто вы им пользуетесь, кому вы звоните и кто звонит вам.

Зачем надо? Такая аналитика крайне полезна операторам связи, которые таким образом могут подстраивать тарифы и программы под нужды абонентов, заодно отслеживая привычки и предпочтения пользователей. Ну, и конечно же, не забываем, что кто-то хитрый и большой наблюдает за тобой. И ему приятнее смотреть на веселые картинки, а не скучные таблички.

Проект «Искусство Аналитики» состоит из восемнадцати картин из семи стран. Как бы просто они на первый взгляд не выглядели, это результат действительно кропотливой работы серьезных ученых в области Big Data.

Вот еще несколько картин.

Отлавливая аномалии
Отлавливая аномалии

Из официального описания: «Картина показывает аномальное поведение брокеров по отношению к страховому оператору. Точки (узлы) представляют собой ценовые предложения, созданные брокерами с помощью платформы, предоставленной страховщиком. Связи между узлами указывают на ассоциированные предложения, т.е. брокер использовал ранее созданное предложение (узел) для создания нового предложения (связанный узел) путем внесения множества изменений слишком часто и задолго до того, как срок действия предложения истек.

Часто это означает, что брокер манипулирует системой страховщика в попытке определить, каким образом функционирует механизм ценообразования. Подобное поведение – нежелательное и является признаком возможного мошеннического использования системы«.

Мошенники-захватчики
Мошенники-захватчики

Из официального описания: «Визуализация предназначена для обнаружения возможного мошенничества
в заявлениях на страховые выплаты. Подозрительные заявления здесь показаны как вторгшиеся на планету «чужие» или бактерии, захватывающие здоровые клетки организма. Мошенники зачастую оставляют небольшие следы в детализации заявлений и историях обращений в колл-центры – свой адрес, номера телефонов, адреса электронной почты, данные банковских счетов, учетные данные, имена врачей и адвокатов и т.д.

Визуализация данных показывает связи между всеми достоверными заявками на страховое возмещение и уже зафиксированными мошенническими заявлениями, каждая точка (или узел) на графике представляет индивидуальное заявление на возмещение, а полный круг соответствует совокупности таких заявок. Крупные узлы являются заявлениями, которые были расследованы и оказались мошенническими. Точки поменьше представляют собой внешне неподозрительные, но неизученные заявки, т.е. они могут оказаться как мошенническими, так и обоснованными заявлениями. Линии (ребра) между узлами показывают наличие связей между заявками. Ими могут быть: использование одинаковых телефонных номеров, адресов, данных банковских счетов, адресов электронной почты из регистрационных данных и т.д. Чем толще линии и чем они более красные, тем большее количество связей имеется«.

Звездные врата
Звездные врата

Из официального описания: «Картина нацелена на идентификацию и остановку «темной силы» кибер-мира – APT-атак (Advanced Persistent Threat), представляющих собой скрытые и продолжительные процессы взлома компьютеров и систем, нацеленных на конкретную организацию или целую страну по политическим или бизнес-мотивам.

Данная визуализация представляет собой веб-логи 2300 сотрудников за один год их работы в Интернете. Она отслеживает детализированный путь веб-активности каждого пользователя и привязывает его к точке начала вредоносного поведения«.

Фейерверк поручителей
Фейерверк поручителей

Из официального описания: «Картина демонстрирует динамику нарастания рисков в результате построения финансовых отношений между производителями автомобилей, автодилерами и китайским банком средних размеров. Показанная схема поручительства представляет собой всего один из многих аспектов рисков, проанализированных в рамках проекта.

Как и во многих других странах, в Китае заявка на автокредит зачастую следует от торговых представителей в салонах и команд продавцов, «заточенных» на выполнение объема продаж. Иногда имеющейся информации о заемщике может быть недостаточно для получения кредита, в связи с чем распространено использование поручительства для помощи в получении займа.

В этой анонимизированной визуализации точки (узлы) представляют получателя автокредита, за которого либо поручились, либо он сам выступил поручителем. Линии (ребра) показывают связи между поручителем и поручаемым. Цветами помечена их «принадлежность» определенному производителю и дилеру«.

Стрингеры-поручители
Стрингеры-поручители

Из официального описания: «Картина является результатом глубокого анализа финансовых рисков китайского банка при помощи технологий больших данных. Целью исследования стало выявление мошеннических схем поручительства в корпоративном сегменте кредитования среднего и малого бизнеса.

В его рамках рассматриваются отношения между компаниями, которые выступают поручителями в процессе займа, предоставляя свои средства и активы в качестве залога. Эта распространенная схема позволяет компании, получающей займ существенно увеличить его размер.

Проблемы начинаются, когда компании, нацеленные на получение займа, образуют схему перекрестного поручительства. К примеру, компания А выступает как поручитель за компанию B, и, одновременно, В выступает поручителем за А по другому займу.В таком случае, все риски ложатся на банк. Если А или В становятся банкротами , оба займа приходят в негодность и удваивают риски банков. Распознать перекрестное поручительство по схеме «один-за-одного» довольно просто. Однако, как быть, когда оно является составной частью более широкого круга компаний и задействует цейй комплекс корпоративных структур с займами, которые берутся различными подразделениями у разных кредитных специалистов в разных регионах и даже в странах?»

Проблема поручительства
Проблема поручительства

Из официального описания: «Данная анонимизированная визуализация позволяет банкам увидеть всю схему отношений, покрывая все поручительства между девелоперами и заемщиками. Точки (узлы) представляют ипотечных заемщиков, за которых поручился девелопер. Линии (ребра) показывают связи между займами, у которых есть поручитель, и компанией-девелопером, которая выступила как поручитель. Цвета дифференцируют разных девелоперов, и мы сразу можем увидеть тех, кто отличается большим количеством поручительств.

«Проблема поручительства» позволяет банку визуализировать и отслеживать подлинную природу и суммарный размер потенциального риска. График может изолированно продемонстрировать высокорискованные объекты, что позволит принять своевременные меры по управлению и ценовому регулированию ситуации в их отношении. Действия могут быть предприняты как в отношении кредитных позиций девелопера, так и в отношении любых ипотечных займов на объекты недвижимости«.

В общем, глядя на все эти картины, и — особенно — читая описания, можно понять – почему каждый вкладывает в термин Big Data что-то свое.

Возможно, собственная трактовка уже возникла и у вас.

P.S. Большинство визуализаций создано на платформе Teradata Aster с помощью средств визуализации Aster Lens.