Teradata нарисовала Big Data
- 19/11/2015
- 👁 303 просмотра
- 0
Термин Big Data уже давно повторяют на все лады телеком-операторы, интернет-магазины, авиакомпании, правительства, но когда начинаешь задавать наводящие вопросы, сразу обнаруживается, что каждый имеет в виду что-то свое. Что, в общем-то, и не удивительно, потому что Big Data – это хаотическое скопление самых разных, порой вообще несвязанных между собой данных. И в этой куче, верхушка которой уходит за облака, умные дяди и тети пытаются найти что-то полезное. И все говорят, что вот-вот найдут. Давно говорят.
Компания Teradata, производящая мощную технику и программное обеспечение для исследования Big Data, попыталась понятно для всех объяснить, что же такое “большие данные” и что можно анализировать с их помощью. Как известно, лучше один раз увидеть, чем сто раз услышать. И поэтому Big Data решили нарисовать. Проект назвали The Art of Analytics – «Искусство Аналитики».
Вместо графиков, цифр и табличек каждый случай работы с Big Data представлен абстрактной картиной, напоминающей ассоциативную графику.
Вот, например, работа «Эпицентр шторма» (эта и все остальные картинки кликабельные).
Похоже на глаз. На деле — не совсем. Это аналитика больших данных во время twitter-шторма по поводу кончины Маргарет Тэтчер (твиттер-шторм — это когда злобные хейтеры расчехляют айпадики, и на какой-то твит сразу же появляется огромное количество ответов и ретвитов). Красные точки – это пользователи-хейтеры, белые точки – сторонники политики железной леди, желтые – оппозиция. Все линии между ними – информационная связь (то есть кто кому и чего ответил).
Первая мысль – «Ну, прикольно. И чо?»
Смысл в том, что если углубиться в технологию, то каждая точка – это ID пользователя. Юзер публикует твит – на картине появляется новая точка. Таким образом, можно узнать, кто являлся «отправной точкой» того или иного поста, понять причины, установить виновных и наказать всех подряд.
Такие механизмы могут, как минимум, найти зачинщиков террористических акций, а то и предотвратить их. Заявление громкое, понимаю. И главное тут – не данные, как таковые, а умение разглядеть за деревьями лес. Для этого одних инструментов – аппаратных и программных – недостаточно, нужны светлые и прокачанные соответствующим образом головы.
Следующая картинка называется «Финансовые фонтаны».
Этот милый букет из чего-то, напоминающего цветы шелковой акации, перемещения денег между разными компаниями, у каждой из которых свой цвет. Линии – это количество транзакций. Чем больше линий, тем, скорее всего, компания успешнее. Получается, что крупная компания будет выделять на картинке крупные цветки, и, скорее всего, работать именно с ними. А хилые цветочки – рискованные предприятия – будут привлекать внимание различных инвесторов, не затрагивая таким образом весь рынок и не подвергая риску экономику в целом. Хотя, конечно, это надо отслеживать в динамике – растет цветочек или дает дуба. Во втором случае может уже и не быть особого смысла инвестировать.
Контролирующим органам тоже будет занятно увидеть, если какой-то цветочек рос себе в уголке, а потом внезапно расцвел и захорошел. Всегда же интересно понять, откуда людям привалило счастье.
«Круги звонков» — совершенно оруэлловский сюжет.
На первый взгляд похоже на ананас. Но на самом деле на картине изображены «линии звонков», где длинные – долгие звонки, короткие – непродолжительные. Линия соединяет две точки. То есть тот, у кого есть доступ к такой информации, знает не только то, что у вас есть мобильный телефон, но и то, как часто вы им пользуетесь, кому вы звоните и кто звонит вам.
Зачем надо? Такая аналитика крайне полезна операторам связи, которые таким образом могут подстраивать тарифы и программы под нужды абонентов, заодно отслеживая привычки и предпочтения пользователей. Ну, и конечно же, не забываем, что кто-то хитрый и большой наблюдает за тобой. И ему приятнее смотреть на веселые картинки, а не скучные таблички.
Проект «Искусство Аналитики» состоит из восемнадцати картин из семи стран. Как бы просто они на первый взгляд не выглядели, это результат действительно кропотливой работы серьезных ученых в области Big Data.
Вот еще несколько картин.
Из официального описания: «Картина показывает аномальное поведение брокеров по отношению к страховому оператору. Точки (узлы) представляют собой ценовые предложения, созданные брокерами с помощью платформы, предоставленной страховщиком. Связи между узлами указывают на ассоциированные предложения, т.е. брокер использовал ранее созданное предложение (узел) для создания нового предложения (связанный узел) путем внесения множества изменений слишком часто и задолго до того, как срок действия предложения истек.
Часто это означает, что брокер манипулирует системой страховщика в попытке определить, каким образом функционирует механизм ценообразования. Подобное поведение – нежелательное и является признаком возможного мошеннического использования системы«.
Из официального описания: «Визуализация предназначена для обнаружения возможного мошенничества в заявлениях на страховые выплаты. Подозрительные заявления здесь показаны как вторгшиеся на планету «чужие» или бактерии, захватывающие здоровые клетки организма. Мошенники зачастую оставляют небольшие следы в детализации заявлений и историях обращений в колл-центры – свой адрес, номера телефонов, адреса электронной почты, данные банковских счетов, учетные данные, имена врачей и адвокатов и т.д.
Визуализация данных показывает связи между всеми достоверными заявками на страховое возмещение и уже зафиксированными мошенническими заявлениями, каждая точка (или узел) на графике представляет индивидуальное заявление на возмещение, а полный круг соответствует совокупности таких заявок. Крупные узлы являются заявлениями, которые были расследованы и оказались мошенническими. Точки поменьше представляют собой внешне неподозрительные, но неизученные заявки, т.е. они могут оказаться как мошенническими, так и обоснованными заявлениями. Линии (ребра) между узлами показывают наличие связей между заявками. Ими могут быть: использование одинаковых телефонных номеров, адресов, данных банковских счетов, адресов электронной почты из регистрационных данных и т.д. Чем толще линии и чем они более красные, тем большее количество связей имеется«.
Из официального описания: «Картина нацелена на идентификацию и остановку «темной силы» кибер-мира – APT-атак (Advanced Persistent Threat), представляющих собой скрытые и продолжительные процессы взлома компьютеров и систем, нацеленных на конкретную организацию или целую страну по политическим или бизнес-мотивам.
Данная визуализация представляет собой веб-логи 2300 сотрудников за один год их работы в Интернете. Она отслеживает детализированный путь веб-активности каждого пользователя и привязывает его к точке начала вредоносного поведения«.
Из официального описания: «Картина демонстрирует динамику нарастания рисков в результате построения финансовых отношений между производителями автомобилей, автодилерами и китайским банком средних размеров. Показанная схема поручительства представляет собой всего один из многих аспектов рисков, проанализированных в рамках проекта.
Как и во многих других странах, в Китае заявка на автокредит зачастую следует от торговых представителей в салонах и команд продавцов, «заточенных» на выполнение объема продаж. Иногда имеющейся информации о заемщике может быть недостаточно для получения кредита, в связи с чем распространено использование поручительства для помощи в получении займа.
В этой анонимизированной визуализации точки (узлы) представляют получателя автокредита, за которого либо поручились, либо он сам выступил поручителем. Линии (ребра) показывают связи между поручителем и поручаемым. Цветами помечена их «принадлежность» определенному производителю и дилеру«.
Из официального описания: «Картина является результатом глубокого анализа финансовых рисков китайского банка при помощи технологий больших данных. Целью исследования стало выявление мошеннических схем поручительства в корпоративном сегменте кредитования среднего и малого бизнеса.
В его рамках рассматриваются отношения между компаниями, которые выступают поручителями в процессе займа, предоставляя свои средства и активы в качестве залога. Эта распространенная схема позволяет компании, получающей займ существенно увеличить его размер.
Проблемы начинаются, когда компании, нацеленные на получение займа, образуют схему перекрестного поручительства. К примеру, компания А выступает как поручитель за компанию B, и, одновременно, В выступает поручителем за А по другому займу.В таком случае, все риски ложатся на банк. Если А или В становятся банкротами , оба займа приходят в негодность и удваивают риски банков. Распознать перекрестное поручительство по схеме «один-за-одного» довольно просто. Однако, как быть, когда оно является составной частью более широкого круга компаний и задействует цейй комплекс корпоративных структур с займами, которые берутся различными подразделениями у разных кредитных специалистов в разных регионах и даже в странах?»
Из официального описания: «Данная анонимизированная визуализация позволяет банкам увидеть всю схему отношений, покрывая все поручительства между девелоперами и заемщиками. Точки (узлы) представляют ипотечных заемщиков, за которых поручился девелопер. Линии (ребра) показывают связи между займами, у которых есть поручитель, и компанией-девелопером, которая выступила как поручитель. Цвета дифференцируют разных девелоперов, и мы сразу можем увидеть тех, кто отличается большим количеством поручительств.
«Проблема поручительства» позволяет банку визуализировать и отслеживать подлинную природу и суммарный размер потенциального риска. График может изолированно продемонстрировать высокорискованные объекты, что позволит принять своевременные меры по управлению и ценовому регулированию ситуации в их отношении. Действия могут быть предприняты как в отношении кредитных позиций девелопера, так и в отношении любых ипотечных займов на объекты недвижимости«.
В общем, глядя на все эти картины, и — особенно — читая описания, можно понять – почему каждый вкладывает в термин Big Data что-то свое.
Возможно, собственная трактовка уже возникла и у вас.
P.S. Большинство визуализаций создано на платформе Teradata Aster с помощью средств визуализации Aster Lens.