Big Data. Пять тенденций работы с корпоративными данными 2023

Автор: Станислав Макаров и ChatGPT

К 2025 году, по оценкам IDC Worldwide Global Forecast, суммарный объем бизнес-данных достигнет 175 зеттабайт. Для справки: один зеттабайт равен миллиарду терабайт. Попробовали представить? У меня не получилось. И это еще цветочки, дальше – больше. Видя перед собой такую картинку, поневоле задаешься вопросом – как все это хранить и как с этим работать? Похоже, очень скоро перед всеми предприятиями встанет задача полного технического перевооружения, просто закупкой дополнительных серверов дело не обойдется. Пришла Big Data, откуда не ждали.


Источник: Statista.com

Данные растут с невероятной скоростью. По словам Джона Риднинга, вице-президента по исследованиям IDC Global DataSphere, измеряющей объем новых данных, создаваемых, собираемых, тиражируемых и потребляемых каждый год: «Ожидается, что с 2022 по 2026 год размер Global DataSphere увеличится более чем вдвое. Enterprise DataSphere будет расти более чем в два раза быстрее, чем Consumer DataSphere, в течение следующих пяти лет, что еще больше заставит корпоративные организации управлять и защищать мировые данные, создавая возможности для активации данных для бизнеса и общества».

Исследование IDC Global DataSphere также задокументировало, что «в 2020 году было создано или реплицировано 64,2 зеттабайта данных», и прогнозировалось, что «глобальные темпы создания и репликации данных будут иметь совокупный годовой темп роста (CAGR) в размере 23% в течение прогнозируемого периода 2020–2025 годов.” Такими темпами в 2025 году будет создано более 180 зеттабайт — это 180 миллиардов терабайт.

0. Big Data пришла и осталась с нами

Мы думали, что Big Data это хайп, и он скоро, без сомнения, пройдет. Пора признать, что мы ошибались. Big Data пришла, чтобы остаться с нами навсегда. Зато теперь о своих корпоративных проектах по большим данным можно говорить без этого чувства неловкости, как будто внедряешь блокчейн или что-то еще новомодное лишь бы только похвастаться. Google Trends убедительно показывает, что хайп действительно был, и было снижение, но по его окончании интерес к технологии не угас, а остался на высоком уровне.


Источник: Google.com

Короче говоря, Big Data больше не тренд, а свершившийся факт. Поэтому данный раздел получил номер «ноль», чтобы подчеркнуть, что современная культура работы с корпоративными данными как раз строится на основе идей, которые были озвучены в концепции больших данных, и уже неважно, насколько они у вас действительно большие.

– А как же тренды? – Нынешние тренды, по сути, есть воплощения отдельных аспектов концепции Big Data. Помните эту маркетинговую игру словами, что Big Data это три «V»: Volume, Velocity и Variety (объем, скорость и разнообразие)? Потом добавили Veracity и Value (достоверность и ценность), и их стало пять. Не будем увлекаться формализмом и подгонять факты, чтобы вписаться в этот шаблон, однако надо признать, что маркетологи во многом оказались правы.

Итак, посмотрим на текущие тренды в области работы с данными.

1. Реальное время становится все реальнее

В прежние неторопливые времена бизнес вполне устраивала месячная или даже квартальная отчетность для оперативного управления предприятием. О системах реального времени типа QNX, Nucleus RTOS, VxWorks и им подобных знали в основном разработчики бортовых систем и промышленной автоматики, а в обычной управленческой работе такое тонкое чувство времени было никому не нужно.

Тотальная цифровизация дала возможность получать любые данные гипотетически мгновенно. Бизнес это почуял и стал требовать от ИТ, чтобы любой отчет был у него на экране по одному щелчку – пока они согласны на щелчок мыши, а скоро захотят и по щелчку пальцев. (При этом непонятно, зачем сохраняются ритуалы распечатывания и подачи на подпись главному начальнику тех же месячных и квартальных отчетов, но, думаю, это ненадолго.)

Теперь менеджеры хотят работать в реальном режиме времени, чтобы корпоративные системы могли реагировать на бизнес-события с почти нулевой задержкой. И не просто узнавать о факте, что в каком-то магазине сети произошла продажа, а на лету анализировать все продажи и принимать решения. Например, взять и отменить скидку, если и так товар хорошо берут. Или, наоборот, срочно сбросить цену, если нарисовался риск не продать до истечения срока годности. Похоже на то, что скоро многие отрасли станут работать в таком же темпе, как трейдеры на бирже, когда счет идет на миллисекунды.

Появился даже специальный термин – Real-time business intelligence (RTBI), это концепция, описывающая процесс предоставления бизнес-аналитики (BI) или информации о бизнес-операциях по мере их возникновения. RTBI не просто позволяет оперативно видеть транзакции, это давно было возможно. Онлайн-аналитика позволяет инициировать корректирующие действия и менять настройки для оптимизации бизнес-процессов.

Почему такая скорость вдруг всем понадобилась? – Есть две основных причины. Во-первых, многие бизнесы ушли в онлайн. Это банки и телеком, e-commerce и обычный ритейл (хотя грань между ними почти исчезла), такси и другой транспорт, сюда же можно причислить и госуслуги. Все хотят знать все, везде и сразу. Тут у нас и динамическое ценообразование, и маркетинговые кампании, и платежи и кассовый контроль и так далее.

Второй стимул для ускорения анализа данных это, скажем пока осторожно, начало широкого проникновения в различные отрасли IoT-решений. Датчики обычно генерируют не очень большие пакеты данных. Например, то же такси или троллейбус передают просто свои координаты, широту и долготу – это всего несколько цифр. Но зато датчиков очень много, имя им легион, а при таких масштабах на обычном клиент-сервере далеко не уедешь. Поэтому в корпоративном ландшафте прочно обосновались брокеры сообщений, колоночные базы данных и прочие вещи, которые раньше считались экзотикой.

2. Dataviz – смотреть на красивое

Визуализация данных, или как сейчас модно говорить, “dataviz”, сокращение от “Data Visualization”, - это, пожалуй, второй по важности тренд. Иначе “все, что нажито непосильным трудом”, так и останется лежать на дне ваших озер данных, какими бы распрекрасными они не были.

К сожалению, люди не приспособлены воспринимать поток чисел непосредственно органами чувств. Зато визуальные эффекты человеческий мозг способен обрабатывать в 60 тысяч раз быстрее, чем текст – и тем более цифры. Кроме того, он умеет распознавать тенденции, выявлять потенциальные проблемы и прогнозировать будущее развитие с помощью визуальных представлений данных, таких как графики, диаграммы и прочее. Разумно было бы использовать это свойство, не так ли?

Проблема не нова, специалисты по работе с данными давно ломают головы над тем, как утрамбовать множество цифр в одну картинку, чтобы с первого взгляда было все понятно. Как, например, на этой знаменитой диаграмме отца инфографики Шарля Жозефа Минара, показывающей поход Наполеона в Россию. Толстая полоса показывает размер его армии в определенных географических точках во время наступления и отступления. Кроме того, здесь отображается еще пять типов данных: пройденное расстояние, температура, широта и долгота, направление движения и даты. Нагляднее некуда.


Источник: Wikipedia.org

Увы-увы, столь популярные сегодня у высокого руководства дашборды нечасто могут похвастаться такой филигранной проработанностью, чтобы ситуация в бизнесе действительно представала на них как на ладони. Проблема, как всегда, на стыке – с одной стороны, нужно хорошо понимать природу и смысл своих данных, с другой – иметь сильные компетенции в UX, чтобы эти данные наглядно представить. Пока эти стороны редко сочетаются, вот и лепят на корпоративные дашборды бесконечные светофоры и стрелочные индикаторы типа спидометров, которые показывают непонятно что.

При этом в пример обычно приводят приборную панель самолета – вон у них сколько датчиков! Но забывают, что летчики учатся несколько лет, чтобы разобраться со всем этим и переучиваются на каждую новую модель. Где вы видели генерального директора, который хотя бы пару недель потратил на обучение работе с дашбордом?


Но потихоньку процесс идет. Компании все больше начинают признавать функциональную ценность эстетики и, как следствие, уделяют больше внимания дизайну пользовательского интерфейса в отчетах и дашбордах. Их цель состоит не только в том, чтобы соответствовать фирменному стилю, но, что более важно, в повышении удобства использования и облегчении понимания данных. И, кстати, современные приборные панели самолетов стали гораздо лаконичнее. Вот как выглядит главная панель управления лайнера Airbus A320:


Источник: https://pmflight.co.uk/free-airbus-cockpit-posters/

И как тут не вспомнить крылатое выражение легендарного Туполева: "Некрасивые самолеты не летают" – если корпоративный дашборд выглядит ужасно, ваш бизнес тоже не полетит.

– Ну а что такого? – скажет читатель. – В худшем случае, это зря потраченные деньги на разработку дашборда. В корпорациях и не такие суммы тратятся неэффективно.

На самом деле, здесь куда более опасный тренд: игнорирование данных при принятии управленческих решений. Объем информации растет, ее структура усложняется. И нельзя задачу анализа данных полностью делегировать своим дата-сайентистам, потому что в итоге вы им все равно не поверите.

Подразделение The Economist Intelligence Unit опросило несколько сотен международных руководителей об их процессах принятия решений, и только 10% опрошенных заявили, что их решения были основаны главным образом на интуиции, а остальные сказали, что принимают решения на основе анализа данных. Вроде бы все хорошо, не так ли? Однако когда их спросили, как бы они приняли решение, если бы данные противоречили их внутреннему ощущению, всего 10% ответили, что согласятся с данными. Проще говоря, девять из десяти руководителей найдут способ проигнорировать данные, если они противоречат их интуиции.

Парадокс? – Отнюдь! Это нормальное свойство человеческой природы отвергать все, что не укладывается в вашу картину мира. Даже когда бизнес-лидеры доверяют своим группам анализа данных, неприятно принимать советы без полного понимания и понимания механизмов, которые приводят к таким выводам.

– И что делать? – спросите вы. – Да, в общем, ничего, невидимая рука рынка все расставит по своим местам. Руководители, игнорирующие данные, вымрут, как динозавры. Не физически, конечно – сейчас процессы развития технологий идут быстрее, чем происходит смена поколений. А остальным придется развить компетенцию в науке о данных хотя бы до уровня, чтобы четко формулировать свои требования к тем же дашбордам.

Кстати, на дашбордах свет клином не сошелся. Визуализация данных - это более широкая область, сюда входят и обычные отчеты, которые все больше превращаются в инфографику, что также хорошо. Основное различие между базовой визуализацией данных в виде отчетов и визуализацией данных на дашборде заключается в частоте обновления данных. Но эта грань постепенно стирается, отчеты становятся интерактивными и обновляемыми.

Есть еще одна тенденция, про которую стоит упомянуть, – это анимация и видео. Благодаря эволюции на подвижные картинки мозг реагирует быстрее, чем на статические, иначе бы наших первобытных предков съели бы дикие звери – и недаром красная лампочка на тех же дашбордах всегда мигает. Но долгое время всякую анимацию воспринимали как ненужное украшательство и в деловых приложениях избегали. При том изобилии данных, что мы имеем, выделить важное только цветом или показать динамику изменения просто на графике уже недостаточно, данные нужно показывать в движении. Но это отдельная наука, которой надо овладевать, иначе у вас будет лишь непонятное мельтешение на экране.

По данным Fortune Business Insights, объем мирового рынка визуализации данных, по прогнозам, достигнет 19,20 млрд долларов США в 2027 году при среднегодовом темпе роста 10,2% в течение данного периода. А может быть и больше – границы этого сегмента трудно зафиксировать.

3. Вездесущий Искин спешит на помощь

Искин (он же искусственный интеллект) проник везде, где только можно и даже нельзя. Не обошлось без него и в деле обработки данных, собственно, для этого он и создавался, если не считать цели захвата мира и уничтожения человечества. В последнее время под внедрением ИИ в бизнесе обычно понимали использование нейросетей, в том числе для анализа действий клиентов, прогнозирования спроса, оптимизации производственных процессов и тому подобного. Но говорить сегодня об этом как об инновации было бы моветон – эти технологии, хоть и не стали еще совсем рутинными, но уже общеизвестны. Также все знают, где здесь разложены грабли: прежде всего, вам потребуется размеченный датасет (что весьма хлопотно), на котором вы будете обучать свою нейросеть, потом опытная эксплуатация, дообучение, еще раз дообучение. И, может быть, это заработает.

Но есть способ лучше! Конечно же, первым на ум приходит ChatGPT, ставший сверхпопулярным в начале 2023 года. Всего за два месяца после запуска аудитория его пользователей достигла 100 миллионов, что сделало его «самым быстрорастущим потребительским приложением в истории», согласно исследовательскому отчету инвестиционного банка UBS. Для сравнения, TikTok потребовалось девять месяцев, чтобы достичь этого рубежа, а Instagram — около 2,5 лет.

Как он сам говорит, «общие модели ИИ, которые уже обучены на больших объемах данных, могут быть применены к различным бизнес-задачам. Например, можно использовать готовые модели для анализа временных рядов, классификации данных и так далее». Также на его основе можно создать интеллектуальных ассистентов для представителей всех профессий, где требуется работа с текстами – от секретаря-делопроизводителя до автора фантастических романов. Из более приземленного – решение на основе ChatGPT волне можно поставить на первую линию поддержки, он справится с этим уж точно лучше, чем унылый IVR.

Но серьезных задач ChatGPT и технологии генеративного ИИ в целом доверить нельзя, потому что он не находит, а придумывает ответ. Образно говоря, он может выдать собственные галлюцинации за истинный факт, причем будет делать это весьма уверенно. В производственном секторе этот недостаток может нанести физический ущерб и травмировать людей. В общем, применять с осторожностью.

Текущий хайп вокруг генеративных ИИ-ботов как-то заслонил все прочие технологии ИИ, которые могут быть даже более полезны в решении конкретных задач. В первую очередь стоит упомянуть трансферное обучение (Transfer Learning, TL) – это метод, который позволяет использовать знания, полученные при обучении моделей на одной задаче, для решения других задач. По сравнению с традиционным машинным обучением (Machine Learning, ML), трансферное обучение сильно экономит время.


Источник: https://www.v7labs.com/blog/transfer-learning-guide

Например, вам нужны разные модели для обнаружения на изображениях грузовиков и автобусов. С обычным ML-подходом вам бы понадобилось два набора данных для обучений двух разных нейросетей. Используя трансферное обучение, сначала создается модель, которая идентифицирует все самодвижущиеся повозки, а уже на ее основе делаются модели для распознавания грузовиков, автобусов, лимузинов, кабриолетов, седельных тягачей, газелей и так далее. Чем-то напоминает объектно-ориентированное программирование, не так ли?


Источник: https://machinelearningmastery.com/transfer-learning-for-deep-learning/

В результате с трансферным обучением мы имеем более высокую стартовую точку, более быстрый выход на продуктивность и более высокий уровень качества работы. Помните, была такая AlphaGo? – Нейронная сеть, разработанная DeepMind, которая обыграла в го самых сильных игроков среди людей. А потом на ее основе разработали нейросеть AlphaZero, которая после тренировки в течение всего 24 часов смогла победить лучшие среди специализированных программ по играм в шахматы, сёги и го. Это было в 2017 году, тогда термин Transfer Learning еще не вошел в употребление, и, строго говоря, устроено это было несколько иначе, но в целом можно считать AlphaZero одним из пионеров трансферного обучения. Эффективность этого метода, пожалуй, очевидна.

Завершая этот раздел, можно сказать, что применение технологий ИИ, причем самых свежих и продвинутых, стремительно становится мейнстримом во всех аспектах работы с корпоративными данным. В связи с этим широко обсуждается тема, что ИИ лишит людей работы. Какой-то тупой работы, типа первой линии поддержки в колл-центре – пожалуй, да. Там, где есть персональная ответственность – нет. Потому что ИИ за вас сидеть не будет. Там, где есть творческие задачи – тоже нет. ИИ может сгенерить сотню вариантов логотипа быстрее дизайнера, но выбрать тот, который впишется в корпоративный контекст, может только человек. Заменить программиста – тоже нет. Потому что сначала придется заменить бизнес-аналитика, который ставит программисту задачи. Но перемены он вызовет колоссальные, причем очень быстро. Очень высок риск этот момент упустить и безнадежно отстать.

4. Next-generation Data Storage

Футурологи и визионеры легко оперируют петабайтами, экзобайтами, зеттабайтами и прочими запредельными величинами объемов данных. Однако каждый здравомыслящий ИТ-директор при этом непременно задается одним практическим вопросом – куда же мы все это богатство положим, и сколько это нам будет стоить?

На текущий момент средняя доля расходов на ИТ-инфраструктуру составляет около 3-4% от общего бюджета американских компаний, при этом на системы хранения данных может приходиться до 30% от общих расходов на ИТ (по мнению ChatGPT, оставим это на его совести, если она у него есть). Это значит, что примерно 1% общего бюджета уходит на хранение данных. А если объем вырастет в 100 раз, то получится 100%? И как тогда жить бизнесу? – Конечно же, стоимость мегабайта неуклонно снижается, но успеют ли производители систем хранения дать достойный ответ на надвигающийся информационный взрыв?


Источник: https://hblok.net/blog/posts/2017/12/17/historical-cost-of-computer-memory-and-storage-4/

Пока твердой уверенности нет. Пока на рынке доминируют поставщики традиционных HDD/SSD и сдавать позиции не собираются. В жесткой конкурентной борьбе они улучшают характеристики своих устройств и снижают цены. Старые добрые магнитные ленты тоже уходить в небытие не собираются, они прочно укоренилась в корпоративных архивах. У большинства производителей ленточных накопителей LTO-7 и LTO-8 есть дорожные карты, согласно которым линейки их продуктов будут еще более емкими.

Аналитики прогнозируют, что рынок хранения данных следующего поколения будет продолжать быстро расти в ближайшие годы. Согласно отчету MarketsandMarkets, ожидается, что к 2025 году рынок достигнет 81,0 миллиарда долларов, увеличиваясь в среднем на 16,7% ежегодно.

Эксперты Advanced Storage Technology Consortium полагают, что к 2025 году емкость жестких дисков вырастет до 100 ТБ благодаря новым технологиям записи, таким как черепичная магнитная запись (Shingled Magnetic Recording, SMR), перпендикулярная магнитная запись (Perpendicular Magnetic Recording, PMR), магнитная запись с нагреванием (Heat-assisted magnetic recording, HAMR). По состоянию на середину 2023 года диски на 16 ТБ уже в продаже, так что этот прогноз выглядит реальным.


Источник: Data Age 2025, sponsored by Seagate with data from IDC, 2018

Как виделась ситуация из 2018 года, места на рынке должно было хватить всем. Но суммарная цифра 5 зеттабайт никак не бьется с прогнозом объема информации в 175 зеттабайт на тот же 2025 год, приведенным в начале статьи и датированным 2019 годом. Понятно, что аналитики частенько попадают пальцем в небо со своими прогнозами, но определенно повод для беспокойства есть – емкости на всех не хватит.

Йозеф Шумпетер, австрийский экономист, который ввел в обиход термин «инновация», говорил: «Вы можете поставить сто карет в ряд, все равно автомобиля у вас не получится». Также и с дисками: на технологиях прошлого века далеко не уедешь. И хотя, по мнению финдиректора Seagate, жесткие диски протянут еще 15-20 лет, многие компании озабочены тем, что объем данных растет быстрее, чем они могут их хранить и анализировать – так считают 62% респондентов, опрошенных компанией Ocient.

Где же disruption, мощный прорыв, который решит проблему хранения данных? – Оптимисты возлагают надежды на хранение данных в ДНК (DNA storage), как бы фантастично это ни звучало. ДНК может хранить ошеломляющее количество информации в почти невообразимо малом объеме. Например, 33 зеттабайта информации, записанные в ДНК, поместятся в шарик для пинг-понга, а все данные Facebook упакуются в маковое зернышко. ДНК никогда не деградирует. Если хранить их в сухом и прохладном месте, файлы могут храниться сотни тысяч лет. Верится с трудом, но так говорят ученые, и не только британские.

Осталось дело за малым – реализовать технологию и наладить производство. На уровне идеи все просто – кодируем информацию посредством аминокислот, синтезируем ДНК, а потом считываем. Было доказано, что этот метод работает, но есть одна заминка: в лабораторных условиях присоединение одного основания к ДНК занимает около одной секунды. Запись архивного файла с такой скоростью может занять десятилетия, но исследования разрабатывают более быстрые методы, в том числе массовые параллельные операции, которые записывают во многие молекулы одновременно.


Источник: https://amplyfi.com/2021/08/24/the-future-of-information-storage-dnas-use-for-storing-data/

Одной из основных проблем, сдерживающих эту тенденцию, является стоимость – синтез 1 мегабайта данных стоит около 3500 долларов. Но исследования продолжаются, и некоторые говорят, что к 2024 году стоимость может снизиться до 100 долларов за терабайт данных (и это написано в январе 2023). Другой проблемой является скорость записи в ДНК, долго удерживаемый рекорд составлял 200 МБ в сутки. Однако в конце 2021 года исследователи увеличили этот показатель до 20 ГБ в день. Это по-прежнему существенно ниже скорости записи на ленту: 1440 ГБ в час, но уже что-то.

В общем, перспективы массового производства устройств для хранения данных в ДНК пока не очень ясны. В настоящее время эта технология все еще находится в стадии исследований и разработок, и ее коммерческое использование может быть дорогостоящим. Рынка еще нет, но, тем не менее, прогнозируется, что он будет расти со среднегодовым темпом роста 65,8% до 2028 года. Ну, что же, поживем – увидим!

5. Безопасности много не бывает

Подражая Михаилу Жванецкому, можно сказать так: «Есть бизнес – есть данные. Есть данные – есть риски. Есть риски – есть утечки. Есть утечки – нет данных. Нет данных – нет бизнеса». И продолжить: «Больше данных – больше рисков».

Что с этим делать? Хочешь – не хочешь, а придется вкладываться в ИБ. Разумеется, не каждая утечка для бизнеса фатальна, однако неприятностей они доставляют немало.

Согласно опросу Deloitte, проведенному в конце прошлого года, 34,5% опрошенных руководителей сообщили, что за последние 12 месяцев бухгалтерские и финансовые данные их организаций стали мишенью для киберпреступников. В этой группе 22% пережили хотя бы одно такое кибер-событие, а 12,5% пережили более одного. К сожалению, в отчете не уточняется, были ли это действительно целевые атаки, или кто-то в бухгалтерии случайно открыл фишинговое письмо и словил трояна. А в 2023 году почти половина (48,8%) руководителей ожидают увеличения количества и масштабов кибератак, направленных на бухгалтерские и финансовые данные их организаций. Тем не менее, только 20,3% опрошенных говорят, что отделы бухгалтерского учета и финансов их организаций тесно и последовательно сотрудничают со своими коллегами в области кибербезопасности.

Ну что же, в целом это не новость – самым слабым звеном системы безопасности остается человек, особенно не слишком грамотный и ответственный пользователь. И совершенно очевидно, что чисто техническими средствами эту проблему не решить, даже внедрением разных драконовских систем, контролирующих каждый шаг сотрудника. Стресс для людей вы таким образом создадите, а защищенности все равно не будет. Никуда не деться, надо людей учить, мало им просто сказать «не открывайте подозрительные письма», нужны практические занятия, имитация атак с последующим разбором полетов и так далее.

Но, увы, спрос на подобные продукты и услуги в масштабах всего рынка ИБ просто мизерный. Пока проблему пытаются решить, в основном подсовывая на подпись новому сотруднику лист ознакомления с инструкцией по информационной безопасности, чтобы потом можно было сказать «мы же вас предупреждали».

Резюмируя эту тему, можно сказать, что в области защиты информации давно назрел разворот в сторону человека, самое слабое звено надо усиливать. Однако следует признать, что мы вряд ли это увидим вскоре. Службы ИБ предпочитают играть роль карающего меча для остальных сотрудников в случае какого-либо инцидента – поэтому вполне естественно, что бухгалтеры, финансисты, юристы, экономисты, продавцы, маркетологи и все прочие работники офиса не очень-то идут на контакт с ИБ-шниками.

Из новых тенденций в области защиты данных в 2023 году, безусловно, самой яркой стало пришествие ИИ, причем по обе стороны фронта: эту технологию успешно используют и разработчики систем ИБ, и киберпреступники.

Как известно, одной из сильных сторон ChatGPT является его способность писать код. В том числе и зловредный. Разумеется, сложную систему он сам не напишет, однако часто разработчику нужна лишь небольшая подсказка. В результате понабежало множество доморощенных хакеров, которые в перерыве между уроками кинулись ломать сайты. Значимой угрозой это не стало, но сам факт примечательный. Более продвинутые ребята могут с его помощью писать полиморфные вредоносы, предупреждают эксперты, а это уже будет похуже. Также ожидают, что злоумышленники будут использовать ChatGPT для создания сложных и реалистичных фишинговых атак. Ушли в прошлое плохая грамматика и странная формулировка предложений, которые были контрольным признаком фишинговой аферы. Теперь чат-боты будут имитировать носителей любого языка и доставлять целевые сообщения. ChatGPT способен к бесшовному языковому переводу, который изменит правила игры для иностранных противников.

Но это все известные векторы атак, только новыми средствами. Есть и кое-что новое: ИИ-системы становятся, не побоимся этого слова, критически важными элементами инфраструктуры, и сами попадают под прицел.

Технология искусственного интеллекта хранит огромные объемы данных, а затем использует эту информацию для генерации ответов на вопросы и подсказки. И все, что осталось в памяти чат-бота, становится «честной игрой» для других пользователей. Например, чат-боты могут записывать заметки одного пользователя по любой теме, а затем обобщать эту информацию или искать дополнительные сведения. Но если эти заметки содержат конфиденциальные данные — например, интеллектуальную собственность организации или конфиденциальную информацию о клиентах — они попадают в библиотеку чат-ботов. Пользователь больше не имеет контроля над информацией. Пожалуй, все идет к тому, что в корпорациях запросы к ChatGPT и его друзьям будут отправлять только через первый отдел. Но, сами понимаете, в жизни это так не работает – мы снова возвращаемся к тому, что надо обучать людей, одними запретами проблема не решается.

Атаке подвергся даже ChatGPT, в котором хакеры нашли уязвимость в библиотеке Redis, что позволяло им видеть историю чатов других активных пользователей. Это длилось очень короткое время, и было быстро пресечено, но факт такой был, так что стоит призадуматься и разработчикам, и пользователям.

Если смотреть со светлой стороны, то IDC заявляет, что ИИ на рынке кибербезопасности растет со среднегодовым темпом роста 23,6% и в 2027 году достигнет объема 46,3 млрд долларов.

Использование технологии ИИ помогает распознавать атаки, а не только защищать известную уязвимость, и может сделать кибербезопасность проще, эффективнее и дешевле. Последнее особенно важно и здесь наметился перелом – средства обнаружения атак благодаря прогрессу в ИИ и его начавшейся коммодитизации стали доступны не только крупным организациям, но и среднему и малому бизнесу.

Финал

И напоследок – попросил ChatGPT назвать следующие «пять V» для больших данных, чтобы очертить планы на будущее. И вот что он выдал:

  • Visualization (визуализация) - относится к способности компаний представлять данные в наглядном и понятном виде для принятия решений.
  • Validation (проверка) - относится к процессу проверки достоверности и точности данных перед их использованием.
  • Versioning (версионность) - относится к созданию и управлению различными версиями данных и программного обеспечения.
  • Variability (изменчивость) - относится к изменчивости данных и способности компаний адаптироваться к этим изменениям.
  • Volatility (изменчивость) - относится к изменчивости данных и их склонности к быстрому изменению во времени.

Надо сказать, это не лишено смысла. Визуализация уже в трендах, валидация необходима, как воздух – при том обилии фейков, которое мы наблюдаем. Поддержка версионности в некоторых системах есть, но, пожалуй, стоит посмотреть на эту задачу шире. Изменчивость выглядит несколько философски, поэтому дважды попала в список трендов, но это разные виды изменчивости: изменяются сами компании, изменяются данные. Пока ты думаешь над вопросом, ответ уже никому не нужен – таковы реалии нашего динамичного мира. В общем, все самое интересное только начинается.

8324

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.