Текстовая аналитика в умном городе

  • #Big_Data
  • #Транспорт

О чем материал

Рассказываем, как проекты на базе текстовой аналитики помогают городам становиться удобнее и безопаснее 

Основные направления нашей деятельности

  1. Продуктовое развитие. Мы разрабатываем решения для поиска, сбора и анализа текстовой информации. Например, публикаций в соцсетях, связанных с дорожной обстановкой или транспортной инфраструктурой в городе. В зависимости от потребностей заказчика это может быть как интерактивный дашборд, так и простой телеграм-бот. Отмечу, что ИЦ берет на себя полный цикл разработки продукта — от ТЗ и первых прототипов до готового решения, которым пользуются десятки людей. 
  2. Исследовательская работа. Потребители могут субъективно воспринимать информацию из открытых источников, поэтому в исследованиях мы используем ряд качественных и количественных метрик, которые позволяют оценивать обстановку более объективно. Одно дело — найти сообщение о неудобном маршруте автобуса, и совсем другое — предоставить частотные характеристики по всем маршрутам в рамках конкретной смысловой группы. 
  3. Научная-прикладная деятельность. Мы регулярно сталкиваемся с новыми запросами от заказчиков, поэтому для нас важно дополнять методологию, чтобы процессы сбора и анализа информации проходили быстрее и качественнее. Многие вещи, которые еще год назад требовали нескольких дней работы эксперта, сегодня автоматически обрабатываются за пару часов.

Разберем на конкретных примерах, как наши проекты помогают делать город удобнее и безопаснее. 

Кейсы

Агрегатор новостей для ЦОДД

Продуктом пользуется пресс-служба ЦОДД, а также сотрудники дежурной смены, которые круглосуточно мониторят транспортную ситуацию на дорогах (с помощью камер) и реагируют на нештатные ситуации. Мы сделали для коллег агрегатор, который собирает данные примерно из тысячи открытых источников. Это профильные телеграм-каналы, районные группы ВК и новостные издания, где москвичи регулярно публикуют полезную информацию.

Каждое сообщение, которое попадает в агрегатор, проходит через множество алгоритмов. Например: 

  • Специальная ИИ-модель сразу отсеивает новости, которые не относятся к транспортной тематике.
  • Другая модель оценивает, относятся ли публикации к Московскому региону, и присваивает им вес от 0 до 1 (где 1 — точно релевантная новость).
  • Алгоритм суммаризации формирует для каждой новости точный и емкий заголовок, чтобы пользователь сразу понимал, о чем идет речь (это помогает при отсутствии заголовков у публикаций в «Телеграме»).
  • Алгоритм группировки новостей «схлопывает» публикации, посвященные одному инфоповоду, чтобы пользователю не приходилось читать десятки похожих сообщений. 

В результате мы получаем до сотни релевантных сообщений в сутки. Также в агрегаторе есть отдельный ползунок, который позволяет корректировать итоговую выборку — повышать ее точность или отображать больше публикаций. 

Отмечу, что в обработке больших массивов данных есть свои сложности. Если источников много, на парсинг публикаций уходит больше времени. Кроме того, мы не можем гарантировать 100% точность отбора. Всегда есть вероятность получить немного брака: например, когда в продукт прилетает новость про Московское шоссе в Санкт-Петербурге. Однако по мере доработки алгоритмов подобных артефактов становится все меньше. Сейчас корректность отсева можно оценить в 80–90% — для нас это психологически приемлемый порог. 

Риски утечек обходят нас стороной, потому что мы работаем только с публикациями из открытых источников. Они не содержат персональных данных и чувствительной информации.

Экспресс-анализ транспортной системы городов

Стандартные исследования в среднем занимают около месяца, а экспресс-анализ мы проводим за считаные дни. В чем разница? Обычное исследование подразумевает детальную оценку всех объектов процесса распространения информации: социальных акторов (персон и организаций, аккаунты которых распространяют контент в соцсетях) и самого контента. При экспресс-анализе мы не анализируем акторов, а концентрируемся на содержательной стороне контента и характеристиках его распространения. 

Приведу пример. В рамках проекта нам нужно было оперативно определить ключевые транспортные вызовы в одном из городов России (городской транспорт плюс инфраструктура). Мы выгрузили публикации, затем с помощью отработанных алгоритмов и собственного ПО провели группировку сообщений и статистический анализ данных — справились буквально за два дня.

Геокодирование транспортных событий

Перед нами стояла задача подсветить актуальные транспортные вопросы в двух российских регионах: как в части инфраструктуры/движения транспорта, так и другие социальные факторы, влияющие на восприятие ситуации горожанами. Исходная выгрузка составляла более 400 тыс. публикаций, при этом наибольший интерес для заказчиков представляла «естественная реакция населения». 

Мы разработали лингвистическую модель, провели разметку имеющегося массива и выделили три типа данных: 

  • транспортные средства и маршруты; 
  • геотегирование (привязка выделенных объектов и событий к координатам на карте); 
  • значимые обстоятельства событий, указанные в сообщениях.

Далее мы нанесли на карту геометки и информацию о событиях, а также транспортные маршруты — сразу стали понятны участки, требующие особого внимания, и причины их появления (ошибки планирования, узкие места на дорогах, недостатки инфраструктуры и т. д). По сути, жители вносят свой вклад в геокодирование транспортных событий, когда публикуют информацию о текущих сложностях. Даже не имея прямого доступа к нашим данным, горожане становятся частью большого процесса по улучшению ситуации в регионе. 

Само собой, это не полный список наших проектов. Например, с помощью платформы «Космос» мы создаем сегментированные автоматические рассылки для информирования москвичей об изменениях на дорогах. Плюс помогаем коллегам из ЦОДД определять геопривязку событий, чтобы выборка адресатов была точнее.

Комментарий эксперта

Виктор Рыжков
Руководитель развития бизнеса по защите данных, Positive Technologies

Для злоумышленников умные города — потенциально выгодный объект атаки: здесь сочетаются финансовая мотивация, репутационный эффект и влияние на реальные городские процессы. Атаки на данные могут приводить к деградации сервисов, ошибкам в управлении и, в крайних случаях, к сбоям в работе транспортной инфраструктуры. При этом проекты умного города отличаются высокой сложностью: данные в них напрямую связаны с физическими процессами, что существенно повышает цену ошибок и опасность инцидентов. 

Один из главных вызовов — обеспечение безопасности централизованной дата-платформы и интеграционных шин. Чем больше источников/потребителей данных подключено к системе, чем больше внутренних взаимосвязей выстроено между компонентами платформы, тем сложнее обеспечить инвентаризацию данных и анализ потоков, сформировать единые правила доступа, установить контроль передачи и распределить ответственность за использование данных.

Вторая зона риска — потоковая обработка и аналитика данных в реальном времени. Для подобных систем критичны аутентификация, контроль схем, целостность и доверие к источникам. Атака может привести к искажению прогнозов, неверной приоритизации событий или некорректным управленческим решениям, но при этом будет выглядеть как обычная аномалия потока.

Дополнительную сложность вызывает соседство открытых и закрытых данных: недостаточная сегментация может привести к инцидентам. Даже если часть информации публикуется в открытом виде, рядом могут находиться служебные, чувствительные или критичные контуры.

Атаки на данные

По нашим оценкам, утечки или компрометация данных фиксируются более чем в половине успешных кибератак. Можно выделить несколько распространенных векторов:

  • Компрометация учетных записей и злоупотребление легитимным доступом. Фишинг, кража сессионных токенов и повторное использование паролей из утекших баз позволяют злоумышленникам получить доступ к системам хранения и аналитики без сложной эксплуатации уязвимостей. Дальнейшие действия атакующих выглядят как обычная работа пользователя, что сильно усложняет их обнаружение. При этом, по данным наших экспертов, в 61% случаев именно подозрительная внутренняя активность становится поводом для расследований инцидентов.
  • Вредоносное ПО и атаки вымогателей. Если раньше основной целью хакеров было именно шифрование инфраструктуры, то сейчас они стремятся предварительно скопировать данные жертвы. Это усиливает давление на организацию и увеличивает потенциальный ущерб даже при наличии резервного копирования. Отмечу, что доля атак с применением вымогательского ПО и их влияние на доступность и целостность данных продолжают расти.
  • Уязвимости и ошибки конфигурации. Злоумышленники регулярно используют открытые сервисы аналитических платформ, неправильно настроенные хранилища, избыточные права сервисных учетных записей и слабую сегментацию между контурами. В крупных дата-платформах дополнительный риск создают многочисленные интеграции, коннекторы и API, которые расширяют поверхность атаки.

Что делать сейчас и к чему стремиться

Построение системы защиты данных начинается задолго до выстраивания политик безопасности, с вопроса «Какие данные мы считаем критичными?». Только ответив на него, можно начинать формирование процесса обеспечения безопасности данных, который должен включать:

  • инвентаризацию всех хранилищ и их структур;
  • классификацию данных и определение их критичности для компании;
  • определение актуальных рисков (например, неправомерный доступ к критичным данным или небезопасная конфигурация хранилищ);
  • гранулярное разграничение привилегий и доступов к данным;
  • мониторинг потоков и операций с критичными данными, выявление инцидентов и статистических аномалий.

Таким образом, зрелая цель — это переход от фрагментарной к сквозной видимости данных в реальном времени. Компания должна понимать, где находятся критичные данные, кто и как с ними работает и какие риски возникают на каждом этапе их жизненного цикла. Такой подход реализуется с помощью решений класса Data Security Platform (DSP). В нашем портфеле это направление закрывает PT Data Security. Продукт позволяет автоматизировать инвентаризацию и классификацию данных в структурированном, полу- и неструктурированном виде, анализировать риски и отслеживать обращения к данным в едином окне. Для проектов умного города это особенно важно ввиду масштаба и разнородности источников данных.

Мы дěлаем Positive Research → для ИБ-экспертов, бизнеса и всех, кто интересуется ✽ {кибербезопасностью}