Большие данные в России: пилот. Часть 2.
Начало обсуждения: Большие данные в России: пилот. Часть 1.
Перечисленные выше задачи решаются определенным набором инструментов, включающим Hadoop для сбора и хранения огромных объемов неструктурированных данных, поисковый сервер, лингвистические средства обработки текстов, поисково-аналитическую платформу анализа..
У нас для решения подобных задач есть собственный демо-стенд, основанный на платформе больших данных компании Oracle, включающей перечисленные средства. Поскольку основные данные в перечисленных постановках задач — текстовые, то важное место в таком решении занимают лингвистические инструменты, способные работать с русским языком и выполнять функции семантического поиска. Западные вендоры в этом направлении мало чем могут помочь. Российская лингвистическая школа и работающие в этой области отечественные компании, к счастью, способны предложить вполне адекватные средства.
Мы работаем с очень профессиональной компанией RCO, используем их инструменты, позволяющие извлекать определенные факты: персоны, организации, события, периоды времени, и многое другое. Инструментарий контекстного и смыслового поиска можно интегрировать в различные системы и платформы больших данных, он достаточно развит для того, чтобы представлять коммерческий интерес. (список некоторых возможностей). Кроме этого, мы используем и технологии компании ABBYY — ABBYY Recognition Server для распознавания документов и преобразования их в электронные форматы, ABBYY Compreno для автоматизированной обработки текстов.
Есть и другие поставщики подобных решений в России. Одни предоставляют готовые продукты и инструментарий для разработчиков, а другие решают определенные типы задач, например занимаются анализом социальных сетей по некоторой тематике. Есть инструменты и на базе ПО с открытым кодом, но их применение обычно требует участия специалистов-лингвистов.
При работе с сайтами социальных сетей и других интернет-источников возникает нетривиальная задача извлечения текстовой информации. Для каждого сайта требуется вычленять текст из баннеров, рекламы, изображений, которыми наполнены его страницы. Примечательно, что сейчас на открытый рынок выходят компании такой специализации, долгое время работавшие только на государственные, в основном силовые структуры. Удивительно, как много у них уже сделано: у одного из наших партнеров действуют более тысячи специализированных средств извлечения, каждый из которых позволяет получать тексты из определенного сайта, твиттера, блога.
Все эти инструменты, наряду с отечественными лингвистическими средствами, можно встраивать в существующие платформы больших данных, интегрировать с Hadoopи т.п. Мы интегрируем их с платформой Oracle, к которую кроме инструментов хранения и обработки больших данных входит среда класса data discovery — Oracle Endeca Information Discovery. Эта платформа поддерживает определенную идеологию исследования данных, основанную на так называемом фасетном поиске. Интерфейс этой системы настраивается на бизнес-задачу и должен обеспечивать возможности интуитивного анализа, т.е. подталкивать аналитика по верному пути, подсказывать направление поиска.
Для задач анализа неструктурированных текстов российские организации уже вполне готовы. Некоторые находятся сейчас, после удачного завершения пилотов, на этапе оценки экономической эффективности этих решений. Оценки могут быть как количественные, так и качественные, связанные с рисками, кратно превышающими стоимость любых ИТ-инициатив, как в случае с анализом репутации кредиторов.
Какие инструменты для обработки неструктурированной текстовой информации планируете применять вы?