Корпоративный поиск: что это и нужен ли он компаниям?
Сегодня компании накапливают и используют в ежедневной работе огромные массивы данных. Многие из них слабо структурированы: оцифрованные копии, офисные редактируемые документы, электронные письма, растровые файлы. Объёмы информации растут в геометрической прогрессии. Добавим отсутствие консолидированного хранилища — и налицо проблема дефицита единого инструмента для хранения и использования корпоративных материалов.
Зачем компаниям корпоративный поиск?
Сколько средств поиска данных использует офисный сотрудник? Одно для почты, другое для интернета, третье — для работы с файлами. Список расширяется, если компания работает с дополнительными системами — например, CRM или ERP. По данным Gartner, 66% компаний используют более 6 мест хранения информации. В итоге это создаёт трудности: в исследовании AIIM 71% респондентов отметили, что корпоративную информацию найти сложнее, чем открытую.
Для решения проблем создаются инструменты корпоративного поиска. Их используют, чтобы найти информацию на файловых серверах, в узлах корпоративной сети, системах управления содержимым, письмах электронной почты и базах данных.
Корпоративный поиск бывает необходим сотрудникам самых разных департаментов. Бухгалтеру может понадобиться текст распоряжения о начислении премий по компании, HR-специалисту — информация о прошедших корпоративных мероприятиях, маркетологу — данные по рынку, которые разрозненно лежат в разных документах базы. Для сотрудников проектных организаций ситуация ещё более усложняется: в таких компаниях поиск одного документа, например, технического задания, сопряжён с нахождением других: чертежей, спецификаций, смет.
Ключевая проблема в том, что сотруднику сложно понять, где именно находится нужный документ, в каком формате он хранится и с какими другими данными связан. Гораздо проще работать, когда точно знаешь, что все необходимые файлы можно найти в одном месте.
Что умеют поисковые корпоративные системы?
Такие решения индексируют и классифицируют информацию, формируя общую базу комплексных ссылок. Структура и местоположение хранилищ при этом остаются неизменными вне зависимости от размеров компании.
Корпоративные «поисковики» умеют не только находить нужную информацию. Они позволяют, например, предварительно просматривать документы в исходном формате без установки дополнительных программных средств. Иногда пользователи получают доступ к поиску из любого веб-браузера: для начала работы достаточно зайти на стартовую страницу и авторизоваться.
Еще корпоративные системы умеют распознавать контент при помощи OCR – технологии оптического распознавания печатных символов. Она преобразовывает различные типы документов – сканы или фото с цифровой камеры — в редактируемые форматы или PDF с возможностью поиска.
Предположим, у вас есть бумажный документ — скажем, договор — и вам необходимо его отредактировать. Очевидно, что простого сканирования недостаточно — вы всё равно получите растровое изображение. Именно здесь на помощь приходит OCR: в результате применения технологии можно будет копировать, извлекать и редактировать данные в документах, где обычно это сделать невозможно.
Каким должен быть поисковый инструмент?
С одной стороны, поисковый инструмент должен удовлетворять многим техническим требованиям – например, индексировать файлы разных форматов. С другой, они разрабатываются для сотрудников, а потому должны быть просты в использовании.
Большие компании интересуются поисковыми системами с семантическим ядром – в таком случае запрос может выражаться в виде предложения. Это удобно, но порождает ряд сложностей: возрастают требования к аппаратной производительности сервера, появляется необходимость дополнительной настройки. К тому же семантический анализ подходит только для полноконтекстных документов. Обычно сотрудникам достаточно обычного морфологического поиска – более оперативного и не перегружающего мощности сервера.
Чтобы поисковый инструмент справлялся с большими массивами данных и находил релевантные документы, необходимо, чтобы он имел фильтры по содержимому и метаданным файла. Это даёт огромные возможности: указание слова и словосочетания, которые должны быть или не быть в документе; определение вариантов искомого слова с помощью специальных операторов поиска. Метаданные позволяют определить формат, язык, автора документа или дату последнего изменения.
Система также позволяет учитывать и доступ сотрудника к хранилищам. Например, решение dokoni FIND формирует защищённый репозиторий в базе данных, благодаря чему пользователь быстро получает доступ к строго выделенным для его учётной записи ресурсам.
Экономическая эффективность
Для бизнеса, конечно же, главный вопрос — за счет чего можно сэкономить деньги?
Во-первых, достигается прямая экономия затрат рабочего времени сотрудника. По нашему опыту, если в компании нет консолидированного средства поиска, пользователь тратит порядка 30 минут в день на извлечение нужных документов. Зная среднюю зарплату работника в компании, посчитать убытки не будет сложной задачей.
Во-вторых, применение корпоративного поиска снижает вероятность потери важных документов. По результатам глобальных исследований компании Konica Minolta, в компаниях теряется каждый 14-ый документ — и в крупных компаниях это огромная цифра.
В-третьих, «поисковик» повышает эффективность внутренних бизнес-процессов и высвобождает время на реализацию более приоритетных задач сотрудниками компании.
За какими функциями будущее?
Следующий шаг — развитие систем нечёткого поиска в слабо структурируемых источниках данных. Это работает так: когда пользователь вводит слово или фразу, алгоритм находит в тексте все совпадения с этим словом с учётом допустимых различий. Например, при запросе «интернет» системе также нужно найти слова «интерн», «интернат» и другие. Для оценки сходства двух слов в тексте используются специальные метрики — функции расстояния между двумя словами.
Для нечёткого поиска в слабоструктурируемых источниках в системы внедряется машинное обучение, в частности нейросетевые алгоритмы. Интеллектуальные обучаемые алгоритмы повышают уровень релевантного поиска даже с файлами, которые имеют косвенную, но точную связь с ожидаемым результатом. Подобные алгоритмы уже являются основой, например, программ по проверке орфографии.
Ещё одно направление развития систем корпоративного поиска связано с совершенствованием механизмов защиты данных. В России действует закон о персональных данных (N 152-ФЗ), согласно которому оператор, владеющий подобной информацией, должен предоставлять возможность ознакомиться с ней по требованию соответствующих органов или личному запросу. Мы тестируем решение, которое дополняет dokoni FIND и позволяет оперативно получать ссылки на документы, так или иначе связанные с персональными данными сотрудников.
Решения для корпоративного поиска только появляются на рынке, но уже вызывают большой интерес. Это неудивительно: у любой организации есть потребность в инструменте для систематизации данных, которых с каждым днём становится всё больше. Внедрение корпоративных инструментов нахождения информации — это ещё один логичный элемент цифровизации компаний, процесса, который неизбежно коснётся всего современного бизнеса.