Когда в СЭД/ЕСМ только реквизиты
Трендом последних лет стало наведение порядка, но, следуя тенденциям, уже не в бумажных, а в электронных документах и данных. Причем причины подобных запросов различаются.
Кейс 1. СЭД была внедрена под задачи автоматизации канцелярии в рамках доступного на тот момент бюджета. Все доработки были записаны в планы развития и отложены до появления нужного финансирования. В итоге документы в течение нескольких лет регистрировались в системе только по стандартным реквизитам – номеру, дате, отправителю.
Результат: канцелярия автоматизирована, задачи бизнес-подразделений не выполнены. Любая попытка анализа/составления подборок документов среди накопленных 2,7 млн. страниц Jpeg и PDF упирается в ограничения поиска. Искать документы и составлять подборки можно только по реквизитам.
Кейс 2. Другая группа задач возникает, когда появляются кросс-процессы, требующие подбора документов по субъекту или объекту из разных корпоративных систем.
Например, в системе управления имуществом земельный участок учтен по кадастровому номеру, а в CRM в переписке с контрагентом фигурирует исключительно адрес, причем часто по-разному написанный. Для быстрого и качественного поиска необходимо научить системы связывать документы между собой по вторичным реквизитам и признакам.
Как быть?
Можно пойти по пути развития полнотекстового, контекстного поиска. Но, учтите, что хороший поисковый «движок» и адаптация алгоритмов к вашим и отраслевым особенностям потребуют немалых вложений, а поиск все равно будет релевантным.
Вместо полного комплекта актуальных документов сотрудник будет получать списки результатов, как в Google или Яндекс. Если, скажем, наименование контрагента в Дополнительном соглашении написано с ошибкой, неверно распознано или отличается от принятого написания, то документ не попадет в поисковую выдачу или будет ближе к ее концу, и может быть банально пропущен.
Проще и дешевле, оказывается, подготовить сами документы – дополнить их расширенными реквизитами, необходимыми для поиска и взаимосвязи между собой. Это, к тому же, не требует большой доработки информационных систем, нужно будет лишь добавить поля для недостающих данных.
Чтобы уйти от дорогостоящих методов извлечения данных – шаблонов OCR-программ с их ограничениями и ручным перепечатываем букв силами взвода операторов, – в ЭЛАР разработана и уже более семи лет применяется особая технология оцифровки.
Технология универсальна, то есть подходит для обработки всех документов. Ее функцию даже можно даже назвать «топорной» – находить в тексте все смысловые сущности, которые определит пользователь: ФИО, наименования, адреса, суммы и т.д. Но за этой «топорностью» стоят очень серьезные интеллектуальные алгоритмы.
В результате мы смогли заменить многомесячный ручной труд операторов несколькими часами работы программы. И, кстати, в отличие от оператора, программа не пропускает нужной информации в тексте.
Не все так просто
Программа извлекает сведения именно такими, какими они написаны в документе. А для качественного поиска и установления взаимосвязи между документами данные должны быть приведены к единообразию написания. Именно по этой причине работа программных алгоритмов всегда сопровождается услугами проверки и нормирования извлеченных данных.
В большинстве случаев вместе с нормированными данными сохраняются и изначально извлеченные, так как многие задачи (например, юридические вопросы) требуют работы именно с такими, аутентичными сведениями.
Здесь важную роль играют три обстоятельства:
1. Огромным подспорьем становятся имеющиеся в компании базы данных (тот же список контрагентов или физических лиц в ERP или CRM). Эти списки берутся за основу, и в 97% случаев программа самостоятельно устанавливает соответствие и приводит извлеченные данные к принятому в компании стандарту. Причем для гарантии качества, если позволяет политика безопасности, всегда сверяются 1-3 дополнительных реквизита – к примеру, ИНН и номер счета.
2. Отдельная группа задач – адресные данные. В документах, касающихся имущественных отношений, адрес вообще является главным реквизитом, связывающим в комплект документацию по объекту, в том числе в интерфейсе геоинформационных систем.
Один и тот же адрес может быть записан более чем 20-ю разными способами. Поэтому приведение его к формату Федеральной адресной информационной системы (ФИАС), КЛАДР или корпоративному стандарту оказывается нетривиальной задачей. И снова мы решаем эту проблему с помощью программных алгоритмов, «раскладывающих по полочкам» на основе морфологии и семантики группу сокращений и символов, с помощью которых адрес был записан.
3. Но все же часть данных требует ручного ввода, нормирования и проверки. C`est la vie (с франц. - «такова жизнь»). Поэтому форматом услуг ЭЛАР всегда предусмотрена работа небольшой группы профессиональных операторов.
В итоге
- Вы повышаете эффективность многих подразделений и процессов, просто доведя «до ума» уже имеющийся ресурс электронных документов. Никакого длительного сканирования, доработок систем и прочих ресурсоемких операций.
- Вы делаете это с минимальными затратами и быстро, независимо от объема. Никакой дорогостоящей разработки шаблонов OCR-программ, которые к тому же не применимы для неструктурированных документов. Минимум ручного труда.
- Ну и еще один плюс – это возможность отдать на аутсорсинг обработку секретных документов или относящихся к коммерческой тайне. Наши операторы будут видеть только минимальные, не связанные между собой фрагменты информации.
Кейс 3. Технология может сопровождаться взаимосвязью документов посредством гиперссылок, в частности, в информационно-правовых системах.
Например, выходит новый Приказ, корректирующий 19 ранее подписанных актов. Программные алгоритмы анализируют текст документа и посредством гиперссылок связывают со всеми другими, которые в нем упомянуты. Гиперссылки проставляются на конкретные абзацы и места в текстах.
Значительно упрощается работа по внесению и учету изменений, упрощается навигация.
P.S. Вот так, коллеги, интеллектуальные технологии уже стали бытовыми. Прошу за дополнительной информацией заходить на сайт www.wescan.ru