Когда в СЭД/ЕСМ только реквизиты

18 сентября 2017

Трендом последних лет стало наведение порядка, но, следуя тенденциям, уже не в бумажных, а в электронных документах и данных. Причем причины подобных запросов различаются.

Кейс 1. СЭД была внедрена под задачи автоматизации канцелярии в рамках доступного на тот момент бюджета. Все доработки были записаны в планы развития и отложены до появления нужного финансирования. В итоге документы в течение нескольких лет регистрировались в системе только по стандартным реквизитам – номеру, дате, отправителю.

Результат: канцелярия автоматизирована, задачи бизнес-подразделений не выполнены. Любая попытка анализа/составления подборок документов среди накопленных 2,7 млн. страниц Jpeg и PDF упирается в ограничения поиска. Искать документы и составлять подборки можно только по реквизитам.

Кейс 2. Другая группа задач возникает, когда появляются кросс-процессы, требующие подбора документов по субъекту или объекту из разных корпоративных систем.

Например, в системе управления имуществом земельный участок учтен по кадастровому номеру, а в CRM в переписке с контрагентом фигурирует исключительно адрес, причем часто по-разному написанный. Для быстрого и качественного поиска необходимо научить системы связывать документы между собой по вторичным реквизитам и признакам.

Как быть?

Можно пойти по пути развития полнотекстового, контекстного поиска. Но, учтите, что хороший поисковый «движок» и адаптация алгоритмов к вашим и отраслевым особенностям потребуют немалых вложений, а поиск все равно будет релевантным.

Вместо полного комплекта актуальных документов сотрудник будет получать списки результатов, как в Google или Яндекс. Если, скажем, наименование контрагента в Дополнительном соглашении написано с ошибкой, неверно распознано или отличается от принятого написания, то документ не попадет в поисковую выдачу или будет ближе к ее концу, и может быть банально пропущен.

Проще и дешевле, оказывается, подготовить сами документы – дополнить их расширенными реквизитами, необходимыми для поиска и взаимосвязи между собой. Это, к тому же, не требует большой доработки информационных систем, нужно будет лишь добавить поля для недостающих данных.

Чтобы уйти от дорогостоящих методов извлечения данных – шаблонов OCR-программ с их ограничениями и ручным перепечатываем букв силами взвода операторов, – в ЭЛАР разработана и уже более семи лет применяется особая технология оцифровки.

Технология универсальна, то есть подходит для обработки всех документов. Ее функцию даже можно даже назвать «топорной» – находить в тексте все смысловые сущности, которые определит пользователь: ФИО, наименования, адреса, суммы и т.д. Но за этой «топорностью» стоят очень серьезные интеллектуальные алгоритмы.

В результате мы смогли заменить многомесячный ручной труд операторов несколькими часами работы программы. И, кстати, в отличие от оператора, программа не пропускает нужной информации в тексте.

Не все так просто

Программа извлекает сведения именно такими, какими они написаны в документе. А для качественного поиска и установления взаимосвязи между документами данные должны быть приведены к единообразию написания. Именно по этой причине работа программных алгоритмов всегда сопровождается услугами проверки и нормирования извлеченных данных.

В большинстве случаев вместе с нормированными данными сохраняются и изначально извлеченные, так как многие задачи (например, юридические вопросы) требуют работы именно с такими, аутентичными сведениями.

Здесь важную роль играют три обстоятельства:

1. Огромным подспорьем становятся имеющиеся в компании базы данных (тот же список контрагентов или физических лиц в ERP или CRM). Эти списки берутся за основу, и в 97% случаев программа самостоятельно устанавливает соответствие и приводит извлеченные данные к принятому в компании стандарту. Причем для гарантии качества, если позволяет политика безопасности, всегда сверяются 1-3 дополнительных реквизита – к примеру, ИНН и номер счета.

2. Отдельная группа задач – адресные данные. В документах, касающихся имущественных отношений, адрес вообще является главным реквизитом, связывающим в комплект документацию по объекту, в том числе в интерфейсе геоинформационных систем.

Один и тот же адрес может быть записан более чем 20-ю разными способами. Поэтому приведение его к формату Федеральной адресной информационной системы (ФИАС), КЛАДР или корпоративному стандарту оказывается нетривиальной задачей. И снова мы решаем эту проблему с помощью программных алгоритмов, «раскладывающих по полочкам» на основе морфологии и семантики группу сокращений и символов, с помощью которых адрес был записан.

3. Но все же часть данных требует ручного ввода, нормирования и проверки. C`est la vie (с франц. - «такова жизнь»). Поэтому форматом услуг ЭЛАР всегда предусмотрена работа небольшой группы профессиональных операторов.

В итоге

Вы повышаете эффективность многих подразделений и процессов, просто доведя «до ума» уже имеющийся ресурс электронных документов. Никакого длительного сканирования, доработок систем и прочих ресурсоемких операций.
Вы делаете это с минимальными затратами и быстро, независимо от объема. Никакой дорогостоящей разработки шаблонов OCR-программ, которые к тому же не применимы для неструктурированных документов. Минимум ручного труда.
Ну и еще один плюс – это возможность отдать на аутсорсинг обработку секретных документов или относящихся к коммерческой тайне. Наши операторы будут видеть только минимальные, не связанные между собой фрагменты информации.

Кейс 3. Технология может сопровождаться взаимосвязью документов посредством гиперссылок, в частности, в информационно-правовых системах.

Например, выходит новый Приказ, корректирующий 19 ранее подписанных актов. Программные алгоритмы анализируют текст документа и посредством гиперссылок связывают со всеми другими, которые в нем упомянуты. Гиперссылки проставляются на конкретные абзацы и места в текстах.

Значительно упрощается работа по внесению и учету изменений, упрощается навигация.

P.S. Вот так, коллеги, интеллектуальные технологии уже стали бытовыми. Прошу за дополнительной информацией заходить на сайт www.wescan.ru

7120