Англоязычный портал на основе нейронного автоматического перевода
- Заказчик:
- TAdviser
- Руководитель проекта со стороны заказчика
- Поставщик
- ООО ПРОМТ
- Год завершения проекта
- 2021
- Сроки выполнения проекта
- Май, 2018 - Октябрь, 2021
- Масштаб проекта
- 2300 человеко-часов
- Цели
В России сильная индустрия информационных технологий, но если информация доступна только на русском языке, то это ограничивает доступ зарубежной аудитория. По данным Международного союза электросвязи (ITU), в интернет выходят 3,9 млрд человек или 51,2% населения планеты, из которых как минимум половина делают поисковые запросы на латинице, поэтому важно представить информацию прежде всего на английском языке, а в перспективе и на других языках. Портал нужен был как инструмент для российских компаний, которые стремятся стать более заметными на мировом рынке. Важным условием существования проекта было обеспечение автоматического перевода «на лету» всего контента, в том числе повторный перевод статей и новостей, если в них вносились правки на русском языке.
Уникальность проекта
Уникальность проекта состоит в том, что весь контент, создаваемый и размещаемый на русскоязычной версии портала TAdviser.ru, автоматически переводится на английский язык и автоматически размещается на англоязычной версии портала TAdviser.com. Англоязычный новостной портал создается только с помощью технологий и программного обеспечения, без использования человеческого ресурса. Если бы такой портал создавался без применения технологий перевода, то осуществление перевода такого большого информационного потока силами людей было бы дорого и потребовало бы значительного времени на реализацию. Технологии автоматического перевода позволили обеспечить перевод большого динамически меняющегося контента - отраслевых новостей, описания компаний, интервью с представителями российского ИТ бизнеса. Проект по создание полноценного информационного портала на иностранном языке - это характерный пример того какие грандиозные возможности даёт цифровая экономика и технологии искусственного интеллекта.- Использованное ПО
- Для обеспечения перевода контента TAdviser используется выделенный сервер со следующими характеристиками: СPU Intel Core i7 3770 3.4 GHz, 16GB RAM, Windows Server 2016. Выбор сервера определяется требованиями программного обеспечения для автоматического перевода PROMT на основе нейронных сетей. На сервер установлено кастомизированное решение для перевода - PROMT Neural Translation Server (PNTS, https://www.promt.ru/translation_software/corporate/promt-translation-server-neural/). PNTS - это современное серверное решение для автоматического (машинного) перевода на основе нейронный сетей, разработанное российским поставщиком, компанией PROMT. В основе решения технология PROMT Neural, которая позволяет получить точный, гладкий перевод, без машинного акцента, который в большинстве случаев не требует постредактирования. Решение обеспечивает перевод текстов, документов через UI или по API.
В этом проекте компания PROMT также обеспечивает поддержку и бесперебойную работу облачного решения. - Сложность реализации
Основные сложности проекта — это автоматический перевод такого качества, чтобы его можно было бы публиковать на сайте без предварительной модерации человеком. Лингвистическая особенность данного контента заключается в том, что в нем много имен собственных (названий компаний, организаций, продуктов, технологий, ведомств, министерств, имен людей), причем в тексте они присутствуют как на кириллице, так и на латинице. Чтобы система нейросетевого автоматического перевода безошибочно справилась с переводом имен собственных, все они должны все присутствовать в данных, на которых система обучалась (система нейронного перевода обучается на корпусах параллельных текстов). Так как в данном случае это невозможно – частотные имена и названия, конечно присутствуют в данных, но есть и менее известные, менее частотные названия, вновь возникающие имена и названия, поэтому приходится мониторить результат нейронного перевода имен собственных и внедрять новые алгоритмы, которые помогают обеспечить перевод имен без искажения. Для быстрого исправления перевода имен собственных используется инструмент PROMT Smart NeuralDictionary (Smart ND). С помощью этого инструмента в словарь добавляются слово и словосочетания с нужными переводами.
Также важно было обеспечить бесперебойную, отказоустойчивую работу облачного решения для того, чтобы англоязычный контент постоянно пополнялся и обновлялся на портале TAdviser.com.
- Описание проекта
Информационный портал TAdviser, одно из ведущих СМИ в России по теме корпоративной информатизации, и PROMT, один из лидеров в области разработки лингвистических IT-решений для автоматического перевода, реализовали проект по запуску первого в России интернет-издания, работающего на основе технологий искусственного интеллекта. TAdviser.com – англоязычная версия российского издания TAdviser.ru - формируется автоматически с использованием решений автоматического перевода компании PROMT.
Проект прошел несколько этапов:
1. Первый этап 2018-осень 2020гг.
a. Анализ русскоязычного контента TAdviser , настройка для разных типов текста (новость, интервью, биографическая карточка) для повышения качества машинного перевода. На этом этапе использовалась технология Rule-based Machine Translation.
b. Разработка новых API методов перевода и реализация специальной технической обработки контента (разработка алгоритма викитекста, включающего в себя пре- и пост-процессинг викиссылок внутри предложений).
2. Второй этап октябрь 2020-2021
a. Переход на технологию перевода на основе нейронных сетей (Neural Machine Translation). Этот этап включал в себя тестирование качества перевода по новой технологии, использование новых инструментов для настройки и выбор новой инфраструктуры для установки программного обеспечения и обеспечения требуемой скорости перевода контента.
К моменту запуска система перевела с русского на английский более 206 тысяч статей из базы знаний TAdviser, в том числе более 40 000 досье компаний, 17 000 описаний ИТ-решений и 47 000 описаний ИТ-проектов, а также большое число статей о технологических рынках России и других стран, сотни интервью с экспертами из отрасли информационных технологий. В настоящий момент ежемесячно автоматически переводится 60 млн символов, это более 33 000 страниц текста формата А4. Если представить, что один переводчик может перевести в месяц около 200 страниц текста, то для перевода всего месячного потока понадобилось бы не менее 150 переводчиков.
- География проекта
- Портал TAdviser.com доступен любому пользователю интернета.
Аудитория портала TAdviser.com: по данным сервиса Similarweb.com на портале ежемесячно фиксируется от 35 000 до 80 000 визитов.
География пользователей портала (топ-5 стран):США - 16%
Россия - 11%
Германия - 8%
Турция- 5%
Индия - 5%