Когда востребован машинный перевод?
Особенности машинного перевода технических текстов.
Этапы выполнения машинного перевода в компании Benevox.
Глоссарии, используемые в работе Benevox.
Мы предлагаем услугу машинного перевода массива файлов с целью ознакомления с документацией пользователя, не владеющего языком исходного текста.
Машинный перевод - это перевод, выполненный с помощью программного обеспечения без участия переводчика, редактора и корректора. Он необходим в тех случаях, когда требуется понять общий смысл исходного текста, без упора на высокое качество и точность в сжатые сроки.
К началу 2022 года машинный перевод достиг достаточно высокого уровня, который невозможно было представить еще 5 лет назад. Однако качество получаемого текста не позволяет назвать результат такой обработки текста полноценным переводом. Количество ошибок, в том числе скрытых за лаконичным на первый взгляд изложением, слишком большое, и использование такого текста без соответствующих оговорок остается недопустимым.
Кроме того, в тех случаях, когда требуется перевести большой объем технической информации, ситуация дополнительно осложняется за счет наличия в тексте специфической отраслевой терминологии, которую машина не в состоянии перевести корректно.
Так можно ли использовать машинный перевод при работе с технической документацией и в каких случаях это допустимо?
Использование машинного перевода допустимо в следующих случаях:
Нужно срочно понять, что содержится в документации.
Перевод нужен формально.
Документация предназначена для внутреннего использования специалистом, который будет полноценно переводить документацию.
Текст используется как вспомогательный материал при работе с документом на исходном языке.
В ситуациях, когда бюджет на выполнение полноценного перевода отсутствует, а срок получения документации для ознакомления – вчера, такой вариант работы с материалами может оказаться единственным выходом.
Специалисты нашей компании готовы оказать всю возможную помощь при выполнении такой задачи:
Распознание и подготовка текста.
Извлечение текста из нередактируемых файлов или объемных PDF со сложным форматированием, подготовка для перевода чертежей AutoCAD или файлов других сложных форматов.
Обучение системы нейронного перевода.
Представляет собой подбор и загрузку тематического глоссария, обучение на основе переводов по схожей тематике.
Загрузка и выгрузка файлов в систему нейронного перевода.
Последовательная обработка с сохранением исходной структуры хранения.
Форматирование на языке перевода.
Приведение документов к оформлению «под оригинал».
Многие из нас уже пробовали машинный перевод в различных бытовых ситуациях, и мнение о нем разнится очень сильно. Давайте взглянем на пример машинного перевода с английского языка средствами GoogleTranslate (февраль2022):
"Оператор аэропорта Стамбула объявил во вторник, что люди, не являющиеся пассажирами, теперь могут входить в терминал, чтобы приветствовать или провожать тех, кто путешествует. Практика была остановлена из-за мер по борьбе с коронавирусом два года назад, и для входа в терминалы требовалось предъявить авиабилеты. В письменном заявлении IGA говорится, что теперь непассажиры могут войти в терминал через шесть входов.
Решение аэропорта отменить требования к билетам для доступа к терминалам было принято через несколько месяцев после того, как правительство сняло почти все ограничения, связанные с пандемией. В настоящее время обязательными являются только маски, социальное дистанцирование и правила гигиены, в то время как регулярный комендантский час и другие более строгие меры были отменены."
Конечно, такой перевод не идеален и не подойдет для публикации на русском. Но, если вам нужно понять, как сейчас работает аэропорт в Стамбуле, подобный результат можно оценить достаточно высоко.
С переводами технической документации все сложнее, т. к. работа искусственного интеллекта с отраслевой терминологией не всегда оказывается верной, и в результате некоторые термины и даже целые предложения становится просто невозможно понять. Однако минимизировать такую проблему возможно, подгрузив к системе машинного перевода подходящий глоссарий, а также предоставив машине массив качественных переводов по схожей тематике для предварительного анализа. Такая работа называется обучением, позволяет существенно повысить качество конечного текста, а также получить ваш личный «движок» машинного перевода, обученный специально под вашу документацию.
Одной из ключевых задач при работе с машинным переводом является подготовка текста.
Крайне важно сделать текст понятным для искусственного интеллекта, т. к. в отличие от нас машина видит текст, опираясь на заложенные в алгоритм принципы сегментации и знаки форматирования. Основной единицей, с которой работает машина, является «сегмент» текста. Как правило это предложение или значение в ячейке таблицы. Но есть и иные признаки, по которым машина разделяет текст.
Самым ярким из них является знак абзаца (Enter). Если вы знакомы с непечатными символами, отображаемыми в MS Word, то, включив их, в любом документе обнаружите массу переносов, показанных символом ¶. Каждая строка, отделенная таким образом, воспринимается машиной как новое предложение, и её «перевод» выполняется отдельно. Если необходимо выполнить машинный перевод текста из PDF, такие разрывы становятся заметной проблемой, т. к. при копировании из PDF или при прямой загрузке данного формата очень часто все строки разделяются таким образом.
На примере ниже справа мы видим исходный PDF, а слева текст, скопированный в MS Word:
В результате, загрузив для машинного перевода такой неподготовленный документ, мы получим несогласованный и разбитый на части текст, сильно отличающийся от желаемого результата.
Рассмотрим еще один пример:
Исходный текст в PDF | Перевод с учетом знака абзаца | Перевод без знака абзаца |
---|---|---|
At this stage, the customer's¶ |
На этом этапе заказчик ¶ |
На данном этапе жалоба клиента неясна, и неисправность не может быть воспроизведена. |
Как видно из таблицы, текст, просто скопированный из PDF, за счет знака абзаца даст некорректный результат при машинном переводе. Если же убрать скопированный из PDF разрыв строки (скрытый знак абзаца), результат машинного перевода будет существенно лучше.
Полный цикл выполнения проекта по машинному переводу массива документации:
Этап 1: Подготовительные работы
Оценка стоимости и сроков.
Анализ массива документации с целью выделения материалов, требующих «перевода» (удаление файлов, дублирующихся в разных форматах, выявление многоязычных документов, формирование конечной структуры папок, идентичной исходной или соответствующей ТЗ заказчика).
Этап 2: Перевод и редактура
Разверстка. Извлечение текста из многоязычных файлов, чертежей и нередактируемых объектов, контроль сегментации (разбивки)текста.
Подбор специализированного глоссария и дополнительных материалов для обучения системы нейронного машинного перевода.
Загрузка полученных файлов в систему нейронного машинного перевода и выгрузка обработанного материала с сохранением наименований файлов и структуры хранения.
Этап 3: Завершающий этап
Правка конечного форматирования на языке «перевода», вызванная существенными различиями в длине текстов на разных языках. Обеспечение соответствия оригинальным файлам либо ТЗ заказчика.
Внесение правок в файлы со сложным форматированием или подготовленных в профессиональных форматах(InDesign, AutoCAD и др.).
Ознакомиться с полным списком отраслей, в которых мы работаем, можно на странице «Наш опыт».
На начало 2022 года машинный перевод не является точной передачей текста на другом языке. Использование результатов такого «перевода» допустимо только в реферативных целях, для общего ознакомления.
При необходимости получить точный перевод на требуемый вам язык вы можете обратиться к нам за услугой письменного перевода, выполняемого группой квалифицированных специалистов.
Также вы можете связаться с нами по телефону или направив письмо на электронную почту. Контактную информацию вы найдете в разделе Контакты