Mikle Pitersky
ноябрь 2015.
13302

Почему Google переводчик до сих пор так коряво переводит сложные английские предложения?

Ответить
Ответить
Комментировать
1
Подписаться
12
2 ответа
Поделиться

Ответ Ярославны справедлив с лингвистической точки зрения и описывает общие проблемы, стоящие перед системами перевода в принципе (и даже перед переводчиком-человеком, на самом-то деле). Перевод естественных языков — вообще штука многогранная и сложная.

Но отдельный интерес для ответа на вопрос представляет то, как именно Google Translate подходит к решению этих проблем.

Важно понимать, что GT не строит перевод при помощи грамматического и синтаксического анализа исходного текста, извлечения его «смысла» и облачения его в слова и конструкции другого языка — этого не происходит. Переводчик от Google — это статистическая система машинного перевода. Это значит, что программа имеет доступ к огромному корпусу параллельных текстов — то есть, текстов на языке оригинала и их переводов, выполненных человеком. Алгоритмы самообучения строят из этих данных базы межъязыковых соответствий, которые потом используются для перевода произвольного текста, вводимого пользователем.

Именно поэтому перевод отдельной фразы иногда может оказаться на удивление идеальным: это значит, что именно эта фраза достаточно часто встречалась в базе данных дословно, и вы получаете ее цельный перевод прямо из корпуса параллельных текстов — фактически, Гугл говорит вам, «люди чаще всего переводят эту фразу вот так». Попробуйте немного изменить такую фразу — чаще всего идеальность перевода сразу растворится. О покупках в интернете Что самое дорогое и необычное продавали на eBay?Какие есть лайфхаки, чтобы выгодно совершать покупки в интернете?Можно ли на AliExpress купить не поддельные iPhone или другие известные бренды?Спросите эксперта

Длинные же, нестандартные фразы приходится собирать по кусочкам, находя в разных текстах похожие фрагменты и соединяя их с помощью статистики уже по одному языку. Это довольно смелый подход, который дает результаты примерно того же качества: иногда на удивление хорошие, иногда полностью абсурдные. Именно по этой причине переводчик просит пользователей вводить более удачные версии перевода или исправлять их: таким образом фактически расширяется его база данных. Отсюда же и периодические недоразумения вроде перевода Facebook как Вконтакте — очевидно, достаточно много пользователей посчитали такую «адаптацию» уместной и скормили системе ложные данные.

Для разных пар языков количество параллельных текстов, доступных для анализа, разное. Если для пары английский-испанский, например, объем данных просто бесконечный, то для пары вроде русский-корейский данных практически нет. В таком случае система переводит с русского на английский, а потом с английского на корейский — ошибки накапливаются с астрономической скоростью.

Заметьте, что простые фразы он переводит довольно сносно. Дело в том, что английский язык за свою историю очень сильно менялся: несколько периодов влияния разнообразных языков сделали свое, так сказать, грязное дело. (Хотя бы задайтесь вопросом, почему английский больше похож на латынь и французский, не имеет флексий (т. е. видоизменения слов по родам и падежам), но все еще принадлежит к германской группе языков)

Английский язык крайне полисемичен. Простейшие слова имеют просто невообразимое количество значений, большая часть из которых почти не используется. Вспомнить бы простой "well" - колодец и хорошо.

Полисемия - одна из причин корявости. Вполне вероятно, что автор имеет ввиду не первое словарное значение слова.

Вторая причина же в том, что в русском языке в основном не прямой порядок слов. Литературный русский отличается тем, что любой член предложения может оказаться на любом месте во фразе, а в английском порядок четкий, неизменяемый. Поэтому зачастую перевод выглядит дурацко.

Дальше больше, переводчик знает лишь самые популярные идиомы, например, "a piece of cake", а остальные, зачастую непрямые (например, иногда в середину идиомы всовывается какое-нибудь слово), не знает. Получается белиберда.

Некоторые идиомы, существующие в английском языке, не имеют аналога в русском языке, либо имеют другое значение.

Также бесконечные различия в менталитете, способах говорения и рассуждения. Такие тонкости ощущает человек, знакомый с языком, а не бездушная машина.

Ответить