The Real Wais
март 2016.
6279

Почему гугл-переводчик и другие интернет-переводчики нормально не переводят?

GoogleЯзыкИностранные языкиАнглийский языкОбразованиеИнтернетНаука
Ответить
Ответить
Комментировать
0
Подписаться
4
6 ответов
Поделиться

Потому что для перевода в большинстве случаев очень важен контекст, а его не всегда легко вычленить автоматически. Поэтому простые программы-переводчики переводят очень плохо, а сложные постепенно совершенствуются, но никак не могут приблизиться к человеку по качеству понимания естественного языка.

Понятный пример, иллюстрирующий сложность автоматического перевода — работа с омонимами. Допустим, у нас есть текст, в котором встречается слово «данные». При переводе по одному слову (как работают самые примитивные программы-переводчики), невозможно точно определить, как использовалось это слово — в значении «эти» или в значении «информация». Как научить программу с этим работать? Можно задать несколько жестких правил, касающихся наиболее частых сочетаний с этим словом. Это чуть повысит качество перевода. Можно поступить умнее и «скормить» программе большой корпус самых разных текстов, где значение этого слова заранее известно. Анализируя соседние слова и их форму, можно будет в автоматическом режиме вычленить чуть больше правил определения значения омонима. Это опять же повысит качество перевода, но не исключит ошибки. Можно привлечь пользователей к работе: вы могли заметить у гуглопереводчика кнопку, позволяющую добавить свой вариант. Это все приводит к постепенному, едва заметному росту качества перевода. Do you speak English? Как изучать английский, чтобы с легкостью говорить и понимать прочитанное?Почему люди слушают песни на английском языке, но хотя сами не понимают даже перевод песни?Как выглядят феменитивы в английском?Определите уровень своего английского

Осталось представить, сколько неоднозначных слов и выражений встречается в языке, как сложно написаны многие тексты, как мы любим метафоры, парадоксы и двусмысленности. Мы и друг друга-то не всегда хорошо понимаем, а как научить этому программу? Пока проблематично.

Анастасия Подрабинекотвечает на ваши вопросы в своейПрямой линии

Технология машинного перевода сейчас очень активно развивается. То, что есть у Гугла сейчас - это уже большой прогресс (вспомните шутки про "перевод Промтом" и так далее). Самое модное направление - это статистический машинный перевод.

Работает это вот как. Сначала учеными строится модель перевода (например, с английского на русский). Они прогоняют модель на сотнях тысяч реальных переводов (сделанных людьми), и подгоняют ее параметры статистически. Модель обучается на одной части переводов, а проверяется - на другой.

Далее уже готовая программа разбивает предложение на слова и находит наиболее вероятные их переводы. Затем для слов (на русском языке, в нашем случае) выбирается наиболее вероятный порядок, лишние слова исключаются (как например, артикли "the", "a', которых в русском языке нет), или наоборот, частицы речи вставляются. Подбираются подходящие формы слов, согласуются по роду, числу и падежу - опять же, статистически, но уже с использованием цепочек из 2, 3 слов и так далее.

Почему гугл не переводит "нормально"? Во многих простых случаях он переводит хорошо.

"Нормально" программа не может перевести в тех случаях, когда требуется понимание смысла, когда есть отсылки между предложениями. Этих элементов пока нету в модели перевода, потому что такие правила намного сложнее (а для сложных правил труднее набрать статистику).

И уж точно, в чем машинный перевод превосходит человека - это в скорости и количестве.

В трёх словах: многозначность, метафора, контекст. Это, конечно, далеко не все. Есть слова, которых в языке перевода просто нет, или есть понятие, а слова нет. Переводчик учитывает грамматические особенности языка, также в русском и английском, например, по разному располагают новую и старую информацию. Никакая машина не уловит иронию, не переведёт лакуну или какую-нибудь игру слов.

Если Вам нужно понять смысл в общих чертах, тут, конечно, Гугл самое то.

Показать ещё 3 ответа
Ответить