The Real Wais
май 2015.
13154

Почему гугл-переводчик и другие интернет-переводчики нормально не переводят?

Ответить
Ответить
Комментировать
0
Подписаться
4
6 ответов
Поделиться

Потому что для перевода в большинстве случаев очень важен контекст, а его не всегда легко вычленить автоматически. Поэтому простые программы-переводчики переводят очень плохо, а сложные постепенно совершенствуются, но никак не могут приблизиться к человеку по качеству понимания естественного языка.

Понятный пример, иллюстрирующий сложность автоматического перевода — работа с омонимами. Допустим, у нас есть текст, в котором встречается слово «данные». При переводе по одному слову (как работают самые примитивные программы-переводчики), невозможно точно определить, как использовалось это слово — в значении «эти» или в значении «информация». Как научить программу с этим работать? Можно задать несколько жестких правил, касающихся наиболее частых сочетаний с этим словом. Это чуть повысит качество перевода. Можно поступить умнее и «скормить» программе большой корпус самых разных текстов, где значение этого слова заранее известно. Анализируя соседние слова и их форму, можно будет в автоматическом режиме вычленить чуть больше правил определения значения омонима. Это опять же повысит качество перевода, но не исключит ошибки. Можно привлечь пользователей к работе: вы могли заметить у гуглопереводчика кнопку, позволяющую добавить свой вариант. Это все приводит к постепенному, едва заметному росту качества перевода.

Осталось представить, сколько неоднозначных слов и выражений встречается в языке, как сложно написаны многие тексты, как мы любим метафоры, парадоксы и двусмысленности. Мы и друг друга-то не всегда хорошо понимаем, а как научить этому программу? Пока проблематично.

Анастасия Подрабинекотвечает на ваши вопросы в своейПрямой линии
33
0
Прокомментировать

Технология машинного перевода сейчас очень активно развивается. То, что есть у Гугла сейчас - это уже большой прогресс (вспомните шутки про "перевод Промтом" и так далее). Самое модное направление - это статистический машинный перевод.

Работает это вот как. Сначала учеными строится модель перевода (например, с английского на русский). Они прогоняют модель на сотнях тысяч реальных переводов (сделанных людьми), и подгоняют ее параметры статистически. Модель обучается на одной части переводов, а проверяется - на другой.

Далее уже готовая программа разбивает предложение на слова и находит наиболее вероятные их переводы. Затем для слов (на русском языке, в нашем случае) выбирается наиболее вероятный порядок, лишние слова исключаются (как например, артикли "the", "a', которых в русском языке нет), или наоборот, частицы речи вставляются. Подбираются подходящие формы слов, согласуются по роду, числу и падежу - опять же, статистически, но уже с использованием цепочек из 2, 3 слов и так далее.

Почему гугл не переводит "нормально"? Во многих простых случаях он переводит хорошо.

"Нормально" программа не может перевести в тех случаях, когда требуется понимание смысла, когда есть отсылки между предложениями. Этих элементов пока нету в модели перевода, потому что такие правила намного сложнее (а для сложных правил труднее набрать статистику).

И уж точно, в чем машинный перевод превосходит человека - это в скорости и количестве.

10
0
Прокомментировать

В трёх словах: многозначность, метафора, контекст. Это, конечно, далеко не все. Есть слова, которых в языке перевода просто нет, или есть понятие, а слова нет. Переводчик учитывает грамматические особенности языка, также в русском и английском, например, по разному располагают новую и старую информацию. Никакая машина не уловит иронию, не переведёт лакуну или какую-нибудь игру слов.

Если Вам нужно понять смысл в общих чертах, тут, конечно, Гугл самое то.

4
0
Прокомментировать

Они запрограммированы лишь на слова, а не выражения, а уж тем более, предложения, а потому, когда Вы пытаетесь перевести что-то в большом количестве, нормального ничего не выходит.

Лучший переводчик — человек, знающий этот язык.

Андрей Бирюковотвечает на ваши вопросы в своейПрямой линии
4
-2
Прокомментировать

А почему мало кто умеет переводить стихи? Если в двух словах: это сложно. "Нормальный перевод" - это сложно даже для человека.

Переводчик Гугл использует так называемую статистическую модель перевода. Эта модель основана на сопоставлении известных лингвистических шаблонов. Например, если взять за шаблон единственное слово, то гугл ищет сопоставление, где вероятность "совпадения" слов на разных языках будет самой высокой. Т.е. вероятность того, что последовательность символов Hello является переводом последовательности Привет, а не Здравствуйте или Здрав буде боярин. Эту вероятность гугл предварительно рассчитывает на основе двух текстов, переведенных профессиональными переводчиками. По этим текстам собирается статистика, какие слова и как часто соответствуют слову Hello в этой двуязычной базе. Таким образом, вероятность правильного перевода зависит от имеющейся в распоряжении гугл базы на двух языках. Лингвистические шаблоны чаще всего используются самые простые с точки зрения их выделения и обработки - биграмы, триграмы. Т.е. два или три смежных слова. Поэтому гугл относительно неплохо будет справляться с простыми и распространенными случаями, но будет пасовать перед сложными предложениями (где лингвистические шаблоны не столь очевидны, словосочетания редкие). В чистом виде системы статистического перевода не используют, их снабжают правилами, которые компенсируют нехватку данных или корректируют очевидные ошибки. Компьютеры способны на быстрое выполнение большого количества вычислений, а хороший перевод к ним не сводится, к сожалению.

Несложно заметить, что только то, что есть в базе двуязычных текстов, только то и будет выдано в переводе. Такая база никогда не отразит в переводе три возможных смысла предложения "Он ехал в карете с поднятым задом" (зад был поднят у кареты, зад был поднят у него, он и Поднятый Зад, вдвоем, ехали в карете). Однако, если "Поднятый Зад" написано именно так и написано это в книге "про индейцев", то читающий человек сделает правильный вывод о нужном смысле и, владея другим языком, сделает верный перевод. Такие базы годятся только для сухой и однозначной передачи информации, они не отразят иронии, сарказма, не передадут смысла пословиц, даже проигнорируют простейшие случаи омонимии. Тем не менее, научить машину подобным правилам можно, но очень затратно. Этим пытались заниматься в рамках систем машинного перевода, основанного на правилах. Эти системы описывали правила на уровнях синтаксиса, семантики и прагматики. Помимо правил каждое из слов само по себе должно было нести огромное количество "смыслов" его использования в различных контекстах. Тогда неуверенный ответ "Да нет" будет переведен не как "Yes no" и не как "Well no" (по версии гугл), а "Not really".

Т.е. чтобы получить "нормальный перевод" нужно не просто суметь его самому сделать, а еще и записать свои действия для достижения такого же результата на языке глупой железяки. Как правило, два этих навыка не сочетаются в одном человеке, что добавляет еще один уровень сложности на пути получения "нормального перевода".

1
0
Прокомментировать
Читать ещё 1 ответ
Ответить
Читайте также на Яндекс.Кью
Читайте также на Яндекс.Кью