машинный перевод что это
Linguis
Изучение языков как хобби
Что такое машинный перевод и где он используется
За последние десятилетия компьютер, подключённый к интернету, стал самым главным инструментом переводчика. Ведь благодаря ему обеспечивается доступ к огромным объёмам информации, а также к электронным словарям и переводчикам. Машинный перевод сегодня стал повседневностью.
Термином «машинный перевод» (МП, он же Machine Translation или MT) называют действие, когда один естественный язык переводится на другой с использованием для этого специального программного обеспечения. Программа при этом может быть установлена непосредственно на компьютере (или мобильном устройстве) или быть доступной только при подключении к интернету.
Немного истории
Идея задействовать для перевода вычислительное устройство появилась ещё в 1947 году. Но реализация подобного в те годы была просто невозможна, поскольку вычислительная техника находилась в зачаточном состоянии. Однако уже в 1954 году была предпринята первая попытка машинного перевода. Самый первый словарь включал в себя только 250 слов, а грамматика исчерпывалась 6-ю правилами. Тем не менее, этого оказалось достаточно, чтобы убедиться в большом будущем машинного перевода. Работы в данном направлении начались во многих странах, стали появляться первые системы машинного перевода (СМП), создаваться специальные теории.
В начале развитию машинного перевода мешал низкий уровень вычислительной техники, её очень высокая стоимость. Однако постепенное проникновение в нашу жизнь сначала персональных компьютеров, а затем и интернета, привело к стремительному развитию этой отрасли. Сегодня машинный перевод активно используется в самых разных сферах человеческой деятельности.
Кому это нужно
Развитию машинного перевода способствовало расширение международных отношений. Люди стали чаще ездить в другие страны, выход бизнеса за рубеж перестал быть чем-то исключительным, даже по меркам небольших компаний. А раз так, то всё чаще возникают трудности в общении. Как следствие, машинный перевод сегодня всё чаще используется в бизнесе. Пусть даже результат переводов, предоставляемых компьютером, далёк от идеального, это всё же лучше, чем вообще ничего.
При помощи СМП появляется возможность очень быстро понять содержимое больших объёмов текстов, что просто невозможно при традиционном подходе. Это может быть очень полезно, например, при необходимости классификации большого количества информации на иностранном языке. Или для проведения лингвистического анализа.
Также МП стал обычным явлением при общении в интернете, когда очень важна высокая скорость перевода, понимания того, что сказал вам собеседник. Впрочем, о передаче литературных образов в таком случае можно смело забыть, если вы хотите, чтобы вас правильно понимали. Только «сухие» фразы, без каких-либо двусмысленностей.
Участие человека
Несмотря на создание различных подходов и решение вопросов с вычислительными мощностями, качество машинного перевода всё ещё далеко от идеального. Пусть даже успехи в этом деле и можно назвать впечатляющими, но только по сравнению с самыми первыми системами.
Современные СМП уже научились более-менее достойно переводить технические тексты, которые, как известно, не содержат в себе тех литературных вольностей, так часто встречающихся в текстах художественных. На качество перевода сильное влияние оказывает родственность языков. Например, при переводе с польского на украинский результат будет куда более достойным, чем с норвежского на корейский. Во втором случае полученный текст может оказаться просто нечитабельной бессмыслицей.
По этой причине машинный перевод пока не может обходиться без участия человека. Который либо изначально адаптирует текст, устраняя все возможные двусмысленности (предредактирование), либо редактирует уже готовый перевод, убирая из него почти неизбежные ошибки (постредактирование). Существует также и понятие интерредактирования, когда человек непосредственно вмешивается в работу системы, исправляя возникающие неточности «на лету».
Какие бывают СМП
На сегодняшний день работы в сфере МП разделились на два основных направления:
В первом случае перед нами самообучающиеся системы. Перевод становится возможным в результате постоянного анализа огромного количества текстов одинакового содержания, но на разных языках. Система находит и использует всегда существующие закономерности. Качество перевода в случае использования SMT считается достаточно высоким. Но только в том случае, если система уже успела проанализировать огромное количество информации. А для этого необходимо обладать не только самими тестами, но и внушительными вычислительными мощностями. Это означает, что работать в данном направлении могут только крупные компании. Примеры таких систем: Google Translator, Яндекс.Переводчик, а также Bing Translator от Microsoft.
В случае с RBMT-системами все правила создаются людьми, которые затем занимаются их непрестанным «обкатыванием». Соответственно качество результата зависит от того, насколько полно лингвисты сумеют описать естественный язык, с которым они работают. Именно необходимость постоянной поддержки созданной лингвистической базы данных в актуальном состоянии и является главным недостатком RBMT-систем. Зато для создания переводчика, способного обеспечить удовлетворительный результат, не требуются внушительные вычислительные мощности, что позволяет работать в данном направлении небольшим компаниям. В качестве примеров можно привести такие системы, как Multillect, Linguatec и PROMT.
Можно также выделить ещё и третий вариант: гибридный машинный перевод (Hybrid Machine Translation, HMT). Этот метод объединяет в себе оба подхода, SMT и RBMT. В теории такой подход позволяет получить преимущества обеих технологий. Именно его использует компания Systran, основанная в 1968 году и считающаяся старейшим коммерческим предприятием, работающим в сфере МП.
Машинный перевод. От Холодной войны до наших дней
Машинный перевод в последние годы получил очень широкое распространение. Наверняка, большинство моих читателей хоть раз пользовались сервисами Google.Translate или Яндекс.Перевод. Также вероятно, что многие помнят, что не так уж и давно, лет 5 назад пользоваться автоматическими переводчиками было очень непросто. Непросто в том смысле, что они выдавали перевод очень низкого качества. Под катом краткая и неполная история машинного перевода, из которой будет виден в этой задаче и некоторые его причины и последствия. А для начала картинка, которая показывает важную концепцию относительно машинного перевода:
Данная концепция называется концепцией «зашумленного канала» и пришла из радиотехники. В разных вариантах ее приписывают разным ученым, Найквисту, Кюпфмюллеру, Шеннону, но я в этом споре болею за нашего соотечественника — Владимира Александровича Котельникова, который в своей работе 1933 года доказал свою знаменитую теорему. Сама по себе эта теорема находится за пределами настоящей статьи, поэтому отсылаю заинтересовавшихся в Википедию.
Для нас же важно другое. Концепция шумного канала приложили к новому направлению — автоматическому машинному переводу. После окончания Второй Мировой войны наши заокеанские партнеры решили, что Советский Союз, показавший свою мощь, победив лучшую армию Европы и мира, представляет серьезную угрозу. Для купирования этой угрозы были предприняты разные действия, в том числе были начаты работы по автоматическому переводу с русского на английский. Понадобилось это потому, что Советский Союз производил чрезвычайно много информации — телепередачи, радио-переговоры, книги и журналы. А если учесть еще и переговоры наших союзников по организации Варшавского договора, то масштаб проблемы становился уже просто пугающим: обучить, а тем более содержать такую армию профессиональных переводчиков не представлялось возможным. И вот здесь родилась идея — давайте скажем, что текст на русском — это просто искаженный текст на английском, и попробуем алгоритмически восстановить «исходный» текст. Именно это и было предложено Уорреном Уивером (Warren Weaver) в 1949 году.
Концептуально это выглядит красиво, но встает вопрос, как это реализовать. Сильно забегая вперед по времени, реализовано это было на основании так называемого фразового перевода.
Но давайте пойдем по порядку. Какой самый простой способ перевода приходит на ум? Перевод по словарю — то есть берется готовый словарь, и все слова в предложении заменяются на их эквиваленты в другом языке. Именно такой подход был предложен небезызвестной компанией IBM в 1989 году. У данного подхода есть очевидный недостаток: порядок слов в разных языках может отличаться, и порой весьма сильно. Следующий шаг в данной модели — это допустить перестановки слов. А каким образом можно предсказать данные перестановки? В той же работе была предложена другая модель (если первая называется Model 1, то вторая называется очень логично Model 2). В этой системе помимо словаря есть так называемая модель выравнивания (alignment) — соотнесения слов в двух предложениях между собой. Выравнивание выучивается на основе статистики по корпусу. Очевидным недостатком данной модели является также то, что для подготовки корпуса, в котором сделано выравнивание, требуются очень значительные усилия, профессиональные переводчики должны не просто перевести текст, но и указать, какое слово является переводом какого.
Стоит отметить, что помимо разного порядка слов существует еще, например, проблема того, что какие-то слова будут вовсе без перевода (например, артикли не существуют в русском языке), а какие-то слова будут для своего перевода требовать более, чем одно слово (например, предлог + существительное). Коллеги из IBM назвали это коэффициентом фертильности (fertility rate) и строили модели для него также на основании статистики. Это уже Model 3 (довольно предсказуемо, не правда ли?). В той же работе описаны еще несколько моделей, они развивают описанные идеи путем добавления условий на предсказание перевода слова — например, на предыдущее слово, так как некоторые слова лучше сочетаются между собой и поэтому встречаются чаще. Вся эта группа моделей дала начало так называемому фразовому переводу (phrase-based translation).
Это направление существовало и развивалось, в частности, был разработан открытый фреймворк для машинного перевода Moses (по официальному сайту можно заметить, что он несколько пришел в упадок). В свое время — это было основное средство машинного перевода, хотя в то время и машинный перевод не был так распространен. Но в 2014 году случилось страшное — глубокое обучение добралось и до области машинного перевода. Если вы помните годом ранее оно добралось до векторных представлений слов, я это описывал статье, посвященной эмбеддингам. А в 2014-ом вышла статья за авторством Дмитрия Богданова (и соавторов, одним из которых был знаменитый Йошуа Бенжио (Yoshua Bengio)) под названием Neural Machine Translation by Jointly Learning to Align and Translate (или — нейронный машинный перевод путем совместного обучения выравнивания и перевода). В этой работе Дмитрий предложил использовать механизм внимания для рекуррентных нейронных сетей и с помощью него смог побить вышеупомянутый Moses на существенную величину.
Здесь нужно сделать отступление и поговорить о том, как же измерять качество машинного перевода. В работе Папинени 2002-ого года была предложена метрика BLEU (bilingual evaluation understudy — изучение двуязычного сравнения). Эта метрика в своей основе сравнивает, сколько слов из машинного перевода совпало со словами из человеческого варианта. Потом сравниваются словосочетания из двух слов, трех, четырех. Все эти цифры усредняются и получается ровно одна цифра, описывающая качество работы системы машинного перевода на данном корпусе. У данной метрики есть свои недостатки, например, могут существовать разные человеческие варианты перевода одного текста, но как ни удивительно за почти 20 лет не было предложено ничего более хорошего для оценки качества перевода.
Но вернемся к механизму внимания. Следует сказать, что рекуррентные сети были предложены 15 годами ранее, и тогда не произвели никакого фурора. Существенная проблема этих сетей была в том, что они очень быстро забывали то, что «прочли». Частично решить эту проблему для машинного перевода и помог механизм внимания. Вот он на картинке:
Что же он делает? Он взвешивает слова на входе, чтобы дать один вектор слова для перевода. Именно это позволило автоматически строить матрицы выравнивания, на основе «сырого» текста без разметки. Например, такие:
После того, как все увидели, что так можно, большие усилия были брошены на машинный перевод, который стал самой быстро развивающийся областью обработки естесственного языка. Были достигнуты существенные улучшения качества, в том числе для далеких языковых пар, таких, как английский и китайский или английский и русский. Рекуррентные сети правили бал довольно долго по современным меркам — почти 4 года. Но в конце 2017 прозвучали трубы, возвещающие о приближении нового царя горы. Это была статья Attention is all you need (внимание — все, что тебе нужно; парафраз названия знаменитой песни The Beatles «All you need is love»). В этой статье была представлена архитектура трансформер, которая чуть менее, чем полностью состояла из механизмов внимания. Подробнее про нее я рассказывал в статье, посвященной итогам 2017 года, так что не буду повторяться.
С тех пор утекло довольно много воды, но тем не менее, осталось еще много интересного. Например, два года назад, в начале 2018 года исследователи из компании Майкрософт заявили о достижении равенства по качеству с человеческим переводом на переводе с английского на китайский новостных документов. Данная статья много критиковалась, прежде всего с той позиции, что достижение равных цифр по BLEU — это показатель не полной адекватности метрики BLEU. Но хайп был порожден.
Другое интересное направления развития машинного перевода — это машинный перевод без параллельных данных. Как вы помните, применение нейронных сетей позволило отказаться от разметки выравнивания в переводных текстах для обучения модели машинного перевода. Авторы работы Unsupervised Machine Translation Using Monolingual Corpora Only (машинный перевод с использованием только одноязычных данных) представили систему, которая с некоторым качеством была способна переводить с английского на французский (качество было, конечно, ниже тогдашних лучших достижений, но всего лишь на 10%). Что интересно, те же авторы улучшили свой подход с использованием идей фразового перевода позже в том же году.
Наконец, последнее, что хотелось бы осветить, это так называемый неавторегрессивный перевод. Что это такое? Все модели, начиная, с IBM Model 3 при переводе опираются на предыдущие уже переведенные слова. А авторы работы, которая так и называется — неавторегрессивный машинный перевод, — попробовали избавить от этой зависимости. Качество получилось также несколько меньше, зато скорость такого перевода может быть в десятки раз быстрее, чем для авторегрессивных моделей. Учитывая, что современные модели могут быть очень большими и неповоротливыми, это уже существенный выигрыш, особенно под большой нагрузкой.
Само собой, что область не стоит на месте и предлагаются новые идеи, например, так называемый back-translation, когда переведенные самой моделью одноязычные данные используются для дальнейшей тренировки; использование сверточных сетей, что также быстрее стандартного в наши дни трансформера; использование предобученных больших языковых моделей (про них у меня есть отдельная статья). Все, к сожалению, не перечислить.
В нашей компании работает один ведущих ученых в области машинного перевода — профессор Цунь Лю (Qun Liu). Профессор Лю и я ведем курс по обработке естественного языка, в котором существенное внимание уделено именно машинному переводу. Если вы заинтересовались этой областью, то вы еще можете присоединиться к нашему курсу, который начался месяц назад.
А если вы чувствуете в себе силы, то мы будем рады видеть вас среди участников нашего соревнования по переводу с китайского на русский! Соревнование начнется 14 апреля и продлится ровно месяц. Надеемся, что наши участники добьются новых результатов в этой задаче и смогут продвинуть всю область машинного перевода. Соревнование пройдет на платформе MLBootCamp, и мы очень благодарны команде MLBootCamp и лично Дмитрию Санникову за помощь в организации.
Для чего и для кого годится машинный перевод?
Илон Маск не тратит время своих детей на изучение иностранных языков. Он верит, что они-то – уж точно доживут до фантастически достоверного и полезного машинного перевода. Действительно, у нас на глазах научная фантастика становится реальностью: «умные» дома встречают нас с работы горячим ужином, голосовые помощники шутят с нами в чатах, а антропоморфные роботы поддерживают диалог на нескольких языках. Так когда же уже равноценный человеку переводчик появится в каждом смартфоне?
Никогда! Или очень нескоро – вот первая неутешительная новость. Дело в том, что люди, владеющие языками, способны передавать смысл написанного своими словами, не привязываясь к структуре исходника. Машины же переводят пословно или пофразово и научить их оперировать не словами, а образами – это все равно, что изобрести искусственный интеллект. Что значит «оперировать образами?» Это значит – понимать переводимый текст, интерпретировать его. То есть, ни больше, ни меньше – обладать сознанием.
Хорошая новость в том, что за более чем 70 лет существования машинного перевода мы уже прошли довольно большой путь от статистических методов до искусственных нейронных сетей.
Сети умеют читать предложения и слева направо, и справа налево, побуквенно транслитерируют собственные имена и вместо того, чтобы запоминать множество вариантов перевода, оперируют семантикой целого текста, разбивая его на сегменты, после чего анализируют и синтезируют их. Результат получается достойный, причем, в некоторых случаях, система переводит даже фразеологизмы.
Нейронные сети не справляются
Язык – это очень гибкая система с неограниченным набором размытых правил. И хотя нейронные сети уже схватывают семантические и синтаксические связи в предложениях и даже распознают акцент говорящего, они не умеют (и, скорее всего, не научатся) учитывать культурологические, когнитивные, литературные и прочие аспекты перевода. Иными словами, контекст может кардинальным образом нарушить коммуникацию, потому что:
Компьютер не может понять культуру:
Компьютер плохо переводит идиомы:
Компьютер не способен передать эмоции песен и стихов:
Эмоционально-окрашенные тексты, фразеологические обороты, культурный подтекст – это тоже не к машине:
Договоры, гарантийные письма, маркетинговые материалы, медицинские документы, ошибка в которых может стоить кому-то жизни – это не к машине:
Рекламные лозунги, любые художественные тексты – это слишком тяжело, многозначно и не формализовано для машинного перевода. Да и сам термин «перевод» по отношению к литературному тексту, вероятно, не вполне корректен. Здесь задача переводчика – не декодировать текст, а найти эквивалентную по значению лексику в языке перевода. Переводчик работает со смыслами, а не со словами и в работе полагается на литературное чутье:
Ведь земля совершает оборот за двадцать четыре часа…
– Оборот? – повторила Герцогиня задумчиво.
И, повернувшись к кухарке, прибавила:
– Возьми-ка ее в оборот! Для начала оттяпай ей голову!
Доверяя машине, мы отрезаем от текстов всю потрясающую лингвистическую игру, на которой строится юмор известных шоу, фильмов и сериалов, из которой вырастает сентиментальное послевкусие любимых песен:
Для чего и для кого годится машинный перевод?
Для не знающих язык людей, которым нужно в самых общих чертах понять содержание какого-то текста. Для переводчиков, которым необходим «шаблон» для редактирования. Ну, и конечно, для бизнеса, которому нужно ускорять процессы межкультурных коммуникаций.
Другое дело, что машинный перевод все равно придется редактировать человеку, а для этого нужно уметь замечать и исправлять ошибки, сделанные машиной. Это отдельный трудоемкий процесс, который требует специфического навыка. Этот навык – базовый для филолога, а вот обычного студента обучить ему почти так же трудозатратно, как… английскому языку в степени, необходимой для понимания большинства текстов.
Какие выводы?
Машинный перевод может послужить хорошим бойцом в формальной деловой переписке, но предаст вас в живой коммуникации. Полагаясь на машинный перевод, мы вообще лишаем себя элементарной радости общения, ведь никто не хочет разговаривать со смартфоном – во всяком случае, пока он не торчит на месте вашей собственной головы. Но такого нам даже научная фантастика не предсказывала.
Делая ставку на машинный перевод, мы фактически ставим на скорое появление сознания у компьютеров, подобного человеческому. То есть, самосознания, позволившего бы машине понять, что именно она «читает» и перевести это по-человечески. Все ли процессы человеческого мозга можно свести к алгоритмам? Маловероятно, что этот вопрос будет решен в ближайшее время. А вот изучение английского языка с применением всех достижений научного прогресса – вещь быстрая и результативная.
Для тех, кто не готов променять теплое живое общение с прекрасными людьми по всему миру на бездушный машинный перевод, мы кое-что приготовили. По ссылке – запись на бесплатное занятие по английскому языку в школе Skyeng. Введите при регистрации промокод HABR2: в подарок добавятся 2 урока при первой оплате.
История и опыт использования машинного перевода. Лекция Яндекса
В сентябре прошёл шестой Гипербатон — конференция Яндекса обо всём, что связано с технической документацией. Мы опубликуем несколько лекций с Гипербатона, которые, на наш взгляд, могут быть наиболее интересны читателям Хабра.
Светлана Каюшина, руководитель отдела документирования и локализации:
— Кажется, в мире уже не осталось людей, которые переводят вручную. Сегодня мы хотим поговорить об инструментах и подходах, которые помогают компаниям организовывать эффективный процесс локализации, а переводчикам облегчают решение их повседневных задач. Сегодня мы поговорим о машинном переводе, об оценке эффективности машинных движков и о системах автоматизированного перевода для переводчиков.
Начнем с доклада наших коллег. Приглашаю Ирину Рыбникову и Анастасию Пономарёву — они расскажут об опыте Яндекса по внедрению машинного перевода в наши процессы локализации.
Ирина Рыбникова:
— Спасибо. Мы расскажем про историю машинного перевода и про то, как мы используем его в Яндексе.
Еще в XVII веке ученые размышляли о существовании какого-то языка, который связывает между собой другие языки, и наверное, это слишком давно. Давайте поближе вернемся. Все мы хотим понимать людей вокруг — неважно, куда мы приехали, — мы хотим видеть, что написано на вывесках, мы хотим читать объявления, информацию о концертах. Идея вавилонской рыбки бороздит умы ученых, встречается в литературе, кинематографе — везде. Мы хотим сократить то время, за которое мы получаем доступ к информации. Мы хотим читать статьи о китайских технологиях, понимать любые сайты, которые мы видим, и хотим это получать здесь и сейчас.
В разрезе этого невозможно не говорить про машинный перевод. Это то, что помогает решать указанную задачу.
Отправной точкой считается 1954 год, когда в США на машине IBM 701 было переведено 60 предложений по общей тематике органической химии с русского на английский, и в основе всего этого лежало 250 терминов глоссария и шесть грамматических правил. Это называлось Джорджтаунским экспериментом, и это настолько потрясло реальность, что газеты пестрили заголовками, что еще три-пять лет, и проблема будет полностью решена, все будут счастливы. Но как вы знаете, все пошло немного по-другому.
В 70-е годы появился машинный перевод на основе правил. В его основе тоже лежали двуязычные словари, но и те самые наборы правил, которые помогали описывать любой язык. Любой, но с ограничениями.
Требовались серьезные эксперты-лингвисты, которые прописывали правила. Это достаточно сложная работа, она все равно не могла учесть контекст, полностью покрыть какой бы то ни было язык, но они были экспертам, и высокие вычислительные мощности тогда не требовались.
Если говорить про качество, классический пример — цитата из Библии, которая переводилась тогда так. Пока недостаточно. Поэтому люди продолжали дальше работать над качеством. В 90-е годы возникла статистическая модель перевода, SMT, которая говорила о вероятностном распределении слов, предложений, и эта система принципиально отличалась тем, что она вообще ничего не знала про правила и про лингвистику. Она получала на вход огромное количество идентичных текстов, парных на одном языке и другом, и дальше сама принимала решения. Это было легко поддерживать, не нужны были кучи экспертов, не требовалось ждать. Можно было загружать и получать результат.
Требования к входящим данным были достаточно средние, от 1 до 10 млн сегментов. Сегменты — предложения, небольшие фразы. Но оставались свои трудности и не учитывался контекст, все было не очень легко. И в России, например, появились такие случаи.
Мне еще нравится пример переводов игр GTA, великолепный был результат. Все не стояло на месте. Достаточно важным майлстоуном был 2016 год, когда запустился нейронный машинный перевод. Это было достаточно эпохальное событие, которое сильно перевернуло жизнь. Моя коллега, посмотрев переводы и то, как мы их используем, сказала: «Круто, он говорит моими словами». И это было реально здорово.
Какие особенности? Высокие требования на входе, обучающий материал. Внутри компании это сложно поддерживать, но существенный рост качества — это то, ради чего это затевалось. Только качественный перевод позволит решить поставленные задачи и облегчит жизнь всем участникам процесса, тем же переводчикам, которые не хотят исправлять плохой перевод, они хотят делать новые творческие задачи, а рутинные шаблонные фразы давать машине.
В рамках машинного перевода есть два подхода. Экспертная оценка / лингвистический анализ текстов, то есть проверка реальными лингвистами, экспертами на соответствие смыслу, грамотности языка. В некоторых случаях еще сажали экспертов, давали вычитать переведенный текст и оценивали, насколько это эффективно с этой точки зрения.
Какие особенности этого метода? Не требуется образец перевода, мы смотрим на готовый переведенный текст сейчас и оцениваем объективно по любому разрезу. Но это дорого и долго.
Есть второй подход — автоматические референсные метрики. Их много, у каждой есть плюсы и минусы. Не буду углубляться, про эти ключевые слова потом можно почитать детальнее.
Какая особенность? По факту это сравнение переведенных машинных текстов с каким-то образцовым переводом. Это количественные метрики, которые показывают расхождение между образцовым переводом и тем, что получилось. Это быстро, дешево и можно сделать достаточно удобно. Но есть особенности.
По факту чаще всего сейчас используют гибридные методы. Это когда изначально оценивается что-то автоматически, потом анализируется матрица ошибок, потом на более мелком корпусе текстов проводится экспертный лингвистический анализ.
Последнее время еще распространена практика, когда мы туда не лингвистов зовем, а просто пользователей. Делается интерфейс — покажите, какой вам перевод больше нравится. Или когда вы ходите в онлайн-переводчики, вы вводите текст, и можете часто проголосовать, что вам больше нравится, подходит этот подход или нет. По сути, все мы сейчас обучаем эти движки, и все, что мы им даем на перевод, они используют для обучения и работают над своим качеством.
Хотелось бы рассказать, как мы в работе используем машинный перевод. Передаю слово Анастасии.
Анастасия Пономарёва:
— Мы в Яндексе в отделе локализации поняли достаточно быстро, что возможности у технологии машинного перевода большие, и решили попробовать использовать его в наших ежедневных задачах. С чего мы начали? Мы решили провести небольшой эксперимент. Мы решили перевести одни и те же тексты через обычный нейросетевой переводчик, а также собрать обученный машинный переводчик. Для этого мы подготовили корпуса текстов в паре русский-английский за те годы, что мы в Яндексе занимались локализацией текстов на эти языки. Далее мы пришли с этим корпусом текстов к нашим коллегам из Яндекс.Переводчика и попросили обучить движок.
Когда движок был обучен, мы перевели очередную порцию текстов, и как сказала Ирина, с помощью экспертов оценили полученные результаты. Переводчиков мы просили посмотреть на грамотность, стиль, правописание, передачу смысла. Но самый поворотный момент был, когда один из переводчиков сказал, что «я узнаю свой стиль, узнаю свои переводы».
Чтобы подкрепить эти ощущения, мы решили посчитать уже статистические показатели. Сначала мы посчитали коэффициент BLEU для переводов, сделанных через обычный нейросетевой движок, и получили такую цифру (0,34). Казалось бы, ее надо с чем-то сравнить. Мы снова пошли к коллегам из Яндекс.Переводчика и попросили объяснить, какой коэффициент BLEU считается пороговым для переводов, сделанных реальным человеком. Это от 0,6.
Потом мы решили проверить, какие результаты на обученных переводах. Получили 0,5. Результаты действительно обнадеживающие.
Привожу пример. Это реальная русская фраза из документации Директа. Потом она была переведена через обычный нейросетевой движок, а потом через обученный нейросетевой движок на наших текстах. Уже в первой же строчке мы замечаем, что традиционный для Директа, вид рекламы, не распознан. А уже в обученном нейросетевом движке появляется наш перевод, и даже аббревиатура практически верная.
Мы были очень воодушевлены полученными результатами, и решили, что наверное, стоит использовать машинный движок в других парах, на других текстах, не только на том базовом наборе технической документации. Дальше проводили несколько месяцев ряд экспериментов. Столкнулись с большим количеством особенностей и проблем, это самые частые проблемы, что нам приходилось решать.
Про каждую расскажу подробнее.
Если вы так же, как и мы, соберетесь сделать кастомизированный движок, вам понадобится достаточно большое количество качественных параллельных данных. Большой движок можно обучить на количестве от 10 тыс. предложений, в нашем случае мы подготовили 135 тыс. параллельных предложений.
Не на всех типах текста ваш движок покажет одинаково хорошие результаты. В технической документации, где есть длинные предложения, структура, пользовательская документация и даже в интерфейсе, где есть короткие, но однозначные кнопки, скорее всего, у вас все будет хорошо. Но возможно, как и у нас, вы столкнетесь с проблемами в маркетинге.
Мы проводили эксперимент, переводя плейлисты музыки, и получили такой пример.
Вот что думает машинный переводчик про звездных фабриканток. Что это ударники труда.
При переводе через машинный движок контекст не учитывается. Тут уже не такой смешной пример, а вполне реальный, из технической документации Директа. Казалось бы, тех — понятно, когда ты читаешь техническую документацию, тех — это техническое. Но нет, машинный движок не попал.
Еще придется учитывать, что качество и смысл перевода будет сильно зависеть от языка-оригинала. Переводим фразу на французский с русского, получаем один результат. Получаем похожую фразу с таким же смыслом, но с английского, и получаем другой результат.
Если у вас, как и в нашем тексте, большое количество тегов, разметки, каких-то технических особенностей, скорее всего вам придется их отслеживать, править и писать какие-то скрипты.
Вот примеры реальной фразы из браузера. В круглых скобках техническая информация, которая не должна переводиться, в частности множественные формы. В английском они на английском, и в немецком тоже должны остаться на английском, но они переведены. Вам придется отслеживать эти моменты.
Машинный движок ничего не знает про ваши особенности именования. Например, у нас есть договоренность, что Яндекс.Диск мы везде называем на латинице во всех языках. Но на французском он превращается в диск на французском.
Аббревиатуры иногда распознаются корректно, иногда нет. В данном примере BY, обозначая принадлежность к белорусским техническим требованиям по размещению рекламы, превращается в предлог в английском.
Один из моих любимых примеров — новые и заимствованные слова. Тут классный пример, слово дисклеймер, «исконно русский». Терминологию придется выверять для каждой части текста.
И еще одна, уже не такая значительная проблема — устаревшее написание.
Раньше интернет был новинкой, во всех текстах писался с большой буквы, и когда мы обучали наш движок, везде интернет был с большой буквы. Сейчас новая эра, интернет уже пишем с маленькой буквы. Если вы хотите, чтобы ваш движок продолжал писать интернет с маленькой буквы, вам придется его переобучать.
Мы не отчаивались, решали эти проблемы. Во-первых, меняли корпусы текстов, пробовали на других тематиках переводить. Мы передавали наши замечания коллегам из Яндекс.Переводчика, повторно обучали нейросеть и смотрели на результаты, оценивали, и просили доработать. Например, распознавание тегов, обработку HTML разметки.
Я покажу реальные варианты использования. У нас хорошо идет машинный перевод для технической документации. Это реальный кейс.
Вот фраза на английском и на русском. Переводчик, который занимался этой документацией, был очень воодушевлен адекватным выбором терминологии. Еще пример.
Переводчик оценил выбор is вместо тире, что тут поменялась структура фразы на английскую, адекватный выбор термина, которая является верным, и слово you, которого нет в оригинале, но он делает этот перевод именно английским, естественным.
Еще один кейс — переводы интерфейсов на лету. Один из сервисов решил не заморачиваться с локализацией и переводить тексты прямо во время загрузки. Но после изменения движка примерно раз в месяц слово «доставка» менялось по кругу. Мы предложили команде подключить не обычный нейросетевой движок, а наш, обученный на технической документации, чтобы использовался всегда один и тот же термин, согласованный с командой, который уже есть в документации.
Как это все действует на денежный момент? Исконно так сложилось, что в паре русский-украинский требуется минимальная редактура украинского перевода. Поэтому мы пару месяцев назад решили перейти на систему постэдитинга. Вот как растет наша экономия. Сентябрь еще не закончился, но мы прикинули, что мы сократили наши затраты на постэдитинг приблизительно на треть на украинском, и дальше собираемся редактировать практически все, кроме маркетинговых текстов. Слово Ирине для подведения итогов.
Ирина:
— Для всех становится очевидным, что пользоваться этим надо, это уже является нашей реальностью, и исключать это из своих процессов и интересов нельзя. Но нужно подумать о нескольких вещах.
Определитесь с тем типов документов, контекста, с которым вы работаете. Подходит ли эта технология конкретно для вас?
Второй момент. Мы разговаривали про Яндекс.Переводчик, потому что мы в хороших отношениях, у нас прямой доступ к разработчикам и так далее, но по факту вам нужно определиться — какой из движков будет наиболее оптимальным для вас конкретно, для вашего языка, вашей тематики. Этой теме будет посвящен следующий доклад. Будьте готовы, что пока еще есть трудности, разработчики движков все вместе работают над решением трудностей, но пока они еще встречаются.
Хотелось бы понять, что нас ждет в дальнейшем. Но по факту, это уже не дальнейшее, а наше нынешнее время, то, что происходит здесь и сейчас. Нам всем скорее нужна кастомизация под нашу терминологию, под наши тексты, и это то, что сейчас становится публичным. Теперь все работают над тем, чтобы вы не ходили внутрь компании, не договаривались с разработчиками конкретного движка, как бы это оптимизировать под вас. Вы сможете это получать в публичных открытых движках по API.
Кастомизация идет не только по текстам, но и по терминологии, по настройке терминологии под ваши собственные нужны. Это достаточно важный момент. Вторая тема — интерактивный перевод. Когда переводчик переводит текст, технология позволяет ему предсказывать следующие слова с учетом исходного языка, исходного текста. Это оже существенно может облегчать работу.
О том, что сейчас действительно дорого. Все думают, как меньшими объемами текста обучить какие-то движки гораздо более эффективно. Это то, что происходит везде и запускается повсеместно. Думаю, тема очень интересная, а дальше будет еще интереснее.
Мы собрали несколько статей, которые могут заинтересовать вас. Спасибо!