автоматического перевода с символических языков в машинные коды
A) автоматического перевода с символических языков в машинные коды
b) работы с таблицами
c) работы с изображениями в процессе создания игровых программ
d) управления ресурсами ПК при создании документов
e) работы с текстовой информацией в процессе делопроизводства, редакционнс-издательской деятельности и др
730) Командное меню, строка меню текстового редактора- это:
A) часть его интерфейса, обеспечивающая переход к выполнению различных операций над текстом
b) своеобразное «окно», через которое текст просматривается на экране
c) подпрограмма, обеспечивающая сохранность документ
d) подпрограмма, обеспечивающая управление ресурсами ПК при создании документа
e) информация о текущем состоянии текстового редактора
731) Активная ячейка-это ячейка:
A) в которой выполняется ввод данных
b) содержащая формулу, включающую в себя имя ячейки, в которой выполняется ввод данных
c) для записи команд
d) содержащая результат вычисления
e) формула, в которой содержатся ссылки на содержимое зависимой ячейки
732) Книга, дискета, жесткие диски служат для:
A) хранение информации
b) сбора информации
c) передачи информации
d) обработки информации
e) создания информации
733) Клавиша перевода курсора в начало строки –
A) Home
734) В программе Excel для обозначения всех видов графического
a) Диаграммапредставления числовых данных используется:
735) В каком разделе формы Access располагаются основной объем данных?
A) Область данных
736) При построении блок-схемы алгоритма блоком «параллелограмм» изображается:
A) ввод и вывод данных
d) вызов вспомогательного алгоритма
e) расчет параметров
737) При построении блок-схемы алгоритма блоком «ромб» изображается:
A) проверка условия
b) вызов вспомогательного алгоритма
c) вывод на принтер
e) расчет параметров
738) Логическое умножение обозначается союзом:
a) AND (И)
739) Локальная сеть-это:
A) Группа компьютеров в одном здании
b) Комплекс объединенных компьютеров для совместного решения задач
c) Слабо точные коммуникации
e) Система Internet
740) Число 00111001 представленное в двоичной системе счисления соответствует десятичному:
A) 57
741) Сочетание клавиш PRINT SCREEN используется:
Дата добавления: 2015-04-18 ; просмотров: 19 ; Нарушение авторских прав
Нейросети без учителя переводят с языков, для которых нет параллельного корпуса текстов
Машинный перевод с помощью нейросетей прошёл долгий путь с момента первых научных исследований на эту тему и до того момента, как компания Google заявила о полном переводе сервиса Google Translate на глубинное обучение.
Как известно, в основе нейронного переводчика механизм двунаправленных рекуррентных нейронных сетей (Bidirectional Recurrent Neural Networks), построенный на матричных вычислениях, который позволяет строить существенно более сложные вероятностные модели, чем статистические машинные переводчики. Однако всегда считалось, что нейронный перевод, как и статистический, требует для обучения параллельных корпусов текстов на двух языках. На этих корпусах обучается нейросеть, принимая человеческий перевод за эталонный.
Как теперь выяснилось, нейросети способны освоить новый язык для перевода даже без параллельного корпуса текстов! На сайте препринтов arXiv.org опубликованы сразу две работы на эту тему.
«Представьте, что вы даёте какому-то человеку много китайских книг и много арабских книг — среди них нет одинаковых — и этот человек обучается переводить с китайского на арабский. Это кажется невозможным, правда? Но мы показали, что компьютер способен на такое», — говорит Микель Артетксе (Mikel Artetxe), учёный, работающий в области компьютерных наук в Университете Страны Басков в Сан-Себастьяне (Испания).
Большинство нейросетей машинного перевода обучается «с учителем», в роли которого как раз выступает параллельный корпус текстов, переведённый человеком. В процессе обучения, грубо говоря, нейросеть делает предположение, сверяется с эталоном, и вносит необходимые настройки в свои системы, затем обучается дальше. Проблема в то, что для некоторых языков в мире нет большого количества параллельных текстов, поэтому они недоступны для традиционных нейросетей машинного перевода.
Две новые модели предлагают новый подход: обучение нейросети машинного перевода без учителя. Система сама пытается составить некое подобие параллельного корпуса текстов, выполняя кластеризацию слов друг вокруг друга. Дело в том, что в большинстве языков мира присутствуют одни и те же смыслы, которым просто соответствуют разные слова. Так вот, все эти смыслы группируются в одинаковые кластеры, то есть одни и те же смыслы-слова группируются вокруг одних и тех же смыслов-слов, практически независимо от языка (см. статью «Нейросеть Google Translate составила единую базу смыслов человеческих слов»).
«Универсальный язык» нейронной сети Google Neural Machine Translation (GNMT). На левой иллюстрации разными цветами показаны кластеры значений каждого слова, справа внизу — смыслы слова, полученные для него из разных человеческих языков: английского, корейского и японского
Составив гигантский «атлас» для каждого языка, затем система пытается наложить один такой атлас на другой — и вот пожалуйста, у вас готово некое подобие параллельных текстовых корпусов!
Можно сравнить схемы двух предлагаемых архитектур обучения без учителя.
Архитектура предлагаемой системы. Для каждого предложения на языке L1 система учится чередованию двух шагов: 1) шумоподавление (denoising), которое оптимизирует вероятность кодирования зашумлённой версии предложения с общим энкодером и его реконструкции декодером L1; 2) обратный перевод (back-translation), когда предложение переводится в режиме вывода (то есть кодируется общим энкодером и декодируется декодером L2), а затем оптимизируется вероятность кодирования этого переведённого предложения с общим энкодером и восстановления оригинального предложения декодером L1. Иллюстрация: научная статья Микеля Артетксе и др.
Предлагаемая архитектура и цели обучения системы (из второй научной работы). Архитектура представляет собой модель перевода по предложениям, где и энкодер, и декодер работают на двух языках, в зависимости от идентификатора входного языка, который меняет местами поисковые таблицы. Вверху (автокодирование): модель обучается выполнять шумоподавление в каждом домене. Внизу (перевод): как и прежде, плюс мы кодируем с другого языка, используя в качестве входных данных перевод, произведённый моделью в предыдущей итерации (голубой прямоугольник). Зелёные эллипсы указывают термины в функции потерь. Иллюстрация: научная статья Гильома Лампла и др.
Обе научные работы используют заметно схожую методику с небольшими отличиями. Но в обоих случаях перевод осуществляется через некий промежуточный «язык» или, лучше сказать, промежуточное измерение или пространство. Пока что нейросети без учителя показывают не очень высокое качество перевода, но авторы говорят, что его легко повысить, если использовать небольшую помощь учителя, просто сейчас ради чистоты эксперимента этого не делали.
Отметим, что вторую научную работу опубликовали исследователи из подразделения Facebook AI.
Работы представлены для Международной конференции по обучающим представлениям 2018 года (International Conference on Learning Representations). Ни одна из статей ещё не опубликована в научной прессе.
Единица перевода
Единица переводческого процесса — отрезок текста оригинала, который выступает в процессе перевода как относительно самостоятельный объект этого процесса. В ином плане единица перевода может определяться как единица эквивалентности, т.е. минимальная единица содержания оригинала, сохраняемая в тексте перевода.
Термин был предложен Ж. Вине и Ж. Дарбельне. Размеры единицы перевода нестабильны и могут варьироваться в широких пределах, а сама единица является операционной. Многое в характеристике единицы перевода пока не ясно, хотя часто подчеркивается именно психолингвистический характер единицы перевода. Нередки случаи, когда при переводе одного и того же текста разные переводчики в качестве единицы перевода выбирают единицы перевода разного объема. Выделение единицы перевода имеет большое значение для машинного перевода, а также устного перевода (синхронного и последовательного).
И.С. Алексеева выявила четыре подхода к определению единицы перевода. В основе первого лежит сам процесс перевода. Таким образом, единицей перевода (или единицей переводческого процесса) считается «минимальный отрезок текста, выступающий в качестве самостоятельного объекта процесса перевода» (Алексеева, 2004, с. 149). Чаще всего единицей перевода в этом случае будет предложение.
Третий способ выявления единицы перевода ориентирован на план содержания, поэтому в этом случае важен «анализ состава содержания оригинала, зависимый от функции текста» (там же). Содержание текста членится на «элементарные смыслы» (там же).
Наконец, четвертый способ вычленения единицы перевода основывается на принципе семантического единства. «Единицей перевода здесь считается минимальная языковая единица текста оригинала, воспринимаемая как единое целое с точки зрения семантики» (там же). Эта единица исходного текста имеет соответствие в тексте перевода, но ее составные части не имеют соответствий, при этом она сама может обладать сложной структурой, но ее части непереводимы. Единицей перевода этого типа может быть единица любого языкового уровня, поэтому можно говорить о переводе на уровне фонем/графем, морфем, слов, словосочетания, предложения, текста.
Дата добавления: 2015-04-18 ; просмотров: 11 ; Нарушение авторских прав
Автоматического перевода с символических языков в машинные коды
Многие любители не испытывают серьезных трудностей в овладении БЕЙСИКом. Для этого достаточно немного практики. Но рано или поздно они приходят к барьеру «машинного кода». Как это ни печально, но некоторые так перед ним и останавливаются. Это ни в коей мере не связано с отсутствием желания или способностей, просто многие не знают, с чего начать. Если в БЕЙСИКе можно начинать с чего угодно (при ошибке компьютер сам Вас поправит), то здесь Вы оказываетесь с процессором один на один, и такой метод проб и ошибок не срабатывает.
Итак, давайте напишем первую программу в машинном коде. Прежде всего, выделим для нее область памяти. Если Вы читали нашу книгу «Большие возможности Вашего «ZX-Spectrum`а», то знаете, что для БЕЙСИКа в оперативной памяти компьютера отведена область памяти, начинающаяся с адреса, на который указывает системная переменная PROG и заканчивается адресом, на который указывает системная переменная RAMTOP. Предположим, что Вы хотите записать программу в машинных кодах, начиная с адреса 30000. Дайте команду CLEAR 29999. Эта команда установит RAMTOP в 29999 и Ваша программа будет защищена от возможной порчи из БЕЙСИКа. Даже если Вы дадите команду NEW, области памяти, находящиеся выше RAMTOP, не будут поражены.
Теперь дайте две прямые команды одну за другой:
Если все, что Вы здесь прочитали, Вам понятно, то Вы уже поняли, как составляются программы в машинных кодах. Можно, конечно, возразить, что пользы от такой программы не очень много, но сейчас не в этом суть. Важно, чтобы Вы поняли, что некая последовательность чисел может быть последовательностью команд для процессора Z-80.
Теперь давайте вернемся к нашей первой программе и попробуем ее несколько развить, чтобы она все же что-то делала. Процессор Z-80 имеет несколько регистров, у которых есть имена – «А», «В», «С» и т.д. Каждый из них может содержать одно какое-либо целое число от 0 до 255 (т.е. один байт).
Существуют десятки команд процессора, которые позволяют копировать содержимое регистров из одного в другой, а также выполнять связь с внешним миром, в т.ч. и с оперативной памятью.
Итак, мы уже готовы к тому, чтобы написать программу, которая будет перебрасывать какое-либо число из одного регистра процессора в другой.
Три движка машинного перевода для CAT
Машинный перевод может значительно ускорить работу переводчика, если он органически интегрирован в его CAT (про Computer Aided Translation читайте здесь). Вместо того, чтобы переходить на страничку с Google Translate и копировать текст туда, интегрированный движок машинного перевода автоматически покажет перевод для каждого сегмента. Остаётся только оценить его качество, вставить с помощью горячей клавиши и отредактировать при необходимости. Или проигнорировать и написать текст с нуля.
Где пригодится машинный перевод
Такое использование MT помогает в нескольких сценариях:
Как получить доступ к машинному переводу
Для использования стороннего сервиса машинного перевода ваш CAT должен поддерживать доступ через API. В общих чертах, работает это так:
Теперь в процессе перевода каждый сегмент будет автоматически отправляться на сервер машинного перевода, а результат будет отображаться в CAT. Вот пример, как использовать это в OmegaT.
Топ-3 сервиса машинного перевода с API
Yandex Translate
Цена: бесплатно до миллиона символов в сутки
Хорошая и фактически бесплатная альтернатива переводчику от Google. Лимит в миллион символов (
550 страниц текста мелким шрифтом) вам преодолеть вряд ли удастся. Получить ключ сейчас очень просто:
Готово, у вас есть ключ для вашего софта.
IBM Watson
Цена: бесплатно до миллиона символов в месяц
Неожиданный бесплатный движок, который не требует привязывать банковскую карту для начала использования.
Ключ API будет доступен в настройках ресурса. Для использования в OmegaT понадобится ещё и URL, который указан на той же странице.
Google Cloud
Там вы найдёте ключи API, которые и нужно подключать в вашем CAT.
Есть ещё машинный перевод от Microsoft Azure, но у него довольно муторная регистрация, и self-hosted движок Apertium с довольно сложной настройкой. О них в другой раз.
Если вы не нашли здесь свой любимый движок — напишите о нём в комментариях!