Нейронний машинний перекладНейронний машинний переклад (NMT) — різновид машинного перекладу, який передбачає використання штучної нейронної мережі для прогнозування ймовірності послідовності слів, зазвичай шляхом оперування одразу цілими реченнями в одній інтегрованій моделі. ВластивостіNMT-моделі використовують глибоке навчання та навчання ознакам. Для їх роботи потрібна лише частка пам'яті, необхідної для використання традиційних моделей статистичного машинного перекладу (SMT). Крім того, на відміну від звичайних систем перекладу, усі частини моделі нейронного перекладу навчаються разом від початку до кінця (end-to-end), що дає змогу максимізувати продуктивність перекладу[1][2] [3]. ІсторіяУперше програми глибокого навчання почали застосовувати в 1990-х роках у задачах із розпізнавання мовлення. Перша наукова стаття про використання нейронних мереж у машинному перекладі з'явилася у 2014 році, а впродовж кількох наступних із її допомогою вдалося вирішити чимало інших задач. Станом на 2017 рік це такі системи:
У 2015 році NMT-система вперше з'явилася на відкритому конкурсі машинного перекладу (OpenMT '15[4]). На WMT '15 теж уперше взяв участь NMT-претендент[5]; наступного року серед переможців було вже 90 % NMT-систем[6]. З 2017 року Європейське патентне відомство використовує нейронний машинний переклад для миттєвого надання доступу до інформації, вміщеної у глобальній патентній системі[7]}}. Система, розроблена у співпраці з Google, працює 31 мовою. Станом на 2018 рік система переклала понад 9 млн документів[7]}}. НапрацюванняNMT-система є розвитком статистичного підходу на рівні фраз, який працює на основі незалежних підкомпонентів[8]. Нейронний машинний переклад (NMT) не є кардинальною відмовою від статистичного машинного перекладу (SMT). Його основним вихідним пунктом є використання векторного подання слів і внутрішніх станів — «вбудовування» (embeddings), «подання в неперервному просторі» (continuous space representations). Структура NMT-моделей простіша порівняно зі структурою моделей на основі фраз: у ній немає окремої мовної моделі, моделі перекладу та моделі перевпорядкування, а є лише одна модель послідовностей, яка передбачає одне слово за раз. Однак це передбачення послідовності слів спирається одразу на все вихідне речення та на всю вже створену цільову послідовність. Перші спроби моделювання послідовності слів зазвичай проводилися за допомогою рекурентної нейронної мережі (RNN). Двонаправлена рекурентна нейронна мережа, так званий кодувальник (encoder), використовується для кодування вихідного речення для другої RNN, відомого як розкодувальник (decoder), а та, своєю чергою, використовується для передбачення слів цільовою мовою[9]. Перед рекурентними нейронними мережами постають труднощі під час кодування довгих вхідних даних в один вектор. Їх можна подолати за допомогою механізму уваги (attention mechanism)[10], який дає декодувальнику змогу зосереджуватися на різних частинах вхідних даних під час генерації кожного вихідного слова. Існують моделі покриття (coverage models) для вирішення проблем у таких механізмах уваги, які призводять до генерування надто довгого або надто короткого перекладу[11] (наприклад, ігнорування наявної інформації про вирівнювання). Згорткові нейронні мережі (convnets) дещо краще обробляють довгі неперервні послідовності, але певний час їх не використовували через наявність кількох недоліків. У 2017 році ці недоліки вдалося успішно подолати за допомогою «механізмів уваги»[12]. Домінуючою архітектурою для кількох мовних пар залишається модель Transformer, яка базується на механізмі уваги[13]. На рівнях «самоуваги» цієї моделі досліджуються залежності між словами послідовності шляхом аналізу зв'язків між усіма словами в парних послідовностях і безпосереднього моделювання цих зв'язків. Цей підхід простіший, ніж механізм селекції, на якому працюють рекурентні нейронні мережі. А його простота дала дослідникам змогу розробляти високоякісні моделі перекладу за допомогою моделі Transformer, навіть в умовах, коли кількість вхідних даних невелика. Приклади застосуванняНейронний переклад використовується у сервісах перекладу багатьох компаній — як-от Google, Microsoft, Яндекс, ПРОМТ.
Пропонувати системи на основі нейронних мереж почали й інші постачальники машинного перекладу, зокрема Omniscien Technologies (раніше Asia Online)[16], KantanMT, SDL[17], Globalese[18], Systran[19] тощо. DeepL надає загальну систему перекладу із системами штучного інтелекту глибокого навчання. Див. також
Примітки
|