ОАО «Агентство по распространению зарубежных изданий»
На главную   Написать письмо
Качество,
      проверенное временем!

Энергетик


Промышленная энергетика


Электрические станции

Разработчики попытаются научить системы машинного перевода грамматике

Создатели системы автоматизированного перевода из университета Южной Калифорнии, считающейся одной из лучших в мире, учат своё детище не просто чему-то новому, а именно, английской грамматике.

Принцип работы большинства современных систем "машинного перевода", включая самую лучшую, созданную научным институтом информатики при университете Южной Калифорнии, основывается на обычном сопоставлении крупных фрагментов предварительно переведенного текста из таких источников, как, например, газеты, которые издаются на многих языках.

Программное обеспечение подбирает фразы, которые соответствуют друг другу в параллельных текстах, – на английском “my brother’s pants” - в переводе с английского языка "брюки моего брата" и в испанском - "los pantalones de mi hermano", - и затем использует эти куски, для того, чтобы собрать воедино перевод нового текста.

Это работает - но лишь в некоторой степени. Эксперт по машинному переводу научного института информатики Даниэль Марку говорит, что, когда такая система "обучается на очень похожем двуязычном тексте она может разбить иностранный текст на фразы, довольно качественно перевести каждую из фраз на английский язык, и немного переупорядочить. Тем не менее, даже при таком позитивном раскладе, то, что мы получаем на выходе, еще не английский язык. Прочтение отнимает много времени, и конечный продукт не подходит для коммерческого использования".

Итак, Марку и его коллега Кевин Найт, оба руководители проекта научного института информатики и сотрудники отдела инженерного проектирования вычислительных систем Школы Витерби, при университете Южной Калифорнии, начали работу над проектом, стоимостью в 285 000 долларов США, под названием Продвинутое Языковое Моделирование для машинного перевода, в целях улучшения системы, которую они создали в научном институте информатики. После процесса машинного перевода, они переходят к следующему шагу – грамматической обработке полученных текстов.

На первый взгляд, данное действие кажется простым, хотя в действительности оно весьма трудное. "Например, нет никакого четкого алгоритма, который бы выдавал сообщения о «грамматической верности», «грамматической неверности», «наличие смысла» или «бессмысленности» в ответ на последовательность слов, напечатанную пользователем", - отмечает Марку.

Данная проблема происходит из естественной особенности языка, обозначенной несколько десятилетий назад Ноамом Хомски, лингвистом-теоретиком из Массачусетского Технологического Института. Пользователи языка обладают буквально безграничными возможностями для того, чтобы путем переплетения фраз и идей создавать запутанные структуры, которые зачастую могут быть поняты лишь при условии наличия у слушателя или читателя дополнительных сведений из различных областей знаний: "Я искал стремена от седла, которое старшая дочь моей бывшей жены взяла с собой, при переезде к Джеку в Колорадо три года назад, но все, что у нее было, это старые двухцветные туфли Луизы, те самые, которые собака Этель жевала во время пожара".

Распутывание этих словесных паутин (или, в более общем смысле, прослеживание разветвлений "деревьев" этих связей) является столь грандиозной задачей, что программисты давным-давно предпочли двигаться в направлении сопоставления фраз, надеясь на то, что результат таких сопоставлений будет понятен читателям.

Теперь, когда ученые убедились в том, что данный подход имеет существенные ограничения, они пытаются за счет возможностей компьютера дополнить программы машинного перевода основами грамматики. Со слов Найта, решающим шагом было создание большой коллекции синтаксически размеченных английских тексов Penn Treebank.

Используя этот и другие источники, программисты начали разрабатывать способы моделирования правил. Предварительное исследование, проведенное Найтом и двумя его коллегами в 2003 году, показало, что этот подход помог бы улучшить результат и существенно облегчить работу лингвистам агентства переводов текстов.

"Мы предлагаем внедрить обучаемую разветвленную языковую модель и программу для грамматического разбора, и провести с ними эмпирические эксперименты машинного перевода. Современная система машинного перевода, созданная научным институтом информатики при университете Южной Калифорнии, уже может выдавать для любого входящего предложения, список из 25 000 возможных вариантов на английском языке. Этим списком можно управлять при последующей обработке. Мы повторно оценим эти списки последовательностей возможных переводов при помощи нашей обучаемой разветвленной языковой модели, и планируем подняться на вершину списка с лучшими переводами. Ключевым действием, которое сможет выполнять система, станет выборка отдельных элементов из бесконечных последовательностей слов." - Найт верит, что эта задача осуществима, причем в краткосрочной перспективе.

Поиск по сайту
» Искать


подписка на журналы
Почта России
   
НАШ АДРЕС:  При использовании материалов с сайта ссылка на www.arzi.ru обязательна www.arzi.ru 2005-2010 © ОАО «АРЗИ» - агентство подписки
107996 Москва,
ГСП, И-110
Протопоповский переулок,
дом 19, корпус 17
Тел.:    (495) 680 89 87, (495) 680 90 88
Факс:   (495) 631 62 55

E-mail: secret@arzi.ru
Web-дизайн и разработка сайта
Web-дизайн и создание сайта