Машинный переводМаши́нный перево́д — процесс автоматического перевода текста или речи с одного естественного языка на другой, осуществляемый искусственным интеллектом без участия человека. Ранние попытки использовать компьютеры для перевода строились на основе запрограммированных словарей и лингвистических правил, более современные строятся на основе вероятностного подхода — это статистический и нейронный машинный перевод. История машинного перевода
Идеи алгоритмов для перевода с одного языка на другой предшествовали изобретению компьютера. В середине 1930-х годов французский инженер армянского происхождения Жорж Артцруни и советский учёный и педагог Пётр Смирнов-Троянский независимо друг от друга пытались запатентовать «машины для перевода». Более проработанный вариант Смирнова-Троянского включал в себя, кроме автоматического двуязычного словаря, схему для кодирования межъязыковых грамматических ролей, основанную на эсперанто и общие концепции анализа и синтеза текста. Тем не менее, идеи Смирнова-Троянского не получили известности до 1950-х годов[1]. Мысль использовать ЭВМ для перевода была высказана в 1947 году в США — её сформулировал математик Уоррен Уивер[англ.], работавший в то время в Фонде Рокфеллера, в письме Норберту Винеру. В июле 1949 года Уоррен подготовил меморандум, в котором свёл существующие на тот момент предложения в области машинного перевода — они строились на базе накопленных во время Второй мировой войны наработок в области криптоанализа шифров, теории информации Клода Шеннона и идей о неких универсальных принципах, на которых строятся все естественные языки. В течение следующих лет в нескольких американских университетах начались работы по созданию систем машинного перевода на базе ЭВМ[1]. Первая публичная демонстрация такой системы – так называемый Джорджтаунский эксперимент — состоялась в 1954 году. Она была создана на базе сотрудничества между компанией IBM и Джорджтаунским университетом. Хотя Джорджтаунский эксперимент использовал очень ограниченный словарь и простейшую грамматику, он привлёк к себе огромный интерес и подтолкнул учёных в разных странах мира к исследованиям в этой области[1]. Ранние системы представляли собой просто большие двуязычные словари и системы правил, по которым для каждого слова из целевого языка подбирался подходящий эквивалент в другом языке. Тем не менее, учёные быстро осознали, что синтаксические правила для выстраивания слов в правильном порядке становятся непомерно сложными. Машинный перевод требовал более систематических методов синтаксического анализа. Исследования в области машинного перевода в 1950-1960-х годах проводились под влиянием новых лингвистические теорий, особенно моделей формальных грамматик, как трансформационно-генеративная грамматика, грамматика зависимостей и стратификационная грамматика. С середины 1950-х по середину 1960-х годов исследователи в области машинного перевода сохраняли оптимизм, надеясь на прорыв в самом близком будущем. В начале 1960-х годов функционировало несколько работающих систем машинного перевода — так, Управление иностранных технологий ВВС США эксплуатировал компьютер Mark II, созданный совместно IBM и Вашингтонским университетом; разработки Джорджтаунского университета использовали Комиссия по атомной энергии США и Европейское сообщество по атомной энергии в своём центре в Италии[1]. В 1964 году правительство США созвало специальную Консультативную комиссию по автоматической обработке языка (ALPAC[англ.]). Эта группа в 1966 году опубликовала отчёт, в котором делала вывод о нерентабельности систем машинного перевода: машинный перевод был медленнее, ниже по качеству и при этом обходился вдвое дороже, чем услуги людей-переводчиков. ALPAC считала дальнейшие инвестиции в эту область неразумными, предлагая вместо этого сосредоточиться на разработке систем, которые помогали бы работать переводчикам — например, компьютерных словарей — а также вести дальнейшие теоретические исследования в области компьютерной лингвистики. Отчёт ALPAC привёл к фактическому прекращению любых разработок в области машинного перевода в США и также повлиял на исследователей в СССР и Европе. Тем не менее, в некоторых странах — Германии, Канаде, Франции — исследования в этой области продолжались. В 1970 году ВВС США начала эксплуатировать систему SYSTRAN; в 1976 году Европейская комиссия начала использовать ту же систему SYSTRAN для перевода между европейскими языками своих быстро растущих объемов документов. В том же году в Канаде была запущена разработанная Монреальским университетом система Meteo для машинного перевода прогнозов погоды. В СССР в 1960-е годы разработки в области машинного перевода были сосредоточены в основном на области перевода научно-технической документации с английского на русский язык и обратно, рассчитанной на малое количество потенциальных пользователей — в этой области скорость доступа к информации был важнее, чем недостатки машинного перевода[1]. К началу 1980-х годов основные системы машинного перевода строились на базе компьютеров-мейнфреймов. Помимо SYSTRAN, поддерживающей к этому времени уже много языковых пар, появились системы Logos для переводов в парах английский-немецкий и английский-французский; собственная система Панамериканской организации здравоохранения[англ.] для переводов в паре английский-испанский; система METAL MT[англ.], разработанная Техасским университетом в Остине и немецкой компанией Siemens, а также ряд систем для перевода в паре английский-японский от японских производителей. В 1980-х годах широко распространились персональные компьютеры и текстовые процессоры — появилось огромное количество гораздо более дешёвых систем машинного перевода, чем прежде, в том числе продукты компаний ALPS, Weidner Communications[англ.], Linguistic Products и Globalink, и множество японских — свои микрокомпьютеры для машинного перевода выпускали компании Sharp, NEC, OKI, Mitsubishi, Sanyo и другие[1]. В научной среде также появилось множество исследований, связанных с «непрямым» переводом через промежуточные и иногда межъязыковые формы представления информации, семантическим, морфологическим и синтаксическим анализом, а также составлением нелингвистических баз знаний. В это время функционировали и два крупных международных исследовательских проекта — Eurotra[англ.], который финансировали Европейские сообщества, и японский Центр международного сотрудничества в области компьютеризации, объединяющий также учёных из Китая, Индонезии и Таиланда[1]. Система Candide, созданная группой специалистов из IBM на рубеже 1980-х и 1990-х годов, стала первой демонстрацией нового подхода — статистического машинного перевода. В это же время несколько японских исследовательских групп предлагали и ещё одно решение проблемы машинного перевода — корпусные системы, где перевод строился на готовых примерах. Создавались и проекты систем машинного перевода на основе правил, как проект Catalyst университета Карнеги — Меллона. Появились и коммерческие системы памяти переводов, как Trados, позволявшие людям-переводчикам легко обращаться к уже имеющимся переводам текстов. В 1990-е годы также начались исследования в области машинного перевода речи[1]. В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания SYSTRAN. В России большой вклад в развитие машинного перевода внесла группа под руководством проф. Р. Г. Пиотровского (Российский государственный педагогический университет имени А. И. Герцена, Санкт-Петербург). Подходы к машинному переводуМашинный перевод на основе правил
Статистический машинный переводСтатистический подход в машинном переводе основанная на сравнении больших объёмов языковых пар. Языковые пары — тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, могут быть как вариантами написания двух предложений человеком — носителем двух языков, так и набором предложений и их переводов, выполненных человеком. Таким образом статистический машинный перевод обладает свойством «самообучения». Чем больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода. Под понятием «статистического машинного перевода» подразумевается общий подход к решению проблемы перевода, который основан на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. В качестве примера двуязычной совокупности текстов можно назвать парламентские отчёты, которые представляют собой протоколы дебатов в парламенте. Двуязычные парламентские отчёты издаются в Канаде, Гонконге и других странах; официальные документы Европейского экономического сообщества издаются на 11 языках; а Организация объединённых наций публикует документы на нескольких языках. Как оказалось, эти материалы представляют собой бесценные ресурсы для статистического машинного перевода. Нейронный машинный перевод
Философские обоснования
В 1960-х годах Станислав Лем обобщал высказывания о проблеме машинного перевода и связи с пониманием текста самой машиной (что связано, например, с обсуждением сформулированной в 1980 году концепции «китайской комнаты»):
Качество перевода
Качество перевода зависит от тематики и стиля исходного текста, а также грамматической, синтаксической и лексической родственности языков, между которыми производится перевод. Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке.[источник не указан 4617 дней] Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле. Применение машинного перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных бытующих в Интернете шуток. Из старых и наиболее популярных примеров таких шуток наиболее известен текст перевода документации к драйверу мыши, известный как «Гуртовщики Мыши», заявленный как «перевод компьютерной документации системой машинного перевода Poliglossum на основе медицинского, коммерческого и юридического словарей»[3][комм. 1]. Из кратких — фраза «Our cat gave birth to three kittens — two whites and one black», которую онлайн-переводчик «ПРОМТ» (версия 7.0, 2007) превращал в «Наш кот родил трёх котят — двух белых и одного афроамериканца»[6]. Если «афроамериканца» ещё можно было сделать «чёрным», написав «black kitten», то «коту» так и не получалось сменить пол: например, female cat переводился как «самка кот». Чаще всего подобные шутки связаны с тем, что программа не распознаёт контекст фразы и переводит термины дословно, к тому же не отличая собственных имён от обычных слов. Тот же переводчик ПРОМТ превращал «Лев Толстой» в «Lion Thick» («толстый лев»), «bra-ket notation» в «примечание Кети лифчика», «Lie algebra» — в «алгебру Лжи», «eccentricity vector» — в «вектор оригинальности», «Shawnee Smith» в «индеец племени шони Смит», популярную в сериале «Игра в кальмара» игру «Red light, green light» — в «красный свет, зелёный свет» и т. п. Переводчик Google, наоборот, слово «rice» часто принимал за фамилию госсекретаря США. См. такжеКомментарии
Примечания
Литература
Ссылки |