Программы - Седьмой Континент

Проблема машинного перевода давно занимает умы лингвистов, компьютерных инженеров и программистов. Одно время на нее чуть было не махнули рукой, посчитав ее неразрешимой. Но в последнее время стали плодится программы для такого переводы, а также услуги в Интернете по автоматическому переводу электронной почты и страниц Всемирной паутины.

Сегодня Дмитрий Атлас продолжит рассказ о прогрессе в разработке машинного перевода, в том числе и в Интернете.

Затем, в изложении Олега Родина, вы услышите содержание дискуссии в русском Интернете о проблемах авторского права и электронных библиотеках.

Поначалу, в младенческие годы Интернета, казалось, что накрепко связанный с ним английский язык не допустит никаких конкурентов, обреченных на корявую латинскую транслитерацию. Но теперь, когда другие наречия окрепли и обрели новую жизнь во Всемирной паутине, виртуальный мир снова разобщен, как после падения Вавилонской башни. Эту проблему предстоит решать машинному переводу - рассказывает Дмитрий Атлас.

Атлас

В прошлой передаче мы начали разговор о машинном переводе и упомянули о некоторых проектах, направленных на внедрение технических средств такого перевода во Всемирную паутину. Сегодня мы коротко остановимся на основных вехах в истории все еще очень молодой науки, находящейся на стыке лингвистики и вычислительной техники, и поговорим о наиболее перспективных применениях машинного перевода в Интернете.

Многие из приводимых далее фактов я почерпнул из книги британских специалистов "Машинный перевод. Вводный курс", вышедшей из печати всего несколько лет назад, но уже успевшей завоевать популярность. Итак, как же возникла концепция машинного перевода?

Как и многие сверхсовременные прикладные науки, компьютерная лингвистика во многом обязана своим становлением тем, порой далеким от реалий, ожиданиям, которые породили вычислительные машины на заре компьютерной эры. Успешное использование ЭВМ в годы второй мировой войны в криптографии не могло не привести к вопросу о том, возможно ли применить разработанные методы автоматизированного кодирования/декодирования для расшифровки текстовых конструкций, характерных для естественных языков. Другими словами, первоначально толчком для развития машинного перевода послужила эвристическая идея о принципиальной аналогии между работой переводчика и декодированием. Вероятно, впервые идея эта была отчетливо сформулирована в 1947 году в переписке между английским специалистом в области кристаллографии Андрю Бузом и сотрудником рокфеллеровского фонда Уоренном Вивером. Двумя годами позже, в докладной записке Вивер напишет:

"Передо мной находится текст, написанный по-русски, но я смотрю на него так, будто бы он на самом деле был написан по-английски и закодирован с помощью неких странных символов. Все, что мне нужно сделать, это вскрыть код для того, чтобы извлечь информацию, содержащуюся в тексте".

Предложенная здесь постановка задачи была, конечно, нарочито упрощенной. Тем не менее, подход Вивера очень быстро нашел сторонников, и к началу пятидесятых годов как в Америке, так и в Европе в исследованиях в области машинного перевода уже принимало участие достаточное большое количество ученых. Однако все оказалось совсем не так просто, как можно было подумать. Помимо чисто технических проблем, отсутствие значительных прорывов в деле создания эффективной системы по автоматизированному переводу обусловливалось, как постепенно выяснилось, и причинами принципиального характера. В 1959 году философ Бар-Хиллел на простых примерах показал, что решение задачи полностью адекватного перевода исключительно средствами искусственного интеллекта невозможно. Аргументация Бар-Хиллела была настолько убедительной, что, казалось, машинный перевод навсегда останется лишь пустой и бесперспективной затеей, которой уготована та же судьба, что и попыткам построения вечного двигателя. Так или иначе, с начала шестидесятых годов государственное финансирование программ по автоматизации перевода в США начало существенно сокращаться, и вскоре после опубликования американской академией наук специального доклада, в котором указывалось на неэффективность разработанных к тому времени машинных методов для осуществления перевода научно-технических текстов и выражалось сомнение в том, что такие методы вообще могут быть кардинально усовершенствованы, многие проекты по созданию систем автоматизированного перевода были приостановлены.

Оглядываясь назад, решение о практически полном свертывании исследований в этой области можно назвать слишком односторонним, ибо истина здесь, как это нередко бывает и в других спорных вопросах, лежала все же где-то посередине. В самом деле, машинному переводу не дано в идеале достичь абсолютного совершенства, однако это вовсе не означает, что перевод, выполненный с помощью компьютера, вообще не имеет применений. После того, как спала волна необоснованного энтузиазма и осталась позади фаза глубокого разочарования в способности компьютера научиться переводить с одного языка на другой, началось осознание действительных возможностей машинного перевода и были разработаны первые, пусть еще довольно примитивные, но уже реально работающие системы. Заметное возрождение интереса к машинному переводу приходится на семидесятые годы. Этот период можно не без основания считать настоящим ренессансом машинного перевода. Созданная на основе разработок джорджтаунского университета в Вашингтоне русско-английская система автоматизированного перевода Systran была взята на вооружение NASA. Пан-американская организация здравоохранения разработала собственный вариант электронного переводчика, который оказался весьма эффективным для решения задач предварительного перевода медицинской документации. По заказу военно-воздушных сил США примерно в это же время была создана система, позволявшая быстро переводить метеорологические прогнозы. К концу семидесятых годов многообещающие результаты в области машинного перевода были достигнуты и в Японии. Многое из того, что ныне делается в этой научной сфере, основывается на исследованиях именно тех лет.

Сегодня доказывать необходимость развития машинного перевода уже не приходится. Однако стоит всерьез задуматься над тем, какую роль машинный перевод будет играть в науке и повседневной жизни в XXI столетии. Авторы упомянутого пособия по машинному переводу считают, что создание электронного переводчика непременно окажет воздействие на многие стороны человеческого бытия. В социальном плане, распространение машинного перевода будет содействовать задаче сохранения языков меньшинств в многонациональных государствах. В плане научном, перевод с помощью компьютеров представляет несомненный интерес как испытательный полигон для проверки многих идей в области искусственного интеллекта. В философском отношении, машинный перевод может служить моделью для построения когнитивных теорий. Наконец, коммерчески, машинный перевод обещает стать важным инструментом для развития межгосударственной торговли, ибо он способен значительно упростить и ускорить получение информации о товарах, выпускаемых в других странах.

Распространение Интернета сделало последний из перечисленных аспектов весьма актуальным уже сейчас. Большинство пользователей Интернета, конечно же, посещает те веб-сайты, которые могут быть прочитаны на их родном языке, и по этой причине перевод рекламы своих товаров может быть совершенно необходим компании, стремящейся с помощью Всемирной паутины выйти на международный рынок. С другой стороны, быстро найти выпускаемые за рубежом товары, если информация о них имеется лишь на неизвестном иностранном языке, не обратившись к услугам переводчика, едва ли удастся, а такая возможность имеется далеко не всегда. Машинный перевод значительно дешевле и быстрее традиционного, хоть и сильно уступает ему по качеству. Поэтому именно в тех областях, где скорее важно понять смысл того, о чем идет речь, нежели перевести текст в соответствии с литературными или научными критериями, машинный перевод начинает играть все более и более заметную роль.

Радио "Свобода", программа "Седьмой континент". Нам уже не раз приходилось говорить о библиотеках во Всемирной паутине, и о проблемах авторского права, с которыми приходится иметь дело виртуальным библиотекарям. Послушайте в изложении Олега Родина беседу о копирайте и интеллектуальной собственности, состоявшуюся в русском Интернете.

Родин

Тема Интернет и авторские права стала одной из постоянных в программе "Седьмой континент" и в предыдущей передаче Дмитрий Атлас отметил "Что касается хождения в сети литературных текстов, то здесь до реального соответствия с имеющимися законами о копирайте все еще далеко". В моем недавнем материале об электронных библиотеках я попытался отметить своеобразие российского менталитета в отношении собственности вообще и авторских прав в частности. В развитие этой темы сегодня предлагается обзор Интернет - дискуссии пользователей и читателей на страницах электронного "Русского журнала". Озаглавлена она так: "Интернет убьет кино, вино и домино".

Началась эта дискуссия примерно год назад с обсуждения известной электронной библиотеки Максима Мошкова. "Есть две серьезные проблемы с библиотекой Мошкова, - заявил Евгений Пескин: 1. Большая часть литературных текстов, размещенных там, - украдены, (я не буду объяснять, почему плохо воровать) и 2. Тексты, помещенные в библиотеку Мошкова, никто никогда не сверял с подлинными". "Рано или поздно на Максима кто-нибудь "наедет" и он будет иметь крупные неприятности" продолжил тему Михаил Кузьменко. "Неприятности, вероятно, поимеют и организации, предоставившие Максиму место в Интернете".

"Библиотека Максима как нельзя лучше отражает дух Интернета, по крайней мере, раннего", возражает Михаил Поляков. "И нечего напоминать о морали - вон на музыкальный архив в Штатах, имевший множество зеркал, "наехали" когда-то - и кому лучше стало, кроме нескольких законников? Если бы всегда соблюдались "авторские права", человечество до сих пор бы в пещерах проживало. Слава Богу, никто тогда еще не знал, что колесо или мотыгу можно объявить интеллектуальной собственностью! Для меня эта библиотека ценна книгами в последнюю очередь: там много информации, которая больше нигде не сохранилась - ни в бумажном виде, ни в электронном."

На это Евгений Пескин возражает: "Вам не приходило в голову, почему за вторую половину ХХ века человечество совершило больше открытий, чем за все предыдущее время его существования? Вы не хотите считаться с тем, что общество изменилось, и в постиндустриальном обществе ОСНОВНОЙ продукт - интеллектуальная собственность, а не материальная. Если ее не защищать, производство прекратится... Точно также, как без права собственности на материальные ценности не было бы цивилизации вообще. Я уже не говорю, что в том или ином виде охрана интеллектуальной собственности существовала всегда, только не всегда это делало государство. Для этого существовали гильдии, замки, рвы, крепостные стены, клятвы, и т.п. В любом случае результат интеллектуального труда - чья-то собственность; и право АВТОРА/ВЛАДЕЛЬЦА решать, что с ней делать. Захочет - будет раздавать бесплатно, захочет - пусть продает!"

В дискуссию вступает Борис Бердичевский: "Можно по-разному относиться к нашей деятельности. Я тоже веду электронную библиотечку. С одной стороны, мы такие-сякие, воруем, нарушаем пресловутое авторское право и т.д. и т.п. Но с другой стороны, мы, как это называлось ранее, несем культуру в массы. По поводу авторских прав: думаю, истина где-то посередине. Конечно, следует безусловно считаться с требованиями авторов, и их запреты на публикацию беспрекословно исполнять! А насчет неприятностей: думаю, мы уже с советских времен привыкли к такому положению вещей (и сегодня здесь ничего не изменилось!), что человека можно обвинить не только в нарушении ЗАКОНОВ, но и каких-либо непонятных ИНСТРУКЦИЙ, а то и вовсе НИ ЗА ЧТО (просто кому-то мешает!) и соответственно доставить ему крупные неприятности. Так что следование букве закона в случае чего вряд ли поможет. Что же касается ущерба издательствам, то на сегодня он настолько несущественен, что на него не обращают внимание".

А вот мнение писателя Максима Кононенко: "Спор о том, какой ущерб держателям авторских прав приносят сетевые публикации, уже надоел. Никакого ущерба не приносят - потому что выбор между экраном и книгой в пользу экрана несерьезен". Эту же точку зрения поддерживает Олег Новиков: "Я очень рад, что существует библиотека Мошкова. Я НЕ меньше покупаю из-за этого книги. Иногда я надеюсь там найти книгу, которую НЕ УДАЛОСЬ отыскать на прилавке. Например, Дашкова, продолжение романа "Отступник". Я бы купил, если бы попалось. Но не попалось". Так же думает Сергей Тарасов: "Кто-нибудь пробовал прочесть с экрана что-нибудь действительно большое, страниц этак 400? Попробуйте! И еще. Несмотря на то, что дома у меня лежат файлы с произведениями Рыбакова, я все равно купил бы книги, но их НЕТ!!! Кроме "Очага на башне" мне ничего найти не удалось".

Одобряет электронные библиотеки Андрей Бусыгин: "Помещение текстов в Интернет ущерба авторам не наносит. Поскольку, как правильно замечали, читать с экрана - удовольствие ниже среднего. Говорят, что книгу можно распечатать на принтере и это, мол, нехорошо. Действительно нехорошо, и не только из-за нарушения авторских прав. Достаточно просто посчитать: сколько стоит бумага, тонер для принтера, картридж, плюс накладные расходы - время на обработку текста, печать, затем переплет и т.д. В итоге получаем, что принтерная копия получается нисколько не дешевле а наоборот, дороже, нежели книга, приобретенная в магазине. Так что единственное, в чем получаем преимущество от электронных библиотек - так это в том, что можно заранее оценить качество произведения и всякую халтуру не покупать".

"Создание электронных библиотек - тенденция, которую нельзя остановить", утверждает Валерий Хвалев. "Проблема оплаты труда писателя и проблема использования электронных библиотек - это разные проблемы. Сегодня писатель нашел способ заработать на свой кусок хлеба на издателе. В свою очередь, издатель - на читателе. По законам бизнеса, лишние звенья неминуемо устраняются. Это является только вопросом времени. Писатели, которые хотят заработать на библиотекаре тешат себя напрасной надеждой. Это тоже лишнее звено и его платные услуги станут бесполезными еще скорее, чем услуги издателя".

Денис Баранов уточняет: "Думаю, что наличие электронных библиотек ни на чем отразиться в худшую сторону не может. Поясню свою мысль. Для этого вообще-то можно сравнить электронную библиотеку с простой публичной (или с личной коллекцией приятеля). Книги что там, что там - читать можно свободно, но на обычные библиотеки никто не "наезжает" за несоблюдение авторских прав. Получается, что это два разных варианта одного и того же. Только электронный способ удобнее. Вот сидите вы дома, зашли на сервер почитали книжку, не выходя из дома, нежели в дождь и слякоть топать на другой конец города".

"Библиотекам вовсе не нужно бояться наездов по поводу нарушения закона - если они закон не нарушают", так считает Сергей Бережной . "Если нарушают, то от наездов их ничто не спасет. Рано или поздно держателям библиотек придется делать выбор - ссорятся они с теми, чьи тексты выкладывают в свободный доступ, или нет. Закон защищает права автора. Обычай же и привычка к халяве поощряет стремление масс к бесплатным ресурсам. Я не против, чтобы библиотеки радовали читателей интересными новинками - но я не вижу причин, почему библиотеки должны делать это противозаконно".

Дмитрий Ватолин главный редактор сервера "Русская фантастика", авторитетно разъясняет: "В сети ОБЪЕКТИВНО ходит большое количество свободных текстов, нередко рассылаемых самими авторами или с согласия авторов. Мошков ОБЪЕКТИВНО больше других, известных мне держателей библиотек, занимается вопросами выяснения легальности помещаемых у него текстов. Постепенно ситуация идет к тому, что у него будет полностью легальная весьма большая по размерам библиотека. Вопрос - кому от этого плохо? А вот текст "да мы воруем... но мы несем культуру в массы" - это просто повод для всех редакторов, литагентов и, наконец, авторов, "наехать" на электронные библиотеки. Карманники тоже учат внимательности. Что действительно надо делать на нашем этапе, так это хотя бы добавлять к каждому файлу комментарий - откуда файл получен. На многие книги абсолютно свободно можно получить разрешение автора. Малую и среднюю формы авторы, как правило, сами с удовольствием отдают в сеть: книги выходят с большими произведениями, а повести и рассказы рекламируют автора в сети. Книгу, которую, возможно, никто бы НЕ ЗАМЕТИЛ, теперь прочитают десятки или сотни тысяч человек; это играет на руку писателю: его теперь знают многие. За последние месяцы появилось такое явление, как фрагменты произведений в библиотеках. В списке новинок "Русской фантастики" за последние 2 месяца добавлено достаточно много именно фрагментов. Кажется, что это и есть один из компромиссных путей дальнейшего развития ситуации. Авторам очень выгодно широкое распространение их текстов во фрагментах. Из психологии и статистики следует, что, прочитав только начало произведения, человек с большей вероятностью купит книгу, чем если бы не читал о книге ничего. Если гордость позволит "библиотекарям" брать фрагменты, то довольны будут все".

Все линки в тексте программ ведут на страницы лиц и организаций, не связанных с радио "Свобода"; редакция не несет ответственности за содержание этих страниц.