Ссылки для упрощенного доступа

Как создается словарь русского языка с компьютером и без


Александр Костинский: Цифровые технологии до неузнаваемости изменили многие отрасли человеческой деятельности. Некоторые из них на виду, и перемены бросаются в глаза, а некоторые нет. Сегодня речь пойдет о создании обычных бумажных словарей, на примере словарей русского языка. Здесь, в области с тысячелетней традицией, тоже происходят драматические преобразования. В тысячи раз расширяется словарная база, сокращается на порядок время подготовки словаря и резко уменьшается его цена.

Почему и как это происходит, мы сегодня будем обсуждать с главным редактором серии "Словари академии российской" Дмитрием Дмитриевым и техническим директором компании Линукс Инк Олегом Садовым.

Сначала Дмитрий Дмитриев расскажет о традиционной технологии создания словарей.

Дмитрий Дмитриев: Я работаю в Институте лингвистических исследований АН РАН в Петербурге, раньше он назывался Институт языкознания. Именно здесь располагается самая крупная картотека современного русского языка, которая начала формироваться еще в 19 веке и продолжает пополняться по сей день. У нас несколько этажей, заполненных большими шкафами, в которые вставляются ящички.

Александр Костинский: На каждой карточке слово?

Дмитрий Дмитриев: На каждой карточке слово и цитата. Многие поколения людей, читая книгу, выписывали понравившиеся им фрагменты.

Александр Костинский: Люди из вашего института?

Дмитрий Дмитриев: Не только. Работало и много добровольцев. Человек читал книгу, выписывал что-то и подчеркивал те слова, которые, по его мнению, должны быть включены в словарь. Таким образом формировались национальные картотеки. Такие картотеки, естественно, есть и в Англии, Германии и других странах.

Александр Костинский: А сколько этих карточек накопилось?

Дмитрий Дмитриев: Их сейчас примерно шесть миллионов. Сегодня стоит задача перевода их в цифровую форму - ретроконверсия, но сделать это очень трудно, потому что карточки рукописные.

Александр Костинский: Возникает проблема распознавания?

Дмитрий Дмитриев: Да, тексты с ятями, ерами. Иногда прочитать такую карточку очень трудно.

Александр Костинский: И как создавались из этих карточек словари?

Дмитрий Дмитриев: Работал коллектив авторов, так создавался семнадцатитомный Большой академический словарь. То, что они сделали, можно вполне назвать словом подвиг. Издание выходило в пятидесятые, шестидесятые годы. Оно получило Ленинскую премию.

Александр Костинский: А почему он такой большой, 17 томов?

Дмитрий Дмитриев: Когда вы начинаете делать толковые описания слов, то понимаете, что одного-двух эквивалентов, синонимов, не всегда достаточно. Нужно сделать развернутое объяснение, показать все выражения, сочетания, фразеологию, идиоматику, которая есть в языке. Естественно все это нужно подтвердить иллюстрациями, примерами, взятыми из этой же самой картотеки. Поэтому выбирались авторы-составители, которые получали ящик таких цитатных материалов и они проходили весь этот ящик подряд карточка за карточкой, отбирая те материалы, которые по их мнению должны быть включены именно в словарные статьи. Естественно, это очень трудоемкая и несовершенная технология.

Александр Костинский: Словари делаются долго?

Дмитрий Дмитриев: Долго, долго. Между прочим, второе издание этого словаря - двадцатитомный словарь -наша национальная гордость, до сих пор еще не вышел.

Александр Костинский: А сколько вышло томов?

Дмитрий Дмитриев: Вышло, примерно, шесть томов и на этом дело застопорилось, потому что попало на время перестройки и начало 90-х годов, когда были перебои с финансированием и так далее. К сожалению, все застряло из-за того, что процесс работы с карточками очень трудоемкий.

Александр Костинский: Он еще и дорогой.

Дмитрий Дмитриев: Конечно, очень дорогой. И словарь меняется от тома к тому. Если вы откроете первые три тома Большого академического словаря, то увидите, что они построены немного по другому принципу нежели в последующих томах.

Александр Костинский: Меняется представление о том, как делать словари. Характерное время издания словаря больше, чем время изменения теории создания словарей.

Дмитрий Дмитриев: Да, наверное. Или еще любопытный эпизод: люди, которые делают какое-нибудь словосочетание, например, "собаку съесть", оставляли одно из слов на потом, давая ссылку, мол это будет сделано в следующем томе. А в следующем томе, человек, который делает этот материал, забывает вернуться назад, посмотреть какие были ссылки на его кусочек алфавита (всем раздавали по кусочку алфавита). Так возникают ссылки, ведущие в никуда. Это тоже проблема, которую без компьютера очень трудно решить.

Александр Костинский: Если посмотреть на послевоенное время, да и послереволюционное, то жизнь так быстро менялась, появлялось так много новых слов, что реально словарь в один период времени должен был описывать одну словарную базу, а в другой период другую. Фактически он был фотографией языка состоящей из кусков разных периодов.

Дмитрий Дмитриев: Поэтому, конечно, процесс создания словаря должен быть оптимизирован и переведен на другие рельсы, но дело в том, что все равно мы никуда не уйдем от того, что каждый контекст нужно просмотреть глазами. Компьютер на сегодняшний день не умеет сам формировать представления о лексической сочетаемости, о том, какие слова связаны друг с другом по смыслу, а какие нет. И поэтому чтение текстов все равно остается приоритетом человека, но огромное число рутинных процессов можно автоматизировать. Возьмем такой рутинный процесс, как перенумерация карточек. Представляете, у вас ящик, в котором бумажные карточки, если не дай бог вы рассыплете это все на пол, то как вы потом поймете в каком порядке их собирать?

Александр Костинский: Разве там не алфавитный порядок?

Дмитрий Дмитриев: Вы уже сделали словарную статью на одно слово, например, "язык" и эта словарная статья представляет из себя ящик карточек.

Александр Костинский: Одна словарная статья представляет ящик карточек?

Дмитрий Дмитриев: Да, одна статья может представлять ящик карточек. Тексты словарных статей писались в виде комплекса карточек. На первой - заголовочное слово, на второй грамматическая помета и т.д., чтобы можно было легко их переставлять, менять местами.

Александр Костинский: Структурность статьи была заложена уже тогда прямо в карточки?

Дмитрий Дмитриев: Да, некая структурность, как в файле можно переставлять строчки, так здесь можно переставлять бумажные карточки. И если вдруг эти карточки просыпаются на пол, то нужно их как-то собрать, значит, на каждой карточке ставился порядковый номер. Если редактор что-то менял, например, переставлял значения местами, то другому сотруднику давали задание перенумеровать эти карточки - всю стопку. Это могло занимать целый рабочий день.

Александр Костинский: А если таких перестановок пять-десять?

Дмитрий Дмитриев: Именно поэтому словари выходят так долго в течение 30-40 лет и до сих пор мы не видим на полках наших магазинов академических изданий. Тот же Большой академический словарь, о котором я рассказываю, сегодня - библиографическая редкость.

Александр Костинский: Сейчас, когда пришли цифровые технологии, есть какой-то сдвиг или по-прежнему карточки рассыпаются, перенумеровываются?

Дмитрий Дмитриев: Можно сказать, что сегодня в академических институтах сосуществуют две эти традиции. Мы не призываем все строго делать на компьютере, но мы с коллегами в лаборатории информационных технологий разработали комплекс открытых программных технологий создания словарей, и предлагаем этим пользоваться. Более того, на этих технологиях мы сами сделали серию толковых словарей русского языка (и не только толковых), которые уже целиком сделаны в электронном виде. Мы от начала до конца не использовали никакой бумажной технологии.

Александр Костинский: Расскажите об электронной технологии приготовления словаря и какие она сулит преимущества. Что именно изменилось?

Дмитрий Дмитриев: В первую очередь расширилась сама база исследований языка. Если раньше мы говорили, что человек читает книги, газеты и случайно то что ему встречается выписывает на карточку. Такой метод не является сплошной выборкой, где каждое слово учитывается. Что-то привлекло ваш взгляд, что-то не привлекло, мимо чего-то вы проскочили не заметив. А язык - такая вещь, что многого мы, действительно, не замечаем до тех пор, пока не ткнуть пальцем и сказать - посмотри, видишь как здесь интересно. Когда у нас компьютерная технология, то мы получаем все слова, во всех формах, в огромном количестве текстов. Например, наша база насчитывает двести миллионов слов по разному спектру жанров (если подряд считать в текстах все слова). Когда вы, анализируя какое-то слово или выражение, можете увидеть, обозреть гораздо больше материала, то у вас складывается более объективное представление. Например, на слово "адрес" в обычной, бумажной картотеке примерно четыреста карточек-иллюстраций, а наши лексикографы, которые работали с компьютерными базами, анализировали примерно сорок тысяч примеров.

Александр Костинский: Это драматическое изменение - от четырехсот до сорока тысяч - разница в два порядка.

Дмитрий Дмитриев: Да, но я не хочу сказать, что лексикограф буквально прочитывает каждую из этих цитат. Естественно, это невозможно, но, по крайней мере, перед ним эти цитаты всегда есть, он проглядывает их, выбирает то, что привлекает его внимание, он может как-то ограничить сочетаемость. Но база, основа выбора у него огромная. Если он вдруг сомневается в каком-то выражении, например, может ли от слова "моментальный" быть образована сравнительная степень "моментальнее". Здравый смысл говорит, что нельзя, но поиск по базе показывает, что может быть, и в художественных текстах вполне употребляется подобная вещь.

Александр Костинский: Первое, что мы выделили - радикально изменилась словарная база. Что еще изменилось?

Дмитрий Дмитриев: Если мы говорим о коллективной разработке, - словарь не пишется одним человеком, работает целый коллектив - то нужно организовать такую технологию, при которой люди могут при помощи определенных технологий создавать некое единое целое. Мы разработали инструкцию, как нужно вводить сам текст с толкованием, объяснением, иллюстрациями, грамматическими сведениями, чтобы с одной стороны было ясно, кто автор этой статьи (ведь эта информация фиксировалась в каких-то "бортовых журналах", но в конечном тексте словаря это так перемешивалось, что уже было непонятно где чье произведение). Современные компьютерные технологии позволяют проследить историю вплоть до того, кто редактировал данное толкование, какого числа, кто автор этого объяснения и так далее. Все наши лексикографы работают каждый со своим компьютером. Это может быть самая обычная машина даже с 386 процессором, главное, чтобы на ней был текстовый редактор.

Александр Костинский: Тексты тем и замечательны, что они требуют совсем небольших ресурсов компьютера.

Дмитрий Дмитриев: Это происходит в том случае, если вы работаете с открытыми технологиями разметки текста, когда вы используете коды для маркирования всех зон - зону толкования, зону иллюстраций, зону грамматики.

Александр Костинский: Немного подробнее, как это происходит, что делает современный лексикограф?

Дмитрий Дмитриев: Вы можете представить себе современную словарную статью в виде длинного свитка или, если слушатели представляют, то это файл, где каждая строчка содержит какую-то единицу информации, например, ставится маркер [цит] в угловых скобочках, что означает начать цитату, далее печатается сам текст цитаты и такой же завершающий маркер. Многие слушатели наверняка знакомы с языком разметки HTML, который используется для гипертекстовой разметки в Интернете. У нас фактически один из вариантов такой разметки.

Александр Костинский: Вначале человек должен с бумажной карточки ввести текст в электронный вид, это начальный этап.

Дмитрий Дмитриев: Если говорить о технологии в нашей серии "Словари академии российской", то все происходит не так. У нас слева был экран цитатной базы данных, а справа экран словарной статьи, которую вы пишете. То есть, фактически никакой бумажной технологии не используется.

Александр Костинский: Но ведь в начале у вас все было на карточках.

Дмитрий Дмитриев:. Мы ничего не переводили с карточек, тот словарный материал, который мы создавали, делался почти с нуля. Практически вся информация вводилась заново. Дело в том, что у нас не только терминологические усовершенствования, но и содержательные. Например, вы знаете, что в обычных словарях слово пишут так -- "кузнец", запятая, "а", запятая, "м", точка, имея ввиду, что, вы сами получаете какие-то формы этого слова - "кузнеца", "кузнецу" и т.д., "м" означает мужской род. Но для иностранцев не всегда этой информации достаточно. Они хотят видеть наглядные формы образованные полностью, в том числе видеть, как расставляются ударения в разных позициях. Все-таки русский язык имеет очень много словоизменительных типов, и все это нужно показать. Поэтому нам приходилось буквально все переделывать, и в самой полной версии толкового словаря присутствуют все формы каждого слова. Зачем это нужно? Ну, например, я видел на улице рекламу "выйграй автомобиль" (два и кратких), как человеку понять, что он сделал здесь ошибку? Повелительного наклонения этого слова не будет в словаре. Поэтому, если вы приводите полную парадигму, то это сразу видно.

Александр Костинский: А разметка в исходных текстах статей приводит к тому, что вы можете потом автоматически из этого текста помещать статьи в базы данных.

Дмитрий Дмитриев: Естественно, дело в том, что эта разметка дает свободу создания текста. Вы можете сами придумывать маркеры, которые хотите, это не жесткая заданная структура - если вам необходим новый тип информации, скажем какой-нибудь источник указать или год появления этого слова или цитаты, этимологические сведения, вы просто придумываете новый маркер, начинаете его использовать и просто сообщаете администратору, чтобы он завел новое поле. Олег Садов Самое главное, что можно делать с языковыми базами данных, это определенные информационные срезы всего объема. Действительно, может быть полный словарь, где все словоформы, а могут быть краткие словари, где все то же самое дается в сокращенном виде.

Александр Костинский: Получается фабрика словарей.

Дмитрий Дмитриев: Наше издательство стало охотно с нами сотрудничать, потому что они увидели как можно легко получать словари разных форматов. Если вы приходите в магазин и вам предлагают купить словарь только за полторы тысячи рублей, а у вас их нет, то это неправильно, а если вы можете выбрать нужный вам словарь по размеру, по стоимости, по содержательному наполнению, то у вас есть определенная свобода выбора. Мы старались сделать именно так, чтобы эти маленькие, средние и большие словари писали не разные люди, а одна команда.

Александр Костинский: Получается, существует общая база, из которой можно давая задание на верстку получать разные словари. Олег Садов Разные словари, в разных форматах, для разных типов носителей, для разных форм представления.

Дмитрий Дмитриев: Более того, я хочу сказать, что компьютер помогает оценить то, что можно включить в словарь, а что не стоит. Например, мы анализировали частотность употребления слов. Нам кажется, что слова "мужчина" и "женщина" идут в паре, но компьютерные исследования показывают, что слово "женщина" встречается в три раза чаще. Оно попадает в первую категорию частотности слов, которые мы каждый день используем, а "мужчина" по рейтингу отстает буквально в три раза.

Александр Костинский: Наверное, это справедливо.

Дмитрий Дмитриев: Вероятно, да. По крайней мере, когда мы получали такие результаты и, естественно, при каждом слове мы ставим особый значок, который показывает, насколько часто мы его используем в речи, то некоторые люди удивлялись.

Александр Костинский: Все готовится в электронном виде, а существуют ли электронные версии этих словарей?

Дмитрий Дмитриев: Изначально тексты существуют в виде электронных документов, из которых можно получать и распечатки, в частности бумажные словари возникли, как результат автоматической верстки. Никто специально не сидел, странички мышкой не создавал.

Александр Костинский: Получается, что у вас автоматическая верстка словаря.

Дмитрий Дмитриев: Да, автоматическая верстка, где вы задаете параметры, какой дизайн вы хотите для данного типа словаря, ведь словарь должен быть сделан стереотипно. Там 1600 страни, и все они должны выглядеть одинаково. Вы один раз задаете эти параметры и дальше прогоняете через автоматическую программу верстки. Кое-где приходится делать ручные поправки, но это единичные случаи. А то, что касается электронной версии, то мы планируем в самом ближайшем времени все тексты, которые сейчас вышли как бумажные словари, опубликовать в Интернете.

Александр Костинский: Вы пользовались решениями, которые были найдены в академической среде за рубежом?

Дмитрий Дмитриев: Естественно, хотя нельзя сказать, что мы изобретали велосипед. Наоборот, мы следовали всем стандартным технологиям, которые уже развиваются много лет в Европе.

Александр Костинский: Не только в России так делают словари?

Дмитрий Дмитриев: Не только. Мы были очень удивлены, когда во время нашего сотрудничества мы столкнулись с английскими лексикографами. Мы пробовали с ними начинать совместный проект. Я думаю, что мы еще вернемся к двуязычным словарям. Они прислали нам свои материалы, и мы были удивлены, что используются те же самые технологии и в оксфордском словаре, который занимает лидирующие позиции.

Александр Костинский: Видимо, сама логика построения словаря приводит к похожим решениям.

Дмитрий Дмитриев: И потом, это очень экономически обоснованная модель. Олег Садов Опять же, крайне важна открытость технологий, открытость стандартов. Когда люди занимаются творческой работой им обычно какие-то готовые решения, которые можно пойти в магазин и купить не подходят - инструмент нужно делать под себя.

Александр Костинский: Можем ли мы сказать, что не только технари, не только те люди, которые изначально не боялись компьютеров, но и гуманитарии, куда гуманитарнее составление русских или русско-английских словарей, что эти люди тоже смогут извлечь очень серьезную пользу для использования цифровых технологий.

Дмитрий Дмитриев: Да, не только могут, но и реально это делают. В нашей команде примерно 12 лексикографов, практически никто не является техническим специалистом в этой области. Именно благодаря тому, что мы выбрали эти технологии, они работали на нас. У нас не было штата программистов, все делали мы сами.

Александр Костинский: А сколько стоит подготовка некой единицы словаря.

Дмитрий Дмитриев: Просто могу рассказать вкратце о нашем бюджете и тех бюджетах, которые есть у Академии наук. Вы понимаете как все это происходит в рамках Академии: люди приходят на работу, получают казалось бы очень небольшие зарплаты - полторы-две тысячи рублей, но в принципе никто с них ничего и не требует. Мы знаем, как многие годы существуют институты, которые выдают на гора не так уж много продукции. Поэтому, если взять чистую продукцию и разделить ее на эти мизерные зарплаты, то получается внушительная сумма. Я провел подсчеты и получилось, что те словари, которые делались по обычной технологии уже в российское время с помощью получения грантов и т.д., примерно стоили 750 долларов за 20 страниц машинописного текста. У нас потолок бюджета примерно 100-120 долларов за 20 страниц. Фактически получается в семь раз дешевле эта технология.

Александр Костинский: А сколько словарей вам удалось издать в вашей серии?

Дмитрий Дмитриев: Всего запланировано 25 наименований, но в данный момент вышло из печати пять. Остальные тоже в скором времени выйдут. С точки зрения электронной версии они уже готовы. Проблемы бывают на типографской стадии. Олег Садов Опять же, использование этих современных технологий, вообще говоря, дает определенный задел и на будущее, потому что в будущем, используя такие базы данных, можно будет делать и временные лексические срезы.

Александр Костинский: Еще компьютерные технологии дают огромный охват. Принципиально эти пять миллионов карточек можно перевести в электронный вид. Возможен словарь русского языка, который будет включать пять миллионов значений слов.

Дмитрий Дмитриев: Конечно, мы перешагнули через эти ограничения по объему. Сейчас не обязательно дома ставить двадцать томов словаря, можно поставить один компакт диск и это все будет обозримо, в едином поисковом поле. Это, между прочим, гораздо интереснее - работать с живым материалом. Это самое увлекательное в деле написания словаря - смотреть за реальной жизнью слова.

Александр Костинский: А используете вы Интернет?

Дмитрий Дмитриев: Конечно. Интернет - это живая стихия, которая компенсирует недостаток свежего материала, который часто наблюдается в корпусах. Под корпусом имеется ввиду свод электронных текстов, с которым работает лексикограф. Ведь вы понимаете, что 95% всей текстовой массы обычно заполняется при помощи трех-четырех тысяч слов - лексем, а на оставшиеся 5% текстовой массы приходятся сотни тысяч всего остального лексического фонда. Интернет используют как огромный ресурс текстов самых разных жанров: люди пишут начиная с разговорных, жаргонных текстов до высокоинтеллектуальных литературных. В Интернете можно найти все. Очень интересно делать активные поиски в Сети тех слов и выражений, относительно которых мы хотим провести какие-то исследования.

Все ссылки в тексте программ ведут на страницы лиц и организаций, не связанных с радио "Свобода"; редакция не несет ответственности за содержание этих страниц.

XS
SM
MD
LG