Интернет

22 февраля 2000

Алексей Цветков

Сетевые ресурсы: Интегрум-Техно; конфиденциальность сетевого общения

Александр Костинский продолжает свой обзор сетевых ресурсов. Сегодня - о проекте компании Интегрум-Техно.

Костинский

Lexis-Nexis - самый большой в мире, доступный через Интернет информационный массив стал примером для многих национальных проектов. Lexis-Nexis содержит в едином поисковом пространстве 2 миллиарда триста миллионов качественных проверенных документов на английском, французском, немецком, испанском языках. Каждую неделю из 24 тысяч источников со всего мира в него поступает 6 миллионов 800 тысяч новых документов. Это новостные ленты информационных агентств, полные версии бумажных СМИ, подробнейшие юридические базы, данные о миллионах фирм и персональная информация о сотнях миллионов граждан. И неудивительно, поэтому, что существуют подобные российские проекты. Мы уже рассказывали о похожем ресурсе с упором на юридическую информацию www.park.ru и чисто газетно - журнальном www.nns.ru . Сегодня речь пойдет, возможно, о самом большом текстовом собрании на русском языке - проекте компании Интегрум -Техно, размещенном в Интернете на узле - www.integrum.ru .

Вот некоторые характеристики этого ресурса по данным на 18 февраля. Одна тысяча сто восемьдесят баз данных, в которых 25 миллионов документов. Объем исходных текстов почти 34 гигабайта. Заметим, что документом считается не газета или книга, а логически завершенный фрагмент информации о событиях, фактах, отдельных организациях и людях. Это может быть статья в газете или журнале, сообщение с ленты новостей, данные о фирме в отраслевом справочнике.

Главной своей задачей компания Интегрум-Техно считает объединение информационных ресурсов благодаря современным сетевым инструментам сбора, обработки, хранения данных и организацию доступа к ним с помощью цифровых технологий и Интернета.

В общий массив данных помещается на коммерческой основе буквально вся оцифрованная информация. Но возникает вопрос: можно ли гарантировано найти нужные сведения в тысяче разнородных разноструктурных баз данных, созданных никак не связанными группами и организациями из самых разных областей человеческой деятельности? Не напоминает ли поиск в таком массиве поиски потерянного золотого кольца на городской свалке?

Команда, создавшая и поддерживающая Веб - узел Integrum, считает, что нет. Разумно лингвистически организованный механизм поиска позволяет с помощью искусно сформированного запроса находить нужные документы даже в разнородных информационных средах. Инструментом, который позволяет эффективно извлекать полезные данные стала оригинальная информационно - поисковая система Артефакт. Идеи, положенные разработчиками в основу Артефакта были впервые реализованы на отечественных аналогах IBM/360 еще в середине 70-х годов. Создатели Артефакта разрабатывали в компании "Агама" словари, алгоритмы, программные модули для известной системы орфографического контроля "Пропись" Microsoft Windows.

Главным достижением Артефакта стала разработка алгоритма согласованного морфологического анализа как запросов пользователей, так и текстов документов в базах данных. Лингвистический аппарат основан на морфологическом словаре Зализняка, дополненного современной лексикой. Учтены даже слова, не вошедшие в основной словарь. Для них применяются алгоритмы, с большой вероятностью определяющие возможные грамматические формы новых слов. В запросе можно искать не только слова с единой основой, но и однокоренные.

Более того, Артефакт в девяти случаях из десяти находит даже слова, в которых допущены опечатки, чего нет в других поисковых механизмах. Для таких случаев, как фамилия "Шеварднадзе", встречающаяся в написаньях и Шеварнадзе, и Шевардназде, и Шеравднадзе - это существенное преимущество.

Очень помогает при поиске то, что система отличает малые буквы от больших, что сокращает информационный шум, отфильтровывая при поиске фамилии Лебедь, ненужные тексты про птицу лебедь, а документы с упоминанием общества "Мемориал" от мемориала братьев Знаменских и Общества военных мемориалов.

Как во многих поисковых системах запросы здесь можно формировать в виде предложения, используя скобки, операторы "и", "или", "не", "следовать за", находиться в одном предложении или на определенном расстоянии друг от друга.

База Интегрум-Техно, также, как NNS и Park.ru - платная. Полностью раскрытый документ обходится пользователю в среднем в пятьдесят центов. Цена складывается из 20 центов за первый килобайт информации, к которому прибавляются по десять центов за каждый следующий килобайт. Но к преимуществам Артефакта по сравнению с конкурентами можно отнести трехступенчатую процедуру раскрытия текста. Поиск по названию, как и у всех сейчас бесплатный. Но часто название документа не позволяет решить - нужен он или нет. Раскрытие же документа, например в NNS, влечет сразу снятие с аванса 40 центов. Артефакт же предоставляет на второй стадии абзац, с искомым словосочетанием стоимостью от одного до трех центов, благодаря которому пользователь надежно отсеет информационный шум. Только после этого раскрывается основной текст, и снимаются пятьдесят центов. Найденные документы могут быть отсортированы в прямом или обратном хронологическом порядке, или по степени соответствия документов запросу. Надо подчеркнуть, что Артефакт обладает высокой скоростью поиска документов, загруженных в базу данных. Поисковое пространство объемом в 10 гигабайт может быть просмотрено по сложному запросу за 20 секунд.

Но, пожалуй, самым полезным следствием развитых лингвистических возможностей системы Артефакт стали автоматические средства подбора информации, так называемые - "информационные агенты". "Информационные агенты" - это запросы-роботы. Они имеют гибкую систему настроек и отсечений по источникам и сроку давности. Благодаря "Агентам" пользователь, сформировав один раз запрос, будет от одного до трех раз в день получать по электронной почте выборку необходимых новых документов. Этим механизмом успешно пользуются и сами создатели Интернет - узла Интегрум. На сайте в открытом доступе есть ежедневные тематические разделы - выборы, война в Чечне, грязные деньги, политика, экономика и так далее, которые автоматически формируются информационными агентами. Это интересно, хотя бы потому, что исключает вольную или невольную цензуру составителей. Информационные агенты - довольно выгодная услуга. Если вы не ожидаете больше 30 сообщений в день, то месячная плата независимо от размеров файлов составляет 20 долларов. При потоке сообщений до ста пятидесяти в день - стоимость сервиса возрастает до 50 долларов, но все равно, это на порядок дешевле, чем самостоятельный отбор.

Мы видим, что полнотекстовый поиск в разнородных базах данных обладает очевидными удобствами. Но, кроме этого, он затрагивает огромную и вечную проблему всех библиотек от библиотеки Ашурбанипала в Ниневии до библиотеки Конгресса США - обнаружение без потерь и ошибок всех источников, касающихся избранной темы или автора. Для этого придуманы подробные библиографические описания изданий, тематические и предметные каталоги, различные индексации и ключевые слова. Для этих целей создана целая наука - библиография. Библиография изучает и разрабатывает практические методы учета, описания и распространения упорядоченных сведений о издаваемой тиражной продукции. Как важно вовремя сообщить возможному читателю о нужных книгах хорошо понимал Михайло Ломоносов. Он требовал: "Быстрее распространять в республике наук сведения о книгах", а Виссарион Белинский, возглавив отдел критики журнала "Современник", писал: "Для журнала библиография есть столько же душа и жизнь, сколько и критика". Стремительный рост печатной продукции сделал проблему поиска и навигации в информационном море самой насущной. Напомним, что ещё тридцать пять лет назад каталог работ только по немецкой истории насчитывал сто пятьдесят тысяч изданий.

Чего только не придумали, чтобы текст не затерялся и нашел своего читателя. Сводные каталоги библиотек, реферативные журналы, обзоры, аннотации, роспись статей по темам, рекомендательная библиография и даже библиографии библиографических изданий. И все равно очень многое зависит от квалификации и опыта человека, который описывает и классифицирует документы. Кроме обычных упущений и ошибок существуют издания на стыках наук, которые могут не попасть в поле зрения заинтересованных лиц потому, что их значение для других областей порой не осознается даже авторами. Вот тут то и может прийти на помощь полнотекстовый поиск, который не упустит при правильном запросе нужную информацию.

Удачный опыт использования "информационных агентов" в проекте Интегрум, наводит на мысль, что библиотеки станут в ближайшее время цифровыми не только из-за удобства удаленного доступа к их ресурсам через Интернет, не только из-за фантастического сокращения размеров книгохранилищ, но и благодаря беспрецедентным возможностям хорошо организованного полнотекстового поиска, который в ближайшее время изменит лицо заслуженной науки библиографии. Конечно, даже хорошо сформированный автоматический запрос не сможет заменить квалифицированного библиографа, но мы, видимо, до конца еще не понимаем насколько увеличится, благодаря цифровым технологиям, полнота составления тематических каталогов, как своевременно они будут формироваться и как быстро доходить до читателя.

Но не надо забывать и про собственные проблемы Интернета. Все больше изданий появляются и распространяются только в электронном виде, причем, никто их систематически не учитывает и не описывает. И здесь запросы-роботы смогут классифицировать хаос интернетовского творчества. В их силах создавать экспресс - библиографии, рассылая их подписчикам, помогая тем самым жаждущему знаний читателю добраться до так необходимого ему автора.

Радио "Свобода", программа "Седьмой континент". Вадим Алексеев: о конфиденциальности сетевого общения.

Алексеев

О безопасности информации и конфиденциальности передаваемых сообщений люди говорят еще с тех пор, когда только возникла такая необходимость - несколько тысячелетий тому назад. До совсем недавнего времени носителем информации был человек: будь то гонец, передававший сведения из уст в уста, или почтальон, передающий письма из рук в руки. С появлением телеграфа и телефона информация стала меньше зависеть от ее носителей с одной стороны, а с другой стороны адресаты теперь могли лишь догадываться, кто и где, случайно или намеренно мог ознакомиться с не предназначенным ему посланием. Именно тогда стало справедливо такое утверждение: если вы хотите конфиденциального общения, то только вы и можете его обеспечить. Факт бесспорности этой мысли подтвердился еще больше с появлением и стремительным ростом новой информационной магистрали: разумеется, речь идет об Интернете. Иной пользователь и не подозревает, какой путь проходит его электронное письмо, которое он отправил своему приятелю из соседнего дома, а сколько возможностей было прочитать это послание любопытствующему оку и не счесть. Еще сложнее огородить свой компьютер, а тем более целую сеть, если они постоянно подключены к Интернету.

Вопросам Сетевой безопасности в Интернете был посвящен январский семинар Российского Общественного Центра Информационных Технологий (РОЦИТ), на котором шла речь о различных методах, концепциях и протоколах защиты информации, также были представлены точки зрения на проблему некоторых ведущих в этой области российских и зарубежных фирм. Но, обо всем по порядку.

Очевидно, что желание узнать то, что знать запрещено, появилось не сегодня. Такими, с позволения сказать, любопытствующими могут быть просто продвинутые хакеры, конкурирующие фирмы и, конечно же, сующее везде свой нос государство. Справедливости ради надо сказать, что последнее выступает в качестве "любопытной Варвары" практически во всех странах, хотя сей факт и не может служить оправданием подобного рода действий. Квалификация таких субъектов Интернета растет вместе с ростом сети, а поэтому их обнаружение и тем более предотвращение их несанкционированной деятельности очень сложно. Проблема состоит в том, что многие компьютерные системы, связанные с Интернетом, имеют традиционные методы защиты, разработанные уже не одно десятилетие назад. Представитель Научно-инженерного предприятия "Информзащита" Алексей Лукацкий коротко рассказал о них. В первую очередь речь идет о системе контроля доступа. В этой системе субъекту (пользователю или программе) на основе заданных правил разрешается или запрещается доступ к какому-либо объекту (например, файлу). Однако действия, производимые субъектом над объектом, никак не регламентируются и таким образом невозможно, например, предотвратить копирование файла пользователем, которому доступ к данному файлу разрешен. Еще один традиционный механизм - процедура аутентификации пользователя. Многие системы построены на стандартной схеме, где каждый имеет доступ по имени и паролю. Пройдя такой шлюз, пользователь получает доступ к ресурсам и система не ведет более никакого контроля. Третьим традиционным механизмом был назван механизм криптографической защиты, который реализуется на базе обмена ключами и шифрования трафика. И наконец, антивирусная защита и контроль содержимого. Алексей Лукацкий подчеркнул, что основным недостатком традиционных систем является то, что они действуют непосредственно во время несанкционированного доступа или так называемой атаки на информационную систему. Кстати, не только сама информация может быть объектом действия злоумышленников. Такими же объектами внимания могут стать и операционная система, и прикладное программное обеспечение, то есть любой из организационных уровней. Так вот, традиционные механизмы защиты не в состоянии упредить нежелательные действия, кроме того, они не могут учесть динамику сетевого окружения.

Что же можно предложить взамен? Конечно же, новую технологию обнаружения. Она может быть реализована на уровне сети и на уровне узла. В первом случае производится анализ сетевого трафика и используемых сигнатур атак. При этом все действия происходят в реальном времени, а по сему нарушителю сложно остаться незамеченным, как, впрочем, и достичь поставленной цели. В случае реализации технологии на уровне узла производится анализ журналов регистрации пользователей и действий сотрудников компании. Здесь учтен очень важный аспект проблемы - несанкционированный доступ довольно часто возникает не извне, а изнутри. Плюс к этому производится анализ профилей находящихся в системе пользователей, а также, как и в предыдущем случае, используемых сигнатур атак. Технология, совмещающая в себе обе новые технологии обнаружения, получила название технологии микроагентов.

Говоря о способах защиты от несанкционированных пользователей стоит упомянуть и один из наиболее распространенных в настоящее время протоколов защиты информации - это Secure Sockets Layer или сокращенно SSL-протокол. При его применении сеанс разбивается на два этапа. Первый - это установка так называемой SSL-сессии, в процессе которой происходит аутентификация, то есть определение подлинности, сервера и клиента; формирование криптографических ключей и договор об использовании алгоритмов. Второй этап - это и есть собственно защита сеанса связи. Прежде всего, от несанкционированного доступа к сессии, проще говоря, от прослушивания или подсматривания. И еще одна значительная функция - защита информации от искажения, то есть контроль целостности передаваемых данных. Несмотря на популярность данного протокола, существует целый ряд обстоятельств, препятствующих его распространению в нашей стране.

Во-первых, в России уже существует множество действующих приложений, не использующих данный протокол, и дорабатывать эти приложения или отказываться от их использования не представляется возможным.

Во-вторых, практически все существующие продукты, поддерживающие протокол SSL, реализованы в США и, по ряду причин, эти продукты еще долго будут поступать на российский рынок в усеченном варианте.

В-третьих, в нашей стране (как, кстати, и во многих других странах мира) существуют законодательные ограничения при защите информации, которые разрешают использовать только национальные криптографические стандарты.

Наконец, ни одно из известных приложений, реализующих SSL, не обеспечивает возможности формирования электронной подписи под документами, что существенно ограничивает сферу применения данного протокола (например, для банковских и платежных систем формирование цифровой подписи является обязательным атрибутом информационной защиты).

Можно продолжить перечисление, но возникает вопрос, можно ли как-то преодолеть эти проблемы. В своем докладе на семинаре РОЦИТ представитель компании Сигнал-КОМ Елена Никонова предложила свое решение: технологию организации защищенного информационного взаимодействия, реализующую свободный от экспортных ограничений протокол SSL, дополненный отечественными криптографическими алгоритмами, в рамках которого обеспечивается возможность формирования электронной подписи под HTML формами (при защите Web-приложений). Другими словами, на основе протокола SSL был разработан собственный протокол.

На семинаре, разумеется, был также затронут и вопрос: сколько же стоит защитить информацию. Оказывается не очень дешево. Программное обеспечение тянет на многие сотни долларов, а лицензия на сертифицирование, в зависимости от числа пользователей, будет стоить также от нескольких сот до нескольких тысяч американских долларов. Таким образом, если у вас возникло желание позаботиться о защите свое информации при содействии профессионалов, следует хорошенько подумать и ответить на такой вопрос: а стоит ли моя информация таких денег.

И еще следует обратить внимание на такой интересный факт. Любая система шифрования и иной защиты информации в нашей стране должна быть лицензирована в таких известных организациях как ФСБ и ФАПСИ. Таким образом, стоит помнить, что все ключи от этих схем имеются в этих органах. И, конечно же, наши уважаемые слушатели еще помнят обсуждение в "Седьмом континенте" очень любопытной инициативы под названием СОРМ-2. Ее суть состоит в том, что вышеупомянутые ведомства получают доступ ко всей информации, проходящей через провайдеров. Вы теперь заметили некоторый парадокс: ведомства заинтересованные в том, чтобы иметь закрытую информацию занимаются лицензированием систем, позволяющих закрыть информацию. Что же делать? А выход все-таки есть. Вы можете закодировать информацию вашим собственным кодировщиком (пусть он даже был приобретен на Западе). Дело в том, что доказать, что такая информация зашифрована не сможет практически никто.

Все ссылки в тексте программ ведут на страницы лиц и организаций, не связанных с радио "Свобода"; редакция не несет ответственности за содержание этих страниц.

Ссылки для упрощенного доступа

Социальные сети

Интернет