Ссылки для упрощенного доступа

logo-print

Как лучше организовать информацию, размещенную в Интернете


Программу ведет Андрей Шароградский. Принимает участие корреспондент Радио Свобода Александр Костинский.

Андрей Шароградский: Как лучше организовать информацию, размещенную в Интернете. Мы предлагаем вашему вниманию мнение технического директора компании "Яндекс" Ильи Сегаловича. С ним беседует Александр Костинский.

Александр Костинский: «Интернет» становится тем местом, где компьютеры могут обмениваться осмысленной информацией друг с другом и с людьми", - заявил Ричард Бенджаминс, координатор проекта "Эсперонто". Одно из первых приложений будет выполнено для регионального правительства Каталонии. Ученые будут искать методы лечения новых форм заболеваний уже существующими лекарствами и терапевтическими методами. Проект "Эсперонто" должен быть запущен до конца февраля.

Этот проект принадлежит направлению "Симантик веб" ("Осмысленный Интернет"). Задача, которую ставит перед собой движение "Симантик веб" - это борьба с информационным хаосом в Интернете. Информации слишком много. Но главная ее трудность не в том, что ее много по абсолютной величине, а в том, что информация в Интернете плохо структурирована. Основная идея "Симантик веб" состоит в том, чтобы добавить во все документы классифицирующие признаки, например, ключевые слова или правила, по которым документ можно отнести к тому или иному разделу. Разбирая эти признаки, программа сможет давать осмысленные ответы на запросы. Свою точку зрения на развитие "Симантик веб" высказывает технический директор компании "Яндекс" Илья Сегалович.

Илья Сегалович: Это некая голубая мечта человечества, научиться представлять все знания, доступные в сети, то есть в Интернете, в таком структурированном и правильно классифицированном виде. Если бы эта мечта сбылась, то возможности, которые открылись бы перед человеком, стали бы безбрежными. То есть можно было бы мгновенно и ровно таким образом, каким нужно, находить информацию, можно было бы ее использовать совсем не так, как сейчас.

Александр Костинский: Как реализуется этот "Симантик веб"?

Илья Сегалович: Это много проектов, вообще говоря, ведущиеся в самых разных университетах и в частных компаниях. Проекты эти все нацелены создать нужную структуру для того, чтобы описывать сознание, второе - это облегчить человеку возможность пользоваться всем этим накопленным богатством, если оно правильно структурировано и классифицировано, и третье - построить средства написания и создания такого структурированного и классифицированного содержимого. Совокупность всех этих проектов имеет общее название "Симантик веб".

Само название, насколько я знаю, оно связано с Тимом Бернасом Ли, это ученый. По-моему, он англичанин, но работал в Швейцарии, как раз в начале 90-х придумал "HTML-разметку", первый web-браузер написал и придумал протокол http. Собственно, эти три слагаемых явились началом современной эры Интерната. То есть он считается открывателем Интернета в связи с этим.

Александр Костинский: И он придумал этот "Симантик веб"?

Илья Сегалович: Я не уверен на 100 процентов, что именно он придумал эту фразу, но как-то это сильно с ним ассоциируется. На всех последних конференциях WWW3C, в том числе на которой я был, он делает такой важный статусный доклад обычно, в котором делится своей золотой мечтой, голубой, о том, как это здорово...

Александр Костинский: Скажите, пожалуйста, как этот проект связан с известными поисковыми машинами?

Илья Сегалович: По сути что такое современная поисковая машина? Она пытается всеми доступными средствами разными математиками ту информацию, которая она собирает, абсолютно неструктурированную, абсолютно в некотором смысле "грязную", пытается как-то классифицировать, как-то правильно выдавать ответы на запрос. "Симантик веб", если бы он существовал в каком-то виде, если бы в нем, например, хранилось бы много знаний, много данных, существенно больше, чем сейчас, то работа поисковой системы резко бы упростилась. В чем-то упростилась. Во-вторых, появились бы новые возможности.

Александр Костинский: Скажите, пожалуйста, вы, как технический директор "Яндекса", не собираетесь подобные системы или какие-то такие системы искусственного интеллекта обработки внедрять у себя? Многие стипендии "Яндекса" были посвящены как раз симантическому поиску.

Илья Сегалович: Мы реалисты и наша задача - обрабатывать реальные данные. Сейчас в структурированном виде и даже по рекомендациям консорциума W3C, у них есть рекомендация, что можно и нужно приписывать классификационные такие атрибуты прямо в ваш документ. В реальности их буквально какие-то промилле, может быть, документов содержат эти атрибуты. Поэтому что делает поисковая система? Она пытается, используя информацию, не только содержащуюся в странице, но используя все возможную информацию о положении в странице, то есть социальную информацию о ссылках на страницу - все, что только можно из социальной жизни этого сервера, этой страницы, условно говоря, чтобы как-то хотя бы частично приблизиться к решению задачи такого правильного ответа на вопрос, правильного отнесения информации к нужному классу. В частности, в заявках "Яндекса" было много заявок, которые были нацелены на автоматическую классификацию текстов.

Александр Костинский: Можем ли мы сказать, что вся эта деятельность целиком крайне полезна, потому что она может привести к каким-то неожиданным решениям? Точно так же, как Google нашел какой-то свой способ, точно так же возможно в результате этой деятельности будет достигнут какой-то следующий прорыв?

Илья Сегалович: Я думаю, что работать в этом направлении надо. Очень правильно, что это делается. Лежит ли там прорыв, не знаю. Человек существо неорганизованное, все, что создает, имеет очень неорганизованный характер. Поэтому чем больше будем считать, что информация плохо организована, и опираться на эту аксиому, пытаться из этого кошмара, из этого хаоса создавать какое качество, тем лучше.

XS
SM
MD
LG