Ссылки для упрощенного доступа

logo-print

Объем русскоязычного сегмента Интернета перевалил за 1 миллиард страниц


Программу ведет Кирилл Кобрин. Принимает участие корреспондент Радио Свобода Александр Сергеев.

Кирилл Кобрин: Считается, что в Интернете можно найти буквально любую информацию. На днях на сайте поисковой системы Nigma.ru появилось сообщение о том, что объем русскоязычного сегмента Интернета недавно перевалил за 1 миллиард web-страниц. Прокомментировать эту цифру и рассказать о том, как строятся подобные оценки, мы попросили Илью Сигаловича, технического директора компании Яndex, самой крупной поисковой системы в России. С ним беседовал мой коллега Александр Сергеев.

Александр Сергеев: Илья, скажите, пожалуйста, что представляет собой система Nigma? Как они строят свои оценки?

Илья Сигалович: Сама система и оценки несколько не связанные вещи. Дело в том, что Nigma - это метапоисковая система, которая пытается добавить некое качество к ответам других поисковых система. Она сама не содержит никакой базы. Она передает ваш запрос в несколько поисковых систем, собирает их ответы и пытается из них построить некий идеальный ответ или, может быть, обогатить его какой-то другой информацией.

Александр Сергеев: Они скачивают все эти страницы, этот миллиард?

Илья Сигалович: Нет, конечно, такие оценки невозможно сделать, скачав миллиард страниц. Никакая поисковая система не позволит вам столько запросить, это очень дорого и технически невозможно. Выполняется некоторое количество запросов каждой поисковой системе, и исходят из предположения, что поисковая система собирает документы случайным образом. По доли документов из одной поисковой системы в результатах другой поисковой системы можно оценить глубину индексации Интернета, то есть как бы процент проиндексированных документов.

Александр Сергеев: Поисковые системы собирают не все документы? Разве у них нет такой задачи?

Илья Сигалович: У них есть такая задача. Просто нужно понять, что такое все документы. Дело в том, что Интернет - это динамическая среда, в которой огромное количество информации дублируется. Если бы это дублирование было чисто механическим, все было бы просто. К сожалению, копии не являются точными. Копии являются измененными. Огромное количество того, что в последнее время принято называть полудублями, то есть когда документ отличается не очень сильно каким-нибудь обрамлением, датой, рекламой, началом, хвостиком, боковинкой. Это то, что пользователь не считает за серьезную информации. Для него это два одинаковых документа, но формально математически они разные.

Александр Сергеев: Получается, что такие документы, формальные для поисковых систем, это разные совершенно документы, а на самом деле учитывать их как разные не следует при подсчетах объема, да?

Илья Сигалович: Совершенно верно. Каждая поисковая система стремится изо всех сил, по крайней мере последние 5 лет, исключить такие полудубли из базы, то есть подготовить базу качественным образом - избежать всякого мусора, избежать всяческих повторов. Вся эта математика, которая прячется в недрах каждой поисковой системы, она своя. Поэтому когда мы сравниваем ответы поисковых систем, надо знать о том, что это математика. Поэтому нужно получать все документы, которые она знает, и производить подобную математику самим, иначе мы рискуем очень сильно ошибиться в оценках.

Александр Сергеев: В сообщении, которое опубликовано на сайте Nigma.ru, говорится, что они пробовали оценить надежность своих данных таким способом. Они отключали по одной поисковой машине, скажем, делали оценку со всеми поисковыми машинами, потом без одной, потом без другой. Получили, что в среднем отключение каждой, отдельной взятой поисковой машины сокращает объем видимых документов примерно на 12 процентов. Действительно, всего на 12 процентов различаются базы данных крупнейших поисковых систем?

Илья Сигалович: Думаю, что отключение одной поисковой системы по отношению ко всему множеству, про которое знает исследователь, изменения могут быть на 12 процентов. Понятно, что почти все поисковые системы хранят в своей базе те страницы, на которых много ссылок, ядро что ли. Окраину veba, если можно представить себе такую картинку, ту, на которую не много ссылок, дальше здесь наступает некоторая неполнота. Полностью обойти veb никто не может. Старые исследования, которые были еще в конце 90-х годов, первые оценки такого рода, они показывали, что ни одна поисковая система не знает больше 30-40 страниц всех страниц. Опять же мы здесь подходим к пониманию, что такое страница. Его трудно очень четко сформулировать именно из-за того, что информация одна и та же может быть совершенно по-разному оформлена. Только человек по сути может сказать это одна страница или разные страницы.

Александр Сергеев: То есть на самом деле, если ведется поиск какого-то конкретного документа или какой-то очень узкоспециальной информации, то ни в коем случае нельзя ограничиваться одной поисковой системой?

Илья Сигалович: Трудно сказать. Дело в том, что такая редкая информация, когда у вас в ответе считанное число документов, это действительно очень редкий случай. Если же говорить о десятках или сотнях документов в ответе, то и метапоисковая система вам покажет только первую страничку, то есть все равно как бы полноты не будет.

Александр Сергеев: Интересная еще цифра приводится, что около 20-30 процентов документов рунета вообще не попадают в поле зрения поисковых машин. Это реалистичная оценка?

Илья Сигалович: Думаю, что даже больше, если очень формально относиться к определению, например, считать, что документ своим текстом отличается от любого другого документа, скажем, на 15 процентов как минимум. Если мы примем какое-нибудь небольшое формальное определение, то, я думаю, что даже больше. Это оценка занижена.

Александр Сергеев: Nigma.ru говорить о том, что у нас чуть больше миллиарда страниц в рунете. А есть какие-то иные оценки?

Илья Сигалович: Я согласен с комментариями Влада Шабанова из Rambler, который называет цифру в 1,5 миллиарда. Опять же мы здесь говорим о формальном таком определении понятия "разный документ", который не очень удобоварительный с точки зрения пользователя. Потому что если по большому счету, то, конечно, там меньше содержательных документов.

Александр Сергеев: Если сравнивать со всемирным Интернетом, это какая примерно доля будет?

Илья Сигалович: Сейчас у нас необычно большая доля, скажем, Яndex проиндексировал 700 миллионов документов, в то время как самая большая поисковая система в мире Гугал проиндексировала 8 миллиардов, то есть мы почти 10 процентов. Это очень много, никогда так не было. Я думаю, что просто в мировых поисковых системах наблюдается некоторая стагнация. Мы на пороге некоторого взрыва. Рунет необычно много места занимает.

Александр Сергеев: Вряд ли он действительно столь велик, скорее всего мир недооценен?

Илья Сигалович: Да, плоховатенько пройден. Мы наблюдаем некоторую технологическую проблему, на мой взгляд, потому что рост замедлился. Думаю, что еще будет некоторый рывок в следующем году.

Александр Сергеев: На каких условиях Nigma.ru пользуется результатами поиска того же Яndex, например? Ведь четко прописано, что использование в автоматических метапоисковых системах результатов запрещено.

Илья Сигалович: Совершенно верно. Гугал тоже запрещает использование своих ответов в метапоисковых системах. Но я так думаю, что казус такой неопределенный - или запросов еще очень мало от них, или еще как-то. Не могу вам сказать, почему конкретно мы не предпринимаем никаких действий.

Александр Сергеев: То есть это не есть специальное соглашение об использовании?

Илья Сигалович: Я ничего об этом не слышал.

XS
SM
MD
LG