Ссылки для упрощенного доступа

logo-print

Google запустил поиск по блогам, хотя и с опозданием


Специально для сайта

Владимир Губайловский

Компания Google запустила поиск по онлайновым дневникам или блогам. Поиск осуществляется не только по сервису, предоставляемому самим Google – службой Blogger, но по всем другим блогам, которые предоставляют информацию об изменениях в виде RSS-ленты обновлений. На сегодня поисковый индекс Google включает записи в блогах, начиная с июня 2005 года, но Google намерен проиндексировать и более старые записи. С помощью сервиса можно найти нужный онлайновый дневник, автора или отдельную запись, причем в выделенном хронологическом интервале.

Поиск в блогосфере

Неудивительно, что Google выпустила поиск по блогам. Удивительно, что компания, известная своим острым чутьем на инновации, и выпускающая в последнее время новые сервисы и инструменты почти каждую неделю, так долго не предлагала пользователям именно этот сервис – поиск по блогам.

У блогов есть своя специфика, которая выделяет этот тип сайтов среди всех остальных, и потому поиск по блогам отличается от традиционного поиска. Для сравнения: компания Яндекс выпустила свой поиск по блогам еще в декабре 2004 года. А Google попросту не увидела той специфики, которую несет в себе блогосфера (этот термин уже утвердился в качестве определения всех блогов, существующих в Сети).

По оценке компании Technorati, общее количество блогов в Сети уже достигло 16,1 миллионов, их число удваивается каждые пять месяцев – новый блог создается каждые 5-7 секунд. Блоги – онлайновые дневники – пишут и публикуют сегодня и частные лица, и крупнейшие компании. Причем главный интерес представляют именно самые последние по хронологии записи в блоге. А большие поисковые системы, даже такие быстрые как Google, обновляют свои индексы достаточно медленно – они просто не замечают специфики блога и индексируют все подряд. Традиционные поисковики, такие как Google или Yahoo, для веб-поиска строят свои индексы, "обегая" Сеть с помощью автоматических поисковых роботов, которые собирают все что попадется, со всех веб-страниц которые они встретят. Не редкостью является ситуация, когда на первой странице поиска возникают новости прошлогодние или даже более старые – поисковая система далеко не всегда хорошо ориентируется во времени. Это вполне естественно – ей приходиться работать с датой обновления страницы, а страница могла быть обновлена безо всякого изменения содержания. Поисковая система не может гарантированно датировать любую страницу интернета.

"Выскочки" на рынке поиска

Временные задержки и нарушения хронологии при работе с блогами, которые постоянно встречаются в традиционных поисковиках, дали шанс небольшим поисковым системам. Эти сервисы сосредоточились на максимально быстром индексирование блогов. Они стараются отследить обновление в блоге в течение нескольких минут, чтобы сделать эти изменения доступными для поиска. Новые сервисы, некоторым из которых нет и года, конечно, сталкиваются с множеством проблем. Технология пока развивается, и компании только нащупывают оптимальные пути отслеживания и сортировки блогов. Одни сервисы теряют множество блогов, другие – подбирают сайты, оказавшиеся случайно похожими на блоги. На DayPop. представлен небольшой объем блогов – около 60 тысяч, но эти блоги отобрали редакторы сайта, как самые интересные с их точки зрения. Сайты, подобные Technorati, Feedster, IceRocket (эта служба на сегодня лучше всех проиндексировала русские блоги) и BlogPulse, собрали намного больше блогов – от 15 до 20 миллионов. Поисковая выдача этих систем дает намного больше результатов, часто из довольно неприметных, но очень интересных источников. Если Technorati и BlogPulse сосредоточены исключительно на блогах, то Feedster и IceRocket, кроме того, предлагают опцию, которая позволяет осуществлять поиск новостей из традиционных источников – лент информационных агентств, онлайновых газет и других официальных поставщиков новостного контента.

В то время когда Google, Yahoo and Microsoft обрабатывают миллиарды страниц, поиск по блогам сосредоточен на 10 - 20 миллионах сайтах. Здесь поисковые системы используют методы, которые применимы только к блогам и непригодны для индексирования произвольных сайтов. Как пишет The Wall Street Journal Online, Technorati, например, чаще всего для мониторинга блогов опирается на механизм "pinging". Большинство блоггеров организуют свои журналы через такие сервисы, как Blogger или LiveJournal, которые автоматически посылают ping-сообщение поисковому серверу в момент изменения блога. Исполнительный директор Technorati Дэвид Сифри (David Sifry), говорит что его компания имеет соглашение со многими компаниями, которые предоставляют блог-хостинг (то есть сервис для размещения и ведения блогов) – Technorati получает ping раньше других поисковых систем. Получив такое сообщение, Technorati немедленно обновляет свой поисковый индекс. Feedster также использует ping-мониторинг, но кроме этого, собирает обновления с помощью RSS-ленты (как и только что стартовавший поиск Google по блогам), в которые с определенной периодичностью выдаются все накопленные обновления. Но, используя только RSS-выдачу и ping-сообщение от крупных блог-сервисов, можно потерять те важные блоги, которые существуют самостоятельно. Поэтому IceRocket кроме того пользуется собственным поисковым роботом, который обходит Сеть и самостоятельно индексирует блоги. Поисковый робот может отличить блог от любого другого сайта – поскольку у блогов есть свои характерные отличия. Любой блога имеет хронологическую последовательность записей, каждая запись содержит явно указанную дату и заголовок.

Время в гиперпространстве

Научный обозреватель Радио "Свобода" Александр Сергеев так охарактеризовал специфику блогов: "Вместе с блогами в Интернет пришло время или даже Время. До блогов Интернет представлял собой гипер-Пространство, в котором время отсутствовало. Создавались сайты, выкладывались обновления, но время явно присутствовало только в новостных лентах, а новостных лент сравнительно со всем объемом Сети очень мало. То, что блог обязательно связан с хронологией записей, задает совершенно определенную структуру, которой до блога не было".

Google пропустила поиск по блогам, не стала здесь первой и ей приходится теперь догонять. В Google, вероятно, посчитали, что если у компании лучшая поисковая система, то она и блоги проиндексирует столь же хорошо, как и все остальное. Но оказалось, что это не совсем так. Положение дел в Сети меняется настолько быстро, что даже Google при всей ее чуткости и подвижности уже недостаточно оперативна, чтобы быть всюду первой – и самое болезненное для компании, то, что она пропустила сегмент именно поискового рынка. Если бы Google запустила поиск по блогам год назад, многие компании, которые поднялись сегодня на этом сегменте рынка, просто не возникли бы.

XS
SM
MD
LG