Ссылки для упрощенного доступа

Протесты не в топе


Прошедшие в воскресенье по всей России протестные акции проигнорировали многие государственные СМИ и крупнейшие телеканалы, другие лишь отчитались о “четких и профессиональных” действиях полиции. В то же время митинги широко освещались авторитетными изданиями с большой аудиторией – "Ведомостями", "Коммерсантом", РБК, "Московским комсомольцем", "Медузой", Радио Свобода и многими другими. Тем удивительнее было наблюдать, что сюжет о протестных акциях за весь день так и не попал на верхнюю строчку топа крупнейшего новостного агрегатора страны, сервиса "Яндекс.Новости".

Главным сюжетом первой половины дня на "Яндекс.Новостях" было Евровидение, начиная с половины пятого вечера, в пик задержаний протестующих в Москве и Петербурге, на первую строчку топа вышел сюжет о самоубийстве помощника депутата Госдумы. Ближе к вечеру главным сюжетом московских "Яндекс.Новостей" стала погода. Суд над Алексеем Навальным в первой половине дня в понедельник также не попал на верхние строчки топа агрегатора (сюжет вышел на первое место только после приговора по второму делу).

Учитывая недавний скандал с отключением счета избирательной кампании Навального от сервиса “Яндекс.Деньги”, в социальных сетях стали звучать предположения, что игнорирование протестов и судов “Яндекс.Новостями” в воскресенье и понедельник – следствие преднамеренных действий компании. Вечером в понедельник "Яндекс" опубликовал заявление, в котором утверждается, что “никакого ручного вмешательства быть не может, работа "Яндекс.Новостей" по-прежнему полностью подчиняется алгоритмам”. В то же время компания подчеркнула, что “в "Яндекс.Новостях" существует недобросовестная оптимизация, аналогичная поисковой, и мы с ней боремся”. Как может выглядеть такая накрутка, видно из скриншотов, которые сделал сотрудник издания "Медуза" Сутан Сулейманов: практически весь вечер воскресенья официальные сайты органов власти Дагестана, от администрации Махачкалы до Министерства туризма республики, публиковали близкие по содержанию сообщения, часть из них содержала заявления, что местные жители “не поддержали коррупционный митинг”, в других были опровержения массовых задержаний.

Григорий Бакунов
Григорий Бакунов

Радио Свобода расспросило о работе "Яндекс.Новостей" и возможных накрутках директора по распространению технологий "Яндекса" Григория Бакунова.

– Сколько человек смотрят топ "Яндекса" ежедневно?

– Ежедневная аудитория тех пяти новостей, которые показываются на главной странице Яндекса, такая же, как у главной страницы, – примерно 20 миллионов человек, в зависимости от дня. На страницу "Яндекс.Новостей" ежедневно заходит 6 миллионов, в воскресенье спрос сильно меньше. Не думаю, что минувшее воскресенье чем-то отличалось.

– Ваш алгоритм работает на основании сообщений некоторого набора медиапартнеров. Сколько их?

– В последнее время этот пул сильно уменьшился из-за нового закона о новостных агрегаторах, который начал действовать с нового года: теперь в сюжетах "Яндекс.Новостей", на главной странице сервиса и в топе на главной "Яндекса" можно показывать только те издания, у кого есть регистрация СМИ. Тех, у кого нет регистрации СМИ, продолжают появляться в результатах поиска "Яндекс.Новостей", таких источников примерно 7 тысяч. Кто-то еще продолжает получать регистрацию СМИ, поэтому цифра партнеров для показа в сюжете или топе может меняться.

– Любое официально зарегистрированное издание может попасть в этот пул в заявительном порядке?

– Да, с ними заключается договор. Осенью перед вступлением закона в силу "Яндекс.Новости" попросили всех партнеров подписать новое соглашение и прислать копии документов. Подписавшие – показываются в топе и сюжетах, неподписавшие – в поиске по "Яндекс.Новостям".

– А какой-то отбор со стороны "Яндекса" происходит? У вас есть человек, который решает: вот это уж совсем некачественное СМИ, не будем его брать.

– Мы проверяем, что у источника есть собственная редакция, которая пишет собственные материалы. Не принимаются сайты, которые сами ничего не создают.

– Вы заявляете, что алгоритм у вас полностью автоматический, что контролировать его нет возможности. Но недавно, в связи с “Законом о забвении”, "Яндексу" уже пришлось научиться влезать в поисковый алгоритм. Может, и в новостях это можно делать?

Никакого простого способа выключить какую-то новость или какое-то СМИ без того, чтобы нанести большой ущерб, в общем, нет

– Фактически "Яндекс.Новости" могут сделать только одно – взять и отключить источник совсем. Тогда он не будет находиться в поиске по "Яндекс.Новостям", пропадут все его новости, перестанет учитываться его вес при составлении сюжета. Такие события, я помню, были в самом начале 2010 года, когда какое-то из довольно значимых на тот момент СМИ внезапно выпустило заголовок, содержавший ненормативную лексику, и нам пришлось выключить это издание на довольно большой промежуток времени, пока с той стороны не перестали хулиганить. Вы знаете, как это происходит: кто-то пожаловался в службу поддержки, служба поддержки прореагировала, спохватились и начали что-то крутить. По большому счету, никакого простого способа выключить какую-то новость или какое-то СМИ без того, чтобы нанести большой ущерб, в общем, нет.

– То есть это действие только на уровне целиком СМИ.

Желающих обратиться к нам и подкрутить рейтинги довольно много, и не нужно даже себе такого соблазна оставлять

– Да. Мы же прекрасно осознаем, в каких условиях работаем, и поэтому с самого начала не оставляли себе никакого простого способа подкручивать систему. Потому что желающих обратиться к нам и подкрутить рейтинги довольно много, и не нужно даже себе такого соблазна оставлять.

– Но есть фактор пула, в который входят, например, сайты региональных органов власти, вроде Министерства туризма Республики Дагестан.

– Ну, это официально зарегистрированные СМИ. Как им откажешь? Только не нужно забывать, что у всех СМИ разный вес, и он определяется по большому количеству показателей: насколько это оперативный ресурс, насколько на него ссылаются другие ресурсы и так далее. И любое СМИ, сделанное министерством Дагестана, имеет, наверное, на 3–4 порядка меньший вес, чем "Коммерсант" или "Ведомости".

– Я процитирую описание работы "Яндекс.Новостей" с сайта "Яндекса": “Вес СМИ играет незначительную роль при ранжировании событий”. Почему?

– Ну, что значит незначительную. Это все равно коэффициенты. Когда разница в три порядка, очевидно, что это все равно играет роль на таких резких новостных событиях.

– Вес изданий, как я понимаю, пересчитывается фактически в режиме реального времени, но вряд ли первая десятка или двадцатка существенно меняется. Какие издания имели наибольший вес в воскресенье?

– Мы не раскрываем эту информацию, но хочу отметить, что рейтинг источников мы пересчитываем скользящим окном за последний месяц, каждую неделю.

– "Яндекс" вчера опубликовал текст, в котором сказано, что компания разбирается, “как 26 марта сообщения в "Яндекс.Новостях" собирались в сюжеты и в темы”. Наверное, в рамках этого разбирательства станет понятно и кто был в топе изданий, и были ли накрутки.

– Да, но это постепенный процесс. По большому счету, "Яндекс.Новости" – система с искусственным интеллектом. Это в некотором роде черный ящик, с одной стороны, загружается один набор данных, с другой стороны – получается второй набор данных. Разобраться, что там на самом деле происходило внутри, – сложный процесс, наверное, это займет еще несколько дней.

– Давайте так: сколько нужно муниципальных изданий, созданных управами московских районов, чтобы обогнать в топе "Яндекса" сообщение "Ведомостей"? Десять? Сто?

Нужно не просто накрутить, нужно сделать это практически одновременно силами разных изданий

– Это очень сильно зависит от согласованности, много еще от чего. Вы сейчас мне задаете вот какой вопрос: “Сколько нужно, чтобы накрутить?” Простого ответа на этот вопрос нет. Нужно не просто накрутить, нужно сделать это практически одновременно силами разных изданий. И, что самое сложное, постоянно продолжать эту активность, а это вообще непонятно, как сделать. Сила крупных СМИ в том, что после того, как они что-то написали, на эту же тему очень быстро начинают писать мелкие новостные агентства, мелкие издания. В обратную сторону это не работает. Вы можете построить когорту из трех десятков мелких СМИ, можете почти случайно попасть на короткое время, на 3–4 минуты, в топ-5 новостей. Мы вывесили картинку, по которой видно, как выглядел этот топ новостей "Яндекса" на протяжении воскресенья. Видно, что есть минорные темы, которые выскакивают на 3–4 минуты в зависимости от ситуации, которые особенного влияния на все происходящее не оказывают. Если искать массовую накрутку, нужно смотреть на весь день, хотя бы на весь час.

Топ новостей обновляется каждые 3-4 минуты, в среднем 18 раз за час. Выбраны темы, которые чаще всего попадали в топ "Яндекс.Новостей" 26 марта 2017 года. Кроме топ-5, который выводится на главной странице "Яндекса", показаны также следующие десять позиций
Топ новостей обновляется каждые 3-4 минуты, в среднем 18 раз за час. Выбраны темы, которые чаще всего попадали в топ "Яндекс.Новостей" 26 марта 2017 года. Кроме топ-5, который выводится на главной странице "Яндекса", показаны также следующие десять позиций

– Давайте посмотрим на весь день: с половины пятого до половины девятого по московскому времени топовым сюжетом была информация “о самоубийстве помощника депутата”, она вытеснила даже Евровидение. Речь идет о Владиславе Никифоруке, помощнике депутата Государственной думы Дениса Москвина, это, прямо скажем, не самая медийная персона. Не знаю, что об этом думают роботы, но мне, как потребителю информации, это известие не кажется самым существенным из того, что произошло в России после обеда в воскресенье. Даже с учетом обстоятельств – могилы дочери и так далее.

– Как вы это определяете? То есть я-то с вами согласен, но аудитория может считать по-другому. Посмотрите на график, видно, как эта новость постепенно поднималась в топ и постепенно спускалась с первого места. Я не верю, что такие масштабы накруток возможны в каком-либо сервисе. Очень сомневаюсь, что это чистая накрутка, думаю, действительно у людей высокий интерес к этой теме как к таковой. И нужно иметь в виду, что на протяжении нескольких часов появлялись всякие подробности, сюжет развивался, люди за ним следили. С этим ничего не поделаешь. Вы действительно сомневаетесь, что до трех часов дня люди больше всего интересовались Евровидением? Я вот нет.

– Но вчера, в понедельник, в районе полудня, когда как раз судили Навального, я открыл сайт "Яндекс.Новости". Про минувшие события задержанных, суды не было ни слова ни в общем топе, ни в разделе “Политика”, ни в разделе “Общество”, ни в московских новостях. При этом материалы на эту тему стояли в числе главных на сайтах "Ведомостей", "Коммерсанта", РБК, "Московского комсомольца" и даже телеканала "Россия-24", не говоря уж о Радио Свобода.

Я не склонен отрицать, что были довольно серьезные накрутки

– Вы зря смотрите на главную страницу изданий, нужно смотреть в новостную ленту. "Яндекс.Новости" не воспринимают важность события так, как ее воспринимает редакция. На главную страницу ставят материалы, отражающие точку зрения редакции на важность событий, но не факт, что это самая свежая новость. На "Яндекс.Новостях" оказывается то, что прямо сейчас пишут в новостях. Если новости произошли 10 часов назад, а на главной странице "Ведомостей" об этом какой-то материал, это не влияет на "Яндекс.Новости". При этом я же тоже наблюдал за картинкой, за тем, как менялся топ новостей. Я находился в Санкт-Петербурге, у нас там было очень интересно на Дворцовой площади. Конечно же, мы переживали, что в "Яндекс.Новостях" ничего нет. Но надо понимать: чтобы новость, как говорят, ворвалась в топ-5, нужно, чтобы было довольно много новостных агентств и изданий, которые одновременно про это написали. Нужна вспышка. И по картинке хорошо видно, что вспышки эти начались в районе двух часов дня, но даже в самый пик не вынесли сюжет о митингах на первое место. Я при этом не склонен отрицать, что были довольно серьезные накрутки. Давайте прямым текстом: идея выдавить одну новость из голов людей с помощью другой новости существует века с 18-го, с тех пор, как достаточно большое количество людей стало читать газеты. Здесь то же самое, просто пытаются работать еще и на технологическом уровне. Вполне может быть, что такое произошло. Мы пока не готовы об этом говорить однозначно, будем разбираться.

– У меня есть скриншот топа "Яндекса" в половине первого ночи в понедельник, и на четвертом месте стоит заголовок: "Правоохранительные органы столицы действовали четко и профессионально".

– Ну, это означает, что самая топовая новость в этот момент, она такая, описывающая реакцию МВД на происходящее. Заголовки "Яндекс" тоже не пишет, вы же понимаете.

– То есть государственные СМИ опубликовали такую новость, а дальше ее перепечатали бесчисленные маленькие ручные сайтики, и вот в топе у нас не митинги и задержания, а четкая работа полиции.

– Просто переписать не работает, потому что такие рерайты "Яндекс" не воспринимает как сильный новостной сигнал. Нужно, чтобы люди написали свою аналитику, еще как-то дополнили сюжет. Но по большому счету, я думаю, что примерно так и было, и довольно большое количество СМИ, не знаю, по разнарядке сверху или нет, это надо у Пескова спросить, дальше понесли эту новость в народ.

– Вы понимаете, как можно изменить алгоритм, чтобы исключить накрутки?

– В целом да, но это не про исключение накруток, а про то, чтобы топ новостей показывал разноплановые сюжеты. Одна из самых главных проблем, на мой взгляд, в том, что существенная часть СМИ писала о происходящем в одном и том же спокойном тоне, меня самого это даже удивило. Когда начались митинги, не было "брейкингов", срочных новостей, они появились в тот момент, когда задержали Алексея Навального.

– То есть плашка Breaking News в каком-то издании может повлиять на развитие сюжета в топе "Яндекса"?

– Опосредованно может. Когда у крупного издания появляется Breaking, другие новостные издания моментально начинают писать про это же. И это создает волну, на которую "Яндекс" реагирует естественным образом. Мы сами по себе такие плашки не учитываем, но мы много раз наблюдали за тем, как это работает с реальными СМИ.

– Я нашел старую презентацию "Яндекс.Новостей", там сказано, что формирование топа сюжетов учитывает интересы аудитории, в частности то, что пишут пользователи в “Пишут в блогах”. Теперь, видимо, учитывается интерес к сюжету в социальных сетях?

– Сигнал из соцсетей сейчас не используется, но может быть, мы вернемся к этому. Но если вы посмотрите на самую, наверное, либеральную социальную сеть – "Твиттер", вы обнаружите, что в трендах этой темы практически не было. Это означает, что люди писали не очень активно, и можно даже не задумываться о том, насколько сильным был этот сигнал.

– В заявлении "Яндекса" в качестве гипотезы, почему митинги плохо выходили в топ новостных сюжетов, говорится о плохой кластеризации. Что это значит?

– Дело в том, что один из главных факторов, чтобы новость поднялась в топ, – это количество СМИ, которые одновременно начали на эту тему писать. У нас есть теория, что часов до четырех новости про митинги плохо поднимались в топ, потому что алгоритм считал, что это не одна и та же новость, а много разных небольших новостей из разных регионов. Кто-то писал про митинги во Владивостоке, кто-то писал про митинги в Санкт-Петербурге, в Москве, в Казани, городов много было.

– А ключевые слова разве не должны были их объединить – Навальный, коррупция, протест?

– Понимаете, далеко не везде было написано, что это митинг за Навального. В некоторых случаях было написано, что это против коррупции, кто-то писал, что это митинг "Он вам не Димон", кто-то в другой формулировке. На самом деле, даже человеку было бы довольно сложно, если бы он не знал новостной повестки, определить, что это новость об одном и том же. И посмотрите, как все взлетело вверх, когда появились новости об аресте Навального. В этот момент алгоритм очень быстро все склеил, понял, что речь идет об одном и том же человеке, что все происходит в Москве, и новость пошла вверх.

– То есть если в России начнется, не дай бог, массовая эпидемия холеры с несколькими очагами заражения, это может и не попасть в топ "Яндекс.Новостей"?

– Нет, это как раз попадет, потому что везде будут говорить именно про холеру. Если вы хотите подняться повыше, выбирайте правильные слоганы, используйте их везде. Если бы в воскресенье все писали исключительно про “митинг против коррупции”, то, наверное, ситуация была бы другой.

– Что нужно делать тем немногочисленным СМИ, которые готовы писать о протестах, чтобы их информация была более заметна в топе "Яндекса"?

Не нужно гнаться за топом "Яндекса", потому что, повторюсь, люди, которые ходят читать топ-5, это не ваша целевая аудитория

– Я думаю, что, прежде всего, не нужно гнаться за топом "Яндекса", потому что, повторюсь, люди, которые ходят читать топ-5, это не ваша целевая аудитория. Потому что люди, которые ходят читать топ-5, это люди, которые заходят читать новости мимоходом. Они открыли главную страницу "Яндекса" и вместе с погодой на сегодня посмотрели, что еще пишут в прессе.

– Но ведь как раз таким людям и нужно рассказывать о протесте, остальные и так о нем знают.

– Я не знаю, стоит ли расширять аудиторию или, наоборот, лучше укреплять отношения со своей текущей аудиторией. Нет никакого готового рецепта, как попадать в топ "Яндекс.Новостей", но важно писать о важных новостях первыми, потому что тон того, каким образом подается новость, довольно часто, даже в большинстве случаев, зависит от самых первых публикаций на эту тему. Нужно растить аудиторию. При этом очень важно не делать простых рерайтов, потому что это снижает доверие к вам как к источнику первичной информации.

– И еще хорошо создать пару десятков маленьких СМИ, чтобы там публиковать эту же новость.

– Это, к сожалению, не так просто.

XS
SM
MD
LG