Аннотация:В дипломной работе В.А. Светлова рассматривается задача автоматического пред-сказания популярности (количества просмотров страницы) новостного сюжета для сервиса агрегатора новостей. Известно, что существует «популярность у редакторов», когда редак-торы различных сайтов перепечатывают (с теми или иными изменениями) новость о неко-тором событии, что определяет размер новостного кластера, и «популярность у читате-лей», измеряемую количеством заходов на страницу. Количество просмотров имеет явно выражаемый коммерческий интерес (количество просмотров размещенной рекламы), по-этому поиск факторов, объясняющих популярность у читателей, отличных от размера кла-стера, является актуальной задачей.
Несмотря на востребованность решения указанной задачи, существует сравнительно небольшое количество публикаций на данную тему. Это обстоятельство связано с тем, что имеются существенные проблемы с доступностью данных о предпочтениях пользователей в разрезе конкретных страниц, и трудностями получения данных о структуре новостного потока (новостных кластеров) в масштабах, например, Рунета. Дипломную работу удалось поставить, когда были получены соответствующие данные о популярности новостей, публикуемых новостным агрегатором Рамблер.Новости, и данные о кластеризации сопоста-вимого новостного потока, собираемыми лабораторией анализа информационных ресурсов НИВЦ МГУ. Отметим, что новости, публикуемые в новостном агрегаторе Рамб-лер.Новости отбираются специальными редакторами, которые, конечно, обращают внима-ние на количество перепечатки новости разными изданиями, но для них это не является главным, более важно «личное чутье» редактора.