Статья опубликована в журнале из списка RSCI Web of Science
Статья опубликована в журнале из перечня ВАК
Статья опубликована в журнале из списка Web of Science и/или Scopus
Дата последнего поиска статьи во внешних источниках: 20 декабря 2019 г.
Аннотация:Для понимания текущего состояния и динамики развития информационного пространства сети Интернет необходимы инструменты массового сбора и извлечения данных с сайтов СМИ, обладающие высокими скоростью и покрытием. Однако далеко не все сайты предоставляют синдикацию данных в RSS формате, а разработка специализированных инструментов извлечения данных для каждого веб-сайта является трудозатратной. В работе предлагаются методы, позволяющие автоматически собирать тексты новостей с произвольных сайтов СМИ. За счет классификации типов веб-страниц и последующей группировки их URL адресов, удалось повысить качество извлечения текстов новостей. Также предложена стратегия обхода сайта с выявлением страниц, содержащих списки ссылок на новостные страницы, позволяющая сократить число запросов и снизить нагрузку на сайт.