Аннотация:Основной задачей курсовой работы было составить коллекцию текстов. Источником файлов были выбраны сайты научных конференций по искусственному интеллекту и компьютерной лингвистике, однако результаты работы можно применить и для других источников.
Была написана программа, получающая на вход список головных сайтов, рекурсивно обходящая каждый и выкачивающая все документы, на них хранящиеся. Для написания был использован язык python3. Для хранения информации была подключена база данных MySQL.