ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ИНХС РАН |
||
Работа посвящена созданию новых методов информационного поиска для специализированных предметных областей. В настоящее время существует огромное количество разного рода информации, хранящейся в электронном виде, и для работы с ней нужны СУБД и поисковые системы. Несмотря на наличие современных поисковых систем, успешно решающих свою задачу, все еще остаются области, не охваченные ими. Такой является задачи поиска нот музыкальных произведений по заданному фрагменту мелодий и поиск текстов, в которых встречается заданное математическое выражение. Несмотря на то, что области разные, данные для поиска в них обеих хранятся в формате, основанном на XML: это формат MusicXML для нот и MathML для формул, то есть задача поиска ставится для структурированных документов. При поиске релевантными имеет смысл считать не только документы, содержащие в себе данные из поискового запроса: мелодия может быть той же, но записанной в другой тональности (и, следовательно, у нее будет другое символьное преставление), формула может совпадать с искомой с точностью до имен переменных или же может быть приведена к искомой применением известных математических тождеств. Для поиска с учетом этих особенностей предлагается использовать методы автоматического доказательства теорем, в частности волновые правила (rippling). Метод волновых правил применяется в доказательстве по индукции, когда гипотеза и заключение являются синтаксически похожими, размечаются их различия и делается попытка их устранить с помощью специальных правил переписывания – волновых правил. Такие правила не затрагивают общие фрагменты выражений, а с каждым шагом их применения должно уменьшаться количество различий, поэтому процесс применения правил завершается. При применении метода в данных областях необходимо составить набор подходящих правил, определить меру, для оценки количества различий. В работе планируется адаптация метода автоматических рассуждений с помощью волновых правил (rippling) для решения задачи информационного поиска.
МГУ имени М.В.Ломоносова | Координатор |
грант РФФИ |
# | Сроки | Название |
1 | 1 января 2014 г.-31 декабря 2014 г. | Информационный поиск для специализированных предметных областей |
Результаты этапа: Поставленные в рамках проекта цели достигнуты: приведено сравнение работы системы с имеющимся набором волновых правил для работы с другими методами, используемыми в поисковых системах как для формул, так и для нотных записей. Исследованы различные методы индексирования и проведено сравнение их применимости для решения поставленной в проекте задачи. На первом этапе работы выполнен анализ и сравнение методов, используемых в других поисковых системах и исследование их применимости к решению данной задачи. А также рассмотрены методы представления результатов поиска и для нотных записей предложено шрифтовое решение для представления результатов. | ||
2 | 1 января 2015 г.-31 декабря 2015 г. | Информационный поиск для специализированных предметных областей |
Результаты этапа: В рамках второго этапа проекта проведено исследование методов усовершенствования поиска нотных записей: реализован дополнительный метод поиска, в котором входными данными является аудиофрагмент, в библиотеке для индексирования записей используются перцептивные хэши. Также предложен подход к определению авторства нотных записей музыкальных произведений. Метод позволяет определить предполагаемого автора композиции – запроса и вести просмотр индекса известных произведений с учетом дополнительной информации - фамилии автора композиции. Метод определения авторства реализован в программной системе, которая решает задачу классификации нотных записей в формате MusicXML по множеству заранее известных композиторов. Система включает в себя модуль перевода нотной записи в специальное внутреннее представление, ведение базы данных по композиторам и их произведениям, обучение и оценивание классификаторов, построение графиков, представляющих произведение из запроса в многомерном признаковом пространстве. Предложенный метод определения авторства показал оценку F – меры порядка 0.8 для 16 классов. При расширении списка композиторов проводится дополнительное обучение системы. Также в рамках 2-го этапа проекта создана прототипная реализация системы поддержки электронных публикаций, содержащих формулы, предполагающая автоматизированное пополнение индекса формул поисковой системы; исследованы известные системы доказательства эквивалентности формул, проведено их сравнение. Выполнена прототипная реализация метода доказательства на основе переписывания термов для использования в системе поиска текстов по заданной формуле. Результаты работы по второму этапу проекта представлены на трех научных мероприятиях (конференция, летняя научная школа, международный семинар), опубликована одна работа. | ||
3 | 1 января 2016 г.-31 декабря 2016 г. | Информационный поиск для специализированных предметных областей |
Результаты этапа: В рамках третьего этапа работы были дополнительно исследованы подходы к автоматическому доказательству теорем и возможности их использования в системе поиска текстов по формулам. При подобном поиске возникает задача сравнения формулы, хранящейся в индексе с формулой из запроса. Помимо полного совпадения вида этих формул, возможно формулы является эквивалентными или «похожими» , что учитывается в результатах поиска. При реализации поиска был использован метод волновых правил (rippling) и метод быстрого поиска с помощью Apache Lucene, взаимодействие с которой позволило увеличить скорость выполнения запросов. Для системы поиска нотных записей была исследована возможность использования текстовых запросов и выполнена ее прототипная реализация, результаты представлены в докладе на международном семинаре MediaEval2016. |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".