Аннотация:В магистерской диссертации исследуется задача Open Information Extraction – извлечение отношений между сущностями без накладывания ограничений на состав извлекаемых отношений.
Автоматическое извлечение фактографической информации из текстов предметной области является востребованной задачей, например, при мониторинге потоков информации, формировании графов знаний. Часто задача решается только для небольшого множества отношений между сущностями, что ограничивает объем извлекаемой полезной информации.
Актуальной является задача автоматического расширения перечня отношений, относительно которых можно извлекать фактографическую информацию, особенно в новых предметных областях, для которых можно образовать текстовые коллекции, но отсутствует детальное описание.
В диссертации А.В.Веригина исследуются возможности применения современных свободно распространяемых эффективных программных реализаций синтаксического анализа для извлечения отношений между сущностями (элементарных фактов-трое) вида (сущность1, отношение, сущность2). Задача исследуется на материале русскоязычных новостных текстов, для которых синтаксический анализ определяет большое количество отношений.
Современные реализации синтаксического анализа на реальных текстах порождают определенный процент ошибок, который наследуется в извлекаемых отношениях. Для уменьшения ошибок рассматривается исследовательская гипотеза, что можно улучшить извлечение отношений между сущностями при использовании информации о новостных кластерах – похожих текстах, посвященных одним и тем же событиями. При этом возникает возможность объединения синонимических выражений для обозначения сущностей, объединения синонимических выражений для обозначения отношений.
Магистрант при работе над диссертацией разработал веб-сервис, который для введенных текстов формирует граф отношений, улучшаемый потом путем объединения разных форм представления одних и тех же отношений. Для определения схожести анализируемых троек (сущность1, отношение, сущность2) рассматривались различные метрики близости на основе методологии дистрибутивной семантики, также используются гипотезы о выводе по выделяемым семантическим связям (таксономическим и ассоциативным) по именным группам простого вида.
Выполненная работа относится к технически сложным из-за необходимости обработки большого разнообразия особенностей результатов применения синтаксического анализа для реальных текстов.