ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ИНХС РАН |
||
Работа над созданием аннотированных корпусов текстов на селькупских, кетских и эвенкийских говоров ведется в лаборатории автоматизированных лексикографических систем НИВЦ МГУ уже около 10 лет, однако до недавнего времени речь шла в основном о морфологическом аннотировании. В 2014 г. при поддержке РФФИ (проект 14-06-00449) мы начали работу над синтаксической аннотацией наших корпусов. В основе разметки лежит грамматика непосредственных составляющих. В докладе рассматриваются основные синтаксические отношения в синтаксическом дереве и излагаются принципы сегментации текста, обозначения узлов, базовая структура предложения и др. Разметка отражает базовый порядок слов в рассматриваемых языках и отклонения от него. Показывается лингвистическая обоснованность разметки. Обсуждаются возникающие в процессе разметки проблемы и предлагаемые способы их решения. Сообщается о некоторых результатах работы с синтаксически размеченными корпусами по каждому из трех языков.