ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ИНХС РАН |
||
С опорой на корпус научных текстов были проверены некоторые характеристики выбранных автором ключевых слов научных текстов. На основе анализа полученных данных была установлена средняя длина ключевых единиц и их частеречная принадлежность. Помимо этого, было доказано, что позиция заголовка, в отличие от авторской разметки, является сильной для автоматического извлечения ключевых слов. Также была установлена зависимость между частотой встречаемости ключевых слов в тексте и вероятностью того, что слово является ключевым. Была проверена необходимость использования базы данных ключевых слов при автоматическом извлечении слов из текста для улучшения качества выборки.