ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ИНХС РАН |
||
В данной статье исследуется проблема автоматической региональной классификации на основе подкорпуса ЖЖ (livejournal.com) Генерального Интернет-Корпуса Русского Языка (ГИКРЯ), для этого используется географическая информация, извлечённая из авторских профилей. Поскольку большинство ЖЖ-текстов не демонстрирует достаточно региональных особенностей для надёжной региональной привязки, мы не ставим целью определить регион для всех авторов, однако в случае определения надёжность присваиваемой метки должна быть максимально велика. В качестве признаков используются слова из «Словаря языка русских городов», а в качестве классификатора — наивный Байесовский классификатор, метод опорных векторов и логистическая регрессия. Для оценки уверенности классификатора используется найденная им вероятность класса. В случае 10 удалённых друг от друга регионов точность классификации достигает 97%, притом региональная метка присваивается 13% текстов, в то время как для 50 регионов при незначительном падении точности (96%) полнота падает до 0,5%.