Описание:В курсе даются математические подходы к автоматическому анализу и извлечению информации из текстов.
Изучается обработка текста:
- на уровне слов (определение морфологических характеристик, частей речи)
- на уровне предложений (определение субъекта, объекта, действия, дополнений)
- на уровне фрагмента текста (определение именованных сущностей)
- на уровне коллекции документов (извлечение основных тем, представленных в коллекции).
Спецкурс предполагает знание теории вероятностей, линейной алгебры, математического анализа и основ машинного обучения. В качестве основных инструментов работы с текстами будет использоваться язык программирования питон с научными библиотеками, модуль по обработке текстов NLTK, а также публично доступная онтология WordNet.
Рекомендуемая литература:
"Natural Language Processing with Python–Analyzing Text with the Natural Language Toolkit".
Steven Bird, Ewan Klein, and Edward Loper (2009). http://www.nltk.org/book/.
"Speech and language processing". Martin, James H., and Daniel Jurafsky. Second Edition (2007).
"The Handbook of Computational Linguistics and Natural Language Processing". Edited by Alexander Clark, Chris Fox, Shalom Lappin. (2010).
"The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data". Ronen Feldman, James Sanger (2007).