2018. Т. 15. №1

Вернуться к содержанию выпуска

Голикова Дарья Михайловна
Уральский федеральный университет
Екатеринбург, Россия

Распознавание имен собственных и «именованных сущностей» при автоматической обработке текста.
Рец. на кн.: Nouvel D., Ehrmann M., Rosset S. Named Entities for Computational Linguistics / D. Nouvel, M. Ehrmann, S. Rosset. — London ; Hoboken : ISTE Ltd : Johm Wiley & Sons, Inc., 2016. — 170 p.

Вопросы ономастики. 2018. Т. 15. № 1. С. 207–215.
DOI: 10.15826/vopr_onom.2018.15.1.012

Рукопись поступила в редакцию 15.01.2018

Аннотация: В рецензии представлен обзор книги Дамьена Нувеля (Damien Nouvel), Мод Эрманн (Maud Ehrmann) и Софи Россе (Sophie Rosset) «Именованные сущности в компьютерной лингвистике» (Named Entities for Computational Linguistics, 2016). Работа посвящена автоматической обработке текстов, написанных на естественном языке, и распознаванию в этих текстах «именованных сущностей» (named entities) с целью извлечения наиболее важной информации. Под именованными сущностями в работе понимается совокупность всех единиц, так или иначе указывающих на референта. Исследователи сравнивают эту категорию с именами собственными и дефинициями и в деталях освещают все этапы создания и применения алгоритмов по автоматическому аннотированию текста, а также различные методы оценки их эффективности. Имя собственное в данном контексте — вид именованной сущности, одна из типичных отсылок к референту, которую машина должна обнаружить в тексте и связать с конкретным явлением реальности. В книге приведен подробный обзор и анализ предшествующих исследований в рассматриваемом направлении, в основном на базе английского языка. Кроме того, представлены инструменты и ресурсы, необходимые для работы с подобного рода программами: аннотированные и неаннотированные корпуса, типологии и базы знаний. Положения работы подкреплены значительным количеством показательных примеров, работа алгоритмов проиллюстрирована с помощью наглядных схем. Рецензируемая книга дает довольно полное представление о современном состоянии практических исследований в области автоматического распознавания и анализа имен собственных и других именованных сущностей, указывает на еще не решенные проблемы в данной области и предлагает пути решения для некоторых из них.

Ключевые слова: компьютерная лингвистика, имена собственные, автоматическая обработка текста, аннотирование, именованные сущности, корпус, база знаний