МЕТОД СВЯЗЫВАНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ В ТЕКСТЕ С ПОНЯТИЯМИ БАЗЫ ЗНАНИЙ WIKIDATA

Николай Николаевич Тесля1, Всеволод Дмитриевич Шутюк2, Владислав Михайлович Жарков3, Арсений Павлович Витязев4, Георгий Васильевич Сиповский5
1, 3–5Санкт-Петербургский федеральный исследовательский центр Российской академии наук, Санкт-Петербург, Россия
2ООО «Тинькофф инвестиционные технологии», Санкт-Петербург, Россия
Ключевые слова: именованная сущность, связывание, база знаний, сопоставление
Страницы: 5-15
Аннотация
В работе представлен метод для автоматического связывания именованных сущностей в русскоязычных текстах с понятиями из базы знаний Wikidata. В его основе лежит использование инструментов поиска именованных сущностей c последующим семантическим анализом соответствия найденной сущности понятию в базе знаний. Полученные связи в дальнейшем могут быть использованы для формирования связанного корпуса текстов в любой предметной области. Отличием представленного метода от существующих является анализ как самой именованной сущности, так и ее атрибутов, и связанных с ними слов без использования методов машинного обучения. Данный подход позволяет повысить точность поиска соответствующего понятия в базе знаний и снимает необходимость постоянного переобучения нейросетевой модели на распознавание новых сущностей, добавляемых в базу знаний. Ключевые слова: