ИССЛЕДОВАНИЕ ВОЗМОЖНОСТЕЙ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ ДЛЯ ИЗВЛЕЧЕНИЯ ДАННЫХ ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ

Роман Александрович Горбунов1, Александр Владимирович Вицентий2
Институт информатики и математического моделирования имени В. А. Путилова Кольского научного центра Российской академии наук, Апатиты, Россия
Филиал Мурманского арктического университета в г. Апатиты, Апатиты, Россия
Ключевые слова: большая языковая модель (LLM), граф знаний, DeepSeek, RDF-тройки, промптинг, извлечение структурированных данных, семантическая сеть
Страницы: 80-105
Аннотация
Данная работа посвящена исследованию возможностей больших языковых моделей (LLM) для решения задач извлечения структурированных данных в формате RDF-троек из неструктурированных разнородных текстов на естественном языке. Рассматривается проблема эффективности извлечения данных, которая актуальна для автоматического построения семантических сетей, служащих основой для представления геопространственных знаний. Представлена сравнительная оценка различных типов промптинга, являющихся ключевым инструментом взаимодействия с LLM.