В данной статье предлагается модель на основе глубокого обучения для извлечения важных объектов из текста и построения базы знаний. Для задачи распознавания именованных сущностей (NER) используется модель долговременной кратковременной памяти (LSTM). Данные предварительно обрабатываются и преобразуются в цифровую форму с помощью токенизации и one-hot кодирования. Модель обучается и оценивается для извлечения различных типов объектов (имена, даты, названия мест). Экспериментальные результаты показывают эффективность модели, а также анализируется влияние различных параметров.
LSTM
машинное обучение
Обработка текста
распознавание именованных сущностей
база знаний
токенизация
one-hot кодирование