Детектор именованных сущностей

Распознаёт именованные сущности в тексте: персоны, организации, локации, прочее.

0/5

0 скачиваний

0 отзывов

Подходит для задач:

Token Classification

Сферы:

Юридические услуги

Маркетинг и реклама

Контент и копирайтинг

Описание

bert-base-NER

Если мои модели с открытым исходным кодом были вам полезны, пожалуйста, рассмотрите возможность поддержать меня в создании небольших, полезных моделей ИИ для всех (и помогите мне оплатить медицинскую школу / помочь моим родителям в финансовом плане). Спасибо!

Описание модели

- это модель BERT, которая была дообучена и готова к использованию для
Named Entity Recognition
и достигает
state-of-the-art performance
для задачи NER. Она была обучена распознавать четыре типа сущностей: местоположение (LOC), организации (ORG), человек (PER) и разное (MISC).
В частности, эта модель является
моделью, которая была дообучена на английской версии стандартного датасета
CoNLL-2003 Named Entity Recognition.
Если вы хотите использовать более крупную модель BERT-large, дообученную на том же наборе данных, то также доступна версия
.

Доступные NER модели

Model NameDescriptionParameters (NEW!)Дообученный DistilBERT - меньшая, более быстрая, облегченная версия BERT66M Дообученный - более крупная модель с немного лучшей производительностью340M -( uncased )Дообученный , доступен как в cased, так и в uncased версиях110M

Предполагаемое использование и ограничения

Как использовать
Вы можете использовать эту модель с Transformers
для NER.

Ограничения и предвзятость

Эта модель ограничена своим обучающим набором данных, содержащим новостные статьи с аннотациями сущностей за определенный период времени. Это может плохо обобщаться для всех вариантов использования в разных областях. Кроме того, модель иногда помечает субсловные токены как сущности, и для обработки этих случаев может потребоваться постобработка результатов.

Обучающие данные

Эта модель была дообучена на английской версии стандартного

CoNLL-2003 Named Entity Recognition

датасета.

Обучающий набор данных различает начало и продолжение сущности, так что если есть смежные сущности одного и того же типа, модель может указать, где начинается вторая сущность. Как и в наборе данных, каждый токен будет классифицирован как один из следующих классов:

AbbreviationDescription OЗа пределами именованной сущности B-MISCНачало разной сущности сразу после другой разной сущности I-MISCРазная сущность B-PERНачало имени человека сразу после имени другого человека I-PERИмя человека B-ORGНачало организации сразу после другой организации I-ORGОрганизация B-LOCНачало местоположения сразу после другого местоположения I-LOCМестоположение

CoNLL-2003 English Dataset Statistics

Этот набор данных был получен из корпуса Reuters, который состоит из новостных статей Reuters. Вы можете прочитать больше о том, как был создан этот набор данных, в статье CoNLL-2003.

# количества обучающих примеров на тип сущности

DatasetLOCMISCORGPER Train7140343863216600 Dev183792213411842 Test166870216611617

# количества статей/предложений/токенов на набор данных

DatasetArticlesSentencesTokens Train94614,987203,621 Dev2163,46651,362 Test2313,68446,435

Процедура обучения

Эта модель была обучена на одной NVIDIA V100 GPU с рекомендуемыми гиперпараметрами из
original BERT paper
который обучил и оценил модель на задаче CoNLL-2003 NER.

Результаты оценки

metricdevtest f195.191.3 precision95.090.7 recall95.391.9

Тестовые метрики немного ниже, чем официальные результаты Google BERT, которые кодировали контекст документа и экспериментировали с CRF. Подробнее о воспроизведении исходных результатов

here

BibTeX entry and citation info

Источник: https://huggingface.co/dslim/bert-base-NER

Предпросмотр файлов

В этой модели нет файлов для предпросмотра.

Просмотры

Скачивания

Кейсы внедрения

Загрузка...

Загрузка комментариев...

Обсудите модель

с топами рынка в бизнес чате

Есть вопросы по модели?

Написать автору

Оценка

Детали модели

Автор: Qubu Team

Объем: 2.01 ГБ

Комментарии: 0

Просмотры: 16

Скачивания: 0

Лицензия: MIT

Дата добавления: 26.03.2026

Автор

Qubu Team

Команда

Профиль команды