Генератор подписей к изображениям

Автоматически генерирует текстовое описание любого изображения на английском.

0/5
0 скачиваний
0 отзывов
Генератор подписей к изображениям
Подходит для задач:
Image Classification
Сферы:
Развлечения и медиа
Маркетинг и реклама
Контент и копирайтинг
Языки:
Английский
Русский

Описание

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

  • Карточка модели для описания изображений, предварительно обученной на датасете COCO - базовая архитектура (с базовым backbone ViT).

  • Извлеките изображение из официального репозитория BLIP

TL;DR

Авторы из статьи пишут в аннотации:

Предварительное обучение Vision-Language (VLP) улучшило производительность для многих задач vision-language. Однако большинство существующих предварительно обученных моделей преуспевают только в задачах, основанных на понимании, или в задачах, основанных на генерации. Кроме того, улучшение производительности в значительной степени достигается за счет масштабирования датасета с шумными парами изображение-текст, собранными из Интернета, что является неоптимальным источником контроля. В этой статье мы предлагаем BLIP, новую структуру VLP, которая гибко переносится как на задачи понимания vision-language, так и на задачи генерации. BLIP эффективно использует шумные веб-данные, путем бутстраппинга подписей, где модуль создания подписей генерирует синтетические подписи, а фильтр удаляет шумные. Мы достигаем самых современных результатов в широком спектре задач vision-language, таких как поиск изображений и текста (+2,7% в среднем recall@1), описание изображений (+2,8% в CIDEr) и VQA (+1,6% в VQA score). BLIP также демонстрирует сильную способность к обобщению при прямой передаче задачам videolanguage без дополнительного обучения. Код, модели и датасеты выпущены.

Вы можете использовать эту модель для условного и безусловного описания изображений.

Использование модели PyTorch

Запуск модели на CPU

Нажмите, чтобы развернуть

Запуск модели на GPU

В полной точности

Нажмите, чтобы развернуть

В половинной точности (float16)

Нажмите, чтобы развернуть

Этические соображения

Этот выпуск предназначен только для исследовательских целей в поддержку научной работы. Наши модели, наборы данных и код не разработаны и не оценены специально для всех последующих целей. Мы настоятельно рекомендуем пользователям оценить и устранить потенциальные проблемы, связанные с точностью, безопасностью и справедливостью, прежде чем развертывать эту модель. Мы призываем пользователей учитывать общие ограничения ИИ, соблюдать применимые законы и использовать лучшие практики при выборе вариантов использования, особенно для сценариев высокого риска, когда ошибки или злоупотребления могут существенно повлиять на жизнь, права или безопасность людей. Для получения дополнительных указаний по вариантам использования обратитесь к нашим AUP и AI AUP.

BibTex и информация о цитировании

Источник: https://huggingface.co/Salesforce/blip-image-captioning-base

Предпросмотр файлов

В этой модели нет файлов для предпросмотра.

Просмотры

Скачивания

Похожие модели

Кейсы внедрения

Обсудите модель
с топами рынка в бизнес чате
Есть вопросы по модели?
Написать автору

Оценка

Детали модели

Автор: Qubu Team
Объем: 1.84 ГБ
Комментарии: 0
Просмотры: 19
Скачивания: 0
Лицензия: MIT
Дата добавления: 26.03.2026

Автор

Qubu Team

Qubu Team

Команда

Профиль команды
Загрузка...
Загрузка комментариев...