Суть
Индустрия машинного обучения продолжает искать способы уменьшить зависимость от дорогостоящей ручной разметки данных. Недавно на платформе Hugging Face была представлена модель Nemotron-OCR-v2, предназначенная для быстрого перевода изображений в текст (Image-to-Text). Главная особенность этого релиза заключается не только в самой архитектуре, но и в подходе к обучению: разработчики сделали серьезную ставку на синтетические данные для поддержки множества языков.
Контекст
Оптическое распознавание символов (OCR) — одна из старейших задач в области искусственного интеллекта. Несмотря на кажущуюся простоту, создание по-настоящему универсальной системы, способной читать текст на десятках языков с разными шрифтами, искажениями и на сложном фоне, остается сложной инженерной задачей. Традиционно для этого требовалось собирать миллионы реальных фотографий документов и вывесок, а затем вручную переписывать текст с них. Для распространенных языков, таких как английский, таких баз много. Для менее популярных языков возникает острый дефицит качественных обучающих материалов.
Детали
Вместе с моделью Nemotron-OCR-v2 был опубликован набор данных OCR-Synthetic-Multilingual-v1. Это означает, что разработчики программно сгенерировали изображения с текстом, используя обширные текстовые базы, такие как корпус mOSCAR. mOSCAR содержит огромные объемы текстов, собранных из интернета на разных языках.
Процесс выглядит следующим образом: берется реальный текст из корпуса mOSCAR, программно накладывается на различные фоны, к нему применяются разные шрифты, добавляются шумы, размытие и искажения перспективы. В результате получается бесконечный источник обучающих примеров, где правильный ответ (какой именно текст написан на картинке) известен заранее со стопроцентной точностью.
Анализ
Этот релиз демонстрирует важный сдвиг в разработке моделей компьютерного зрения. Синтетические данные переходят из категории «запасного плана» в категорию основного инструмента масштабирования. Использование таких наборов данных, как OCR-Synthetic-Multilingual-v1, позволяет обойти проблему авторских прав на изображения и существенно снизить стоимость обучения.
Более того, это демократизирует доступ к технологиям распознавания текста для локальных рынков. Если раньше компаниям приходилось тратить месяцы на сбор данных для специфического языка, теперь достаточно иметь текстовый корпус и алгоритм генерации изображений.
Перспектива
Пока рано судить, смогут ли синтетические данные полностью вытеснить реальные фотографии из обучающих выборок для OCR. Обычно наилучший результат достигается при смешивании большого объема синтетики с небольшим количеством высококачественных реальных данных.
Однако тенденция очевидна. В ближайшем будущем мы увидим рост числа узкоспециализированных моделей, которые обучаются в полностью контролируемых виртуальных средах. Это ускорит цикл разработки и сделает системы распознавания более устойчивыми к нестандартным визуальным условиям.