3 دقیقه
بایدو مدل فشردهٔ تشخیص نویسه نوری (OCR) به نام PP-OCRv5 را منتشر کرده که اکنون در Hugging Face در دسترس است. با تکیه بر کار اخیر شرکت با مدل Ernie X1.1، PP-OCRv5 هدف دارد تشخیص دقیق متن در اسناد و صحنهها را ارائه دهد در حالی که اندازهٔ مدل و نیازهای محاسباتی را در حداقل نگه میدارد.
ویژگیهای محصول
خط لولهٔ تشخیص و شناسایی دو مرحلهای
PP-OCRv5 از یک خط لولهٔ ساده اما مؤثر استفاده میکند: پیشپردازش تصویر، تشخیص متن (برای یافتن نواحی متنی و رسم کادرهای مرزی دقیق)، تشخیص جهت و خطوط، و در نهایت شناسایی متن. این جریان مدولار مختصات دقیق متن را فراهم میآورد که برای تحلیل چیدمان اسناد، استخراج فاکتورها و پردازش فرمها حیاتی است.
سبک و کارآمد
این مدل بسیار جمعوجور است — حدود 0.07 میلیارد پارامتر — که امکان استنتاج سریع روی CPUهای معمولی و سختافزار لبه (edge) را فراهم میکند. در آزمایشهای داخلی بایدو، PP-OCRv5 بیش از 370 کاراکتر در ثانیه را روی یک سیستم مبتنی بر Intel Xeon پردازش کرد که نشاندهندهٔ توان عملیاتی قوی برای وظایف OCR دستهای و بلادرنگ بدون نیاز به زیرساختهای ابری گسترده است.
شناسایی چندزبانه
PP-OCRv5 بیش از 40 زبان را پشتیبانی میکند، از جمله چینی ساده و سنتی، ژاپنی، پینیین و انگلیسی، و روی نمونههای متنی چاپی و دستنویس عملکرد قابلقبولی ارائه میدهد.
مقایسهها و بنچمارکها
در بنچمارکها در برابر مدلهای بزرگ بینایی-زبان مانند GPT-4o، Gemini 2.5 Pro و Qwen2.5-VL در آزمونهای متمرکز بر OCR، PP-OCRv5 دقت بالاتری در استخراج متن ساختیافته کسب کرد. این برتری از تخصصی بودن آن ناشی میشود: در حالی که مدلهای بزرگ چندرسانهای در استدلال چندمودالی قویاند، ممکن است نشانههای دقیق چیدمان و مکانیابی کاراکترها را که مدلهای اختصاصی OCR ثبت میکنند، نادیده بگیرند.

مزایا
- کاهش هزینهٔ استنتاج و سهولت استقرار روی دستگاههای لبه و پلتفرمهای موبایل.
- کادرهای مرزی دقیق و مختصات متن برای درک اسناد و اتوماسیون فرایندها (RPA).
- عملکرد قوی روی ورودیهای چاپی و نوشتار دستنویس.
- دسترسی باز در Hugging Face که یکپارچهسازی را برای توسعهدهندگان و سازمانها ساده میکند.
موارد استفاده
- دیجیتالیسازی خودکار فاکتورها، رسیدها و فرمها برای جریانهای کاری مالی و حسابداری.
- اپلیکیشنهای موبایلی که به OCR آفلاین روی دستگاههای لبه نیاز دارند.
- پردازش چندزبانهٔ اسناد برای شرکتها و نهادهای دولتی بینالمللی.
- استخراج دادهها از برچسبهای لجستیک، کارتهای شناسایی و یادداشتهای دستنویس.
اهمیت در بازار
PP-OCRv5 نمونهای از تغییر گستردهتر در صنعت است: مدلهای هدفمند و کارآمد که در وظایف تخصصی مانند تشخیص متن (OCR) از مدلهای عمومی بزرگ بهتر عمل میکنند. برای کسبوکارهایی که بین هزینه، تأخیر و دقت تعادل برقرار میکنند، PP-OCRv5 جایگزینی عملی برای سیستمهای بزرگ بینایی-زبان حجیم است و میتواند خطوط تولید را تسریع و هزینههای زیرساخت را کاهش دهد.
نتیجهگیری
با انتشار PP-OCRv5 در Hugging Face، بایدو دلیلی قوی برای استفاده از OCR سبک و با دقت بالا در استقرارهای واقعی ارائه کرده است. برای توسعهدهندگان و شرکتهایی که بر درک اسناد، هوش مصنوعی لبه و استخراج متن چندزبانه تمرکز دارند، این انتشار یک راهکار جذاب و قابل استقرار است که بین عملکرد و کارایی توازن ایجاد میکند.
منبع: gizmochina
نظرات