
آگمنت طوری (AugmenTory): تحول در دادهافزایی برای قطعهبندی تصاویر
در نیک فناور نصیر، ماموریت ما فراتر از بهکارگیری فناوریهای موجود است؛ ما متعهد به ساخت زیرساختهایی هستیم که آینده هوش مصنوعی را تغذیه میکنند. در این مقاله به معرفی آگمنت طوری (AugmenTory) می پردازیم؛ یک کتابخانه متنباز (Open-Source) اختصاصی که توسط آزمایشگاه فناوری اسمارتطوری، توسعه یافته و برای حل یکی از چالشبرانگیزترین مسائل بینایی ماشین طراحی شده است: «دادهافزایی کارآمد چندضلعیها».
چالش اصلی: گلوگاه برچسبگذاری چندضلعی
در دنیای هوش مصنوعی مدرن، به ویژه در حوزههایی مانند تصویربرداری پزشکی و سیستمهای خودران، قطعهبندی نمونه (Instance Segmentation) نقشی حیاتی دارد. برخلاف کادرهای محیطی ساده (Bounding Boxes)، قطعهبندی نیازمند «چندضلعیهای» (Polygons) دقیقی است تا شکلهای پیچیده را مشخص کند؛ مانند شکل دقیق یک دندان در عکس رادیوگرافی یا یک تومور در تصاویر MRI.
با این حال، گسترش این مجموعهدادهها (Data Augmentation) به روش سنتی بسیار پرهزینه است. رویکرد معمول شامل تبدیل چندضلعیها به «ماسکهای» سنگین (تصاویر پیکسلی)، اعمال تغییرات، و سپس تبدیل مجدد آنها است. این فرآیند حجم عظیمی از حافظه را اشغال کرده و سرعت فرآیند آموزش مدل را به شدت کاهش میدهد.
راهکار ما: آگمنت طوری (AugmenTory)
کتابخانه AugmenTory با تغییر قواعد بازی، رئوس چندضلعیها را به عنوان نقاط کلیدی (Keypoints) پردازش میکند، نه ماسکهای سنگین. با اعمال مستقیم تغییرات (مانند چرخش، معکوسسازی و برش) بر روی این مختصات، کتابخانه ما به نتایجی دست یافته که به شکل نمایی سریعتر و سبکتر از روشهای سنتی هستند.
دستاوردهای فنی و کلیدی
- کارایی خیرهکننده: در بنچمارکهای ما روی دیتاست COCO، آگمنت طوری تنها ۱.۲٪ از فضای حافظه روشهای معمول را اشغال کرد و سرعت پردازش را به طور چشمگیری افزایش داد.
- آستانهگذاری هوشمند (Smart Thresholding): ما یک ویژگی پسپردازشی هوشمند پیادهسازی کردهایم که نرخ اشتراک بر اجتماع (IoU) را محاسبه میکند. اگر یک تغییر (مانند برش تصویر) بخش زیادی از یک شیء را حذف کند، AugmenTory به طور خودکار آن برچسب را حذف میکند تا از ورود دادههای «نویزی» و ناقص به مدل جلوگیری شود.
- یکپارچگی آسان: این کتابخانه با انعطافپذیری بالا طراحی شده و به راحتی با فریمورکهای محبوبی مانند PyTorch و TensorFlow ادغام میشود و از توابع استاندارد Albumentations پشتیبانی میکند.
کاربردپذیری: از یک چالش داخلی تا راهحلی جهانی
چرا ما این ابزار را ساختیم؟ داستان خلق ** آگمنت طوری (AugmenTory) از دلِ فرآیند توسعه پلتفرم دندانپزشکی اسمارتیث آغاز شد. در مراحل اولیه طراحی هسته هوش مصنوعی، ما با چالشهای فنی خاصی در دادهافزایی مواجه شدیم که ابزارهای موجود پاسخگوی آن نبودند؛ بنابراین خودمان دست به کار شدیم.
پس از توسعه و اثبات عملکرد موفق این ماژول در محیط عملیاتی، با پیشنهاد توسعهدهندگان ارشد تیم فنی و پژوهشی، و با درکِ نیاز مبرم جامعه علمی و مهندسی جهان به چنین زیرساختی، تصمیم گرفتیم این فناوری را در انحصار خود نگه نداریم. در نتیجه، AugmenTory امروز فراتر از یک مقاله پژوهشی، به عنوان یک ابزار کاربردی و متنباز (Open Source) روی گیتهاب (GitHub) منتشر شده تا مهندسان سراسر جهان بتوانند از آن بهرهمند شوند.
موارد استفاده:
- تصویربرداری پزشکی: دادهافزایی دقیق نمونههای دندان یا بافت بدون از دست دادن دقت لبهها.
- ناوبری خودران: پردازش کارآمد موانع و اشیاء جادهای.
- پایش هوایی: مدیریت شکلهای پیچیده و نامنظم در تصاویر ماهوارهای.
همسو با ماموریت ما
توسعه AugmenTory نمونهای بارز از فلسفه اصلی شرکت نیک فناور نصیر است: «توسعه زیرساختهای آینده».
ما تنها مدلها را آموزش نمیدهیم؛ بلکه فرآیندهای زیرساختی (Pipeline) یادگیری ماشین را بهینهسازی میکنیم. آزمایشگاه فناوری اسمارتطوری با خلق ابزارهایی نظیر AugmenTory، شکاف میان تئوریهای آکادمیک و کاربردهای صنعتی را پر میکند و اطمینان میدهد که راهکارهای High-Tech نه تنها دقیق، بلکه مقیاسپذیر و بهینه هستند.
مطالعه متن کامل مقاله منتشر شده در arXiv: 2405.04442