هوش مصنوعی اپل، دستیار اپلیکیشن ها، بدون اینترنت

هوش مصنوعی جدید اپل بدون اینترنت با اپلیکیشن‌ها کار می‌کند.

هوش مصنوعی اپل، دستیار اپلیکیشن ها، بدون اینترنت

به گزارش کلیک اپل روی هوش مصنوعی سبک و چابک‌تری کار می‌کند که می‌تواند با اپلیکیشن‌ها در نقش دستیار کار کند.

مدل هوش مصنوعی Ferret-UI Lite با وجود برخورداری از تنها ۳ میلیارد پارامتر، عملکردی هم‌تراز یا حتی بهتر از مدل‌هایی با ۲۴ برابر اندازه‌ی خود در بنچمارک‌ها نشان می‌دهد.

تیمی متشکل از ۹ پژوهشگر در دسامبر ۲۰۲۳ (آذر و دی ۱۴۰۲)، مطالعه‌ای با عنوان «FERRET: ارجاع و زمینه‌یابی همه‌چیز در همه‌جا و با هر میزان جزئیات» منتشر کردند. این مطالعه، یک «مدل زبانی بزرگ چندوجهی» (MLLM) را معرفی می‌کرد که توانایی درک ارجاعاتِ زبان طبیعی (گفتار روزمره) به بخش‌های خاصی از یک تصویر را داشت.

از آن زمان تاکنون، اپل مجموعه‌ای از مقالاتِ تکمیلی را برای گسترش خانواده‌ی مدل‌های فرت، ازجمله Ferretv2 و Ferret-UI و Ferret-UI 2 منتشر کرده است.

نسخه‌های Ferret-UI قابلیت‌های اولیه‌ی مدل پایه را توسعه دادند و برای غلبه بر آنچه پژوهشگران «نقصِ مدل‌های چندوجهیِ عمومی» می‌نامیدند، آموزش دیدند.

خالق آیفون با انتشار مطالعه‌ای تحت عنوان Ferret-UI Lite: درس‌هایی از ساخت دستیارهای رابط کاربری کوچک و مبتنی‌بر دستگاه»، خانواده‌ی مدل‌های یادشده را بیش‌ازپیش گسترش داد.

مدل Ferret-UI بر پایه‌ی یک مدل ۱۳ میلیارد پارامتری ساخته شده بود و تمرکز اصلی‌اش بر درک رابط کاربری موبایل و اسکرین‌شات‌هایی با وضوح ثابت قرار داشت. در سوی دیگر، Ferret-UI 2 سیستم را برای پشتیبانی از پلتفرم‌های متعدد و درک تصاویری با وضوح بالاتر ارتقا داد.

Ferret-UI Lite مدلی بسیار سبک‌تر است که برای اجرای مستقیم روی دستگاه طراحی شده و هم‌زمان توانایی رقابت با دستیارهای رابط کاربریِ به‌مراتب بزرگ‌تر را حفظ می‌کند.

پژوهشگرانِ مقاله‌ی جدید می‌گویند: «اکثر روش‌های فعلی برای ساخت دستیارهای رابط کاربری [...] روی مدل‌های پایه‌ی بزرگ تمرکز دارند.» دلیل این امر، «قابلیت‌های قدرتمند استدلال و برنامه‌ریزی در مدل‌های بزرگِ سمت سرور است که به این سیستم‌های هوشمند اجازه می‌دهد در وظایف متنوعِ ناوبریِ رابط کاربری، به توانمندی‌های چشمگیری دست یابند.»

این مدل‌ها اساساً برای اجرای روان روی دستگاه، بیش‌ازحد بزرگ و نیازمند توان پردازشی بالا هستند. سیستم‌های مذکور از رویکردهای متفاوتی برای ساده‌سازی وظایف مرتبط با تعامل هوشمند با رابط کاربری (نظیر درک پایه‌ی عناصر صفحه، فهم کلی صفحه و برنامه‌ریزی چندمرحله‌ای) استفاده می‌کنند.

بنابراین، محققان اپل به سراغ توسعه‌ی Ferret-UI Lite (نسخه‌ی ۳ میلیارد پارامتریِ Ferret-UI) رفتند که «با اتکا بر چندین جزء کلیدی و با راهنمایی از بینش‌های به‌دست‌آمده از آموزش مدل‌های زبانیِ کوچک‌مقیاس ساخته شده است.»

 

منبع: زومیت

ارسال نظر