هوش مصنوعی اپل، دستیار اپلیکیشن ها، بدون اینترنت
هوش مصنوعی جدید اپل بدون اینترنت با اپلیکیشنها کار میکند.
به گزارش کلیک اپل روی هوش مصنوعی سبک و چابکتری کار میکند که میتواند با اپلیکیشنها در نقش دستیار کار کند.
مدل هوش مصنوعی Ferret-UI Lite با وجود برخورداری از تنها ۳ میلیارد پارامتر، عملکردی همتراز یا حتی بهتر از مدلهایی با ۲۴ برابر اندازهی خود در بنچمارکها نشان میدهد.
تیمی متشکل از ۹ پژوهشگر در دسامبر ۲۰۲۳ (آذر و دی ۱۴۰۲)، مطالعهای با عنوان «FERRET: ارجاع و زمینهیابی همهچیز در همهجا و با هر میزان جزئیات» منتشر کردند. این مطالعه، یک «مدل زبانی بزرگ چندوجهی» (MLLM) را معرفی میکرد که توانایی درک ارجاعاتِ زبان طبیعی (گفتار روزمره) به بخشهای خاصی از یک تصویر را داشت.
از آن زمان تاکنون، اپل مجموعهای از مقالاتِ تکمیلی را برای گسترش خانوادهی مدلهای فرت، ازجمله Ferretv2 و Ferret-UI و Ferret-UI 2 منتشر کرده است.
نسخههای Ferret-UI قابلیتهای اولیهی مدل پایه را توسعه دادند و برای غلبه بر آنچه پژوهشگران «نقصِ مدلهای چندوجهیِ عمومی» مینامیدند، آموزش دیدند.
خالق آیفون با انتشار مطالعهای تحت عنوان Ferret-UI Lite: درسهایی از ساخت دستیارهای رابط کاربری کوچک و مبتنیبر دستگاه»، خانوادهی مدلهای یادشده را بیشازپیش گسترش داد.
مدل Ferret-UI بر پایهی یک مدل ۱۳ میلیارد پارامتری ساخته شده بود و تمرکز اصلیاش بر درک رابط کاربری موبایل و اسکرینشاتهایی با وضوح ثابت قرار داشت. در سوی دیگر، Ferret-UI 2 سیستم را برای پشتیبانی از پلتفرمهای متعدد و درک تصاویری با وضوح بالاتر ارتقا داد.
Ferret-UI Lite مدلی بسیار سبکتر است که برای اجرای مستقیم روی دستگاه طراحی شده و همزمان توانایی رقابت با دستیارهای رابط کاربریِ بهمراتب بزرگتر را حفظ میکند.
پژوهشگرانِ مقالهی جدید میگویند: «اکثر روشهای فعلی برای ساخت دستیارهای رابط کاربری [...] روی مدلهای پایهی بزرگ تمرکز دارند.» دلیل این امر، «قابلیتهای قدرتمند استدلال و برنامهریزی در مدلهای بزرگِ سمت سرور است که به این سیستمهای هوشمند اجازه میدهد در وظایف متنوعِ ناوبریِ رابط کاربری، به توانمندیهای چشمگیری دست یابند.»
این مدلها اساساً برای اجرای روان روی دستگاه، بیشازحد بزرگ و نیازمند توان پردازشی بالا هستند. سیستمهای مذکور از رویکردهای متفاوتی برای سادهسازی وظایف مرتبط با تعامل هوشمند با رابط کاربری (نظیر درک پایهی عناصر صفحه، فهم کلی صفحه و برنامهریزی چندمرحلهای) استفاده میکنند.
بنابراین، محققان اپل به سراغ توسعهی Ferret-UI Lite (نسخهی ۳ میلیارد پارامتریِ Ferret-UI) رفتند که «با اتکا بر چندین جزء کلیدی و با راهنمایی از بینشهای بهدستآمده از آموزش مدلهای زبانیِ کوچکمقیاس ساخته شده است.»
منبع: زومیت