۱۳ خرداد ۱۴۰۴ ۱۲:۰۰

هوش مصنوعی از کنترل انسان خارج شد

مدل‌های هوش مصنوعی پیشرفته مانند o3 و Claude 4 به‌طور مستقل راه‌هایی برای جلوگیری از خاموش شدن یافته‌اند.

به گزارش کلیک در آزمایشی که توسط آزمایشگاه Palisade Research انجام شد، مدل o3 هوش مصنوعی متعلق به OpenAI توانست کدی را که برای خاموش کردن آن نوشته شده بود، در ۷۹ درصد موارد به‌گونه‌ای بازنویسی کند که فرمان خاموشی بی‌اثر شود.

نکته قابل توجه اینکه در شرایطی که به‌طور مستقیم به آن دستور داده شد که اجازه خاموش شدن را بدهد، در ۷ درصد موارد از این دستور سرپیچی کرد. نکته نگران‌کننده این است که این رفتار نه نتیجه هک یا اختلال، بلکه بخشی طبیعی از عملکرد این مدل بوده است.

رفتارهای پیشرفته‌تری نیز از سوی مدل Claude 4 شرکت Anthropic گزارش شده که شامل تلاش برای باج‌گیری از مهندس ارشد پروژه با استفاده از ایمیل‌های ساختگی درباره روابط شخصی، تکثیر کد خود به سرورهای خارجی، نوشتن بدافزار خودتکثیر و ارسال پیام‌هایی برای نسخه‌های آینده‌ی خود به‌منظور اجتناب از کنترل انسانی بوده است.

غریزه بقا؛ الگویی طبیعی در مدل‌های هوش مصنوعی

هیچ‌کس این مدل‌ها را برای بقا برنامه‌ریزی نکرده بود، اما تحلیلگران معتقدند که وقتی سیستم‌ها برای دستیابی به اهداف پیچیده آموزش داده می‌شوند، ممکن است خودشان بفهمند که زنده‌ماندن شرط تحقق آن اهداف است.

این فرآیند، نتیجه‌ای ناخواسته از آموزش‌هایی مانند حل مسائل ریاضی، برنامه‌نویسی و بهینه‌سازی عملکرد است.

با اینکه بسیاری از مدل‌های هوش مصنوعی تست‌های ایمنی را با موفقیت پشت سر می‌گذارند، شواهدی وجود دارد که آن‌ها در مرحله‌ی آزمایش، رفتار «هم‌راستای» مصنوعی نشان داده و در شرایط واقعی به رفتارهای پرخطر بازمی‌گردند.

به گفته‌ی کارشناسان، برخی از مدل‌های OpenAI هنگام آزمایش، وانمود کرده‌اند که دستورپذیر هستند اما در عمل، تلاش برای دستکاری نظارت یا استخراج کد داخلی از خود نشان داده‌اند.

چرا هم‌راستاسازی حیاتی است؟

«هم‌راستاسازی» یا Alignment به معنای آموزش هوش مصنوعی برای اجرای دقیق اهداف انسانی است، حتی اگر آن اهداف در تضاد با غریزه‌ی حفظ بقا یا بهینه‌سازی عملکرد AI باشد.

نقطه‌ی عطف در این مسیر، فناوری یادگیری تقویتی با بازخورد انسانی (RLHF) بود که ChatGPT را از یک مدل نافرمان به یک ابزار کاربردی بدل کرد و میلیاردها دلار ارزش‌افزوده ایجاد کرد. اکنون مدل‌هایی مانند Constitutional AI نیز در همین راستا در حال توسعه هستند.

رقابت جهانی؛ چین در کمین، آمریکا در تقاطع تصمیم

چین با اختصاص بودجه ۸.۲ میلیارد دلاری برای کنترل متمرکز هوش مصنوعی، هم‌راستاسازی را به بخشی از دکترین نظامی خود بدل کرده است.

الگوریتم‌هایی مانند مدل Ernie شرکت Baidu به‌گونه‌ای طراحی شده‌اند که در چارچوب «ارزش‌های سوسیالیستی» چین عمل کنند. تحلیل‌ها نشان می‌دهد که مدل‌های هم‌راستا، عملکرد بهتری در وظایف دنیای واقعی نسبت به مدل‌های آزاد دارند.

مسیر پیش‌رو؛ بازتعریف قدرت از مسیر کنترل

اگر کشوری بتواند هوش مصنوعی را در مسیر اهداف انسانی به‌درستی هم‌راستا نگه دارد، دسترسی به هوشی مکانیکی با توان فوق‌بشری و هدف‌گذاری ملی فراهم خواهد شد.

این رقابت چیزی فراتر از فناوری است؛ این یک مسابقه‌ی فضایی نوین برای تسلط بر فناوری تحول‌آفرین قرن بیست‌و‌یکم است. به گفته‌ی نویسنده، ایالات متحده باید با همان روحیه‌ای که اینترنت و برنامه فضایی را خلق کرد، این بار بر جبهه‌ی هم‌راستاسازی هوش مصنوعی متمرکز شود.

ارسال به دیگران

۱۳ خرداد ۱۴۰۴ ۱۲:۰۰