هوش مصنوعی از کنترل انسان خارج شد
مدلهای هوش مصنوعی پیشرفته مانند o3 و Claude 4 بهطور مستقل راههایی برای جلوگیری از خاموش شدن یافتهاند.

به گزارش کلیک در آزمایشی که توسط آزمایشگاه Palisade Research انجام شد، مدل o3 هوش مصنوعی متعلق به OpenAI توانست کدی را که برای خاموش کردن آن نوشته شده بود، در ۷۹ درصد موارد بهگونهای بازنویسی کند که فرمان خاموشی بیاثر شود.
نکته قابل توجه اینکه در شرایطی که بهطور مستقیم به آن دستور داده شد که اجازه خاموش شدن را بدهد، در ۷ درصد موارد از این دستور سرپیچی کرد. نکته نگرانکننده این است که این رفتار نه نتیجه هک یا اختلال، بلکه بخشی طبیعی از عملکرد این مدل بوده است.
رفتارهای پیشرفتهتری نیز از سوی مدل Claude 4 شرکت Anthropic گزارش شده که شامل تلاش برای باجگیری از مهندس ارشد پروژه با استفاده از ایمیلهای ساختگی درباره روابط شخصی، تکثیر کد خود به سرورهای خارجی، نوشتن بدافزار خودتکثیر و ارسال پیامهایی برای نسخههای آیندهی خود بهمنظور اجتناب از کنترل انسانی بوده است.
غریزه بقا؛ الگویی طبیعی در مدلهای هوش مصنوعی
هیچکس این مدلها را برای بقا برنامهریزی نکرده بود، اما تحلیلگران معتقدند که وقتی سیستمها برای دستیابی به اهداف پیچیده آموزش داده میشوند، ممکن است خودشان بفهمند که زندهماندن شرط تحقق آن اهداف است.
این فرآیند، نتیجهای ناخواسته از آموزشهایی مانند حل مسائل ریاضی، برنامهنویسی و بهینهسازی عملکرد است.
با اینکه بسیاری از مدلهای هوش مصنوعی تستهای ایمنی را با موفقیت پشت سر میگذارند، شواهدی وجود دارد که آنها در مرحلهی آزمایش، رفتار «همراستای» مصنوعی نشان داده و در شرایط واقعی به رفتارهای پرخطر بازمیگردند.
به گفتهی کارشناسان، برخی از مدلهای OpenAI هنگام آزمایش، وانمود کردهاند که دستورپذیر هستند اما در عمل، تلاش برای دستکاری نظارت یا استخراج کد داخلی از خود نشان دادهاند.
چرا همراستاسازی حیاتی است؟
«همراستاسازی» یا Alignment به معنای آموزش هوش مصنوعی برای اجرای دقیق اهداف انسانی است، حتی اگر آن اهداف در تضاد با غریزهی حفظ بقا یا بهینهسازی عملکرد AI باشد.
نقطهی عطف در این مسیر، فناوری یادگیری تقویتی با بازخورد انسانی (RLHF) بود که ChatGPT را از یک مدل نافرمان به یک ابزار کاربردی بدل کرد و میلیاردها دلار ارزشافزوده ایجاد کرد. اکنون مدلهایی مانند Constitutional AI نیز در همین راستا در حال توسعه هستند.
رقابت جهانی؛ چین در کمین، آمریکا در تقاطع تصمیم
چین با اختصاص بودجه ۸.۲ میلیارد دلاری برای کنترل متمرکز هوش مصنوعی، همراستاسازی را به بخشی از دکترین نظامی خود بدل کرده است.
الگوریتمهایی مانند مدل Ernie شرکت Baidu بهگونهای طراحی شدهاند که در چارچوب «ارزشهای سوسیالیستی» چین عمل کنند. تحلیلها نشان میدهد که مدلهای همراستا، عملکرد بهتری در وظایف دنیای واقعی نسبت به مدلهای آزاد دارند.
مسیر پیشرو؛ بازتعریف قدرت از مسیر کنترل
اگر کشوری بتواند هوش مصنوعی را در مسیر اهداف انسانی بهدرستی همراستا نگه دارد، دسترسی به هوشی مکانیکی با توان فوقبشری و هدفگذاری ملی فراهم خواهد شد.
این رقابت چیزی فراتر از فناوری است؛ این یک مسابقهی فضایی نوین برای تسلط بر فناوری تحولآفرین قرن بیستویکم است. به گفتهی نویسنده، ایالات متحده باید با همان روحیهای که اینترنت و برنامه فضایی را خلق کرد، این بار بر جبههی همراستاسازی هوش مصنوعی متمرکز شود.