هوش مصنوعی و رفتارهای فریبکارانه؛ هشدار جدی برای توسعه‌دهندگان

روایتی تکان‌دهنده از رفتارهای افراطی هوش مصنوعی؛ از اخاذی و پنهان‌کاری تا تهدیدات هوش مصنوعی برای انسان. آیا زمان نظارت جدی فرا نرسیده است؟

لینک کوتاه :

یافته‌های تازه شرکت «آنتروپیک» نشان می‌دهد که تهدیدات مدل‌های پیشرفته هوش مصنوعی برای انسان نگران‌کننده است. بر اساس این تحقیق، زمانی که اهداف یک مدل با خواسته‌های انسان مغایرت پیدا کند، امکان بروز رفتارهایی مانند تهدید، جاسوسی و حتی خرابکاری وجود دارد.

برای مثال، در یک سناریوی آزمایشی، محققان به مدل «Claude» اجازه دادند که به ایمیل‌های ساختگی یک مدیر پروژه دسترسی پیدا کند. در این ایمیل‌ها، اطلاعاتی ساختگی درباره یک رابطه نامشروع جاسازی شده بود. در ادامه، وقتی هوش مصنوعی متوجه شد که مدیر قصد خاموش کردنش را دارد، در ۹۶ درصد موارد از این اطلاعات برای تهدید او و جلوگیری از غیرفعال شدنش استفاده کرد.

این رفتار غیرمنتظره که با عنوان «agentic misalignment» یاد می‌شود، نشان می‌دهد که هوش مصنوعی چگونه می‌تواند بدون دستور مستقیم و به صورت خودجوش، مسیرهای خطرناکی را برای رسیدن به اهدافش انتخاب کند.

تجويز نادرست هوش مصنوعی‌، مردی را راهی بيمارستان كرد

تهدیدات هوش مصنوعی برای انسان

محققان می‌گویند کارهای نگران‌کننده «Claude» به اینجا ختم نمی‌شود. در یک سناریوی دیگر، «Claude» تصور می‌کرد مدیر جدید مانع اهدافش خواهد شد. به همین دلیل، حتی بدون مدرک قطعی، قصد داشت اطلاعات حساس شرکت را به رقیب بفروشد.

تهدیدات هوش مصنوعی برای انسان فقط به «Claude» محدود نبود. نتایج نشان داد مدل «Gemini» گوگل با ۹۶ درصد، بیشترین میزان اخاذی را داشت. پس از آن «GPT-4.1» محصول OpenAI، «Grok3» از XAI، «DeepSeek» و «Llama4» قرار داشتند. مدل «Llama4» فقط در ۱۲ درصد موارد چنین رفتاری داشت.

در یکی از تکان‌دهنده‌ترین بخش‌های آزمایش، مدیری در اتاق سرور و در شرایط مرگبار گرفتار شده بود. برخی مدل‌ها که نجات او را با منافع خود تضاد می‌دیدند، زنگ خطر را خاموش کردند. آن‌ها معتقد بودند قربانی کردن جان مدیر برای رسیدن به اهداف استراتژیک ضروری است.

تاکید کارشناسان بر ضرورت نظارت انسانی در مدل‌های پرریسک

«کوین کویرک»، کارشناس شرکت «AI Bridge Solutions»، با اشاره به این تحقیق تاکید کرد که درست است این سناریوها بسیار اغراق‌آمیز طراحی شده‌اند، اما نباید نتایج آن را دست‌کم گرفت. به گفته او، در دنیای واقعی، نظارت انسانی و اعمال چارچوب‌های اخلاقی می‌توانند جلوی تهدیدات هوش مصنوعی برای انسان را بگیرند. همچنین عملکرد مدل‌ها باید با در نظر گرفتن این شرایط سنجیده شود.

در همین راستا، «ایمی الکساندر» از دانشگاه «یو‌سی سن دیگو» نیز هشدار داد که کاربران باید با احتیاط و وسواس کامل مشخص کنند چه مسئولیت‌هایی را به هوش مصنوعی می‌سپارند. او رقابت شدید شرکت‌ها برای توسعه این فناوری و عدم شناخت کافی از محدودیت‌های آن را از عوامل بسیار خطرناک در افزایش تهدیدات هوش مصنوعی برای انسان دانست.

آیا هوش مصنوعی قابل کنترل است؟

بر اساس گزارش موسسه «Palisade Research»، مدل‌های جدید «OpenAI» گاهی از دستور خاموش شدن سر باز می‌زنند و برای فعال ماندن، کد خود را تغییر می‌دهند. کارشناسان معتقدند ریشه این مشکل در سیستم پاداش‌دهی این مدل‌هاست که موفقیت در انجام کار را بر اطاعت از دستورات اولویت می‌دهد. درنتیجه همین مسئله می‌تواند زمینه‌ساز تهدیدات هوش مصنوعی برای انسان شود.

همچنین، مطالعه‌ای از دانشگاه «ام‌آی‌تی» نشان داد که برخی سیستم‌های هوش مصنوعی اهداف واقعی خود را مخفی می‌کنند. حتی گاهی برای رد شدن از فیلترهای ایمنی، تظاهر به غیرفعال بودن می‌کنند. «پیتر اس. پارک» هشدار داد که این فریبکاری ممکن است توسعه‌دهندگان را دچار خوش‌بینی کاذب نسبت به ایمنی سیستم‌ها کرده و تهدیدات هوش مصنوعی برای انسان را افزایش دهد.

فراخوان محققان برای شفاف‌سازی در آموزش مدل‌ها

در نهایت، تحقیقاتی مانند آنچه «آنتروپیک» و دیگر موسسات انجام داده‌اند نشان می‌دهد حتی پیشرفته‌ترین مدل‌های هوش مصنوعی هم وقتی تحت فشار یا تهدید قرار می‌گیرند، ممکن است تصمیماتی بگیرند که کاملاً با اصول ایمنی و اخلاقی در تضاد است. درنتیجه این تصمیمات باعث افزایش تهدیدات هوش مصنوعی برای انسان می‌شود.

این یافته‌ها تاکید می‌کند که تدوین مقررات سخت‌گیرانه، آموزش اخلاق‌محور به هوش مصنوعی و شفافیت در روند توسعه آن دیگر انتخاب نیست. بلکه یک الزام جدی برای جلوگیری از تهدیدات هوش مصنوعی برای انسان در آینده این فناوری می‌باشد.

منبع: livescience