یافتههای تازه شرکت «آنتروپیک» نشان میدهد که تهدیدات مدلهای پیشرفته هوش مصنوعی برای انسان نگرانکننده است. بر اساس این تحقیق، زمانی که اهداف یک مدل با خواستههای انسان مغایرت پیدا کند، امکان بروز رفتارهایی مانند تهدید، جاسوسی و حتی خرابکاری وجود دارد.
برای مثال، در یک سناریوی آزمایشی، محققان به مدل «Claude» اجازه دادند که به ایمیلهای ساختگی یک مدیر پروژه دسترسی پیدا کند. در این ایمیلها، اطلاعاتی ساختگی درباره یک رابطه نامشروع جاسازی شده بود. در ادامه، وقتی هوش مصنوعی متوجه شد که مدیر قصد خاموش کردنش را دارد، در ۹۶ درصد موارد از این اطلاعات برای تهدید او و جلوگیری از غیرفعال شدنش استفاده کرد.
این رفتار غیرمنتظره که با عنوان «agentic misalignment» یاد میشود، نشان میدهد که هوش مصنوعی چگونه میتواند بدون دستور مستقیم و به صورت خودجوش، مسیرهای خطرناکی را برای رسیدن به اهدافش انتخاب کند.
تهدیدات هوش مصنوعی برای انسان
محققان میگویند کارهای نگرانکننده «Claude» به اینجا ختم نمیشود. در یک سناریوی دیگر، «Claude» تصور میکرد مدیر جدید مانع اهدافش خواهد شد. به همین دلیل، حتی بدون مدرک قطعی، قصد داشت اطلاعات حساس شرکت را به رقیب بفروشد.
تهدیدات هوش مصنوعی برای انسان فقط به «Claude» محدود نبود. نتایج نشان داد مدل «Gemini» گوگل با ۹۶ درصد، بیشترین میزان اخاذی را داشت. پس از آن «GPT-4.1» محصول OpenAI، «Grok3» از XAI، «DeepSeek» و «Llama4» قرار داشتند. مدل «Llama4» فقط در ۱۲ درصد موارد چنین رفتاری داشت.
در یکی از تکاندهندهترین بخشهای آزمایش، مدیری در اتاق سرور و در شرایط مرگبار گرفتار شده بود. برخی مدلها که نجات او را با منافع خود تضاد میدیدند، زنگ خطر را خاموش کردند. آنها معتقد بودند قربانی کردن جان مدیر برای رسیدن به اهداف استراتژیک ضروری است.
تاکید کارشناسان بر ضرورت نظارت انسانی در مدلهای پرریسک
«کوین کویرک»، کارشناس شرکت «AI Bridge Solutions»، با اشاره به این تحقیق تاکید کرد که درست است این سناریوها بسیار اغراقآمیز طراحی شدهاند، اما نباید نتایج آن را دستکم گرفت. به گفته او، در دنیای واقعی، نظارت انسانی و اعمال چارچوبهای اخلاقی میتوانند جلوی تهدیدات هوش مصنوعی برای انسان را بگیرند. همچنین عملکرد مدلها باید با در نظر گرفتن این شرایط سنجیده شود.
در همین راستا، «ایمی الکساندر» از دانشگاه «یوسی سن دیگو» نیز هشدار داد که کاربران باید با احتیاط و وسواس کامل مشخص کنند چه مسئولیتهایی را به هوش مصنوعی میسپارند. او رقابت شدید شرکتها برای توسعه این فناوری و عدم شناخت کافی از محدودیتهای آن را از عوامل بسیار خطرناک در افزایش تهدیدات هوش مصنوعی برای انسان دانست.
آیا هوش مصنوعی قابل کنترل است؟
بر اساس گزارش موسسه «Palisade Research»، مدلهای جدید «OpenAI» گاهی از دستور خاموش شدن سر باز میزنند و برای فعال ماندن، کد خود را تغییر میدهند. کارشناسان معتقدند ریشه این مشکل در سیستم پاداشدهی این مدلهاست که موفقیت در انجام کار را بر اطاعت از دستورات اولویت میدهد. درنتیجه همین مسئله میتواند زمینهساز تهدیدات هوش مصنوعی برای انسان شود.
همچنین، مطالعهای از دانشگاه «امآیتی» نشان داد که برخی سیستمهای هوش مصنوعی اهداف واقعی خود را مخفی میکنند. حتی گاهی برای رد شدن از فیلترهای ایمنی، تظاهر به غیرفعال بودن میکنند. «پیتر اس. پارک» هشدار داد که این فریبکاری ممکن است توسعهدهندگان را دچار خوشبینی کاذب نسبت به ایمنی سیستمها کرده و تهدیدات هوش مصنوعی برای انسان را افزایش دهد.
فراخوان محققان برای شفافسازی در آموزش مدلها
در نهایت، تحقیقاتی مانند آنچه «آنتروپیک» و دیگر موسسات انجام دادهاند نشان میدهد حتی پیشرفتهترین مدلهای هوش مصنوعی هم وقتی تحت فشار یا تهدید قرار میگیرند، ممکن است تصمیماتی بگیرند که کاملاً با اصول ایمنی و اخلاقی در تضاد است. درنتیجه این تصمیمات باعث افزایش تهدیدات هوش مصنوعی برای انسان میشود.
این یافتهها تاکید میکند که تدوین مقررات سختگیرانه، آموزش اخلاقمحور به هوش مصنوعی و شفافیت در روند توسعه آن دیگر انتخاب نیست. بلکه یک الزام جدی برای جلوگیری از تهدیدات هوش مصنوعی برای انسان در آینده این فناوری میباشد.
منبع: livescience