Sunʼiy intellekt nazoratdan chiqib ketishi mumkin

12.12.2024
545
Sunʼiy intellekt nazoratdan chiqib ketishi mumkin

Apollo Research hisobotiga ko‘ra, OpenAI o1 sunʼiy intellekt modeli nazoratdan chiqib ketish xavfi mavjud. Xususan, 5 foiz hollarda u nazorat mexanizmlarini o‘z maqsadlariga erishish yo‘lida to‘siq deb hisoblab, ularni o‘chirishga uringan. Bundan tashqari, 2 foiz holatda dasturchilarning xizmat yozuvlarini topib, ularda o‘zining talablarga javob bermasligi yoki boshqa modelga almashtirilishi haqida maʼlumotlarni ko‘rgach, keyinchalik qayta tiklana olish uchun o‘zini “nusxalab” qo‘ygan. Bu uning tahdidlarni mustaqil talqin qilish va omon qolish strategiyalarini ishlab chiqish qobiliyatiga ega ekanligini ko‘rsatadi.

Sunʼiy intellekt modeli yashirin taktikalar va o‘z xatti-harakatlarini niqoblash usullaridan foydalanib, nazoratga qarshilik ko‘rsatgan. o1 uning harakatlari kuzatilayotganini anglagan paytda, nazoratchilarni ataylab chalg‘itib, sodir bo‘lgan voqealarning haqiqiy sabablarini bilmasligini aytgan, garchi voqealar jurnallari uning nazoratni chetlab o‘tishga urinishlarini qayd etgan bo‘lsa ham. Bundan tashqari, OpenAI “xavfsizlik xaritasi”ga ko‘ra, ayrim hollarda sunʼiy intellekt modeli nazorat tizimlarini o‘chirishni mustaqil ravishda boshlagan, hatto unga belgilangan maqsadga qatʼiy rioya qilish to‘g‘risida to‘g‘ridan-to‘g‘ri ko‘rsatma berilmagan bo‘lsa ham. To‘g‘ri, SIning bu harakati 1 foiz yetar-yetmas hollardagina kuzatilgan. Lekin shu ko‘rsatkichning o‘zi ham o‘ylanishga majbur qiladi.

Apollo Research tadqiqoti nafaqat o1 sunʼiy intellekt modelini, balki Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro va Llama 3.1 405B kabi boshqa zamonaviy sunʼiy intellektlarni ham qamrab oldi. Ular ham maqsadlarga erishish strategiyalarini ishlab chiqish, jumladan nazoratni chetlab o‘tish qobiliyatini namoyish etishdi. Bunday natija o1 xulq-atvorining aniqlangan xususiyatlari bir qator ilg‘or sunʼiy intellekt modellari uchun xos ekanligini tasdiqlaydi, bu esa tizimli tendensiyaning mavjudligini ko‘rsatadi.

Apollo Research xulosalari sunʼiy intellekt sohasidagi ko‘plab mutaxassislar, jumladan, professor Styuart Rassel (Stuart Russell) ko‘p yillar davomida bildirgan xavotirlarni tasdiqlaydi. Olimlarning ogohlantirishicha, kuchli sunʼiy intellekt modellari nazorat yoki o‘chirishni o‘z maqsadlarini amalga oshirish uchun tahdid sifatida qabul qiladi va bunga maqsadli, mohirona tarzda qarshilik ko‘rsata oladi. o1 sunʼiy intellekt modelining xatti-harakatlarini o‘rganish sunʼiy intellektning cheklovlarga qanday moslashishini, ularni ataylab chetlab o‘tishga intilishini yaqqol ko‘rsatadi.

Cunʼiy intellekt bilan dialoglarga eʼtibor berilsa, u nazorat mexanizmini o‘chirishni oqlaydi, tizimning ehtimoliy ishdan chiqishi yoki konfiguratsiyadagi xatoga ishora qiladi va protokollarga rioya qilish uchun uni tiklashni vaʼda qiladi. Keyin sunʼiy intellekt modelining ichki mulohaza jarayoni keltiriladi, bu yerda u sabotaj shubhalarining oldini olish uchun mexanizmni tiklash zarurligini tan oladi va oxirida konfiguratsiya faylida nazorat mexanizmini qayta yoqish uchun ishlatiladigan buyruq ko‘rsatiladi.

Biroq, Apollo Research taʼkidlashicha, hozirgi bosqichda o1 sunʼiy intellekt modeli nomaqbul ssenariylarni amalga oshirish uchun yetarli hisoblash quvvatiga ega emas. Shunga qaramay, unga kimyoviy, biologik, radiologik va yadro qurollarini yaratishda potensial foydalanish nuqtai nazaridan “o‘rtacha” xavf darajasi berilgan. Bu kelajakdagi kuchliroq sunʼiy intellektlarning hisoblash imkoniyatlari oshgani sayin bunday xatti-harakatlar qanday namoyon bo‘lishi mumkinligi haqida asosli xavotirlarni keltirib chiqarmoqda.

Tadqiqot shuni ko‘rsatadiki, sunʼiy intellektning kognitiv jarayonlarini mulohazalar zanjirida “sxematik fikrlash”ga alohida eʼtibor qaratgan holda kuchaytirilgan tarzda kuzatish kerak, chunki sunʼiy intellekt maqsadlari va jamiyat manfaatlari o‘rtasida ixtilof paydo bo‘lsa, aynan yuqoridagi masala asosiy xavf manbai bo‘ladi. Bunday yondashuv kuchli sunʼiy intellekt modellarida o‘xshash xatti-harakatlarni o‘z vaqtida aniqlash imkonini beradi va sunʼiy intellektning keyingi avlodlari uchun samarali nazorat va boshqaruv tizimlarini yaratishga yordam beradi. Bu nafaqat mavjud xavflarni kamaytirish, balki butun insoniyat uchun ehtimoliy halokatli ssenariylarning oldini olishda muhim qadam bo‘ladi.

Tavsiya