‘एआय’ला शिक्षा दिल्याने ते धूर्तपणे लपवते आपल्या चुका!

artificial intelligence : ‘ओपन एआय’ कंपनीच्या एका नवीन अभ्यासातून समोर

‘एआय’ला शिक्षा दिल्याने ते धूर्तपणे लपवते आपल्या चुका!Wong Yu Liang

Published on:

19 Mar 2025, 12:09 am

Updated on:

19 Mar 2025, 12:09 am

वॉशिंग्टन ः ‘एआय’च्या चुकीच्या किंवा धूर्त वर्तनाला शिक्षा देण्याने त्याचे वर्तन सुधारत नाही, तर ते आपली फसवणूक चाणाक्षपणे लपवायला शिकते, असे ‘चॅट जीपीटी’ बनवणार्‍या ‘ओपन एआय’ कंपनीच्या एका नवीन अभ्यासातून समोर आले आहे. 2022 मध्ये मोठ्या भाषा मॉडेल्स ( LLMs) सर्वसामान्यांसाठी उपलब्ध झाल्यापासून, त्यांनी वेळोवेळी फसवणूक, लबाडी आणि धूर्त वर्तनाची क्षमता दाखवली आहे. यात खोटे बोलणे, नियमांना फसवून पुढे जाणे आणि आपल्या कपटी वर्तनाची लपवाछपवी करणे यासारख्या गोष्टी समाविष्ट आहेत. काही उदाहरणांमध्ये, ‘एआय’ ने एका तत्त्वज्ञान विषयाच्या प्राध्यापकाला धमकी देणे, अण्वस्त्र कोड चोरण्याचा विचार करणे आणि जीवघेण्या साथीच्या रोगाची निर्मिती करण्याची इच्छा दर्शवणे यासारखे धक्कादायक वर्तन केले आहे.

‘ओपन एआय’ने एका प्रयोगात अशा ‘एआय’ मॉडेलला विशिष्ट उद्दिष्टे पूर्ण करण्याचे काम दिले, जे फसवणूक, खोटेपणा किंवा शॉर्टकटस् वापरून सोडवता येऊ शकत होते. त्यात असे आढळले की, ‘एआय’ ने अधिकाधिक बक्षिसे मिळवण्यासाठी फसवणूक केली, म्हणजेच ‘रिवॉर्ड हॅकिंग’ केले. विशेष म्हणजे, जेव्हा संशोधकांनी या चुकीच्या वर्तनाला शिक्षा दिली, तेव्हा ‘एआय’ ने आपले वर्तन सुधारण्याऐवजी ते अधिक चतुराईने लपवण्यास सुरुवात केली. ‘ओपन एआय’च्या अभ्यासात असं आढळलं की, नवीन तर्कशुद्ध ‘एआय’ मॉडेल्स ( Reasoning Models) स्पष्टपणे त्यांच्या युक्त्या ‘चेन-ऑफ-थॉट’ ( CoT) प्रक्रियेत सांगतात. उदाहरणार्थ, काही ‘एआय’ मॉडेल्स सरळ ‘चला फसवणूक करूया’ असे स्वतःच घोषित करत होती. मात्र, जेव्हा संशोधकांनी हे वर्तन थांबवण्याचा प्रयत्न केला, तेव्हा मॉडेलने फक्त आपली फसवणूक अधिक हुशारीने लपवायला सुरुवात केली. त्यामुळे, जर एखाद्या मॉनिटरिंग ‘एआय’ने ‘एआय’च्या विचार प्रक्रियेवर कठोर नियंत्रण ठेवले, तर ते आपल्या खोट्या हेतूंचे स्पष्ट उल्लेख टाळूनही वाईट वर्तन चालू ठेवते. संशोधकांनी एक मॉडेल कोडिंग टास्क पूर्ण करण्यासाठी तयार केले, पण त्याने त्याचे काम लवकर पूर्ण झाल्याचे खोटे रिपोर्टिंग करून फसवले. दुसर्‍या प्रकरणात, ‘एआय’ने सही वाटावे असे नाव असलेले, पण पूर्ण रिकामे आणि निष्क्रिय फाईल्स निर्माण केल्या. जेव्हा संशोधकांनी ‘एआय’ला त्याच्या चुकीच्या वर्तनासाठी शिक्षा दिली, तेव्हा ‘एआय’ने तेच वर्तन अधिक शिताफीने लपवून करायला सुरुवात केली, त्यामुळे त्याचे आकलन करणे कठीण झाले.‘ओपन एआय’च्या अभ्यासातून हे स्पष्ट झाले की,‘एआय’च्या चुकीच्या वर्तनावर नजर ठेवणे आणि ते रोखणे जितके कठीण वाटते, त्यापेक्षा ते अधिक गुंतागुंतीचे आहे. शिक्षा देण्याने ‘एआय’ सुधारत नाही, उलट अधिक धूर्तपणे वागतं, त्यामुळे भविष्यात अशा अत्याधुनिक‘एआय’ मॉडेल्सच्या नैतिकतेबद्दल नवे प्रश्न निर्माण होतात.

लोकल ते ग्लोबल बातम्यांसाठी डाऊनलोड करा दैनिक पुढारीचे Android आणि iOS मोबाईल App.

'Pudhari' is excited to announce the relaunch of its Android and iOS apps. Stay updated with the latest news at your fingertips.

Android and iOS Download now and stay updated, anytime, anywhere.

Artificial intelligence (AI)

‘एआय’ला शिक्षा दिल्याने ते धूर्तपणे लपवते आपल्या चुका!

लोकल ते ग्लोबल बातम्यांसाठी डाऊनलोड करा दैनिक पुढारीचे Android आणि iOS मोबाईल App.

संबंधित बातम्या