

सॅनफ्रान्सिस्को : कृत्रिम बुद्धिमत्ता (एआय) आज मानवी ज्ञानाच्या पातळीवर पोहोचली आहे का किंवा ती ओलांडू शकते का, हे मोजण्यासाठी ‘सेंटर फॉर एआय सेफ्टी’ आणि ‘स्केल एआय’च्या संशोधकांनी एक विशेष चाचणी विकसित केली आहे. ‘ह्युमनिटीज लास्ट एक्झाम’ असे या चाचणीचे नाव असून, हे एआय मॉडेल्ससाठी आतापर्यंतचे सर्वात कठीण आव्हान मानले जात आहे.
या चाचणीची घोषणा जानेवारी 2025 मध्ये करण्यात आली होती; परंतु 28 जानेवारी 2026 रोजी ‘नेचर’ या प्रतिष्ठित जर्नलमधील एका नवीन अभ्यास अहवालात शास्त्रज्ञांनी या चाचणीच्या रचनेची आणि त्यामागील विचारसरणीची सविस्तर माहिती दिली आहे. या परीक्षेत 100 हून अधिक विषयांवरील 2,500 प्रश्नांचा समावेश आहे. यासाठी 50 देशांतील 500 संस्थांमधील 1,000 हून अधिक तज्ज्ञांचे सहकार्य घेण्यात आले आहे. ही परीक्षा अत्यंत कठीण बनवण्यासाठी, शास्त्रज्ञांनी अशा प्रश्नांची निवड केली आहे की, ज्यांची उत्तरे इंटरनेटवर सहज उपलब्ध नाहीत.
परीक्षेत बहुपर्यायी आणि लघुत्तरी प्रश्नांचा समावेश आहे. सुरुवातीला ओपनएआयचे ((OpenAI) GPT-4 o आणि o1, गुगलचे (Google) Gemini 1.5 Pro, अँथ—ॉपिकचे (Anthropic) Claude 3.5 Sonnet आणि DeepSeek R1 यांची चाचणी घेण्यात आली. त्यावेळी ओपनएआयच्या o1 सिस्टीमने अवघे 8.3% गुण मिळवून प्रथम क्रमांक पटकावला होता. एआयचा वेग पाहता, 2025 च्या अखेरीस ही मॉडेल्स 50 टक्क्यांपेक्षा जास्त अचूकता गाठू शकतात, असा अंदाज संशोधकांनी व्यक्त केला होता. सद्यस्थिती पाहता, 12 फेब्रुवारी 2026 पर्यंत, गुगलच्या ‘जेमिनी 3 डीप थिंक’ (Gemini 3 Deep Think) ने 48.4 टक्के गुणांसह सर्वोच्च धावसंख्या गाठली आहे. मात्र, मानवी तज्ज्ञ त्यांच्या संबंधित क्षेत्रांत सुमारे 90 टक्के गुण मिळवतात, त्यामुळे एआय अजूनही मानवाच्या खूप मागे आहे.
ही चाचणी एआय मॉडेल्ससाठी अत्यंत कठीण बनवण्यामागे संशोधकांचा विशिष्ट हेतू होता. प्रश्न विचारताना असा निकष लावण्यात आला की, उत्तर स्पष्ट आणि पडताळण्यायोग्य असावे; परंतु ते इंटरनेट सर्चद्वारे त्वरित शोधता येऊ नये. एआयने केवळ इंटरनेटवर शोध घेऊन उत्तरे देऊ नयेत किंवा प्रश्नांची उत्तरे आधीच त्यांच्या ट्रेनिंग डेटामध्ये असू नयेत, यासाठी तज्ज्ञांनी खबरदारी घेतली आहे. संशोधकांनी 70,000 हून अधिक प्रश्नांच्या सबमिशनची तपासणी केली, त्यापैकी केवळ 13,000 प्रश्न असे होते, ज्यांनी एआय मॉडेल्सना गोंधळात टाकले. त्यानंतर तज्ज्ञांच्या समितीने हे प्रश्न अंतिम केले.