

वॉशिंग्टन : शास्त्रज्ञांनी कृत्रिम बुद्धिमत्ता (एआय) प्रणालींची कार्यक्षमता मोजण्यासाठी एक नवी पद्धत शोधून काढली आहे. म्हणजे एआय मानवी क्षमतेशी स्पर्धा करताना किती लवकर काम पूर्ण करू शकते, हे मोजणे. सर्वसाधारणपणे, मजकुराचे भाकीत करणे किंवा ज्ञानावर आधारित सोपे कार्य पूर्ण करण्याच्या बाबतीत एआय मानवी क्षमतांपेक्षा पुढे असते. मात्र, जेव्हा अधिक गुंतागुंतीची कामे, जसे की दूरस्थ कार्यकारी सहाय्य, सोपवली जातात, तेव्हा एआयची प्रभावीता कमी होते.
एआय मॉडेल्समधील या कामगिरीतील प्रगती मोजण्यासाठी, एका नव्या अभ्यासात मानव आणि एआयला विशिष्ट काम पूर्ण करण्यासाठी लागणार्या वेळेच्या तुलनेवर आधारित मापन पद्धत सुचवली आहे. हा अभ्यास 30 मार्च रोजी arXiv या प्रीप्रिंट डेटाबेसवर प्रकाशित झाला असून, अद्याप समकक्ष पुनरावलोकन झालेला नाही. ‘आम्हाला आढळले की मॉडेल्स किती वेळेत काम पूर्ण करतात, हे मोजणे ही एआय क्षमतेच्या समजून घेण्यासाठी उपयुक्त द़ृष्टिकोन आहे. हे सुसंगत आहे, कारण अनेकदा एआय एजंट्सना एकामागून एक अनेक कृती एकत्रित करण्यास अडचण येते, त्यांच्या कौशल्य किंवा ज्ञानाच्या अभावामुळे नव्हे,’ असे AI संस्था Model Evaluation & Threat Research (METR) च्या संशोधकांनी ब्लॉगपोस्टमध्ये सांगितले.
संशोधकांनी असेही नमूद केले की, जी कामे मानवाला चार मिनिटांपेक्षा कमी वेळात करता येतात, ती कामे एआय मॉडेल्सने जवळपास 100% यश दराने पूर्ण केली. परंतु, चार तासांपेक्षा जास्त वेळ घेणार्या कामांसाठी एआयचा यश दर फक्त 10% वर घसरला. जुनी एआय मॉडेल्स दीर्घकालीन कामांमध्ये नव्या मॉडेल्सच्या तुलनेत अधिक कमी यशस्वी ठरली. हे निष्कर्ष अपेक्षित होते. कारण, गेल्या सहा वर्षांपासून 50% यश दराने सामान्य एआयने पूर्ण केलेल्या कामांच्या कालावधीमध्ये सुमारे प्रत्येक सात महिन्यांनी दुहेरी वाढ होत असल्याचे अभ्यासात नमूद केले आहे.
या अभ्यासासाठी संशोधकांनी Sonnet 3.7, GPT-4, Claude 3 Opus आणि जुनी GPT मॉडेल्स आदी विविध एआय मॉडेल्स वापरली आणि त्यांना विविध प्रकारच्या कामांसमोर उभे केले. या कामांमध्ये सोपी कामे (जसे की विकिपीडिया वरून एखादे साधे तथ्य शोधणे) ते गुंतागुंतीची कामे (जसे की CUDA कर्नल्सचे प्रोग्रामिंग किंवा PyTorch मधील सूक्ष्म चुका सुधारण्यासारखी) समाविष्ट होती. चाचणीसाठी HCAST आणि RE- Bench यांसारखी साधने वापरण्यात आली.