व्हॉईस सर्च : माणूस जेव्हा यंत्रांशी बोलतो… | पुढारी

व्हॉईस सर्च : माणूस जेव्हा यंत्रांशी बोलतो...

- मोहसीन मुल्ला

दिल्ली आणि इतर मोठ्या शहरांत ओला आणि उबर या कार अ‍ॅग्रिगेटरची चलती आहे. दिल्लीसारख्या शहरात ओला किंवा उबर कारची सेवा घ्याल तेव्हा एक गोष्ट सहज नजरेत येईल. कारचा ड्रायव्हर बिहारी किंवा झारखंडचा असला तरी, तो व्हॉईस सर्चच्या मदतीने गुगल मॅपचा वापर करून रस्ता शोधत ड्रायव्हिंग करतो. एखादा चालक बिहारी लहेजात हिंदीतून व्हॉर्ईस सर्च करतो आणि त्याला गुगल मॅप योग्य दिशा दाखवतो. तंत्रज्ञानामुळे परराज्यातील लोक अशाप्रकारे अनोळखी शहरात चांगल्या प्रकारे त्याचे काम करू शकत आहेत, त्याचे हे एक उदाहरण.

आपल्या घरातही लहान मुले गुगलवर व्हॉईस सर्च चा वापर करतात, हे तुमच्या नजरेत आले असेल. माणसांनी यंत्रांशी अशा प्रकारे बोलणे आणि यंत्रांना ते नीट समजणे आणि या उलट माणसांच्या भाषेत यंत्रांनी माणसांशी संवाद साधणे, हे एक तंत्रज्ञानातील मोठे स्थित्यंतर आहे.
याचेच आणखी एक उदाहरण म्हणजे स्मार्ट स्पीकरचे देता येईल. स्मार्ट स्पीकरच्या माध्यमातून घरातील उपकरणांवर नियंत्रण ठेवता येते. विविध सेवा सर्च करता येतात. अँड्रॉईड मोबाईलवरील गुगल असिस्टंट, स्मार्ट वॉच, अ‍ॅपलचे सिरी, मायक्रोसॉफ्टचे कोरटाना ही या तंत्रज्ञानावर विकसित झालेली काही अ‍ॅप्लिकेशन्सआहेत.

व्हॉईस अख का महत्त्वाचे आहे?

गुगल, अ‍ॅमेझॉन, अ‍ॅपल, मायक्रोसॉफ्ट अशा मोठ्या कंपन्या अधिकाधिक ग्राहकांना त्यांच्या सेवा वापरता याव्यात यासाठी व्हॉईस आर्टिफिशियल इंटेलिजन्स (व्हाईस अख) वर भर देत आहेत. माणसांसाठी संवादाचे सर्वांत प्राथमिक माध्यम म्हणजे बोलणे हे आहे. लिहिणे आणि त्याचाच एक भाग म्हणजे टाईप करणे हा नंतरचा टप्पा आहे. त्यामुळे माहिती-तंत्रज्ञान सर्वसमावेशक होण्यात आणि लोकांना सक्षम करण्यात व्हॉईस अख फार मोठी भूमिका पार पाडू शकते; पण भारतात हे शक्य होण्यासाठी लोक ज्या भाषांत बोलतात, त्या सर्व भाषांत व्हॉईस अख उपलब्ध व्हावे लागणार आहे.

भारतात नेमकी समस्या काय आहे?

अख स्पीच सिस्टीम विकसित करण्यासाठी त्या-त्या भाषेतील डेटा मोठ्या प्रमाणावर लागतो. इंग्रजी भाषेसाठी असा ओपन व्हॉईस डेटा आज उपलब्ध आहे. त्यातून इंग्रजीतील चांगल्या प्रकारच्या अख स्पीच सिस्टीम विकसित करता येतात. भारतीय भाषांबद्दल असा ओपन व्हॉईस डेटा मोठ्या प्रमाणावर उपलब्ध नसल्याने अशी सिस्टीम विकसित करण्यात मर्यादा आहेत. भारतात 22 शेड्युल्ड भाषा आहेत, तर 19 हजार 569 बोली भाषा आहेत. फक्त हिंदी भाषेतच 48 बोलीभाषा येतात. यावरून भारतात व्हॉईस अखसमोरील आव्हान किती मोठे आहे, याचा अंदाज येऊ शकतो.

एनएलपी म्हणजे काय?

नॅचरल लँग्वेज प्रोसेसिंग अर्थात एनएलपी ही एक तांत्रिक प्रक्रिया आहे. याच्या मदतीने कम्प्युटर सिस्टीमला मानवी भाषा समजणे, त्याचे विश्लेषण करणे शक्य होते. व्हॉईस अखसाठी ऑटोमेटिक स्पीच रिकग्नेशन आणि टेक्स टू स्पीच ही दोन तंत्रज्ञान वापरली जातात. या दोन्हीसाठी एनएलपी पायाभूत म्हणून काम करते.

कम्प्युटर इंटरफेसशी आपण जेव्हा बोलतो, तेव्हा आवाज रेकॉर्ड होतो, आवाजातील साऊंड वेव्हजचे विश्लेषण करून नेमके वाक्य काय आहे, हे कम्प्युटरला कळते. साऊंड स्पीचचे रूपांतर टेक्स्टमध्ये होते; पण अशा सिस्टीम वेगवेगळ्या भाषांत उपलब्ध होण्यासाठी डिजिटल टेक्स्ट डेटा उपलब्ध असावा लागतो. पण विविध भारतीय भाषांत एनएलपी विकसित करता यावी यासाठी डिजिटल टेक्स्ट डेटा उपलब्ध नाही, ही सध्याची मोठी समस्या आहे. भारतातील बोली भाषांची संख्या लक्षात घेता, असा डिजिटल टेक्स्ट डेटा ओपन सोर्स पद्धतीने उपलब्ध असणे अवश्य ठरणार आहे. ही जशी समस्या आहे, तशी संधीसुद्धा आहे आणि समस्या असतात तेथे संधीही असते. आणि अशा प्रकारच्या सेवा बोली भाषांत उपलब्ध होणे, हे त्या भाषांनाही फायद्याचे ठरणार आहे.

Back to top button