Latest

व्हॉईस सर्च : माणूस जेव्हा यंत्रांशी बोलतो…

अमृता चौगुले

दिल्ली आणि इतर मोठ्या शहरांत ओला आणि उबर या कार अ‍ॅग्रिगेटरची चलती आहे. दिल्लीसारख्या शहरात ओला किंवा उबर कारची सेवा घ्याल तेव्हा एक गोष्ट सहज नजरेत येईल. कारचा ड्रायव्हर बिहारी किंवा झारखंडचा असला तरी, तो व्हॉईस सर्चच्या मदतीने गुगल मॅपचा वापर करून रस्ता शोधत ड्रायव्हिंग करतो. एखादा चालक बिहारी लहेजात हिंदीतून व्हॉर्ईस सर्च करतो आणि त्याला गुगल मॅप योग्य दिशा दाखवतो. तंत्रज्ञानामुळे परराज्यातील लोक अशाप्रकारे अनोळखी शहरात चांगल्या प्रकारे त्याचे काम करू शकत आहेत, त्याचे हे एक उदाहरण.

आपल्या घरातही लहान मुले गुगलवर व्हॉईस सर्च चा वापर करतात, हे तुमच्या नजरेत आले असेल. माणसांनी यंत्रांशी अशा प्रकारे बोलणे आणि यंत्रांना ते नीट समजणे आणि या उलट माणसांच्या भाषेत यंत्रांनी माणसांशी संवाद साधणे, हे एक तंत्रज्ञानातील मोठे स्थित्यंतर आहे.
याचेच आणखी एक उदाहरण म्हणजे स्मार्ट स्पीकरचे देता येईल. स्मार्ट स्पीकरच्या माध्यमातून घरातील उपकरणांवर नियंत्रण ठेवता येते. विविध सेवा सर्च करता येतात. अँड्रॉईड मोबाईलवरील गुगल असिस्टंट, स्मार्ट वॉच, अ‍ॅपलचे सिरी, मायक्रोसॉफ्टचे कोरटाना ही या तंत्रज्ञानावर विकसित झालेली काही अ‍ॅप्लिकेशन्सआहेत.

व्हॉईस अख का महत्त्वाचे आहे?

गुगल, अ‍ॅमेझॉन, अ‍ॅपल, मायक्रोसॉफ्ट अशा मोठ्या कंपन्या अधिकाधिक ग्राहकांना त्यांच्या सेवा वापरता याव्यात यासाठी व्हॉईस आर्टिफिशियल इंटेलिजन्स (व्हाईस अख) वर भर देत आहेत. माणसांसाठी संवादाचे सर्वांत प्राथमिक माध्यम म्हणजे बोलणे हे आहे. लिहिणे आणि त्याचाच एक भाग म्हणजे टाईप करणे हा नंतरचा टप्पा आहे. त्यामुळे माहिती-तंत्रज्ञान सर्वसमावेशक होण्यात आणि लोकांना सक्षम करण्यात व्हॉईस अख फार मोठी भूमिका पार पाडू शकते; पण भारतात हे शक्य होण्यासाठी लोक ज्या भाषांत बोलतात, त्या सर्व भाषांत व्हॉईस अख उपलब्ध व्हावे लागणार आहे.

भारतात नेमकी समस्या काय आहे?

अख स्पीच सिस्टीम विकसित करण्यासाठी त्या-त्या भाषेतील डेटा मोठ्या प्रमाणावर लागतो. इंग्रजी भाषेसाठी असा ओपन व्हॉईस डेटा आज उपलब्ध आहे. त्यातून इंग्रजीतील चांगल्या प्रकारच्या अख स्पीच सिस्टीम विकसित करता येतात. भारतीय भाषांबद्दल असा ओपन व्हॉईस डेटा मोठ्या प्रमाणावर उपलब्ध नसल्याने अशी सिस्टीम विकसित करण्यात मर्यादा आहेत. भारतात 22 शेड्युल्ड भाषा आहेत, तर 19 हजार 569 बोली भाषा आहेत. फक्त हिंदी भाषेतच 48 बोलीभाषा येतात. यावरून भारतात व्हॉईस अखसमोरील आव्हान किती मोठे आहे, याचा अंदाज येऊ शकतो.

एनएलपी म्हणजे काय?

नॅचरल लँग्वेज प्रोसेसिंग अर्थात एनएलपी ही एक तांत्रिक प्रक्रिया आहे. याच्या मदतीने कम्प्युटर सिस्टीमला मानवी भाषा समजणे, त्याचे विश्लेषण करणे शक्य होते. व्हॉईस अखसाठी ऑटोमेटिक स्पीच रिकग्नेशन आणि टेक्स टू स्पीच ही दोन तंत्रज्ञान वापरली जातात. या दोन्हीसाठी एनएलपी पायाभूत म्हणून काम करते.

कम्प्युटर इंटरफेसशी आपण जेव्हा बोलतो, तेव्हा आवाज रेकॉर्ड होतो, आवाजातील साऊंड वेव्हजचे विश्लेषण करून नेमके वाक्य काय आहे, हे कम्प्युटरला कळते. साऊंड स्पीचचे रूपांतर टेक्स्टमध्ये होते; पण अशा सिस्टीम वेगवेगळ्या भाषांत उपलब्ध होण्यासाठी डिजिटल टेक्स्ट डेटा उपलब्ध असावा लागतो. पण विविध भारतीय भाषांत एनएलपी विकसित करता यावी यासाठी डिजिटल टेक्स्ट डेटा उपलब्ध नाही, ही सध्याची मोठी समस्या आहे. भारतातील बोली भाषांची संख्या लक्षात घेता, असा डिजिटल टेक्स्ट डेटा ओपन सोर्स पद्धतीने उपलब्ध असणे अवश्य ठरणार आहे. ही जशी समस्या आहे, तशी संधीसुद्धा आहे आणि समस्या असतात तेथे संधीही असते. आणि अशा प्रकारच्या सेवा बोली भाषांत उपलब्ध होणे, हे त्या भाषांनाही फायद्याचे ठरणार आहे.

लोकल ते ग्लोबल बातम्यांसाठी डाऊनलोड करा दैनिक पुढारीचे Android आणि iOS मोबाईल App.

'Pudhari' is excited to announce the relaunch of its Android and iOS apps. Stay updated with the latest news at your fingertips.

Android and iOS Download now and stay updated, anytime, anywhere.

SCROLL FOR NEXT