
आयआयटी मद्रास संगणक अभियांत्रिकी विभागातर्फे AI4Bharat या प्रकल्पावर काम सुरू आहे. २२ भारतीय भाषा आणि त्यातल्या बोलीभाषांच्या आपांपसातल्या भाषांतरातले आणि संभाषणातले अडसर कृत्रिम बुद्धिमत्तेच्या मदतीने दूर करणं, हे या प्रकल्पाचं उद्दिष्ट आहे. याविषयी सांगताहेत प्रकल्पात सहभागी असलेले भूषण ओक..
एआय म्हणजे कृत्रिम बुद्धिमत्ता हा सद्यकाळात एक परवलीचा शब्द झाला आहे. सगळ्या काही गोष्टी एआयद्वारे साध्य होतात अशी काहीशी बहुतांश लोकांची समजूत झाली आहे. कृत्रिम बुद्धिमत्ता काय काय करू शकते? कठीण वैज्ञानिक प्रश्नांची उत्तरं ती सहज देऊ शकते. विश्वातील सगळी माहिती धुंडाळून एखाद्या जटिल प्रश्नाचं उत्तर ती काही सेकंदांतच देऊ शकते. एखाद्या विषयावर कवितेच्या काही सुंदर ओळी ती सुचवू शकते. एखादं सुंदर चित्र ती तुमच्या कल्पनेनुसार रेखाटू शकते. संगणकाचे प्रोग्राम्स लिहू शकते, स्वयंचलित गाड्या चालवू शकते आणि सामान्य माणसाला करायला कितीतरी वेळ लागेल अशी कामं ती चुटकीसरशी करू शकते.
पण हे लक्षात ठेवणं गरजेचं आहे, की कृत्रिम बुद्धिमत्तेचा हा सारा डोलारा मानवाच्या नैसर्गिक बुद्धिमत्तेने साध्य केलेल्या युगानुयुगांच्या कामगिरीवर अवलंबून आहे. एक कॅल्क्युलेटर आणि कृत्रिम बुद्धिमत्ता वापरणाऱ्या संगणकात गुणात्मक फरक फारसा नाही. ही यंत्रं मानवाने आजपर्यंत निर्माण केलेलं सर्व काही वापरूनच उत्तरं देतात. पण मानवासारखं काहीही मूळ, अभिनव किंवा नवीन या यंत्रांना अजूनही निर्माण करता येत नाही. भविष्यात ते कदाचित होईलही, पण आजतरी नवनिर्मितीची मानवाची क्षमता या यंत्रांमध्ये नाही. कालिदासाचं वा भा.रा. तांब्यांचं अथवा गदिमांचं काव्य, राजा रविवर्माची चित्रं किंवा पंडित भीमसेन किंवा लता मंगेशकरांचं संगीत या यंत्रांना निर्माण करता येत नाही. मूळ निर्मितीची नक्कल ती नक्की करतील, पण प्रतिभेचा स्फुल्लिंग जागवणं यंत्रांना अजूनतरी शक्य नाही.
भाषाशास्त्राचा विचार करायचा झाला तर कुठलीही भाषा ही मानवाच्या संवादाचं मूळ साधन असते. निसर्गाने इतर प्राण्यांच्या तुलनेत मानवाला संवादासाठी भरभरून दिलेलं आहे आणि त्यामुळे हजारो वर्षांमध्ये मानवाच्या बुद्धीच्या विकासानुरूप भाषाही विकसित झाल्या आहेत. मूळ भाषा, बोलीभाषा, लिखित भाषा, व्याकरणशास्त्र, म्हणी, वाक्प्रचार, अलंकार असा सर्वच भाषांचा प्रचंड विस्तार आहे. भाषा ही मुळात संवादासाठी उत्पन्न झाली असली तरी कालौघात ती नुसती संवादाकरता न उरता पुस्तकांच्या माध्यमातून ज्ञानाची मोठ्या कालखंडासाठी साठवणूक आणि पर्यायाने ज्ञानार्जनासाठी अत्यंत महत्वाची झाली आहे. मानवी इतिहासाच्या हजारो वर्षांमध्ये प्राप्त केलेला अगणित विषयांवरचा ज्ञानाचा वारसा पिढ्यानपिढ्या जपला गेला आहे तो केवळ भाषेमुळेच.
हेही वाचा: मराठीतला हा एकमेव स्पेलचेकर ९९ टक्के अचूक काम करतो. उरलेला एक टक्का तुमच्या वापराने भरून निघेल..
दृकश्राव्य साधनांच्या माध्यमातून इतिहास आणि ज्ञान जतन करणं केवळ गेल्या शतकापासून शक्य झालं आहे. पण त्याआधीचा सर्व इतिहास आणि ज्ञान केवळ पुस्तकांच्या आणि पर्यायाने भाषेच्या माध्यमातूनच उपलब्ध आहे. त्यामुळे मानवाच्या आतापर्यंतच्या विकासात भाषा या माध्यमाचा सिंहाचा वाटा आहे. किंबहुना भाषेविना हा विकास शक्यच झाला नसता, असं म्हणणं वावगं ठरणार नाही.
भाषा ही वाहती असते आणि तिच्यात सतत सूक्ष्म बदल होत असतात. त्याचबरोबर प्रत्येक कालखंडातील जीवनपद्धतींचा आविष्कार भाषेत अनेक म्हणी आणि वाक्प्रचारांद्वारे होत असतो. प्रत्येक प्रदेशाची भाषा त्या प्रदेशातील संस्कृतीचा जणू आरसाच असते. हे इतकं प्रभावी माध्यम असल्याने प्रत्येक भाषेत मानवाच्या कल्पनाशक्तीने साध्या संवादाबरोबरच काव्य आणि नाटकं यांच्याद्वारे संवादाची भर टाकली आहे. या प्रवासात भाषा अनेक अलंकारांनी नटत गेली आणि प्रभावी होत गेली. भाषेतील प्रत्येक शब्दाला आता संदर्भानुसार अर्थांचे सूक्ष्म पदर असतात आणि भाषा जाणणाऱ्याला ते बरोबर कळतात.
हे सर्व संगणकाला समजावून सांगणं आणि त्यात एआय म्हणजे कृत्रिम बुद्धिमत्ता वापरून भाषांतरं करणं आणि मानवी बुद्धीसारखं काम त्यांच्याकडून करून घेणं हे शिवधनुष्य पेलणं सोपं नाही. गूगल, मायक्रोसॉफ्टसारख्या कंपन्यांनी हे काम जागतिक भाषांसाठी हाती घेतलं आहे आणि थोड्या प्रमाणात यशस्वीही केलं आहे. पण अजूनही ही भाषांतरं यांत्रिक वाटतात. संदर्भानुसार शब्दयोजना, योग्य व्याकरण आणि वाक्यरचनेत यंत्रांना अजून खूप प्रगती करायची आहे. म्हणी, वाक्प्रचार, अलंकार आणि काव्य ही तर खूप दूरची गोष्ट आहे.
भारताचा विचार केला तर इथे बावीस मान्यताप्राप्त भाषा आणि शेकडो बोलीभाषा आहेत. या सर्व भाषांना भाषांतराच्या एका सूत्रात बांधणं ही कल्पनाच भव्य आहे. काही अपवाद वगळता तीनपेक्षा जास्त भारतीय भाषांचं ज्ञान असलेल्या व्यक्ती विरळाच.
आयआयटी मद्रास या सुप्रसिद्ध शैक्षणिक संस्थेने हे शिवधनुष्य पेलण्याचं ठरवलं आहे. भारत सरकारच्या ‘भाषिणी’ या प्रकल्पांतर्गत या संस्थेच्या संगणक अभियांत्रिकी विभागातर्फे AI4Bharat हा प्रकल्प राबवण्यात येत आहे. सर्व भारतीय भाषांचं एका भाषेतून दुसऱ्या भाषेत भाषांतर आणि नंतर प्रत्यक्ष संभाषणसुद्धा या प्रकल्पाद्वारे शक्य होईल. आयआयटी मद्रास येथील संगणक अभियांत्रिकी विभागाचे प्रा. मितेश खापरा यांच्या नेतृत्वाखाली तीन वर्षांपासून सुरू असलेल्या या प्रकल्पात दीडशेहून जास्त भाषातज्ज्ञ आणि पन्नासहून अधिक संगणक अभियंते कार्यरत आहेत. उद्योगपती नंदन निलेकणी यांनीही या प्रकल्पाला अनुदान दिलं आहे.
या प्रकल्पाच्या पहिल्या टप्प्यात इंग्रजीतून सर्व भाषांमध्ये आणि सर्व भाषांमधून इंग्रजीत वेगवेगळ्या विषयांवर भाषांतरं करण्यात आली. निसर्ग, पशु-पक्षी, वैद्यकशास्त्र, खेळ, राजकारण, भूगोल, इतिहास अशा आणि आणखी अनेक विषयांवरची मूळ इंग्रजीत असणारी माहिती या भाषातज्ज्ञांनी मराठी, तमिळ, बोडो, संथाली, आसामी, गुजराती अशा सर्व २२ भारतीय मान्यताप्राप्त भाषांमध्ये भाषांतरित केली. त्या भाषांतरांचं तीन पातळ्यांवर परीक्षण करून ती शब्दसंदर्भ, व्याकरण आणि वाक्यरचना या कसोट्यांवर पारखून घेण्यात आली.
या सर्व भाषांतरांचा एक मोठा डेटाबेस बनवण्यात आला. कृत्रिम बुद्धिमत्तेचा वापर करून संगणकाला पर्यायी शब्द आणि व्याकरणदृष्ट्या शुद्ध वाक्यरचना शिकवण्यात आल्या. हे काम एकाच वेळी सर्व २२ भारतीय राजमान्य भाषांसाठी करण्यात आलं. या सर्व डेटाबेसचा वापर करून संगणकाची मॉडेल्स बनवण्यात आली. या मॉडेल्सच्या अनेक आवृत्या आजपर्यंत आल्या आहेत आणि त्यांचं परीक्षण सुरू आहे. कृत्रिम बुद्धिमत्तेद्वारे यांचा वापर जसजसा वाढत जाईल तसतशा या आवृत्या आपोआपच सुधारत जातील.
प्रकल्पाच्या दुसऱ्या टप्प्यात बोलीभाषांचं काम हाती घेण्यात आलं. बोलीभाषांचं प्रत्येक भाषेसाठी विशेष महत्व आहे. कारण प्रमाण भाषा लेखनात आणि काही प्रमाणात संभाषणातही वापरात असली तरी बहुसंख्य लोक रोजच्या जीवनात बोलीभाषाच वापरतात. या बोलीभाषांचं मूळ भाषेशी साधर्म्य असतं, तरी त्या त्यांचं वेगळेपण आणि सौंदर्य बाळगून असतात.
लोकजीवनात बोलीभाषा फार महत्वाच्या असतात. मराठी भाषेतच वऱ्हाडी, अहिराणी, खानदेशी, मालवणी, डांगी अशा अनेक बोलीभाषा आहेत. या प्रकल्पात प्रत्येक प्रदेशातील बोलीभाषांचं प्रश्नोत्तरांच्या स्वरूपात ध्वनिमुद्रण करण्यात आलं आणि त्यांची प्रमाणभाषेत भाषांतरं करण्यात आली.
बोलीभाषांच्या ध्वनीफिती जमवण्यासाठी बोलीभाषा व्यवहारात बोलणाऱ्या लोकांकडून वेगवेगळ्या विषयांवर संभाषणं ध्वनिमुद्रित करण्यात आली. हे काम प्रत्येक जिल्ह्यात आणि तेथील तालुके आणि गावांमध्ये प्रत्यक्ष जाऊन करण्यात आलं. यात फोनवर माहिती मिळवणं, आपले छंद आणि व्यवसायांवर बोलणं, असे आणि अशाच प्रकारचे बरेच विषय निवडण्यात आले जेणेकरून त्या बोलीभाषेचा ठसका आणि वेगळा शब्दसंग्रह, म्हणी आणि वाक्प्रचार, तसेच हेल व शब्दांचं वजन लक्षात येऊ शकेल. हे असं काम प्रत्येक राज्यात सुरू आहे. हे काम वाटतं तितकं सोपं मुळीच नाही. लोकांना तयार करणं, व्याकरणाच्या चुका, उच्चारांचे घोळ टाळणं आणि ध्वनिमुद्रणाची गुणवत्ता सांभाळणं ही खरोखरच तारेवरची कसरत असते.
मराठी बोलीभाषांसाठी ध्वनीसंकलन करताना बरेच गंमतीदार अनुभव आले. पुण्यात एका जेष्ठ नागरिकाने आधी पूर्ण उपक्रमावर शंका घेतली, मग कार्यकर्त्यांवर शंका घेतली, मग फॉर्म्समधील भाषेवर व अॅपमधील प्रश्नांवर शंका घेतली. मानधनासाठी ऑनलाईन माहिती भरण्यावरही शंका घेतली. काही वेळा हा सायबर फ्रॉड आहे म्हणून कुणा एकाच्या सांगण्यावरून सगळेच माघारी फिरले. काही ठिकाणी एकाच्या होकारामुळे दहा लोक तयारही झाले. सातार्यात एका अंध मुलीने रेकॉर्डिंगची तयारी दाखवली आणि आपल्या मैत्रिणीच्या मदतीने ते केलं सुद्धा. गडचिरोलीत कुरखेडा गावातल्या कॉलेजमधल्या मुलीने घरी रेकॉर्डिंग करते म्हणून सांगितलं, पण तिला ते जमलं नाही. कारण काय तर आसपास बिबट्या फिरत असल्यामुळे रात्रभर कुत्रा भुंकत होता. कोल्हापुरात तर एकाच घरात जवळजवळ पन्नास माणसं होती. पण घरातल्या इतक्या जणांच्या जेवणाखाण्याच्या नादात एकही महिला रेकॉर्डिंग करू शकली नाही. मुंबईत एसएनडीटी कॉलेजला दर दोन मिनिटांनी विमानांची येजा चालू असल्याने थांबत थांबत रेकॉर्डिंग करावं लागलं.
या सगळ्या अडचणींवर मात करून कृत्रिम बुद्धिमत्ता राष्ट्रीय विकासासाठी राबवण्याचा AI4Bharat नावाचा हा महत्वाकांक्षी प्रकल्प येत्या दोन-एक वर्षांत पूर्णत्वाला पोचण्याची अपेक्षा आहे.
संगणकाला बोलीभाषा आणि मूळ भाषेतील साधर्म्य आणि वेगळेपणा हे दोन्ही शिकवणं आणि त्यानंतर बोलीभाषांमधील आणि शुद्ध भाषेतील उच्चारांमधील फरकांचा सराव करवणं यासाठी हे आवश्यक होतं. प्रत्येक भाषेत किती बोलीभाषा आहेत हे विचारात घेतलं तर हे काम किती मोठं आहे याची कल्पना येईल.
या प्रकल्पांतर्गत शेवटी मोबाइल फोनवर वापरण्याजोगे अॅपस् बनवले जातील, जे सर्वसामान्यांना उपलब्ध असतील. याचा उपयोग करून कोणीही मराठी माणूस कुणा तमिळ किंवा आसामी किंवा सिंधी माणसाशी त्या भाषा किंवा बोली येत नसूनही फोनवर प्रत्यक्ष संवाद साधू शकेल. आणि असेच भारताचे सर्व नागरिक एकमेकांशी संवाद साधू शकतील.
गूगल ट्रान्सलेट या संकेतस्थळावर बऱ्याच विदेशी आणि काही भारतीय भाषांसाठी ही सुविधा आता उपलब्ध झाली आहे पण सर्व भारतीय भाषांचा आणि त्यांच्या बोलीभाषांचाही समावेश असणारा हाच एक प्रकल्प आहे.