भाषिक प्रौद्यौगिकी एवं हिन्दी : दशा और दिशा प्रोफेसर महावीर सरन जैन सूचना प्रौद्यौगिकी के संदर्भ में हिन्दी की स्थिति पर विचार अपेक्षि...
भाषिक प्रौद्यौगिकी एवं हिन्दी: दशा और दिशा
प्रोफेसर महावीर सरन जैन
सूचना प्रौद्यौगिकी के संदर्भ में हिन्दी की स्थिति पर विचार अपेक्षित है। आने वाले समय में वही भाषायें विकसित हो सकेंगी तथा ज़िन्दा रह पायेंगी जिनमें इन्टरनेट पर न केवल सूचनाएँ अपितु प्रत्येक क्षेत्र से सम्बंधित सारी सामग्री उपलब्ध होगी। भाषा वैज्ञानिकों का अनुमान है कि इक्कीसवीं शताब्दी के उत्तरार्द्ध तक भाषाओं की संख्या में अप्रत्याशित रूप से कमी आएगी।
(Harrison, K. David. (2007) When Languages Die: The Extinction of the World’s Languages and the Erosion of Human Knowledge. New York and London: Oxford University Press.)
अनुमान है कि वे भाषाएँ ही टिक पायेंगी जिनका व्यवहार अपेक्षाकृत व्यापक क्षेत्र में होगा तथा जो भाषिक प्रौद्योगिकी की दृष्टि से इतनी विकसित हो जायेंगी जिससे इन्टरनेट पर काम करने वाले प्रयोक्ताओं के लिए उन भाषाओं में उनके प्रयोजन की सामग्री सुलभ होगी।
केन्द्रीय हिन्दी संस्थान एवं हिन्दी सूचना एवं प्रौद्योगिकी
केन्द्रीय हिन्दी संस्थान ने सन् 1990 ईस्वी के बाद से हिन्दी सूचना एवं प्रौद्योगिकी के क्षेत्र में कार्य करने की दिशा में कारगर कदम उठाने शुरु किए।संस्थान में, सन् 1992 में, संकाय संवर्धन कार्यक्रम के अन्तर्गत भाषा प्रौद्योगिकी पाठ्यक्रम और कम्प्यूटर परिचय की कार्यशाला आयोजित हुई। विदेशी भाषा के रूप में हिन्दी भाषा का कम्प्यूटर साधित अध्ययन एवं शिक्षण परियोजना का कार्य सम्पन्न हुआ। संस्थान ने सन् 2000 में, हिन्दी विश्वकोश की समस्त सामग्री को 6 खण्डों में तैयार करके उसे इन्टरनेट पर डालने की योजना बनाई तथा इसके जीरो वर्जन का विमोचन इंदिरा गाँधी राष्ट्रीय कला केन्द्र के तत्कालीन अध्यक्ष डॉ. लक्ष्मी मल्ल सिंघवी ने किया। सन् 1991 में, भारत सरकार के तत्कालीन ‘सूचना प्रौद्योगिकी मंत्रालय’ की 'भारतीय भाषाओं में प्रौद्योगिकी विकास' सम्बंधित योजना के अन्तर्गत ‘हिन्दी कॉर्पोरा’ परियोजना का काम आरम्भ हुआ। इस परियोजना के अन्तर्गत विविध विषयों के 3 करोड़ से अधिक शब्दों का संग्रह कर लिया गया है। इसकी टैगिंग के नियमों का निर्धारण सन् 2000 ईस्वी तक हो गया था। समस्त शब्दों की टैगिंग होने से कम्प्यूटर पर हिन्दी में और अधिक सुविधाएँ सुलभ हो जाएँगी।
टैगिंग से मतलब शब्द के केवल अधिकतर समझे जानेवाले वाग् भाग (Part of speech) के निर्धारण से ही नहीं है अपितु भाषा में उसके समस्त प्रयोगो एवं संदर्भित अर्थों के आधार पर उसके समस्त वाग् भागों (संज्ञा , क्रिया , विशेषण , पूर्वसर्ग , सर्वनाम , क्रिया विशेषण , अव्यय, संयोजन , विस्मयादिबोधक) तथा समस्त व्याकरणिक कोटियों (वचन, लिंग, पुरुष, कारक आदि) को स्पष्ट करना है, उसके सहप्रयोगों को स्पष्ट करना है। यदि उसके प्रयोग में संदिग्धार्थकता की सम्भावनाएँ हैं तो उन्हें भी बताना है। उदाहरण के लिए सामान्यतः ‘पत्थर’ शब्द संज्ञा समझा जाता है मगर इसका प्रयोग संज्ञा, क्रिया, विशेषण, अव्यय के रूप में भी होता है। निम्न वाक्यों से यह स्पष्ट हो जाएगा।
1. यह पत्थर बड़ा चमकीलाहै।
2. वह तो बिलकुल ही पथरा गया है।
3. पत्थर दिल नहीं पसीजते।
4. तुम मेरा काम क्या पत्थर करोगे।
इसके अलावा टैगिंग में विवेच्य भाषा में प्रयुक्त उस शब्द के संदर्भित अर्थ प्रयोगो का आवृतिपरक अथवा सांख्यिकीय तकनीक से अध्ययन किया जाता है। मशीनी अनुवाद की सटीकता के लिए गतिशील प्रोग्रामिंग एल्गोरिदम का विकास जरूरी है। कम्प्यूटरीकृत भाषा विश्लेषण के लिए टैगिंग की वह तकनीक अधिक सटीक हो सकती है जहाँ शब्द की टैगिंग न केवल उसके समस्त वाग्भागों की पूरी पूरी जानकारी प्रदान करे, प्रयोगों की आवृति का साख्यिकीय तकनीक से अध्ययन सम्पन्न करे अपितु वाक्य विन्यास और अर्थ विज्ञान के सिद्धांतों के परिप्रेक्ष्य में उसके समस्त प्रयोगो को स्पष्ट करे।
फॉण्ट
यह संतोष का विषय है कि इलेक्ट्रॉनिक माध्यमों ने अब धीरे धीरे हिन्दी में अपनी जगह बनानी शुरु कर दी है। आज से एक दशक पहले तक फॉंण्ट की बहुत बड़ी समस्या थी। मुझे याद आ रहा है, मैंने एक लेख कृतिदेव फॉंण्ट में टाइप कराकर एक साइट पर प्रकाशन के लिए भेजा था। जब लेख पढ़ने को मिला तो लेख में जिन शब्दों में ‘श’ वर्ण था उसके स्थान पर ‘ष’ वर्ण छप गया तथा जिन शब्दों में ‘ष’ वर्ण था उसके स्थान पर ‘श’ छप गया। ‘भाषा’ का रूप ‘भाशा’ हो गया। देवनागरी यूनिकोड के कारण अब स्थिति बदल गई है। हिन्दी में देवनागरी में टाइपिंग के लिए अनेक प्रकार के साधन उपलब्ध हैं। मंगल, रघु, संस्कृत 2003, अपराजिता आदि में से किसी फॉण्ट में टाइप किया जा सकता है। जो हिन्दी टाइपिंग नहीं जानते वे क्विलपैड, गूगल इण्डिक लिप्यन्तरण आदि में से किसी साइट पर जाकर रोमन लिपि में टाइप कर सकते हैं। रोमन वर्ण देवनारी वर्ण में बदल जाएगा अर्थात लिप्यन्तरित(transliterate) हो जाएगा।
ऑपरेटिंग सिस्टम में हिन्दी
विण्डोज के संस्करणों में हिन्दी में काम करने के लिए दो तरीके हैं। कुछ विण्डोज में उसके कंट्रोल पैनल में जाकर हिन्दी समर्थन सक्षम करना होता है जबकि कुछ विण्डोज में हिन्दी भाषा का पैक पहले से इंस्टॉल्ड होता है अर्थात वे हिन्दी के लिए स्वतः समर्थन सक्षम होते हैं। उदाहरण के लिए माइक्रोसॉफ्ट विण्डोज के विण्डोज ऍक्सपी, विण्डोज 2003 में कंट्रोल पैनल में जाकर हिन्दी समर्थन सक्षम करना होता है (इनमें कंट्रोल पैनल में जाकर रीजनल लैंग्वेज ऑप्शन्स में यूनिकोड को एक्टिवेट किया जाता है। हिन्दी (देवनागरी इंस्क्रिप्ट) का चयन करने के बाद कम्प्यूटर पर हिन्दी में वैसे ही काम किया जा सकता है जैसे रोमन लिपि से होता है। विण्डोज विस्ता, विण्डोज 7 में भारतीय भाषाओं के लिए स्वतः समर्थन सक्षम व्यवस्था है। भारतीय भाषाओं को ध्यान में रखकर सी-डेक ने बॉस लिनक्स निर्मित किया है। लिनक्स के सभी नए संस्करणों का ऑपरेटिंग सिस्टम हिन्दी भाषा में काम करने के लिए स्वतः समर्थन सक्षम है।
फॉंण्ट परिवर्तक एवं लिप्यन्तरण
मेरे बहुत से लेख कृतिदेव फॉंण्ट में हैं। अब इस फॉंण्ट की सामग्री को फॉंण्ट परिवर्तक साइट पर जाकर यूनिकोड में बदलना आसान हो गया है। फॉण्ट परिवर्तक की कई साइटें हैं जिन पर जाकर पुराने फॉण्टों में टाइप की हुई पाठ सामग्री को यूनिकोड में बदला जा सकता है। लिप्यन्तरण के औजारों से किसी एक भारतीय भाषा की लिपि में टाइप सामग्री को किसी अन्य भारतीय भाषा की लिपि में ऑनलाइन बदलकर पढ़ा जा सकता है।
शब्दकोश
प्रत्येक प्रकार के शब्दकोश उपलब्ध हैं। हिन्दी शब्द तंत्र, शब्दमाला, विक्षनरी, ई-महाशब्दकोश, वर्धा हिन्दी शब्दकोश के अलावा हिन्दी विश्वकोश, हिन्दी यूनिकोड पाठ संग्रह, अरविंद समान्तर कोश आदि हैं।‘प्रबोधमहाशब्दकोश‘ के बाद नया महाशब्दकोश विकसित करने का काम प्रगति पर है। केन्द्रीय हिन्दी संस्थान ने श्री अरविन्द कुमार और उनकी पत्नी श्रीमती कुसुम कुमार से ’संस्थान अरविंद लेक्सीकॉन‘ बनवाया है जिसमें नौ लाख से अधिक अभिव्यक्तियाँ हैं।
वर्तनी की जाँच (स्पैल चैकर), ईमेल, मोबाइल, चेट, सर्च इंजन
वर्तनी की जाँच (स्पैल चैकर) के लिए ‘कुशल हिन्दी वर्तनी जाँचक’, ‘सक्षम हिन्दी वर्तनी परीश्रक’ तथा ‘ओपन सोर्स यूनिकोड वर्तनी परीक्षक तथा शोधक’ हैं। ईमेल, मोबाइल, चेट, सर्च इंजन आदि पर हिन्दी उपलब्ध है। ईमेल के लिए जीमेल मे हिन्दी की सुविधा सबसे अधिक हैं। निर्देश भी हिन्दी में हैं। चेट के लिए गूगल टॉक एवं याहू मैसेंजर में हिन्दी सुविधा है।
सी-डेक एवं राजभाषा के लिए सुविधाएँ
हम पूर्व में, एक अलग लेख में, पुणें की सी-डेक के द्वारा राजभाषा विभाग के लिए प्रबोध, प्रवीण तथा प्राज्ञ स्तर की परीक्षाओं के लिए कम्प्यूटर की सहायता से मल्टी मीडिया पद्धति से प्रशिक्षण सामग्री के निर्माण के सम्बंध में उल्लेख कर चुके हैं।प्रशिक्षण सामग्री का नाम लीला हिन्दी प्रबोध, लीला हिन्दी प्रवीण, लीला हिन्दी प्राज्ञ है। यह सामग्री भारत सरकार के राजभाषा विभाग की वेबसाइट पर सर्व साधारण के उपयोग के लिए उपलब्ध है। इस संस्था ने अन्य काम भी किए हैं। इसके द्वारा निर्मित 'मंत्र' सॉफ़्टवेयर में अनुवाद की सुविधा है। हिंदी पाठ की किसी भी फाइल को 'प्रवाचक' हरीश भिमानी की आवाज़ मे पढ़कर सुना देता है। ‘श्रुतलेखन’ आपकी आवाज में बोले हुए पाठ को देवनागरी में रूपांतरित कर देता है। इस प्रकार राजभाषा हिन्दी के लिए अब पाठ से वाक (टैक्स्ट टू स्पीच) तथा वाक से पाठ (स्पीच टू टैक्स्ट) दोनों सुविधाएँ मौजूद हैं। श्रुतलेखन-राजभाषा तथा वाचान्तर-राजभाषा सॉफ्टवेयर बन गए हैं।
मशीनी अनुवाद, ओसीआर, हिन्दी भाषा शिक्षण, देवनागरी शिक्षण
मशीनी अनुवाद की सुविधा गूगल, बैबीलॉन, विकिभाषा पर उपलब्ध है। हम पहले उल्लेख कर चुके हैं कि सी-डेक ने भारत सरकार के कार्यालयों में राजभाषा के प्रयोग के लिए अंग्रेजी पाठ का हिन्दी में अनुवाद के लिए मशीनी अनुवाद की व्यवस्था कर दी है। इसके लिए ‘मंत्र-राजभाषा’ सॉफ़्टवेयर निर्मित हो गया है।
मशीनी अनुवाद को सक्षम बनाने के लिए यह जरूरी है कि इन्टरनेट पर प्रत्येक विषय की सामग्री उपलब्ध हो। मशीनी अनुवाद सूचना निष्कर्षण ( Information Extraction) पद्धति पर आधारित होता है अर्थात मशीन किसी भाषा में जो डॉटा उपलब्ध होता है उसे याद कर लेती है और उस स्मृति क्षमता के आधार पर अनुवाद करती है। उसे जिस भाषा की जितनी अधिक सामग्री मिलती जाती है वह उस भाषा में अनुवाद करने के अपने मॉडल को उसी अनुपात में बदलती जाती है। सीखने एवं याद करने की प्रक्रिया सतत जारी रहती है। इस कारण जिस भाषा की जितनी सामग्री इन्टरनेट पर उपलब्ध होगी, उस भाषा का मशीनी अनुवाद उतना ही प्रभावी और सक्षम होगा।
देवनारी वर्ण चिन्हक ( OCR) बन गया है। हिन्दी के पाठ में शब्दों की आवृति के लिए पहले शोधक वर्षों मेहनत करके हजारों लाखों चिटें बनाने का श्रम करते थे। अब सॉफ्टवेयर इस काम को बहुत कम समय में सहज सम्पन्न कर देता है। हिन्दी भाषा सीखने के लिए ‘हिन्दी गुरु’ है तथा देवनागरी लिपि सीखने के लिए ‘अच्छा’ है। देवनागरी में लिखे शब्दों अथवा शब्द समूहों को देवनागरी वर्ण-क्रम के अनुसार व्यवस्थित करने का ऑनलाइन प्रोग्राम मौजूद है। पाठ को तरह तरह से संसाधित करने के ऑनलाइन प्रोग्राम भी मौजूद हैं।
शब्द संसाधन एवं डाटाबेस प्रबंधन
देवनागरी में लिखे शब्दों अथवा शब्द समूहों को देवनागरी वर्ण-क्रम के अनुसार व्यवस्थित करने के ऑनलाइन प्रोग्राम मौजूद है। पाठ को तरह तरह से संसाधित करने के ऑनलाइन प्रोग्राम भी मौजूद हैं।
प्रकाशन, वेबसाइट, ज्ञानकोष
डीटीपी प्रकाशन के लिए माइक्रोसॉफ्ट पब्लिशर अच्छा है। प्रकाशन सॉफ्टवेयर पैकेज उपलब्ध हैं। हिन्दी में वेबसाइट बनाना आसान हो गया है। वेबदुनिया, जागरण, प्रभासाक्षी और बीबीसी हिंदी के दैनिक पाठकों की संख्या बीस लाख से अधिक हो गई है। श्री आदित्य चौधरी ने विकीपीडिया की तरह ’भारतकोष‘ नामक पॉर्टल बनाया है। इसमें इतिहास, भूगोल, विज्ञान, धर्म, दर्शन, संस्कृति, पर्यटन, साहित्य, कला, राजनीति, जीवनी, उद्योग, व्यापार और खेल आदि विषयों पर पर्याप्त सामग्री है। जो काम महात्मा गाँधी अन्तर्राष्ट्रीय विश्वविद्यालय को करना चाहिए था उसे भारतकोश की टीम कर रही है।
सूचना प्रौद्यौगिकी के संदर्भ में हिन्दी की प्रगति एवं विकास
सूचना प्रौद्यौगिकी के संदर्भ में हिन्दी की प्रगति एवं विकास के लिए मैं एक बात की ओर ध्यान आकर्षित करना चाहता हूँ। व्यापार, तकनीकी और चिकित्सा आदि क्षेत्रों की अधिकांश बहुराष्ट्रीय कम्पनियाँ अपने माल की बिक्री के लिए सम्बंधित सॉफ्टवेयर ग्रीक, अरबी, चीनी सहित संसार की लगभग 30 से अधिक भाषाओं में बनाती हैं मगर वे हिन्दी भाषा का पैक नहीं बनाती। उनके प्रबंधक इसका कारण यह बताते हैं कि हम यह अनुभव करते हैं कि हमारी कम्पनी को हिन्दी के लिए भाषा पैक की जरूरत नहीं है। हमारे प्रतिनिधि भारतीय ग्राहकों से अंग्रेजी में आराम से बात कर लेते हैं अथवा हमारे भारतीय ग्राहक अंग्रेजी में ही बात करना पसंद करते हैं। यह स्थिति कुछ उसी प्रकार की है जैसी मैं तब अनुभव करता था जब मैं रोमानिया के बुकारेस्त विश्वविद्यालय में हिन्दी का विजिटिंग प्रोफेसर था। मेरी कक्षा के हिन्दी पढ़ने वाले विद्यार्थी बड़े चाव से भारतीय राजदूतावास जाते थे मगर वहाँ उनको हिन्दी नहीं अपितु अंग्रेजी सुनने को मिलती थी। हमने अंग्रेजी को इतना ओढ़ लिया है जिसके कारण न केवल हिन्दी का अपितु समस्त भारतीय भाषाओं का अपेक्षित विकास नहीं हो पा रहा है। जो कम्पनी ग्रीक एवं अरबी में सॉफ्टवेयर बना रही हैं वे हिन्दी में सॉफ्टवेयर केवल इस कारण नहीं बनाती क्योंकि उसके प्रबंधकों को पता है कि भारतीय उच्च वर्ग अंग्रेजी मोह से ग्रसित है। इसके कारण भारतीय भाषाओं में जो सॉफ्टवेयर स्वाभाविक ढंग से सहज बन जाते, वे नहीं बन रहे हैं। भारतीय भाषाओं की भाषिक प्रौद्योगिकी पिछड़ रही है। इस मानसिकता में जिस गति से बदलाव आएगा उसी गति से हमारी भारतीय भाषाओं की भाषिक प्रौद्योगिकी का भी विकास होगा। हम हिन्दी के संदर्भ में, इस बात को दोहराना चाहते हैं कि हिन्दी में काम करने वालों को अधिक से अधिक सामग्री इन्टरनेट पर डालनी चाहिए। हमने मशीनी अनुवाद के संदर्भ में, यह निवेदित किया था कि मशीनी अनुवाद को सक्षम बनाने के लिए यह जरूरी है कि इन्टरनेट पर हिन्दी में प्रत्येक विषय की सामग्री उपलब्ध हो। यह हिन्दी की भाषिक प्रौद्योगिकी के विकास के व्यापक संदर्भ में भी उतनी ही सत्य है। जब प्रयोक्ता को हिन्दी में डॉटा उपलब्ध होगा तो उसकी अंग्रेजी के प्रति निर्भरता में कमी आएगी तथा अंग्रेजी के प्रति हमारे उच्च वर्ग की अंध भक्ति में भी कमी आएगी।
वर्तमान की स्थिति भले ही उत्साहवर्धक न हो किन्तु हिन्दी प्रौद्योगिकी का भविष्य निराशाजनक नहीं है। हिन्दी की प्रगति एवं विकास को अब कोई ताकत रोक नहीं पाएगी। वर्तमान में, कम्प्यूटरों के कीबोर्ड रोमन वर्णों में हैं तथा उनका विकास अंग्रजी भाषा को ध्यान में रखकर किया गया है। आम आदमी को इसी कारण कम्प्यूटर पर अंग्रेजी अथवा रोमन लिपि में काम करने में सुविधा का अनुभव होता है। निकट भविष्य में कम्प्यूटर संसार की लगभग तीस चालीस भाषाओं के लिखित पाठ को भाषा में बोलकर सुना देगा तथा उन भाषाओं के प्रयोक्ता की भाषा को सुनकर उसे लिखित पाठ में बदल देगा। ऐसी स्थिति में, कम्प्यूटर पर काम करने में भाषा की कोई बाधा नहीं रह जाएगी। एक भाषा के पाठ को मशीनी अनुवाद से दूसरी भाषा में भी बदला जा सकेगा, उन भाषाओं में परस्पर वाक से पाठ तथा पाठ से वाक में अंतरण बहुत सहज हो जाएगा। भाषा विशेष के ज्ञान का रुतबा समाप्त हो जाएगा।
इस दिशा में प्रक्रिया को तेज बनाने के लिए यह उचित होगा कि भारतीय सॉफ्टवेयरों का निर्माण करने वाले उपक्रम तथा संगठन गूगल जैसी बहुराष्ट्रीय कम्पनियों के साथ मिलकर काम करें। भारतीय जनमानस में जागरूकता की रफ्तार को बढ़ाने की भी जरूरत हैं। कितने आम भारतीय हैं जिन्हें सी-डेक जैसे संगठनों तथा उनके द्वारा निर्मित सॉफ्टवेयरों का ज्ञान है। कितने हिन्दी प्रेमी हैं जो हिन्दी प्रौद्योगिकी के सॉफ्टवेयरों से अनजान हैं। उनको यह ज्ञान भी नहीं है कि यूनिकोड में हिन्दी में काम करना कितना आसान और सुगम है।
------------------------------------------------------------------------------
प्रोफेसर महावीर सरन जैन
सेवानिवृत्त निदेशक, केन्द्रीय हिन्दी संस्थान
123, हरि एन्कलेव, चाँदपुर रोड
बुलन्द शहर (उत्तर प्रदेश)पिन – 203 001
855 DE ANZA COURT
MILPITAS CA
(U. S. A. ) 95035-4504
------------------------------------------------------------------------------
'वर्तमान की स्थिति भले ही उत्साहवर्धक न हो किन्तु हिन्दी प्रौद्योगिकी का भविष्य निराशाजनक नहीं है।'....आपका यह कथन आपकी आशा को प्रतिध्वनित करता है |
जवाब देंहटाएंवैसे लोगबाग जरूरत के अनुसार आज भी हिंदी का प्रयोग करते ही हैं |
आपका आलेख रोचक व पठनीय है|