Get Updates
Get notified of breaking news, exclusive insights, and must-see stories!

स्थानीय भाषाओं में एआई के इस्तेमाल की कोशिशें

भारतीय भाषाओं में आर्टिफिशियल इंटेलिजेंस की जरूरत

कर्नाटक के एक गांव में पिछले कुछ हफ्तों से ग्रामीण स्थानीय कन्नड़ भाषा में वाक्य रिकॉर्ड कर रहे हैं. एक ऐप के जरिए इस भाषा को रिकॉर्ड किया जा रहा है, ताकि टीबी के लिए देश का पहला एआई-आधारित चैटबॉट बनाया जा सके.

भारत में चार करोड़ से ज्यादा कन्नड़ भाषी लोग हैं और यह भारत की 22 आधिकारिक भाषाओं में से एक है. साथ ही, यह भारत की उन 121 भाषाओं में से एक है, जिसे 10 हजार या उससे ज्यादा लोग बोलते हैं. लेकिन इनमें से चंद भाषाएं ही ऐसी हैं, जो नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) के तहत आती हैं.

डाटा जुटाने की कोशिश

एनएलपी, आर्टिफिशियल इंटेलिजेंस की एक शाखा है. यह कंप्यूटरों को विभिन्न भाषाएं समझने के लिए तैयार करती है. चूंकि देश की 121 भाषाओं में से अधिकतर एनएलपी के तहत नहीं आतीं, इसलिए देश के करोड़ों लोग कंप्यूटर का फायदा उठाने से महरूम हैं.

माइक्रोसॉफ्ट रिसर्च इंडिया में मुख्य शोधकर्ता कलिका बाली कहती हैं, "एआई टूल हर एक के लिए तभी फायदेमंद साबित हो पाएंगे, जब वे अंग्रेजी, फ्रेंच या स्पैनिश ना बोलने वाले लोगों के भी काम आएं. लेकिन चैटजीपीटी जैसे बड़े एआई टूल के लिए जितना डाटा चाहिए, अगर उतना हमें भारतीय भाषाओं में जुटाना हो तो दस साल तक इंतजार करना पड़ेगा. इसलिए हम ऐसा कर सकते हैं कि चैटजीपीटी या लामा जैसे बड़े एआई टूल के ऊपर एक और परत बनाई जाए."

कर्नाटक के इस गांव के लोगों की तरह ही अलग-अलग भाषाओं के हजारों लोगों के जरिए इस तरह का डाटा जमा किया जा रहा है. तकनीकी कंपनी कार्य (KARYA) अलग-अलग भाषाओं में डाटा जुटा रही है, जिसके इस्तेमाल से माइक्रोसॉफ्ट और गूगल जैसी कंपनियों को शिक्षा, स्वास्थ्य और अन्य सेवाओं के लिए एआई मॉडल बनाने में मदद मिले.

सरकार भी प्रयासरत

भारत सरकार अधिक-से-अधिक सेवाओं को डिजिटल माध्यमों से उपलब्ध कराना चाहती है. वह भी ऐसे स्थानीय डाटा सेट तैयार कर रही है. इसे भाषीनी नामक एक एआई आधारित अनुवाद व्यवस्था के जरिए तैयार किया जा रहा है. स्थानीय भाषाओं में एआई टूल तैयार करने के लिए यह एक ओपनसोर्स सिस्टम है.

भाषीनी एक ऐसा प्लैटफॉर्म है, जो आम लोगों की मदद से डाटा जमा करता है. इसमें स्थानीय लोग अपनी इच्छा से अलग-अलग भाषाओं में ऑडियो रिकॉर्ड करते हैं. यही लोग ऑडियो की जांच करते हैं, दूसरे लोगों द्वारा लिखे गए वाक्यों और उनके अनुवादों की जांच करते हैं. भाषीनी के जरिए दसियों हजार लोग इस काम में अपना योगदान दे चुके हैं.

मुंबई स्थित कंप्यूटेशन फॉर इंडियन लैंग्वेज टेक्नोलॉजी लैब के प्रमुख पुष्पक भट्टाचार्य बताते हैं, "बड़े लैंग्वेज मॉडलों को भारतीय भाषाओं में प्रशिक्षित करने के लिए भारत सरकार काफी बड़े पैमाने पर कोशिश कर रही है. ये टूल शिक्षा, पर्यटन और अदालतों समेत बहुत से क्षेत्रों में काम कर रहे हैं. लेकिन बहुत चुनौतियां भी हैं. भारतीय भाषाएं मुख्यतया बोलचाल में उपलब्ध हैं. उनके समुचित इलेक्ट्रॉनिक रिकॉर्ड उपलब्ध नहीं हैं. कोड मिक्सिंग भी बहुत ज्यादा है. कम लोगों द्वारा बोली जाने वाली भाषाओं में डाटा जमा करना भी एक बड़ी चुनौती है, जिसके लिए अतिरिक्त प्रयासों की जरूरत है."

अंग्रेजी का दबदबा

दुनिया में लगभग सात हजार भाषाएं हैं, जिनमें से 100 से भी कम हैं जो एनएलपी के तहत उपलब्ध हैं. इनमें अंग्रेजी सबसे आगे है. पूरी दुनिया में हलचल पैदा करने वाले चैटजीपीटी को मुख्यतया अंग्रेजी में ही तैयार किया गया है. गूगल का बोर्ड भी अंग्रेजी तक ही सीमित है. एमेजॉन का एलेक्सा जिन नौ भाषाओं में जवाब देता है, उनमें से तीन ही- अरबी, हिंदी और जापानी, गैर-यूरोपीय भाषाएं हैं.

भारत की 1.4 अरब की आबादी में से 11 फीसदी ही अंग्रेजी बोलती, समझती है. इसलिए स्थानीय भाषाओं में एआई टूल उपलब्ध कराने की जरूरत बहुत बड़ी है. अब सरकारें और निजी कंपनियां इस अंतर को पाटने की कोशिश कर रही हैं.

बाली कहती हैं कि भारत जैसे देश में क्राउडसोर्सिंग भाषायी डाटा जुटाने का एक प्रभावशाली तरीका है. वह कहती हैं, "क्राउडसोर्सिंग से भाषा, संस्कृति और सामाजिक आर्थिक पहलुओं की छोटी-छोटी बातें भी शामिल हो जाती हैं. लेकिन लैंगिक, नस्लीय और सामाजिक-आर्थिक भेदभाव के बारे में जागरूकता की जरूरत है. ऐसा पूरी नैतिकता के साथ किया जाना चाहिए. इसके लिए काम करने वालों को तैयार करना, उन्हें काम का भुगतान देना और छोटी भाषाओं में डाटा जमा करने के लिए अतिरिक्त प्रयास करना भी बड़ी चुनौतियां हैं."

वीके/एए (थॉमसन रॉयटर्स फाउंडेशन)

Source: DW

More From
Prev
Next
Notifications
Settings
Clear Notifications
Notifications
Use the toggle to switch on notifications
  • Block for 8 hours
  • Block for 12 hours
  • Block for 24 hours
  • Don't block
Gender
Select your Gender
  • Male
  • Female
  • Others
Age
Select your Age Range
  • Under 18
  • 18 to 25
  • 26 to 35
  • 36 to 45
  • 45 to 55
  • 55+