বাংলা, আমাদের মাতৃভাষা, যার সম্মান বাঁচাতে প্রাণ বাজি রেখেছিলেন ভাষাশহিদেরা। প্রতিবেশী বাংলাদেশের সেই ভাষা আন্দোলন পৃথিবীকে নতুনভাবে ভাবতে শিখিয়েছিল। ভাষা আন্দোলনের কথা উঠলে আমাদের দেশের বরাক উপত্যকার নামও উঠে আসে এক সারিতে। নানা ভাষা নানা মতের মিলনভূমি ভারতবর্ষ, যার সংবিধান স্বীকৃত ভাষার সংখ্যাই ২২। দেশের নানা প্রান্তে ছড়িয়ে থাকা এমনই অজস্র মাতৃভাষা নিয়ে ভাষা-প্রযুক্তির মাধ্যমে পৃথিবীর বিভিন্ন দেশকে নতুন করে ভাবতে শেখাচ্ছে আমাদের দেশ। প্রযুক্তিকে হাতিয়ার করে গড়ে তুলছে বিশ্বজনীন আন্দোলন।
বাংলার ভাষা প্রযুক্তির প্রত্যক্ষ ব্যবহারের কথা বলতে গেলে প্রথমেই আসে ‘অভ্র’ কি-বোর্ডের কথা, যা গত দশকে কম্পিউটারে কাজ করা বাঙালি মাত্রই ব্যবহার করেছেন বলা চলে। যদিও এটিই বাংলার প্রথম কি-বোর্ড নয়, তার আগে (এবং পরেও) অনেক বাংলা কি-বোর্ড এসেছে, কিন্তু জনপ্রিয়তায় ‘অভ্র’ আজও অপ্রতিদ্বন্দ্বী। অভ্র শুধু আমাদের বাংলা অক্ষর লিখতেই সাহায্য করে না, তার পাশাপাশি বানান শোধরাতেও সাহায্য করে। অর্থাৎ এই প্রযুক্তিতে একই সঙ্গে রয়েছে বাংলা কিবোর্ড এবং স্পেল-চেকার। ময়মনসিংহ মেডিকেল কলেজের তৎকালীন ছাত্র মেহদী হাসান খান ২০০৩ সালে অভ্র কি-বোর্ড তৈরি করেন এবং এটিকে বিনামূল্যে ব্যবহারের জন্য উন্মুক্ত করে দেন।
সময়ের সাথে সাথে গুগল, ফেসবুক, মাইক্রোসফট ইত্যাদি সব তথ্য-প্রযুক্তি সংস্থাগুলিই পাল্লা দিয়ে বাংলা এবং অন্যান্য ভারতীয় ভাষার প্রযুক্তিগত বিভেদ মুছে দিতে উদ্যত হয়েছে, তথ্য-প্রযুক্তি দিয়ে নানা ভাষাভাষী মানুষদের কাছে পৌঁছনোর চেষ্টা করে চলেছে। অবশ্য বাংলা এবং হিন্দি নিয়েই কাজ হয়েছে বেশি। এই দুটি ভাষা পৃথিবীর প্রথম দশটি বাচ্য ভাষার অন্যতম, সেটিও এই তৎপরতার একটি প্রধান কারণ।

আমরা জানি, একটি ভাষার বিবর্তন হয় নানা ভাবে। যুগের সঙ্গে তাল মিলিয়ে ভাষা বিবর্তনের পাশাপাশি প্রযুক্তি এবং তৎসংলগ্ন ভাষাপ্রযুক্তিও বদলাচ্ছে এবং সাধারণ মানুষের কাছে অত্যন্ত প্রাসঙ্গিক হয়ে দাঁড়াচ্ছে সে বদল। মর্যাদাপূর্ণ আন্তর্জাতিক ভাষাগুলোর মাধ্যমে (আমাদের দেশের ক্ষেত্রে যা ইংরাজি) বিভিন্ন ধরনের তথ্য আদান-প্রদান বেশি হলেও অন্তর্জালে ভারতীয় ভাষাদের উপস্থিতিও বেড়েই চলেছে। ১৯৫০ সালে আলেন টুরিং মানব-ভাষা প্রক্রিয়াকরণের (Natural Language Processing) যে পথ খুলে দিয়েছিলেন তা কৃত্রিম ধী-এর (AI) একটি অন্যতম উপকরণ। এর ফলে কম্পিউটার আমাদের ভাষা শুধু বুঝতেই পারবে না, সেই ভাষায় আমাদের সঙ্গে তাল মিলিয়ে মানুষের মতো কথা বলতে পারবে; এমনকি ‘গুপী গাইন বাঘা বাইন’-এর ভূতের রাজার মত বিভিন্ন কাজও করে দিতে পারবে (অবশ্যই অসাধ্যসাধন করা যাবে না)।
এবার আসা যাক বাংলা ভাষা এবং বর্তমান তথ্য-প্রযুক্তি জগতে তার স্থান নিয়ে। বাংলা বর্ণমালা নিয়ে ভাষা-প্রযুক্তির উন্নয়নকাজে বিভিন্ন গবেষণাগার, সংস্থা এবং কোম্পানির সহযোগিতা জড়িত। তবে এক্ষেত্রে প্রযুক্তি-বিকাশের মূল কেন্দ্রস্থল হিসেবে অবশ্যই আমাদের দেশের থেকে অনেকটা এগিয়ে রয়েছে বাংলাদেশ, কারণ বাংলা ভাষা সে দেশের জাতীয় ভাষা।
আরও পড়ুন: তোরা বাংলা শিখে করবি কী তা বল!
বাংলাদেশের একটি সরকারি প্রতিষ্ঠান, বাংলাদেশ কম্পিউটার কাউন্সিল (বিসিসি) বাংলা কি-বোর্ড, ওসিআর সফ্টওয়্যার এবং অন্যান্য ভাষা-প্রযুক্তি সরঞ্জামগুলির বিকাশে গুরুত্বপূর্ণ ভূমিকা পালন করেছে। বাংলাদেশের আরও একটি সংস্থা ‘সেন্টার ফর রিসার্চ অন বাংলা ল্যাঙ্গুয়েজ প্রসেসিং’ (সিআরবিএলপি) বাংলা বাক্যের পদ-চিহ্নকারী (Part-of-speech tagger), নামবাচক-শব্দ-সনাক্তকরণ (Named-Entity-Recognition) এবং মনোভাব নির্দেশক (sentiment analyzer) ইত্যাদি বিভিন্ন টুল তৈরি করেছে। এছাড়া ইন্টারন্যাশনাল সেন্টার ফর কম্পিউটার রিসোর্সেস অ্যান্ড ডেভেলপমেন্ট (ICCRD), মার্কিন যুক্তরাষ্ট্র ভিত্তিক একটি সংস্থা (বাংলা OCR সফটওয়্যার তৈরির সাথে জড়িত) এবং বাংলাদেশ অ্যাসোসিয়েশন অফ সফটওয়্যার অ্যান্ড ইনফরমেশন সার্ভিসেস (বেসিস) বাংলা ভাষার প্রযুক্তির উন্নয়নে গুরুত্বপূর্ণ ভূমিকা পালন করেছে।

বর্তমান সময়ে দাঁড়িয়ে দেখতে গেলে ভাষা প্রযুক্তির ক্ষেত্রে সবথেকে গুরুত্বপূর্ণ বিষয় হচ্ছে ল্যাঙ্গুয়েজ কর্পোরা, যার উপর ভিত্তি করে কম্পিউটারকে ভাষা শেখানো হয়। এর সাহায্যে নানা জটিল কাজ, যেমন কৃত্রিম অনুবাদ (machine translation), বক্তা চেনা (speaker identification), এবং মানবিক-ভাষা-প্রক্রিয়াকরণ (NLP) প্রভৃতি সম্ভব হয়। একটি ভাষা কর্পাস হল লিখিত বা বাচ্য তথ্যের বিরাট সংগ্রহ যাতে মানুষের দ্বারা বিভিন্ন ট্যাগের সংযোজনে তথ্য অন্তর্ভুক্ত করা হয়, যেমন পার্ট-অফ-স্পিচ ট্যাগ, নামবাচক বিশেষ্য সনাক্তকরণ (Named-Entity-Recognition) ট্যাগ এবং পারসিং ট্যাগ।
বাংলা ভাষার ক্ষেত্রে যে যে কর্পাস আছে তাদের মধ্যে উল্লেখযোগ্য হল বাংলা ট্রিব্যাঙ্ক (CRBLP দ্বারা তৈরি করা হয়েছে)। এটিতে ৫০০০০ এরও বেশি শব্দ রয়েছে। পাশাপাশি বক্তব্যের অংশ, বাক্যাংশ গঠন এবং নামযুক্ত সত্তার জন্য টীকা অন্তর্ভুক্ত রয়েছে এতে। বাংলা উইকিপিডিয়া কর্পাস (>1.6 মিলিয়ন শব্দ) রয়েছে যা মেশিন অনুবাদ এবং অনুভূতি বিশ্লেষণ সহ বিভিন্ন গবেষণা প্রকল্পের জন্য ব্যবহৃত হয়। এছাড়াও রয়েছে বাংলা স্পিচ ডেটাবেস, বাংলা সংবাদ কর্পাস, বাংলা ব্রডকাস্ট নিউজ কর্পাস।
ভারতবর্ষে বাংলা ভাষার উপর কাজ চলছে বিভিন্ন আইআইটি (প্রধানত বম্বে, খড়গপুর, মাদ্রাজ), ট্রিপল-আইটি এবং C-DAC গুলিতে। বেসরকারি সংস্থা যেমন গুগল, মাইক্রোসফ্ট, আমাজন ইত্যাদিও কোমর বেঁধে নেমে পড়েছে ভারতীয় ভাষা এবং সেই ভাষায় কথা বলা মানুষদের আপন করে নিতে। এ বিষয়ে ভারতে যাঁদের কাজ উল্লেখযোগ্য তাঁদের মধ্যে আছেন অধ্যাপক পুষ্পক ভট্টাচার্য, ড. মনোজিৎ চৌধুরী, অধ্যাপক নীলাদ্রি শেখর দাশ, অধ্যাপক সুদেষ্ণা সরকার।

ডিপ-লার্নিং এবং স্নায়বিক জাল (neural network) এসে আমাদের ভাষাকে প্রায় গুলে খেতে বসেছে। আজকে চ্যাট-GPT এবং বিভিন্ন কৃত্রিম chatbot যা যা কাজ করতে সক্ষম হচ্ছে তা সত্যিই অকল্পনীয়। এই রকম বৃহৎ-ভাষা-কাঠামো (Large Language Model) বাংলা বা অন্যান্য ভারতীয় ভাষায় তৈরি করতে গেলে যে বিপুল এবং যে মানের তথ্য প্রয়োজন তা হয়ত বাংলা ভাষায় পাওয়া ভীষণই মুশকিল, এবং তার চাহিদাও হয়ত ইংরেজি ভাষার মত হবে না। তবু আশা করা যায়, প্রযুক্তিক্ষেত্রে বাংলা ভাষার ব্যবহার বৃদ্ধি পাবে, ভাষা-প্রযুক্তির হাত ধরে আমাদের মাতৃভাষা ততই দীর্ঘজীবী হবে এবং তা বেঁচে থাকবে মানুষের দৈনন্দিন জীবনের একটি গুরুত্বপূর্ণ অঙ্গ হয়ে।
ছবি সৌজন্য: flickr, Wikipedia, The Independent,
অনুষ্টুপ ভট্টাচার্য লেখক এবং সঙ্গীতশিল্পী, ITC সঙ্গীত রিসার্চ অকাডেমির প্রাক্তন স্কলার। বর্তমানে আইআইটি বম্বেতে ভাষাবিজ্ঞানের উপর গবেষণায় রত।