banglalive logo
Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors

বাংলা ভাষা এবং ভাষা প্রযুক্তি

অনুষ্টুপ ভট্টাচার্য

ফেব্রুয়ারি ২১, ২০২৪

Bengali Language and technology
Bookmark (0)
ClosePlease login

No account yet? Register

বাংলা, আমাদের মাতৃভাষা, যার সম্মান বাঁচাতে প্রাণ বাজি রেখেছিলেন ভাষাশহিদেরা। প্রতিবেশী বাংলাদেশের সেই ভাষা আন্দোলন পৃথিবীকে নতুনভাবে ভাবতে শিখিয়েছিল। ভাষা আন্দোলনের কথা উঠলে আমাদের দেশের বরাক উপত্যকার নামও উঠে আসে এক সারিতে। নানা ভাষা নানা মতের মিলনভূমি ভারতবর্ষ, যার সংবিধান স্বীকৃত ভাষার সংখ্যাই ২২। দেশের নানা প্রান্তে ছড়িয়ে থাকা এমনই অজস্র মাতৃভাষা নিয়ে ভাষা-প্রযুক্তির মাধ্যমে পৃথিবীর বিভিন্ন দেশকে নতুন করে ভাবতে শেখাচ্ছে আমাদের দেশ। প্রযুক্তিকে হাতিয়ার করে গড়ে তুলছে বিশ্বজনীন আন্দোলন।

বাংলার ভাষা প্রযুক্তির প্রত্যক্ষ ব্যবহারের কথা বলতে গেলে প্রথমেই আসে ‘অভ্র’ কি-বোর্ডের কথা, যা গত দশকে কম্পিউটারে কাজ করা বাঙালি মাত্রই ব্যবহার করেছেন বলা চলে। যদিও এটিই বাংলার  প্রথম কি-বোর্ড নয়, তার আগে (এবং পরেও) অনেক বাংলা কি-বোর্ড এসেছে, কিন্তু জনপ্রিয়তায় ‘অভ্র’ আজও অপ্রতিদ্বন্দ্বী। অভ্র শুধু আমাদের বাংলা অক্ষর লিখতেই সাহায্য করে না, তার পাশাপাশি বানান শোধরাতেও সাহায্য করে। অর্থাৎ এই প্রযুক্তিতে একই সঙ্গে রয়েছে বাংলা কিবোর্ড এবং স্পেল-চেকার। ময়মনসিংহ মেডিকেল কলেজের তৎকালীন ছাত্র মেহদী হাসান খান ২০০৩ সালে অভ্র কি-বোর্ড তৈরি করেন এবং এটিকে বিনামূল্যে ব্যবহারের জন্য উন্মুক্ত করে দেন। 

সময়ের সাথে সাথে গুগল, ফেসবুক, মাইক্রোসফট ইত্যাদি সব তথ্য-প্রযুক্তি সংস্থাগুলিই পাল্লা দিয়ে বাংলা এবং অন্যান্য ভারতীয় ভাষার প্রযুক্তিগত বিভেদ মুছে দিতে উদ্যত হয়েছে, তথ্য-প্রযুক্তি দিয়ে নানা ভাষাভাষী মানুষদের কাছে পৌঁছনোর চেষ্টা করে চলেছে। অবশ্য বাংলা এবং হিন্দি নিয়েই কাজ হয়েছে বেশি। এই দুটি ভাষা পৃথিবীর প্রথম দশটি বাচ্য ভাষার অন্যতম, সেটিও এই তৎপরতার একটি প্রধান কারণ।

Avro Keyboard

আমরা জানি, একটি ভাষার বিবর্তন হয় নানা ভাবে। যুগের সঙ্গে তাল মিলিয়ে ভাষা বিবর্তনের পাশাপাশি প্রযুক্তি এবং তৎসংলগ্ন ভাষাপ্রযুক্তিও বদলাচ্ছে এবং সাধারণ মানুষের কাছে অত্যন্ত প্রাসঙ্গিক হয়ে দাঁড়াচ্ছে সে বদল। মর্যাদাপূর্ণ আন্তর্জাতিক ভাষাগুলোর মাধ্যমে (আমাদের দেশের ক্ষেত্রে যা ইংরাজি) বিভিন্ন ধরনের তথ্য আদান-প্রদান বেশি হলেও অন্তর্জালে ভারতীয় ভাষাদের উপস্থিতিও বেড়েই চলেছে। ১৯৫০ সালে আলেন টুরিং মানব-ভাষা প্রক্রিয়াকরণের (Natural Language Processing) যে পথ খুলে দিয়েছিলেন তা কৃত্রিম ধী-এর (AI) একটি অন্যতম উপকরণ। এর ফলে কম্পিউটার আমাদের ভাষা শুধু বুঝতেই পারবে না, সেই ভাষায় আমাদের সঙ্গে তাল মিলিয়ে মানুষের মতো কথা বলতে পারবে; এমনকি ‘গুপী গাইন বাঘা বাইন’-এর ভূতের রাজার মত বিভিন্ন কাজও করে দিতে পারবে (অবশ্যই অসাধ্যসাধন করা যাবে না)।

এবার আসা যাক বাংলা ভাষা এবং বর্তমান তথ্য-প্রযুক্তি জগতে তার স্থান নিয়ে। বাংলা বর্ণমালা নিয়ে ভাষা-প্রযুক্তির উন্নয়নকাজে বিভিন্ন গবেষণাগার, সংস্থা এবং কোম্পানির সহযোগিতা জড়িত। তবে এক্ষেত্রে প্রযুক্তি-বিকাশের মূল কেন্দ্রস্থল হিসেবে অবশ্যই আমাদের দেশের থেকে অনেকটা এগিয়ে রয়েছে বাংলাদেশ, কারণ বাংলা ভাষা সে দেশের জাতীয় ভাষা।

আরও পড়ুন: তোরা বাংলা শিখে করবি কী তা বল!

বাংলাদেশের একটি সরকারি প্রতিষ্ঠান, বাংলাদেশ কম্পিউটার কাউন্সিল (বিসিসি) বাংলা কি-বোর্ড, ওসিআর সফ্টওয়্যার এবং অন্যান্য ভাষা-প্রযুক্তি সরঞ্জামগুলির বিকাশে গুরুত্বপূর্ণ ভূমিকা পালন করেছে। বাংলাদেশের আরও একটি সংস্থা ‘সেন্টার ফর রিসার্চ অন বাংলা ল্যাঙ্গুয়েজ প্রসেসিং’ (সিআরবিএলপি) বাংলা বাক্যের পদ-চিহ্নকারী (Part-of-speech tagger), নামবাচক-শব্দ-সনাক্তকরণ (Named-Entity-Recognition) এবং মনোভাব নির্দেশক (sentiment analyzer) ইত্যাদি বিভিন্ন টুল তৈরি করেছে। এছাড়া ইন্টারন্যাশনাল সেন্টার ফর কম্পিউটার রিসোর্সেস অ্যান্ড ডেভেলপমেন্ট (ICCRD), মার্কিন যুক্তরাষ্ট্র ভিত্তিক একটি সংস্থা (বাংলা OCR সফটওয়্যার তৈরির সাথে জড়িত) এবং বাংলাদেশ অ্যাসোসিয়েশন অফ সফটওয়্যার অ্যান্ড ইনফরমেশন সার্ভিসেস (বেসিস) বাংলা ভাষার প্রযুক্তির উন্নয়নে গুরুত্বপূর্ণ ভূমিকা পালন করেছে।

Language movement Bangladesh
বাংলাদেশ ভাষা আন্দোলন

বর্তমান সময়ে দাঁড়িয়ে দেখতে গেলে ভাষা প্রযুক্তির ক্ষেত্রে সবথেকে গুরুত্বপূর্ণ বিষয় হচ্ছে ল্যাঙ্গুয়েজ কর্পোরা, যার উপর ভিত্তি করে কম্পিউটারকে ভাষা শেখানো হয়। এর সাহায্যে নানা জটিল কাজ, যেমন কৃত্রিম অনুবাদ (machine translation), বক্তা চেনা (speaker identification), এবং মানবিক-ভাষা-প্রক্রিয়াকরণ (NLP) প্রভৃতি সম্ভব হয়। একটি ভাষা কর্পাস হল লিখিত বা বাচ্য তথ্যের বিরাট সংগ্রহ যাতে মানুষের দ্বারা বিভিন্ন ট্যাগের সংযোজনে তথ্য অন্তর্ভুক্ত করা হয়, যেমন পার্ট-অফ-স্পিচ ট্যাগ, নামবাচক বিশেষ্য সনাক্তকরণ (Named-Entity-Recognition) ট্যাগ এবং পারসিং ট্যাগ।

বাংলা ভাষার ক্ষেত্রে যে যে কর্পাস আছে তাদের মধ্যে উল্লেখযোগ্য হল বাংলা ট্রিব্যাঙ্ক (CRBLP দ্বারা তৈরি করা হয়েছে)। এটিতে ৫০০০০ এরও বেশি শব্দ রয়েছে। পাশাপাশি বক্তব্যের অংশ, বাক্যাংশ গঠন এবং নামযুক্ত সত্তার জন্য টীকা অন্তর্ভুক্ত রয়েছে এতে। বাংলা উইকিপিডিয়া কর্পাস (>1.6 মিলিয়ন শব্দ) রয়েছে যা মেশিন অনুবাদ এবং অনুভূতি বিশ্লেষণ সহ বিভিন্ন গবেষণা প্রকল্পের জন্য ব্যবহৃত হয়। এছাড়াও রয়েছে বাংলা স্পিচ ডেটাবেস, বাংলা সংবাদ কর্পাস, বাংলা ব্রডকাস্ট নিউজ কর্পাস। 

ভারতবর্ষে বাংলা ভাষার উপর কাজ চলছে বিভিন্ন আইআইটি (প্রধানত বম্বে, খড়গপুর, মাদ্রাজ), ট্রিপল-আইটি এবং C-DAC গুলিতে। বেসরকারি সংস্থা যেমন গুগল, মাইক্রোসফ্ট, আমাজন ইত্যাদিও কোমর বেঁধে নেমে পড়েছে ভারতীয় ভাষা এবং সেই ভাষায় কথা বলা মানুষদের আপন করে নিতে। এ বিষয়ে ভারতে যাঁদের কাজ উল্লেখযোগ্য তাঁদের মধ্যে আছেন অধ্যাপক পুষ্পক ভট্টাচার্য, ড. মনোজিৎ চৌধুরী, অধ্যাপক নীলাদ্রি শেখর দাশ, অধ্যাপক সুদেষ্ণা সরকার। 

Bengali Language

ডিপ-লার্নিং এবং স্নায়বিক জাল (neural network) এসে আমাদের ভাষাকে প্রায় গুলে খেতে বসেছে। আজকে চ্যাট-GPT এবং বিভিন্ন কৃত্রিম chatbot যা যা কাজ করতে সক্ষম হচ্ছে তা সত্যিই অকল্পনীয়। এই রকম বৃহৎ-ভাষা-কাঠামো (Large Language Model) বাংলা বা অন্যান্য ভারতীয় ভাষায় তৈরি করতে গেলে যে বিপুল এবং যে মানের তথ্য প্রয়োজন তা হয়ত বাংলা ভাষায় পাওয়া ভীষণই মুশকিল, এবং তার চাহিদাও হয়ত ইংরেজি ভাষার মত হবে না। তবু আশা করা যায়, প্রযুক্তিক্ষেত্রে বাংলা ভাষার ব্যবহার বৃদ্ধি পাবে, ভাষা-প্রযুক্তির হাত ধরে আমাদের মাতৃভাষা ততই দীর্ঘজীবী হবে এবং তা বেঁচে থাকবে মানুষের দৈনন্দিন জীবনের একটি গুরুত্বপূর্ণ অঙ্গ হয়ে। 

ছবি সৌজন্য: flickrWikipediaThe Independent,

অনুষ্টুপ ভট্টাচার্য লেখক এবং সঙ্গীতশিল্পী, ITC সঙ্গীত রিসার্চ অকাডেমির প্রাক্তন স্কলার। বর্তমানে আইআইটি বম্বেতে ভাষাবিজ্ঞানের উপর গবেষণায় রত।

Leave a Reply

Your email address will not be published. Required fields are marked *

Subscribe To Newsletter

কথাসাহিত্য

সংস্কৃতি

আহার

বিহার

কলমকারী

ফোটো স্টোরি

উপন্যাস

Banglalive.com/TheSpace.ink Guidelines

Established: 1999

Website URL: https://banglalive.com and https://thespace.ink

Social media handles

Facebook: https://www.facebook.com/banglaliveofficial

Instagram: https://www.instagram.com/banglalivedotcom

Twitter: @banglalive

Needs: Banglalive.com/thespace.ink are looking for fiction and poetry. They are also seeking travelogues, videos, and audios for their various sections. The magazine also publishes and encourages artworks, photography. We however do not accept unsolicited nonfiction. For Non-fictions contact directly at editor@banglalive.com / editor@thespace.ink

Time: It may take 2-3 months for the decision and subsequent publication. You will be notified. so please do not forget to add your email address/WhatsApp number.

Tips: Banglalive editor/s and everyone in the fiction department writes an opinion and rates the fiction or poetry about a story being considered for publication. We may even send it out to external editors/readers for a blind read from time to time to seek opinion. A published story may not be liked by everyone. There is no one thing or any particular feature or trademark to get published in the magazine. A story must grow on its own terms.

How to Submit: Upload your fiction and poetry submissions directly on this portal or submit via email (see the guidelines below).

Guidelines:

  1. Please submit original, well-written articles on appropriate topics/interviews only. Properly typed and formatted word document (NO PDFs please) using Unicode fonts. For videos and photos, there is a limitation on size, so email directly for bigger files. Along with the article, please send author profile information (in 100-150 words maximum) and a photograph of the author. You can check in the portal for author profile references.
  2. No nudity/obscenity/profanity/personal attacks based on caste, creed or region will be accepted. Politically biased/charged articles, that can incite social unrest will NOT be accepted. Avoid biased or derogatory language. Avoid slang. All content must be created from a neutral point of view.
  3. Limit articles to about 1000-1200 words. Use single spacing after punctuation.
  4. Article title and author information: Include an appropriate and informative title for the article. Specify any particular spelling you use for your name (if any).
  5. Submitting an article gives Banglalive.com/TheSpace.ink the rights to publish and edit, if needed. The editor will review all articles and make required changes for readability and organization style, prior to publication. If significant edits are needed, the editor will send the revised article back to the author for approval. The editorial board will then review and must approve the article before publication. The date an article is published will be determined by the editor.

 

Submit Content

For art, pics, video, audio etc. Contact editor@banglalive.com