ETV Bharat / technology

ৱিকিপিডিয়াৰ ভুল কেনেকৈ ধৰা পেলাব আৰু শুধৰণি কৰিব ? আই আই টি গুৱাহাটীৰ চমৎকাৰী উদ্ভাৱন

এ আই ইমপেক্ট সন্মিলনত আই আই টি গুৱাহাটীয়ে ৱিকিপিডিয়াৰ নামৰ ভুল ধৰা পেলোৱা আৰু শুধৰণি কৰাৰ পদ্ধতি প্ৰদৰ্শন কৰি সকলোকে আচৰিত কৰি দিলে ।

IIT Guwahati
এ আই ইমপেক্ট সন্মিলনত আই আই টি গুৱাহাটীৰ চমক (ANI)
author img

By ANI

Published : February 21, 2026 at 1:10 PM IST

5 Min Read
Choose ETV Bharat

গুৱাহাটী : বৰ্তমান তথ্য-প্ৰযুক্তিৰ যুগত আমি কিবা নতুন বস্তু বা বিষয় জানিবলৈ সচৰাচৰ ৱিকিপিডিয়া বা অন্য মাধ্যমত চোৱাৰ প্ৰয়াস কৰোঁ । কিন্তু ৱিকিপিডিয়াত পোৱা সকলো তথ্য শুদ্ধ হয়নে ? বিভিন্ন অনুসন্ধানত পোহৰলৈ আহিছে যে ৱিকিপিডিয়াত উপলব্ধ তথ্যৰ প্ৰায় ৩-৬ শতাংশই ভুল থাকে । যাক লৈ আমি কেতিয়াবা বিভিন্ন সমস্যাত পৰো ।

কিন্তু ৱিকিপিডিয়াৰ 'ছাৰ্ফেচ নেম' (Surface Name) শুদ্ধ কৰাৰ ক্ষেত্ৰত আই আই টি গুৱাহাটীৰ গৱেষকৰ এটা দলে কাম কৰিছে । দলটোৱে বিশেষ পদ্ধতি উদ্ভাৱন কৰিছে । এই বহুভাষিক আৰু স্কেলেবল পদ্ধতিৰ দ্বাৰা ৱিকিপিডিয়াত ছাৰ্ফেচ নেম এৰ'ৰছ (SNE) চিনাক্ত আৰু সংশোধন কৰিব পৰা যায় । যিয়ে মানৱ ব্যৱহাৰকাৰী আৰু কৃত্ৰিম বুদ্ধিমত্তা ব্যৱস্থা (AI Systems) উভয়ৰে বাবে তথ্যৰ নিৰ্ভৰযোগ্যতা উন্নত কৰাত সহায় কৰিছে ।

ৱিকিপিডিয়া হৈছে মুক্ত, বহুভাষিক অনলাইন বিশ্বকোষ যাক সহযোগিতাৰ জৰিয়তে সৃষ্টি কৰাৰ লগতে বিশ্বব্যাপী স্বেচ্ছাসেৱকে বিনামূলীয়াকৈ চলায় । আই আই টি গুৱাহাটীয়ে এক প্ৰেছ বিবৃতিত উল্লেখ কৰিছে যে 'ছাৰ্ফেচ নেম' ৱিকিপিডিয়াৰ প্ৰবন্ধত আন এটা সত্তাৰ উল্লেখ বা লিংক কৰিবলৈ ব্যৱহাৰ কৰা লিখনিক বুজায় ।

বিবৃতিত কোৱা হৈছে, "এই লিখনি ভুল হ'লে ছাৰ্ফেচ নেম এৰ'ৰ (SNE) হয় । উদাহৰণস্বৰূপে পেৰিছৰ (Paris) বাবে পেজৰ সৈতে লিংক কৰিবলৈ 'Parise'ৰ দৰে ভুল শব্দ ব্যৱহাৰ কৰা আছে । আই আই টি গুৱাহাটীৰ গৱেষক দলে কৰা এক অধ্যয়নত দেখা গৈছে যে ৱিকিপিডিয়াত উল্লেখ কৰা সকলো তথ্য প্ৰায় ৩ শতাংশৰ পৰা ৬ শতাংশত ছাৰ্ফেচ নেম এৰ'ৰ থাকে । এই ভুলবোৰ সৰু যেন লাগিব পাৰে যদিও ইয়াৰ উল্লেখযোগ্য প্ৰভাৱ আছে ।"

মানৱ ব্যৱহাৰকাৰীৰ বাবে এটা ভুল 'ছাৰ্ফেছ নেম'এ প্ৰদান কৰা তথ্যৰ অনুভূত বিশ্বাসযোগ্যতা আৰু নিৰ্ভৰযোগ্যতা হ্ৰাস কৰিব পাৰে । একেদৰে বহুতো মেচিন লাৰ্ণিং আৰু ডিপ লাৰ্ণিং মডেলত ৱিকিপিডিয়াক মূল ডাটাছেট হিচাপে ব্যৱহাৰ কৰা হয় । 'ছাৰ্ফেচ নেম'ত এনে ভুলে AI কাৰ্য আৰু মডেলৰ পৰিৱেশনত নেতিবাচক প্ৰভাৱ পেলাব পাৰে ।

এই প্ৰত্যাহ্বানৰ সৈতে মোকাবিলা কৰিবলৈ কম্পিউটাৰ বিজ্ঞান আৰু অভিযান্ত্ৰিক বিভাগৰ সহযোগী অধ্যাপক অমিত আৱেকাৰে তেতিয়াৰ এম.টেকৰ ছাত্ৰ অনুজ খাৰেৰ (২০২২ চনৰ বেচ) সৈতে মিলি গাণিতিক কম্পাঙ্ক আৰ্হি ব্যৱহাৰ কৰা পদ্ধতি নিৰ্মাণ কৰিছিল, যাৰ ফলত ইয়াক বিভিন্ন ভাষাৰ মাজত খাপ খুৱাব পৰা যায় ।

প্ৰথম পদক্ষেপত ৱিকিপিডিয়া স্কেন কৰি প্ৰতিটো লিংকক চাৰিটা ভাগলৈ ৰূপান্তৰ কৰা আছিল য'ত এই তথ্য আছিল যে য'ত লিংকটো দেখা যায়, ই পইণ্টেড কৰা পেজ, লিংকত ব্যৱহৃত পেজৰ নাম আৰু চাৰিওফালৰ কনটেক্সতৰ(Context) প্ৰসংগ ।

পৰৱৰ্তী পদক্ষেপত বিকশিত পদ্ধতিয়ে 'ছাৰ্ফেচ নেম' পৰ্যালোচনা কৰে আৰু যদিহে ই কমেও ১০ বাৰ দেখা দিয়ে তেতিয়া ইয়াক শুদ্ধ বুলি বিবেচনা কৰে, যি এটা নিৰ্দিষ্ট পেজলৈ যোৱাৰ সকলো লিংকৰ অন্ততঃ ৫ শতাংশ ভাগ লয় ।

এই মাপকাঠীসমূহ পূৰণ নকৰা 'ছাৰ্ফেচ নেম'সমূহক সম্ভাৱ্য ভুল হিচাপে দেখুওৱা হয় । চূড়ান্ত পদক্ষেপত ই ধৰা পৰা ভুলবোৰক "টাইপিং ভুল" হিচাপে শ্ৰেণীভুক্ত কৰে, যেনে 'Guwahati'ৰ পৰিৱৰ্তে 'Gawahati', বা 'entity span errors' বুলি দেখাই য'ত অতিৰিক্ত বা ভুল শব্দ লিংকত ভুলকৈ অন্তৰ্ভুক্ত কৰা হৈছে ।

গৱেষকসকলে এই বিকশিত পদ্ধতিটো ইংৰাজী, সংস্কৃত, জাৰ্মান, ইটালিয়ান, উৰ্দু, হিন্দী, মাৰাঠী, গুজৰাটীকে ধৰি ৮ টা ভাষাত পৰীক্ষা কৰি সঠিক ফলাফল লাভ কৰিছে ।

বিকশিত পদ্ধতিটোৰ বাস্তৱ জগতৰ প্ৰয়োগৰ বিষয়ে আৱেকাৰে কয়, "এই কামে আমাক দেখুৱাইছে যে মানুহৰ ব্যৱহাৰ আৰু প্ৰশিক্ষণ এ আই মডেল দুয়োটাৰে বাবে আমি ৱেবৰ পৰা অহা তথ্যসমূহক চকু মুদি বিশ্বাস কৰা উচিত নহয় । শুদ্ধ তথ্য হৈছে যিকোনো ভাল এ আই মডেল আৰু ডাউনষ্ট্ৰিম প্ৰয়োগৰ আৰম্ভণি ।"

বিকশিত পদ্ধতিটোক বৈধতা প্ৰদান কৰিবলৈ গৱেষক দলটোৱে ২০১৮ আৰু ২০২২ চনৰ ইংৰাজী ৱিকিপিডিয়াৰ স্নেপশ্বট তুলনা কৰি দেখিলে যে এই পদ্ধতিৰ দ্বাৰা আঙুলিয়াই দিয়া প্ৰায় ৩০ শতাংশ ভুল তথ্য ৱিকিপিডিয়াত ৪ বছৰৰ ভিতৰত শুধৰণি কৰা হৈছে, যাৰ ফলত ইয়াৰ সঠিকতা নিশ্চিত কৰা হৈছে । ৱিকিপিডিয়া বিশ্বজুৰি স্বেচ্ছাসেৱকসকলে চলাই আছে আৰু বিকশিত পদ্ধতিয়ে সম্পাদকসকলক গম নোপোৱাকৈয়ে হোৱা টাইপিং ভুল আৰু সংযোগৰ ভুল চিনাক্ত কৰাত সহায় কৰিব পাৰে । যিবোৰ হয়তো বছৰ বছৰ ধৰি তেনেকৈয়ে থাকিব পাৰে ।

এই পদ্ধতিৰ সঠিকতাক আৰু অধিক বৈধ কৰিবলৈ লক্ষণীয় যে গৱেষকসকলে পৰামৰ্শ দিয়া সংশোধনৰ ৯৯ শতাংশতকৈ অধিক ৱিকিপিডিয়া সম্প্ৰদায়ে গ্ৰহণ কৰিছে । ৱিকিপিডিয়া সম্প্ৰদায়ৰ জৰিয়তে ব্যৱহাৰিক বৈধকৰণৰ সৈতে স্কেলেবল ডাটা প্ৰচেছিঙৰ সংমিশ্ৰণেৰে আই আই টি গুৱাহাটীৰ দলটোৱে ডিজিটেল জ্ঞান ব্যৱস্থা শক্তিশালী কৰাৰ ক্ষেত্ৰত এক ফলপ্ৰসূ পন্থা প্ৰদৰ্শন কৰিছে ।

লগতে পঢ়ক :এ আই ইমপেক্ট সন্মিলনত ব্যাঘাত জন্মাবলৈ কংগ্ৰেছৰ ব্যৰ্থ চেষ্টা: অশ্বিনী বৈষ্ণৱ