Central Tendency: Mean, Median, Mode in Bengali
ডেটার কেন্দ্র পরিমাপ: মোড, মিডিয়ান এবং গড় (Mode, Median, and Mean)
গত পোস্টে আমরা ডেটা ডিস্ট্রিবিউশনের আকার (Shape) নিয়ে আলোচনা করেছি। এখন আমরা ডিস্ট্রিবিউশনের কেন্দ্র (Center) বর্ণনা করার পদ্ধতি শিখব। যখন আমরা "কেন্দ্র" খুঁজি, তখন আমরা মূলত একটি প্রশ্নের উত্তর দেওয়ার চেষ্টা করি: "এই ডেটাসেটের একটি সাধারণ বা টিপিক্যাল (typical) মান কোনটি?"
একটি সাধারণ মান বলতে কী বোঝায়, তা বিভিন্ন আঙ্গিকে ব্যাখ্যা করা যেতে পারে। তাই, পরিসংখ্যানবিদরা কেন্দ্রের পরিমাপ হিসাবে তিনটি প্রধান পদ্ধতি ব্যবহার করেন: মোড, মিডিয়ান এবং গড়।
একটি নতুন উদাহরণ
ধরুন, আমরা কলকাতার 'নকুড়'-এর মিষ্টির দোকানে ৫ জন বন্ধুকে জিজ্ঞাসা করলাম, "কে কতগুলো রসগোল্লা খেয়েছ?" (এখানে স্যাম্পেল সাইজ, n = 5)। তাদের উত্তরগুলো হলো: ১, ২, ২, ৩, ৭।
এই ডেটা ব্যবহার করে আমরা কেন্দ্রের তিনটি পরিমাপ বের করব।
১. মোড (Mode): সবচেয়ে সাধারণ মান
মোড হলো ডেটাসেটের সেই মান, যা সবচেয়ে বেশিবার এসেছে। আমাদের উদাহরণে '২' সংখ্যাটি দুবার এসেছে, যা অন্য যেকোনো সংখ্যার চেয়ে বেশি। সুতরাং, এই ডেটাসেটের মোড হলো ২। মোড আমাদের বলে দেয় কোন মানটি সবচেয়ে জনপ্রিয় বা সাধারণ।
২. মিডিয়ান (Median): ঠিক মাঝখানের মান
মিডিয়ান হলো সেই মান যা ডেটাকে ছোট থেকে বড় সাজানোর পর ঠিক মাঝখানে অবস্থান করে। এটি ডেটাকে দুটি সমান ভাগে ভাগ করে।
মিডিয়ান বের করার ধাপ:
- প্রথমে ডেটাগুলোকে ছোট থেকে বড় ক্রমে সাজান: ১, ২, ২, ৩, ৭।
- এরপর ঠিক মাঝখানের মানটি খুঁজে বের করুন। এখানে মাঝখানের অবস্থানটি হলো তৃতীয়।
সুতরাং, এই ডেটাসেটের মিডিয়ান হলো ২।
যদি ডেটার সংখ্যা জোড় হয়, যেমন (১, ২, ২, ৩, ৭, ৮), তাহলে মাঝখানের দুটি সংখ্যার (২ এবং ৩) গড় হবে মিডিয়ান: (২ + ৩) / ২ = ২.৫।
৩. গড় (Mean): গাণিতিক গড়
গড় বা Mean হলো সমস্ত মানের যোগফলকে মোট মানের সংখ্যা দিয়ে ভাগ করার ফল। এটি একটি "সুষম বণ্টন" বা "fair share" হিসাবেও ভাবা যায়।
আমাদের উদাহরণে, গড় = (১ + ২ + ২ + ৩ + ৭) / ৫ = ১৫ / ৫ = ৩। সুতরাং, এই ডেটাসেটের গড় হলো ৩।
তুলনা এবং আউটলায়ারের প্রভাব
আমাদের উদাহরণে গড় (৩) মিডিয়ানের (২) চেয়ে বেশি। কারণ, আমাদের ডেটাসেটে একজন বন্ধু ৭টি রসগোল্লা খেয়েছে, যা একটি আউটলায়ার (Outlier)। এই বড় মানটি গড়কে নিজের দিকে টেনে বাড়িয়ে দিয়েছে, কিন্তু মিডিয়ানের উপর এর কোনো প্রভাব পড়েনি।
কখন কোনটি ব্যবহার করবেন?
- যখন ডেটাসেটে আউটলায়ার থাকে বা ডিস্ট্রিবিউশনটি স্কিউড (skewed) হয় (যেমন, নিউ টাউনের ফ্ল্যাটের দাম), তখন মিডিয়ান একটি টিপিক্যাল মানের ভালো ধারণা দেয়।
- যখন ডেটা সিমেট্রিক (symmetric) হয় এবং কোনো আউটলায়ার থাকে না, তখন গড় সবচেয়ে বেশি ব্যবহৃত হয়।
- যখন আপনি সবচেয়ে জনপ্রিয় ক্যাটাগরি জানতে চান, তখন মোড সবচেয়ে কার্যকর।
শেষ কথা
এই পোস্টে আমরা ডেটার কেন্দ্র পরিমাপ করার তিনটি পদ্ধতি—মোড, মিডিয়ান এবং গড়—নিয়ে আলোচনা করলাম। প্রতিটি পরিমাপই একটি ডেটাসেটকে ভিন্ন দৃষ্টিকোণ থেকে দেখতে সাহায্য করে। পরবর্তী পোস্টে আমরা শিখব কীভাবে ডেটার বিস্তার (Spread) পরিমাপ করা যায়।