Stem-and-leaf plots and Histograms in Bengali: Statistics Tutorial 4

কোয়ান্টিটেটিভ ডেটা বিশ্লেষণ: ডট প্লট, স্টেম-এন্ড-লিফ প্লট ও হিস্টোগ্রাম

কোয়ান্টিটেটিভ ডেটা বিশ্লেষণ: ডট প্লট, স্টেম-এন্ড-লিফ প্লট ও হিস্টোগ্রাম

গত পোস্টে আমরা কোয়ান্টিটেটিভ ভেরিয়েবলের ধারণা শুরু করেছিলাম এবং দেখেছিলাম যে কন্টিনিউয়াস ডেটার জন্য ডট প্লট অনেক সময় ডেটার আসল চিত্র তুলে ধরতে পারে না। এই পোস্টে আমরা কোয়ান্টিটেটিভ ডেটা গ্রাফের মাধ্যমে উপস্থাপন করার জন্য আরও দুটি শক্তিশালী টুল—স্টেম-অ্যান্ড-লিফ প্লট (Stem-and-Leaf Plot) এবং হিস্টোগ্রাম (Histogram)—নিয়ে আলোচনা করব।

ডট প্লটের সীমাবদ্ধতা: একটি নতুন উদাহরণ

ধরুন, আমরা মেদিনীপুরের একটি স্কুলের ১০ জন ছাত্রছাত্রীর গণিতে প্রাপ্ত নম্বর (১০০-এর মধ্যে) সংগ্রহ করেছি। নম্বরগুলো হলো: ৫৮, ৬০, ৬১, ৬২, ৬৩, ৬৪, ৬৮, ৭০, ৭২, ৭৫।

এই ডেটা দিয়ে যদি আমরা একটি ডট প্লট তৈরি করি, আমরা দেখব যে প্রতিটি নম্বরের জন্য একটি করে ডট রয়েছে। ৬০ থেকে ৬৪ পর্যন্ত পাঁচটি ডট খুব কাছাকাছি থাকবে, কিন্তু তারা একটির ওপর আরেকটি বসবে না। ফলে, ৬০-এর ঘরে যে একটি ছাত্রছাত্রীদের ভিড় বা "peak" রয়েছে, তা ডট প্লট থেকে পরিষ্কারভাবে বোঝা যায় না। এখানেই ডট প্লটের মূল সীমাবদ্ধতা।

স্টেম-অ্যান্ড-লিফ প্লট (Stem-and-Leaf Plot)

এই সমস্যার একটি চমৎকার সমাধান হলো স্টেম-অ্যান্ড-লিফ প্লট। এই গ্রাফটি ডেটার ঘনত্ব দেখানোর পাশাপাশি প্রতিটি ডেটা পয়েন্টকেও সংরক্ষণ করে। এটি তৈরি করার জন্য আমরা প্রতিটি সংখ্যাকে দুটি অংশে ভাগ করি:

  • স্টেম (Stem) বা কাণ্ড: সংখ্যার প্রথম অঙ্ক (বা অঙ্কগুলো)। আমাদের উদাহরণে, দশকের ঘরের অঙ্কগুলো (৫, ৬, ৭) হলো স্টেম।
  • লিফ (Leaf) বা পাতা: সংখ্যার শেষ অঙ্ক। আমাদের উদাহরণে, এককের ঘরের অঙ্কগুলো হলো লিফ।

আমাদের ছাত্রছাত্রীদের নম্বরের ডেটা দিয়ে স্টেম-অ্যান্ড-লিফ প্লটটি দেখতে এমন হবে:

Stem | Leaf
-------|----------------
5 | 8
6 | 0 1 2 3 4 8
7 | 0 2 5

এই প্লট থেকে আমরা কী বুঝতে পারি?

  • এক নজরেই বোঝা যাচ্ছে যে '6' স্টেমের পাশে সবচেয়ে বেশি লিফ রয়েছে। এর মানে, বেশিরভাগ ছাত্রছাত্রী ৬০ থেকে ৬৯-এর মধ্যে নম্বর পেয়েছে।
  • আমরা প্রতিটি ছাত্রের সঠিক নম্বরও জানতে পারছি (যেমন, একজন ৫৮ পেয়েছে, একজন ৬০, একজন ৬১, ইত্যাদি)।
  • এটি আমাদের ডেটার একটি পরিষ্কার চিত্র দেয়, যা ডট প্লটে অনুপস্থিত ছিল।

হিস্টোগ্রাম (Histogram): ডেটা বিশ্লেষণের সবচেয়ে শক্তিশালী টুল

স্টেম-অ্যান্ড-লিফ প্লট খুবই কাজের, কিন্তু ডেটা ভিজ্যুয়ালাইজেশনের জন্য সবচেয়ে বেশি ব্যবহৃত এবং শক্তিশালী টুল হলো হিস্টোগ্রাম। হিস্টোগ্রাম দেখতে অনেকটা বার চার্টের মতো, কিন্তু এটি কন্টিনিউয়াস ডেটাকে নির্দিষ্ট গ্রুপ বা শ্রেণীতে ভাগ করে দেখায়। এই গ্রুপগুলোকে বিন (Bin) বলা হয়।

হিস্টোগ্রাম তৈরির জন্য আমাদের প্রথমে ডেটাকে কয়েকটি বিনে ভাগ করতে হয়।

উদাহরণ ১: বড় বিন (Bin Width = 10)
আমরা যদি আমাদের নম্বরগুলোকে ১০ নম্বরের ব্যবধানে বিনে ভাগ করি (যেমন ৫০-৫৯, ৬০-৬৯, ৭০-৭৯), তাহলে হিস্টোগ্রামটি এমন হবে:

  • ৫০-৫৯ বিন: ১ জন ছাত্র (শুধু ৫৮)
  • ৬০-৬৯ বিন: ৬ জন ছাত্র (৬০, ৬১, ৬২, ৬৩, ৬৪, ৬৮)
  • ৭০-৭৯ বিন: ৩ জন ছাত্র (৭০, ৭২, ৭৫)

উদাহরণ ২: ছোট বিন (Bin Width = 5)
এখন যদি আমরা বিনের আকার আরও ছোট করি (যেমন ৫০-৫৪, ৫৫-৫৯, ৬০-৬৪, ইত্যাদি), আমরা ডেটার আরও বিস্তারিত চিত্র পাব।

  • ৫০-৫৪ বিন: ০ জন
  • ৫৫-৫৯ বিন: ১ জন (৫৮)
  • ৬০-৬৪ বিন: ৫ জন (৬০, ৬১, ৬২, ৬৩, ৬৪)
  • ৬৫-৬৯ বিন: ১ জন (৬৮)
  • ৭০-৭৪ বিন: ২ জন (৭০, ৭২)
  • ৭৫-৭৯ বিন: ১ জন (৭৫)

এই হিস্টোগ্রামটি আমাদের একটি নতুন তথ্য দিচ্ছে: ডেটার আসল peak বা সর্বোচ্চ ঘনত্ব ৬০ থেকে ৬৪ নম্বরের মধ্যে রয়েছে। এরপর ৬৫-৬৯ রেঞ্জে ছাত্রছাত্রীর সংখ্যা কমে গিয়ে আবার ৭০-এর ঘরে কিছুটা বেড়েছে।

শেষ কথা

হিস্টোগ্রামের সবচেয়ে বড় সুবিধা হলো, আমরা বিনের আকার (Bin Width) পরিবর্তন করে ডেটাকে বিভিন্ন দৃষ্টিকোণ থেকে দেখতে পারি। বড় ডেটাসেটের ক্ষেত্রে, সঠিক বিন সাইজ নির্বাচন করে আমরা ডেটার মধ্যে লুকিয়ে থাকা বিভিন্ন প্যাটার্ন ও প্রবণতা আবিষ্কার করতে পারি।

আপনাকে উৎসাহিত করা হচ্ছে নিজের কিছু সংখ্যাসূচক ডেটা নিয়ে এই তিনটি প্লট—ডট প্লট, স্টেম-অ্যান্ড-লিফ প্লট এবং বিভিন্ন বিনের হিস্টোগ্রাম—তৈরি করে অনুশীলন করার জন্য। এর মাধ্যমে আপনি প্রতিটি গ্রাফের সুবিধা এবং অসুবিধাগুলো আরও ভালোভাবে বুঝতে পারবেন।