Spread: Range, IQR, Boxplots in Bengali

ডিস্ট্রিবিউশনের বিস্তার (Spread) বোঝা: Range, IQR, এবং Box Plot

ডিস্ট্রিবিউশনের বিস্তার (Spread) বোঝা: Range, IQR, এবং Box Plot

আগের পোস্টগুলিতে আমরা একটি ডেটা ডিস্ট্রিবিউশনের আকার (Shape) এবং কেন্দ্র (Center) বর্ণনা করতে শিখেছি। এখন আমরা শিখব কীভাবে ডেটার বিস্তার (Spread) বা ডেটাগুলো কতটা ছড়ানো, তা পরিমাপ করা যায়।

বিস্তার আমাদের বলে দেয় ডেটা পয়েন্টগুলো কেন্দ্রের চারপাশে কতটা কাছাকাছি বা দূরে অবস্থান করছে। আজ আমরা মিডিয়ানের সাথে সম্পর্কিত দুটি গুরুত্বপূর্ণ পরিমাপ নিয়ে আলোচনা করব: রেঞ্জ (Range) এবং ইন্টারকোয়ার্টাইল রেঞ্জ (Interquartile Range বা IQR)

একটি নতুন উদাহরণ

ধরুন, শান্তিনিকেতনের পৌষমেলায় ৭ জন বন্ধুর একটি দল কেনাকাটা করতে গেছে। তারা প্রত্যেকে কতগুলো করে হস্তশিল্প কিনেছে, তার ডেটা নিচে দেওয়া হলো: ১, ২, ৩, ৪, ৫, ৬, ৭।

এই ডেটাসেট ব্যবহার করে আমরা বিস্তারের বিভিন্ন পরিমাপ বোঝার চেষ্টা করব।

কোয়ার্টাইল (Quartiles) এবং ফাইভ-নম্বর সামারি (Five-Number Summary)

ডেটার বিস্তার বোঝার জন্য আমরা প্রায়শই ডেটাসেটকে চারটি সমান অংশে ভাগ করি। এই ভাগ করার বিন্দুগুলোকে কোয়ার্টাইল (Quartiles) বলা হয়।

  1. সর্বনিম্ন মান (Minimum): ডেটাসেটের সবচেয়ে ছোট মান। (আমাদের উদাহরণে: )
  2. প্রথম কোয়ার্টাইল (Q1): ডেটার প্রথম ২৫% এই মানের নিচে থাকে। এটি হলো ডেটার নিচের অর্ধেকের মিডিয়ান। (আমাদের উদাহরণে: )
  3. মিডিয়ান (Q2): ডেটার মাঝখানের মান, যা ডেটাকে দুটি সমান ভাগে ভাগ করে। (আমাদের উদাহরণে: )
  4. তৃতীয় কোয়ার্টাইল (Q3): ডেটার প্রথম ৭৫% এই মানের নিচে থাকে। এটি হলো ডেটার উপরের অর্ধেকের মিডিয়ান। (আমাদের উদাহরণে: )
  5. সর্বোচ্চ মান (Maximum): ডেটাসেটের সবচেয়ে বড় মান। (আমাদের উদাহরণে: )

এই পাঁচটি মান (Minimum, Q1, Median, Q3, Maximum) একসাথে ফাইভ-নম্বর সামারি (Five-Number Summary) নামে পরিচিত। আমাদের উদাহরণে ফাইভ-নম্বর সামারি হলো: ১, ২, ৪, ৬, ৭

বিস্তারের দুটি প্রধান পরিমাপ

১. রেঞ্জ (Range): ডেটার সম্পূর্ণ বিস্তার
রেঞ্জ হলো ডেটাসেটের সর্বোচ্চ এবং সর্বনিম্ন মানের মধ্যে পার্থক্য। এটি ডেটা কতটা বিস্তৃত, তার একটি সহজ ধারণা দেয়।
সূত্র: Range = Maximum - Minimum
আমাদের উদাহরণে: Range = ৭ - ১ =

২. ইন্টারকোয়ার্টাইল রেঞ্জ (IQR): ডেটার মধ্যবর্তী বিস্তার
IQR হলো তৃতীয় কোয়ার্টাইল (Q3) এবং প্রথম কোয়ার্টাইল (Q1)-এর মধ্যে পার্থক্য। এটি ডেটার মাঝের ৫০%-এর বিস্তারকে পরিমাপ করে এবং আউটলায়ার দ্বারা প্রভাবিত হয় না।
সূত্র: IQR = Q3 - Q1
আমাদের উদাহরণে: IQR = ৬ - ২ =

বক্স প্লট (Box Plot): ফাইভ-নম্বর সামারির ভিজ্যুয়াল রূপ

বক্স প্লট হলো ফাইভ-নম্বর সামারিকে গ্রাফের মাধ্যমে দেখানোর একটি চমৎকার উপায়। এর প্রধান অংশগুলো হলো বক্স (Q1 থেকে Q3), মিডিয়ান লাইন, এবং হুইস্কার (সর্বনিম্ন এবং সর্বোচ্চ মান পর্যন্ত)।

বক্স প্লটের উদাহরণ

আউটলায়ার (Outliers) চিহ্নিত করা

IQR ব্যবহার করে আউটলায়ার চিহ্নিত করার একটি সাধারণ নিয়ম হলো:

  • উপরের সীমানা: Q3 + (1.5 * IQR)
  • নিচের সীমানা: Q1 - (1.5 * IQR)

আমাদের উদাহরণে, উপরের সীমানা হলো ১২ এবং নিচের সীমানা হলো -৪। যেহেতু আমাদের সমস্ত ডেটা এই সীমানার মধ্যে রয়েছে, তাই এখানে কোনো আউটলায়ার নেই।

শেষ কথা

এই পোস্টে আমরা শিখলাম কীভাবে রেঞ্জ এবং IQR ব্যবহার করে ডেটার বিস্তার পরিমাপ করা যায় এবং বক্স প্লটের মাধ্যমে তা উপস্থাপন করা হয়। পরবর্তী পোস্টে আমরা বিস্তারের আরও দুটি গুরুত্বপূর্ণ পরিমাপ—ভেরিয়েন্স (Variance) এবং স্ট্যান্ডার্ড ডেভিয়েশন (Standard Deviation)—নিয়ে আলোচনা করব।