Spread: Variance and Standard Deviation in Bengali

ডেটার বিস্তার পরিমাপ: ভেরিয়েন্স এবং স্ট্যান্ডার্ড ডেভিয়েশন

ডেটার বিস্তার পরিমাপের সেরা উপায়: ভেরিয়েন্স এবং স্ট্যান্ডার্ড ডেভিয়েশন

আগের পোস্টে আমরা রেঞ্জ এবং ইন্টারকোয়ার্টাইল রেঞ্জ (IQR) ব্যবহার করে ডেটার বিস্তার বা Spread পরিমাপ করতে শিখেছি। এখন আমরা বিস্তারের সবচেয়ে গুরুত্বপূর্ণ এবং বহুল ব্যবহৃত দুটি পরিমাপ নিয়ে আলোচনা করব: ভেরিয়েন্স (Variance) এবং স্ট্যান্ডার্ড ডেভিয়েশন (Standard Deviation)

এই দুটি পরিমাপ গড়ের (mean) সাথে ঘনিষ্ঠভাবে সম্পর্কিত এবং ডেটা পয়েন্টগুলো গড় থেকে কতটা দূরে ছড়িয়ে আছে, তার একটি সুনির্দিষ্ট ধারণা দেয়।

কেন আমাদের নতুন পরিমাপ প্রয়োজন?

আসুন দুটি সহজ ডেটাসেট দিয়ে বিষয়টি বুঝি।

  • ডেটাসেট ১: ধরুন, সল্টলেকের একটি ক্রিকেট কোচিং ক্যাম্পে ৩ জন খেলোয়াড়ের এক ওভারে করা রান হলো: ৪, ৫, ৬।
  • ডেটাসেট ২: একই ক্যাম্পে অন্য ৩ জন খেলোয়াড়ের রান হলো: ০, ৫, ১০।

আপনি যদি দুটি ডেটাসেটের গড় (Mean) বের করেন, দেখবেন দুটোই ৫। কিন্তু তাদের বিস্তার বা ছড়িয়ে থাকা কি এক? না। প্রথম ডেটাসেটের রানগুলো গড়ের খুব কাছাকাছি, কিন্তু দ্বিতীয় ডেটাসেটের রানগুলো গড় থেকে অনেক দূরে। এই পার্থক্যটি সঠিকভাবে পরিমাপ করার জন্যই আমাদের ভেরিয়েন্স এবং স্ট্যান্ডার্ড ডেভিয়েশন প্রয়োজন।

ভেরিয়েন্স (Variance): গড় থেকে বিচ্যুতির বর্গক্ষেত্রের গড়

ভেরিয়েন্স পরিমাপ করে যে ডেটা পয়েন্টগুলো তাদের গড় থেকে কতটা দূরে ছড়িয়ে আছে। এর সংজ্ঞাটি হলো: গড় থেকে প্রতিটি ডেটা পয়েন্টের বিচ্যুতির (deviation) বর্গের (squared) গড়

আসুন, ধাপে ধাপে এটি গণনা করি।

  1. প্রতিটি ডেটার বিচ্যুতি (Deviation) বের করুন: বিচ্যুতি হলো (Data Point - Mean)।
    ডেটাসেট ১ (গড় = ৫): -১, ০, ১
    ডেটাসেট ২ (গড় = ৫): -৫, ০, ৫
  2. প্রতিটি বিচ্যুতির বর্গ (Square) করুন: আমরা বিচ্যুতিকে বর্গ করি, যাতে সমস্ত মান ধনাত্মক হয়ে যায়।
    ডেটাসেট ১: ১, ০, ১
    ডেটাসেট ২: ২৫, ০, ২৫
  3. বর্গ করা বিচ্যুতিগুলোর গড় বের করুন: এটিই হলো ভেরিয়েন্স।
    ডেটাসেট ১-এর ভেরিয়েন্স: (১ + ০ + ১) / ৩ = ২/৩ ≈ ০.৬৭
    ডেটাসেট ২-এর ভেরিয়েন্স: (২৫ + ০ + ২৫) / ৩ = ৫০/৩ ≈ ১৬.৬৭

ফলাফল পরিষ্কার: দ্বিতীয় ডেটাসেটের ভেরিয়েন্স অনেক বেশি, যা প্রমাণ করে যে এর ডেটা পয়েন্টগুলো অনেক বেশি ছড়ানো।

স্ট্যান্ডার্ড ডেভিয়েশন (Standard Deviation): সবচেয়ে কার্যকর পরিমাপ

ভেরিয়েন্স আমাদের বিস্তারের একটি ভালো ধারণা দেয়, কিন্তু এর একটি সমস্যা রয়েছে। আমরা বিচ্যুতিগুলোকে বর্গ করার ফলে এর এককও বর্গ হয়ে যায় (যেমন, রান স্কোয়ার্ড)। এটি ব্যাখ্যা করা কঠিন। এই সমস্যা সমাধানের জন্য আমরা ভেরিয়েন্সের বর্গমূল (square root) নিই এবং তাকেই স্ট্যান্ডার্ড ডেভিয়েশন বলি।

সূত্র: Standard Deviation = √Variance

  • ডেটাসেট ১-এর স্ট্যান্ডার্ড ডেভিয়েশন: √(২/৩) ≈ ০.৮২
  • ডেটাসেট ২-এর স্ট্যান্ডার্ড ডেভিয়েশন: √(৫০/৩) ≈ ৪.০৮

স্ট্যান্ডার্ড ডেভিয়েশন আমাদের একটি স্বজ্ঞাত ধারণা দেয়: "গড়ে, ডেটা পয়েন্টগুলো তাদের গড় থেকে প্রায় কতটা দূরে রয়েছে।" এর একক মূল ডেটার এককের সমান, তাই এটি বোঝা এবং তুলনা করা অনেক সহজ।

গুরুত্বপূর্ণ নোট

পরিসংখ্যানে, স্যাম্পেলের ভেরিয়েন্স গণনা করার সময় প্রায়শই মোট সংখ্যা (n) দিয়ে ভাগ না করে, (n-1) দিয়ে ভাগ করা হয়। এর পেছনে কিছু তাত্ত্বিক কারণ রয়েছে, যা আমরা ভবিষ্যতে অ্যাডভান্সড টপিকে আলোচনা করব। আপাতত, মূল ধারণাটি বোঝা জরুরি।

শেষ কথা

ভেরিয়েন্স এবং স্ট্যান্ডার্ড ডেভিয়েশন হলো ডেটার বিস্তার পরিমাপের সবচেয়ে শক্তিশালী টুল। যখনই আপনি একটি ডেটাসেটের পূর্ণাঙ্গ চিত্র পেতে চাইবেন, তার কেন্দ্র (গড় বা মিডিয়ান) এবং বিস্তার (স্ট্যান্ডার্ড ডেভিয়েশন বা IQR) উভয়ই বর্ণনা করা জরুরি।