Spread: Variance and Standard Deviation in Bengali
ডেটার বিস্তার পরিমাপের সেরা উপায়: ভেরিয়েন্স এবং স্ট্যান্ডার্ড ডেভিয়েশন
আগের পোস্টে আমরা রেঞ্জ এবং ইন্টারকোয়ার্টাইল রেঞ্জ (IQR) ব্যবহার করে ডেটার বিস্তার বা Spread পরিমাপ করতে শিখেছি। এখন আমরা বিস্তারের সবচেয়ে গুরুত্বপূর্ণ এবং বহুল ব্যবহৃত দুটি পরিমাপ নিয়ে আলোচনা করব: ভেরিয়েন্স (Variance) এবং স্ট্যান্ডার্ড ডেভিয়েশন (Standard Deviation)।
এই দুটি পরিমাপ গড়ের (mean) সাথে ঘনিষ্ঠভাবে সম্পর্কিত এবং ডেটা পয়েন্টগুলো গড় থেকে কতটা দূরে ছড়িয়ে আছে, তার একটি সুনির্দিষ্ট ধারণা দেয়।
কেন আমাদের নতুন পরিমাপ প্রয়োজন?
আসুন দুটি সহজ ডেটাসেট দিয়ে বিষয়টি বুঝি।
- ডেটাসেট ১: ধরুন, সল্টলেকের একটি ক্রিকেট কোচিং ক্যাম্পে ৩ জন খেলোয়াড়ের এক ওভারে করা রান হলো: ৪, ৫, ৬।
- ডেটাসেট ২: একই ক্যাম্পে অন্য ৩ জন খেলোয়াড়ের রান হলো: ০, ৫, ১০।
আপনি যদি দুটি ডেটাসেটের গড় (Mean) বের করেন, দেখবেন দুটোই ৫। কিন্তু তাদের বিস্তার বা ছড়িয়ে থাকা কি এক? না। প্রথম ডেটাসেটের রানগুলো গড়ের খুব কাছাকাছি, কিন্তু দ্বিতীয় ডেটাসেটের রানগুলো গড় থেকে অনেক দূরে। এই পার্থক্যটি সঠিকভাবে পরিমাপ করার জন্যই আমাদের ভেরিয়েন্স এবং স্ট্যান্ডার্ড ডেভিয়েশন প্রয়োজন।
ভেরিয়েন্স (Variance): গড় থেকে বিচ্যুতির বর্গক্ষেত্রের গড়
ভেরিয়েন্স পরিমাপ করে যে ডেটা পয়েন্টগুলো তাদের গড় থেকে কতটা দূরে ছড়িয়ে আছে। এর সংজ্ঞাটি হলো: গড় থেকে প্রতিটি ডেটা পয়েন্টের বিচ্যুতির (deviation) বর্গের (squared) গড়।
আসুন, ধাপে ধাপে এটি গণনা করি।
- প্রতিটি ডেটার বিচ্যুতি (Deviation) বের করুন: বিচ্যুতি হলো (Data Point - Mean)।
ডেটাসেট ১ (গড় = ৫): -১, ০, ১
ডেটাসেট ২ (গড় = ৫): -৫, ০, ৫ - প্রতিটি বিচ্যুতির বর্গ (Square) করুন: আমরা বিচ্যুতিকে বর্গ করি, যাতে সমস্ত মান ধনাত্মক হয়ে যায়।
ডেটাসেট ১: ১, ০, ১
ডেটাসেট ২: ২৫, ০, ২৫ - বর্গ করা বিচ্যুতিগুলোর গড় বের করুন: এটিই হলো ভেরিয়েন্স।
ডেটাসেট ১-এর ভেরিয়েন্স: (১ + ০ + ১) / ৩ = ২/৩ ≈ ০.৬৭
ডেটাসেট ২-এর ভেরিয়েন্স: (২৫ + ০ + ২৫) / ৩ = ৫০/৩ ≈ ১৬.৬৭
ফলাফল পরিষ্কার: দ্বিতীয় ডেটাসেটের ভেরিয়েন্স অনেক বেশি, যা প্রমাণ করে যে এর ডেটা পয়েন্টগুলো অনেক বেশি ছড়ানো।
স্ট্যান্ডার্ড ডেভিয়েশন (Standard Deviation): সবচেয়ে কার্যকর পরিমাপ
ভেরিয়েন্স আমাদের বিস্তারের একটি ভালো ধারণা দেয়, কিন্তু এর একটি সমস্যা রয়েছে। আমরা বিচ্যুতিগুলোকে বর্গ করার ফলে এর এককও বর্গ হয়ে যায় (যেমন, রান স্কোয়ার্ড)। এটি ব্যাখ্যা করা কঠিন। এই সমস্যা সমাধানের জন্য আমরা ভেরিয়েন্সের বর্গমূল (square root) নিই এবং তাকেই স্ট্যান্ডার্ড ডেভিয়েশন বলি।
সূত্র: Standard Deviation = √Variance
- ডেটাসেট ১-এর স্ট্যান্ডার্ড ডেভিয়েশন: √(২/৩) ≈ ০.৮২
- ডেটাসেট ২-এর স্ট্যান্ডার্ড ডেভিয়েশন: √(৫০/৩) ≈ ৪.০৮
স্ট্যান্ডার্ড ডেভিয়েশন আমাদের একটি স্বজ্ঞাত ধারণা দেয়: "গড়ে, ডেটা পয়েন্টগুলো তাদের গড় থেকে প্রায় কতটা দূরে রয়েছে।" এর একক মূল ডেটার এককের সমান, তাই এটি বোঝা এবং তুলনা করা অনেক সহজ।
গুরুত্বপূর্ণ নোট
পরিসংখ্যানে, স্যাম্পেলের ভেরিয়েন্স গণনা করার সময় প্রায়শই মোট সংখ্যা (n) দিয়ে ভাগ না করে, (n-1) দিয়ে ভাগ করা হয়। এর পেছনে কিছু তাত্ত্বিক কারণ রয়েছে, যা আমরা ভবিষ্যতে অ্যাডভান্সড টপিকে আলোচনা করব। আপাতত, মূল ধারণাটি বোঝা জরুরি।
শেষ কথা
ভেরিয়েন্স এবং স্ট্যান্ডার্ড ডেভিয়েশন হলো ডেটার বিস্তার পরিমাপের সবচেয়ে শক্তিশালী টুল। যখনই আপনি একটি ডেটাসেটের পূর্ণাঙ্গ চিত্র পেতে চাইবেন, তার কেন্দ্র (গড় বা মিডিয়ান) এবং বিস্তার (স্ট্যান্ডার্ড ডেভিয়েশন বা IQR) উভয়ই বর্ণনা করা জরুরি।