Shape, Skewness. and Symmetry in Bengali
ডেটা ডিস্ট্রিবিউশনের আকার বোঝা: সিমেট্রি, স্কিউনেস এবং মোড
গত পোস্টে আমরা হিস্টোগ্রাম ব্যবহার করে কোয়ান্টিটেটিভ ডেটাকে কীভাবে গ্রাফে উপস্থাপন করতে হয়, তা শিখেছি। ডেটার মানগুলো কীভাবে ছড়িয়ে থাকে, সেই চিত্রটিকেই আমরা ডেটার ডিস্ট্রিবিউশন (Distribution) বা বন্টন বলি।
সহজ কথায়, ডিস্ট্রিবিউশন আমাদের বলে দেয় সম্ভাবনা (probability) বিভিন্ন মানের উপর কীভাবে বন্টিত হয়েছে।
নতুন উদাহরণ: ধরুন, আমরা কলকাতার বিভিন্ন পরিবারের মাসিক আয়ের (monthly income) ডিস্ট্রিবিউশন দেখছি। আমরা দেখব যে বেশিরভাগ পরিবারের আয় একটি নির্দিষ্ট সীমার মধ্যে রয়েছে (যেমন, মাঝারি আয়)। খুব কম পরিবারের আয় অত্যন্ত বেশি (যেমন, কোটিপতি)। আবার, একেবারে কম আয়ের পরিবারও রয়েছে। আয় কীভাবে বিভিন্ন স্তরে ছড়িয়ে আছে, এই সম্পূর্ণ চিত্রটিই হলো আয়ের ডিস্ট্রিবিউশন।
ডিস্ট্রিবিউশন বর্ণনা করার উপায়
যেকোনো ডিস্ট্রিবিউশনকে বর্ণনা করার জন্য আমরা মূলত তিনটি প্রধান বৈশিষ্ট্য দেখি। আমেরিকার কিছু অ্যাডভান্সড স্ট্যাটিস্টিকস কোর্সে এই পদ্ধতিটি "Shape, Center, Spread" নামে পরিচিত।
- আকার (Shape): ডিস্ট্রিবিউশনটি দেখতে কেমন? এটি কি প্রতিসম, নাকি একদিকে হেলানো?
- কেন্দ্র (Center): ডেটার কেন্দ্রীয় মান কোনটি? (আমরা পরবর্তী পোস্টে এটি নিয়ে আলোচনা করব)।
- বিস্তার (Spread): ডেটাগুলো কতটা ছড়ানো? (এটিও পরবর্তী আলোচনার বিষয়)।
এর পাশাপাশি আমরা আউটলায়ার (Outliers) বা চরম মান নিয়েও কথা বলি।
এই পোস্টে, আমরা ডিস্ট্রিবিউশনের আকার (Shape) নিয়ে বিস্তারিত আলোচনা করব।
ডেনসিটি কার্ভ (Density Curve)
হিস্টোগ্রামের বারগুলোর উপর দিয়ে যদি আমরা একটি মসৃণ রেখা বা কার্ভ আঁকি, তখন তাকে ডেনসিটি কার্ভ (Density Curve) বলা হয়। এটি ডিস্ট্রিবিউশনের আকৃতি বুঝতে সাহায্য করে এবং দেখায় কোন মানের কাছে ডেটার ঘনত্ব বেশি।
ডিস্ট্রিবিউশনের আকার: সিমেট্রিক বনাম স্কিউড
আকার বর্ণনা করার সময় আমরা প্রথমে দেখি ডিস্ট্রিবিউশনটি সিমেট্রিক (Symmetric) বা প্রতিসম, নাকি স্কিউড (Skewed) বা একদিকে হেলানো।
- সিমেট্রিক ডিস্ট্রিবিউশন: যখন একটি ডিস্ট্রিবিউশনের কেন্দ্র থেকে দুই দিক দেখতে প্রায় একই রকম হয়। এর সবচেয়ে ভালো উদাহরণ হলো বেল কার্ভ (Bell Curve)।
- স্কিউড ডিস্ট্রিবিউশন: যখন ডিস্ট্রিবিউশনের একদিকের লেজ অন্য দিকের চেয়ে বেশি লম্বা হয়। স্কিউনেস দুই প্রকারের হয়:
- ডান-দিকে স্কিউড (Right-skewed): ডান দিকের লেজটি লম্বা হয়। এর মানে হলো, বেশিরভাগ ডেটার মান কম দিকে থাকলেও কিছু চরম বড় মান রয়েছে। উদাহরণ: মাসিক আয়।
- বাম-দিকে স্কিউড (Left-skewed): বাম দিকের লেজটি লম্বা হয়। এর মানে হলো, বেশিরভাগ ডেটার মান বেশি দিকে থাকলেও কিছু চরম ছোট মান রয়েছে। উদাহরণ: অবসরের বয়স।
মোড (Mode): ডিস্ট্রিবিউশনের চূড়া
আকার বর্ণনা করার আরেকটি গুরুত্বপূর্ণ দিক হলো ডিস্ট্রিবিউশনের পিক (Peak) বা চূড়ার সংখ্যা। প্রতিটি পিককে একটি মোড (Mode) বলা হয়।
- ইউনিমোডাল (Unimodal): যখন ডিস্ট্রিবিউশনে একটি মাত্র পিক থাকে।
- বাইমোডাল (Bimodal): যখন ডিস্ট্রিবিউশনে দুটি পিক থাকে। উদাহরণ: পুরুষ ও মহিলা উভয়ের উচ্চতার সম্মিলিত ডেটা।
- মাল্টিমোডাল (Multimodal): যখন ডিস্ট্রিবিউশনে দুইয়ের বেশি পিক থাকে।
অনুশীলন
নিজের কিছু সংখ্যাসূচক ডেটা নিয়ে এই তিনটি বিষয় অনুশীলন করুন:
- ডেটার জন্য একটি হিস্টোগ্রাম তৈরি করুন।
- তার আকার বর্ণনা করুন: সিমেট্রিক নাকি স্কিউড?
- মোডের সংখ্যা চিহ্নিত করুন: ইউনিমোডাল নাকি বাইমোডাল?
শেষ কথা
এই পোস্টে আমরা শিখলাম কীভাবে একটি ডেটা ডিস্ট্রিবিউশনের আকার (Shape) বর্ণনা করতে হয়। এই ধারণাগুলো আমাদের ডেটার অন্তর্নিহিত প্যাটার্ন বুঝতে সাহায্য করে। পরবর্তী পোস্টগুলোতে আমরা ডিস্ট্রিবিউশনের কেন্দ্র (Center) এবং বিস্তার (Spread) নিয়ে আলোচনা করব।