Discrete PMF and CDF example in Bengali

পরিসংখ্যানের হাতেখড়ি: PMF এবং CDF

পরিসংখ্যানের হাতেখড়ি: PMF এবং CDF সহজে শিখুন

পরিসংখ্যান বা স্ট্যাটিসটিক্স (Statistics) নিয়ে পড়াশোনা করতে গেলে আমাদের প্রায়ই দুটি শব্দ শুনতে হয় - PMF এবং CDF। এই দুটি ফাংশন সম্ভাবনার (Probability) জগতে খুবই গুরুত্বপূর্ণ, বিশেষ করে যখন আমরা কোনো বিচ্ছিন্ন চলক বা ডিসক্রিট রেন্ডম ভেরিয়েবল (Discrete Random Variable) নিয়ে কাজ করি।

আজকের এই পোস্টে আমরা এই দুটি বিষয়কে খুব সহজভাবে বুঝব। আমরা একটি কেস স্টাডি বা বাস্তব উদাহরণের মাধ্যমে ধাপে ধাপে শিখব, যাতে নতুনদের বুঝতে কোনো অসুবিধা না হয়।

আমাদের আজকের উদাহরণ: কলকাতার এক বিখ্যাত মিষ্টির দোকানের সিঙ্গাড়া!

চলুন, আমরা একটি কাল্পনিক পরিস্থিতি ভাবি। কলকাতার বিখ্যাত মিষ্টির দোকান "গিরিশ চন্দ্র দে অ্যান্ড নকুড় চন্দ্র নন্দী"-তে একজন ক্রেতা কতগুলি সিঙ্গাড়া কিনবেন, তা নিয়ে আমরা একটি সম্ভাবনা মডেল তৈরি করব।

ধরা যাক, আমাদের রেন্ডম ভেরিয়েবল (Random Variable) বা চলকটি হলো X, যা একজন ক্রেতার কেনা সিঙ্গাড়ার সংখ্যা বোঝায়। আমরা ধরে নিচ্ছি যে একজন ক্রেতা কমপক্ষে ১টি এবং সর্বাধিক ৪টি সিঙ্গাড়া কিনতে পারেন।

তাহলে আমাদের নমুনা ক্ষেত্র (Sample Space) বা সম্ভাব্য ফলাফলগুলি হলো: {1, 2, 3, 4}।

প্রথম ধাপ: প্রব্যাবিলিটি মাস ফাংশন (Probability Mass Function - PMF)

প্রব্যাবিলিটি মাস ফাংশন (PMF) হলো এমন একটি ফাংশন যা একটি বিচ্ছিন্ন চলকের প্রতিটি সম্ভাব্য মানের সম্ভাবনা কত, তা বলে দেয়। সহজ কথায়, কোন ঘটনা ঘটার সম্ভাবনা কতটা, সেটাই PMF আমাদের জানায়।

আমাদের সিঙ্গাড়ার উদাহরণে, বিভিন্ন সংখ্যক সিঙ্গাড়া কেনার সম্ভাবনাগুলো নিচে দেওয়া হলো:

  • ১টি সিঙ্গাড়া কেনার সম্ভাবনা, P(X=1) = 0.1
  • ২টি সিঙ্গাড়া কেনার সম্ভাবনা, P(X=2) = 0.2
  • ৩টি সিঙ্গাড়া কেনার সম্ভাবনা, P(X=3) = 0.4
  • ৪টি সিঙ্গাড়া কেনার সম্ভাবনা, P(X=4) = 0.3

এখানে লক্ষ্য করুন, সব সম্ভাবনাগুলোর যোগফল (0.1 + 0.2 + 0.4 + 0.3) = 1.0 হয়, যা সম্ভাবনার একটি মূল নিয়ম।

PMF কীভাবে প্রকাশ করা যায়?

১. তালিকা বা নোটেশন আকারে:

এই পদ্ধতিটি সবচেয়ে সহজ। আমরা প্রতিটি মানের সম্ভাবনা তালিকাভুক্ত করি।

$$ f(k) = P(X=k) = \begin{cases} 0.1 & \text{যদি k=1 হয়} \\ 0.2 & \text{যদি k=2 হয়} \\ 0.4 & \text{যদি k=3 হয়} \\ 0.3 & \text{যদি k=4 হয়} \\ 0 & \text{অন্যান্য ক্ষেত্রে} \end{cases} $$

এখানে 'k' হলো সিঙ্গাড়ার সংখ্যা। যদি কেউ ৫টি বা ০টি সিঙ্গাড়া কিনতে চায় (যা আমাদের মডেল অনুযায়ী সম্ভব নয়), তার সম্ভাবনা হবে শূন্য।

২. বার চার্ট (Bar Chart) এর মাধ্যমে:

আমরা এই তথ্যকে একটি বার চার্টের মাধ্যমেও দেখাতে পারি। X-অক্ষে সিঙ্গাড়ার সংখ্যা (1, 2, 3, 4) এবং Y-অক্ষে তাদের নিজ নিজ সম্ভাবনা (0.1, 0.2, 0.4, 0.3) বসিয়ে একটি চিত্র তৈরি করা যায়। এই চার্টটি এক নজরেই বুঝিয়ে দেয় কোন ঘটনা ঘটার সম্ভাবনা সবচেয়ে বেশি ( এক্ষেত্রে ৩টি সিঙ্গাড়া কেনা)।

একটি জরুরি বিষয়: এই PMF কোনো পর্যবেক্ষণ করা ডেটা (observed data) নয়, এটি একটি তাত্ত্বিক বা থিওরেটিক্যাল মডেল (theoretical model)। অর্থাৎ, আমরা যদি দোকানে গিয়ে ১০০ জন ক্রেতার তথ্য সংগ্রহ করি, তাহলে হয়তো দেখব ১০ জন ১টি, ২০ জন ২টি, ৪০ জন ৩টি এবং ৩০ জন ৪টি সিঙ্গাড়া কিনেছেন। এই মডেলটি সেই দীর্ঘমেয়াদী আচরণের পূর্বাভাস দেয়।

দ্বিতীয় ধাপ: কিউমুলেটিভ ডিস্ট্রিবিউশন ফাংশন (Cumulative Distribution Function - CDF)

কিউমুলেটিভ ডিস্ট্রিবিউশন ফাংশন (CDF) একটু অন্যরকম প্রশ্ন করে। এটি কোনো একটি নির্দিষ্ট মান পর্যন্ত সমস্ত সম্ভাবনার যোগফল প্রকাশ করে। এর গাণিতিক রূপ হলো \( F(k) = P(X \le k) \)।

চলুন আমাদের সিঙ্গাড়ার উদাহরণ দিয়ে CDF নির্ণয় করি।

  • P(X ≤ 1): ১টি বা তার কম সিঙ্গাড়া কেনার সম্ভাবনা কত? এর উত্তর হলো শুধুমাত্র ১টি সিঙ্গাড়া কেনার সম্ভাবনা, যা 0.1। সুতরাং, F(1) = 0.1।
  • P(X ≤ 2): ২টি বা তার কম সিঙ্গাড়া কেনার সম্ভাবনা কত? এর মধ্যে পড়বে ১টি কেনার সম্ভাবনা এবং ২টি কেনার সম্ভাবনা। F(2) = P(X=1) + P(X=2) = 0.1 + 0.2 = 0.3।
  • P(X ≤ 3): ৩টি বা তার কম সিঙ্গাড়া কেনার সম্ভাবনা কত? F(3) = P(X=1) + P(X=2) + P(X=3) = 0.1 + 0.2 + 0.4 = 0.7।
  • P(X ≤ 4): ৪টি বা তার কম সিঙ্গাড়া কেনার সম্ভাবনা কত? F(4) = P(X=1) + P(X=2) + P(X=3) + P(X=4) = 0.1 + 0.2 + 0.4 + 0.3 = 1.0।

CDF-এর বৈশিষ্ট্য এবং উপস্থাপনা

১. তালিকা বা নোটেশন আকারে:

CDF-কে আমরা এভাবে লিখতে পারি:

$$ F(k) = P(X \le k) = \begin{cases} 0 & \text{যদি k < 1 হয়} \\ 0.1 & \text{যদি 1 ≤ k < 2 হয়} \\ 0.3 & \text{যদি 2 ≤ k < 3 হয়} \\ 0.7 & \text{যদি 3 ≤ k < 4 হয়} \\ 1 & \text{যদি k ≥ 4 হয়} \end{cases} $$

কিছু জরুরি বৈশিষ্ট্য:

  • CDF-এর মান সবসময় 0 থেকে শুরু হয় এবং 1-এ গিয়ে শেষ হয়।
  • CDF কখনও নিচের দিকে নামে না; এটি হয় ধ্রুবক থাকে অথবা উপরের দিকে ওঠে।
  • ডিসক্রিট ভেরিয়েবলের ক্ষেত্রে CDF গ্রাফটি সিঁড়ির মতো ধাপে ধাপে উপরে ওঠে।

উদাহরণস্বরূপ, যদি আমরা জিজ্ঞাসা করি P(X ≤ 2.5) কত? আমাদের তালিকা অনুযায়ী, 2.5 যেহেতু 2 এবং 3-এর মধ্যে পড়ে, তাই এর মান হবে F(2) বা 0.3।

উপসংহার

আশা করি, এই আলোচনার মাধ্যমে PMF এবং CDF সম্পর্কে আপনার ধারণা স্পষ্ট হয়েছে। সংক্ষেপে বলতে গেলে:

  • PMF (Probability Mass Function): একটি নির্দিষ্ট মান ঘটার সম্ভাবনা কত, তা বলে। (যেমন: ঠিক ৩টি সিঙ্গাড়া কেনার সম্ভাবনা)।
  • CDF (Cumulative Distribution Function): একটি নির্দিষ্ট মান বা তার চেয়ে কম মান ঘটার মোট সম্ভাবনা কত, তা বলে। (যেমন: সর্বাধিক ৩টি সিঙ্গাড়া কেনার সম্ভাবনা)।

এই দুটি ফাংশন বোঝা পরিসংখ্যানের আরও জটিল বিষয়, যেমন বিভিন্ন প্রব্যাবিলিটি ডিস্ট্রিবিউশন (Binomial, Poisson ইত্যাদি) বোঝার জন্য প্রথম ধাপ।