Continuous CDF (Uniform Distribution) Example in Bengali

পরিসংখ্যানের গভীরে: কন্টিনিউয়াস ভেরিয়েবলের জন্য CDF

পরিসংখ্যানের গভীরে: কন্টিনিউয়াস ভেরিয়েবলের জন্য CDF

আগের পোস্টে আমরা ডিসক্রিট বা বিচ্ছিন্ন চলকের জন্য PMF এবং CDF নিয়ে আলোচনা করেছিলাম। সেখানে আমাদের উদাহরণ ছিল সিঙ্গাড়ার সংখ্যা, যা শুধুমাত্র পূর্ণ সংখ্যা হতে পারে (1, 2, 3, ইত্যাদি)। কিন্তু সব চলক এমন বিচ্ছিন্ন হয় না। কিছু চলক যেকোনো মান নিতে পারে, যেমন— সময়, ওজন বা উচ্চতা। এদেরকে বলা হয় কন্টিনিউয়াস রেন্ডম ভেরিয়েবল (Continuous Random Variable)

আজ আমরা শিখব এই কন্টিনিউয়াস ভেরিয়েবলের সম্ভাবনা কীভাবে গণনা করা হয় এবং এক্ষেত্রে CDF কেন এত বেশি গুরুত্বপূর্ণ।

আমাদের নতুন উদাহরণ: হাওড়া বাস ডিপো থেকে বাস ছাড়ার সময়

চলুন, পশ্চিমবঙ্গের হাওড়া বাস ডিপোর একটি দৃশ্য কল্পনা করি। একটি বাস সকাল ৯টায় ছাড়ার কথা। কিন্তু বিভিন্ন কারণে, যেমন যাত্রী ওঠা বা যানজটের জন্য, বাসটি ঠিক ৯টায় ছাড়তে পারে না। ধরা যাক, বাসটি সকাল ৯টা থেকে শুরু করে পরবর্তী ৫ মিনিটের মধ্যে যেকোনো সময় ছাড়তে পারে এবং এই ৫ মিনিটের মধ্যে যেকোনো মুহূর্তে ছাড়ার সম্ভাবনা সমান।

এখানে আমাদের রেন্ডম ভেরিয়েবল (Random Variable) হলো X, যা সকাল ৯টার পর বাসটি ছাড়তে কত মিনিট দেরি হচ্ছে, তা বোঝায়।

যেহেতু বাসটি ৯টা থেকে ৯টা বেজে ৫ মিনিটের মধ্যে যেকোনো সময় ছাড়তে পারে, তাই X-এর মান ০ থেকে ৫-এর মধ্যে যেকোনো বাস্তব সংখ্যা (real number) হতে পারে, যেমন— 1.5 মিনিট, 2.753 মিনিট, ইত্যাদি। এটি একটি ইউনিফর্ম ডিস্ট্রিবিউশন (Uniform Distribution)-এর উদাহরণ, কারণ এই সময়সীমার মধ্যে প্রতিটি মুহূর্ত সমানভাবে সম্ভাব্য।

কন্টিনিউয়াস ভেরিয়েবলের একটি চ্যালেঞ্জ: একটি নির্দিষ্ট মানের সম্ভাবনা শূন্য!

ডিসক্রিট ভেরিয়েবলের ক্ষেত্রে আমরা সহজেই বলতে পারতাম, P(X=3) অর্থাৎ ঠিক ৩টি সিঙ্গাড়া কেনার সম্ভাবনা কত। কিন্তু কন্টিনিউয়াস ভেরিয়েবলের ক্ষেত্রে যদি প্রশ্ন করা হয়, "বাসটি ঠিক ২ মিনিট পর ছাড়ার সম্ভাবনা কত?" উত্তরটি হবে শূন্য!

এর কারণ হলো, ০ থেকে ৫ মিনিটের মধ্যে অসীম সংখ্যক মুহূর্ত রয়েছে। ঠিক ২.০০০০... মিনিটে বাস ছাড়ার সম্ভাবনা এতটাই কম যে সেটিকে গণিতের ভাষায় শূন্য ধরা হয়।

তাহলে আমরা সম্ভাবনা মাপব কীভাবে? এখানেই আসে প্রব্যাবিলিটি ডেনসিটি ফাংশন (Probability Density Function - PDF)

প্রব্যাবিলিটি ডেনসিটি ফাংশন (PDF) কী?

PDF সরাসরি কোনো নির্দিষ্ট বিন্দুর সম্ভাবনা বলে না, বরং এটি একটি নির্দিষ্ট পরিসরে মানের ঘনত্ব (density) বোঝায়। আমাদের বাস ছাড়ার উদাহরণের জন্য PDF গ্রাফটি হবে ০ থেকে ৫ পর্যন্ত একটি সরলরেখা। এটি দেখতে একটি আয়তক্ষেত্রের মতো হবে।

তবে PDF নিজে থেকে সম্ভাবনার মান দেয় না। সম্ভাবনার মান পেতে হলে আমাদের একটি পরিসরের (range) ক্ষেত্রফল (area) বের করতে হয়। আর এই কাজটিই আমাদের জন্য সহজ করে দেয় কিউমুলেটিভ ডিস্ট্রিবিউশন ফাংশন (CDF)

কন্টিনিউয়াস ভেরিয়েবলের নায়ক: কিউমুলেটিভ ডিস্ট্রিবিউশন ফাংশন (CDF)

কন্টিনিউয়াস ভেরিয়েবলের জন্য CDF সবচেয়ে বেশি ব্যবহৃত হয়। এর সংজ্ঞা আগের মতোই: \( F(x) = P(X \le x) \), অর্থাৎ, চলক X-এর মান একটি নির্দিষ্ট সংখ্যা x-এর সমান বা তার কম হওয়ার সম্ভাবনা কত।

চলুন আমাদের বাসের উদাহরণ দিয়ে CDF তৈরি করি:

  • বাসটি প্রথম ২ মিনিটের মধ্যে ছাড়ার সম্ভাবনা কত? অর্থাৎ, P(X ≤ 2) কত?
    যেহেতু সম্ভাবনা সমানভাবে বণ্টিত, তাই উত্তরটি হবে \( \frac{2}{5} = 0.4 \)। সুতরাং, F(2) = 0.4।
  • বাসটি প্রথম ৪ মিনিটের মধ্যে ছাড়ার সম্ভাবনা কত? অর্থাৎ, P(X ≤ 4) কত?
    উত্তরটি হবে \( \frac{4}{5} = 0.8 \)। সুতরাং, F(4) = 0.8।

CDF-এর গাণিতিক রূপ ও গ্রাফ

আমাদের উদাহরণের জন্য CDF ফাংশনটি হবে:

$$ F(x) = P(X \le x) = \begin{cases} 0 & \text{যদি x < 0 হয়} \\ \frac{x}{5} & \text{যদি 0 ≤ x ≤ 5 হয়} \\ 1 & \text{যদি x > 5 হয়} \end{cases} $$

ব্যাখ্যা:

  • যদি x-এর মান ০-এর কম হয় (যেমন -১ মিনিট), তবে সম্ভাবনা শূন্য, কারণ বাস ৯টার আগে ছাড়বে না।
  • যদি x-এর মান ৫-এর বেশি হয় (যেমন ৭ মিনিট), তবে সম্ভাবনা ১ (বা 100%), কারণ বাস ৯টা বেজে ৫ মিনিটের মধ্যেই ছেড়ে দেবে।
  • আর ০ থেকে ৫-এর মধ্যে যেকোনো মানের জন্য সম্ভাবনা হবে \( \frac{x}{5} \)।

এর গ্রাফটি হবে একটি মসৃণ (smooth) সরলরেখা যা (0,0) বিন্দু থেকে শুরু হয়ে (5,1) বিন্দু পর্যন্ত উপরে উঠেছে। এখানে ডিসক্রিট ভেরিয়েবলের মতো কোনো সিঁড়ির ধাপ থাকবে না।

একটি গুরুত্বপূর্ণ সুবিধা: ≤ এবং < নিয়ে ভাবতে হবে না!

ডিসক্রিট ভেরিয়েবলের ক্ষেত্রে P(X < 3) এবং P(X ≤ 3) দুটি ভিন্ন প্রশ্ন ছিল। কিন্তু কন্টিনিউয়াস ভেরিয়েবলের ক্ষেত্রে এই দুটি একই। কারণ P(X=3) = 0। তাই,

$$ P(X \le x) = P(X < x) $$

এটি আমাদের গণনাকে অনেক সহজ করে দেয়।

উপসংহার

আশা করি, কন্টিনিউয়াস ভেরিয়েবলের জন্য CDF-এর ধারণাটি এখন আপনার কাছে পরিষ্কার। মূল কথাগুলো হলো:

  • কন্টিনিউয়াস ভেরিয়েবলের অসীম মান থাকতে পারে।
  • কোনো একটি নির্দিষ্ট মানের সম্ভাবনা শূন্য হয়, তাই আমরা পরিসর বা রেঞ্জ নিয়ে কাজ করি।
  • PDF মানের ঘনত্ব দেখায়, আর CDF আমাদের সরাসরি সম্ভাবনা বা ক্ষেত্রফল গণনা করে দেয়।
  • কন্টিনিউয়াস ভেরিয়েবলের CDF গ্রাফটি মসৃণ হয় এবং এর মান ০ থেকে ১ পর্যন্ত বৃদ্ধি পায়।

পরবর্তী আলোচনায় আমরা পরিসংখ্যানের সবচেয়ে বিখ্যাত কন্টিনিউয়াস ডিস্ট্রিবিউশন— নরমাল ডিস্ট্রিবিউশন (Normal Distribution)— নিয়ে জানব, যেখানে CDF-এর ধারণাটি ব্যাপকভাবে ব্যবহৃত হয়।