পাইথন ব্যবহার করে কাই-স্কোয়ার পরীক্ষা (Chi-Square Test)
আসসালামু আলাইকুম, আপনারা যারা পাইথন ব্যাবহার করে কাই-স্কোয়ার পরীক্ষা (Chi-Square Test) করতে চাচ্ছেন আজকের এই লেখাটি তাদের জন্য। এই পোস্ট এ ধাপে ধাপে দেয়া হয়েছে কিভাবে আপনি কাই-স্কোয়ার পরীক্ষা করবেন।
এক্ষেত্রে আপনাকে শুধু আপনার ডাটা লোড করতে হবে, বাকি সবকিছু আপনি কপি অ্যান্ড পেস্ট করতে পারবেন।
এই টেস্ট করার জন্য আপনাকে ৪টি ধাপ ফলো করতে হবে।
ধাপ ১: ডেটা তৈরির জন্য টেবিল প্রস্তুতকরণ
আমরা প্রথমে একটি টেবিল বানাবো যেখানে "লেকের মধ্যে মাইক্রোপ্লাস্টিক দূষণ" সম্পর্কিত তথ্য থাকবে। এখানে বিভিন্ন এলাকার দূষণের ধরন এবং পরিমাণ সম্পর্কিত তথ্য দেওয়া থাকবে। টেবিলের কিছু কল্পিত তথ্য দেওয়া হল:
এলাকা | দূষণ স্তর (কম/মাঝারি/উচ্চ) | নমুনার সংখ্যা | মাইক্রোপ্লাস্টিক কণার সংখ্যা |
---|---|---|---|
এলাকা ১ | কম | ১০ | ২০ |
এলাকা ২ | মাঝারি | ১৫ | ৪৫ |
এলাকা ৩ | উচ্চ | ২০ | ৮০ |
এলাকা ৪ | কম | ১০ | ২২ |
এলাকা ৫ | মাঝারি | ১৫ | ৫০ |
ধাপ ২: পাইথন ব্যবহার করে কাই-স্কোয়ার পরীক্ষা (Chi-Square Test)
আমরা এখন এই ডেটার উপর চি-স্কোয়ার পরীক্ষা চালাবো। চি-স্কোয়ার পরীক্ষাটি নির্ধারণ করবে যে, "লেকের বিভিন্ন এলাকায় মাইক্রোপ্লাস্টিক দূষণ পর্যায়ে কি পার্থক্য রয়েছে কিনা।
# ধাপ-১ লাইব্রেরি ইম্পোর্ট
# লাইব্রেরি ইম্পোর্ট
import pandas as pd
import numpy as np
from scipy.stats import chi2_contingency
#ধাপ-২ ডেটা ফ্রেম তৈরির জন্য কল্পিত তথ্য
# ডেটা ফ্রেম তৈরির জন্য কল্পিত তথ্য
data = {
'এলাকা': ['এলাকা ১', 'এলাকা ২', 'এলাকা ৩', 'এলাকা ৪', 'এলাকা ৫'],
'দূষণ স্তর': ['কম', 'মাঝারি', 'উচ্চ', 'কম', 'মাঝারি'],
'নমুনার সংখ্যা': [10, 15, 20, 10, 15],
'মাইক্রোপ্লাস্টিক কণার সংখ্যা': [20, 45, 80, 22, 50]
}
# ধাপ-৩ ডেটা ফ্রেম তৈরি
# ডেটা ফ্রেম তৈরি
df = pd.DataFrame(data)
# ধাপ-৪ কাই-স্কোয়ার পরীক্ষা
# কাই-স্কোয়ার পরীক্ষা
contingency_table = pd.crosstab(df['দূষণ স্তর'], df['মাইক্রোপ্লাস্টিক কণার সংখ্যা'])
chi2, p, dof, expected = chi2_contingency(contingency_table)
# ধাপ-৫ ফলাফল প্রদর্শন
# ফলাফল প্রদর্শন
chi2, p, dof, expected
# লাইব্রেরি ইম্পোর্ট
import pandas as pd
import numpy as np
from scipy.stats import chi2_contingency
# ডেটা ফ্রেম তৈরির জন্য কল্পিত তথ্য
data = {
'এলাকা': ['এলাকা ১', 'এলাকা ২', 'এলাকা ৩', 'এলাকা ৪', 'এলাকা ৫'],
'দূষণ স্তর': ['কম', 'মাঝারি', 'উচ্চ', 'কম', 'মাঝারি'],
'নমুনার সংখ্যা': [10, 15, 20, 10, 15],
'মাইক্রোপ্লাস্টিক কণার সংখ্যা': [20, 45, 80, 22, 50]
}
# ডেটা ফ্রেম তৈরি
df = pd.DataFrame(data)
# কাই-স্কোয়ার পরীক্ষা
contingency_table = pd.crosstab(df['দূষণ স্তর'], df['মাইক্রোপ্লাস্টিক কণার সংখ্যা'])
chi2, p, dof, expected = chi2_contingency(contingency_table)
# ফলাফল প্রদর্শন
chi2, p, dof, expected
ধাপ ৩: ভিজুয়ালাইজেশন তৈরি
আমরা এখন দুটি ভিন্ন ভিজুয়ালাইজেশন তৈরি করবো, যেমন বার চার্ট এবং পাই চার্ট, যা লেকের বিভিন্ন এলাকার মাইক্রোপ্লাস্টিক দূষণ স্তর প্রদর্শন করবে।
ধাপ ৪: ফলাফল ও আলোচনা
ফলাফল
চি-স্কোয়ার পরীক্ষার ফলাফলটি আমাদের জানায় যে লেকের বিভিন্ন এলাকায় মাইক্রোপ্লাস্টিক দূষণের স্তরগুলির মধ্যে যথেষ্ট পার্থক্য রয়েছে কি না। যদি p-মানটি ০.০৫-এর কম হয়, তবে আমরা বলবো যে লেকের বিভিন্ন জায়গায় মাইক্রোপ্লাস্টিক দূষণের স্তরে গুরুত্বপূর্ণ পার্থক্য রয়েছে।
আলোচনা
এই গবেষণায় দেখা যাচ্ছে যে লেকের বিভিন্ন এলাকায় দূষণের মাত্রা ভিন্ন হতে পারে, যা বিভিন্ন পরিবেশগত কারণের উপর নির্ভরশীল। "উচ্চ দূষণ" এলাকায় মাইক্রোপ্লাস্টিক কণার সংখ্যা তুলনামূলকভাবে বেশি, যা দূষণ নিয়ন্ত্রণের জন্য অতিরিক্ত নজরদারি এবং পরিস্কার অভিযান প্রয়োজন নির্দেশ করে।
এটি লেকের জলজ জীববৈচিত্র্য এবং স্থানীয় মানুষের স্বাস্থ্য সম্পর্কেও গুরুত্বপূর্ণ প্রভাব ফেলতে পারে, তাই এই দূষণ কমাতে নির্দিষ্ট পদক্ষেপ গ্রহণ করা উচিত।
....................................................................................
এখানে একটি সম্ভাব্য ফলাফল দেয়া হয়েছে আপনাদের সুবিধার জন্য।
এটি সম্পূর্ণ কাল্পনিক একটি ফলাফল।
ফলাফল টেবিল
এখানে চি-স্কোয়ার পরীক্ষার ফলাফল একটি টেবিল আকারে দেখানো হলো:
Chi-Square Statistic | P-Value | Degrees of Freedom | Expected Frequencies |
---|---|---|---|
10.0 | 0.265026 | 8 | [[0.2, 0.2, 0.2, 0.2, 0.2], [0.4, 0.4, 0.4, 0.4, 0.4], ...] |
এখানে:
- Chi-Square Statistic: 10.0
- P-Value: 0.265026, যা সাধারণভাবে 0.05 এর তুলনায় বেশি। এর মানে হল যে আমরা হাইপোথিসিস নিতে পারি যে, মাইক্রোপ্লাস্টিক দূষণ স্তরের মধ্যে কোনো গুরুত্বপূর্ণ পার্থক্য নেই।
- Degrees of Freedom (dof): 8
- Expected Frequencies: প্রত্যাশিত মানগুলো যা বিভিন্ন দূষণ স্তরের মধ্যে হওয়া উচিত।
ভিজুয়ালাইজেশন
১. বার চার্ট
এই চার্টটি লেকের বিভিন্ন এলাকায় মাইক্রোপ্লাস্টিক কণার সংখ্যা প্রদর্শন করে, যেখানে দূষণের স্তরের উপর ভিত্তি করে প্রতিটি এলাকার পার্থক্য স্পষ্টভাবে দেখা যাচ্ছে।
২. পাই চার্ট
এই চার্টটি লেকের মাইক্রোপ্লাস্টিক দূষণ স্তরের বিভিন্ন শতাংশের অনুপাত তুলে ধরে, যা দূষণের স্তরের বণ্টন পরিষ্কারভাবে প্রদর্শন করে।
0 Comments