ارزیابی فرضیه ها (pptx) 36 اسلاید
دسته بندی : پاورپوینت
نوع فایل : PowerPoint (.pptx) ( قابل ویرایش و آماده پرینت )
تعداد اسلاید: 36 اسلاید
قسمتی از متن PowerPoint (.pptx) :
ارزیابی
فرضیه
ها
مقدمه
یک
الگوریتم
یادگیری
با
استفاده
از
داده
های
آموزشی
فرضیه
ای
را
بوجود
میآورد
.
قبل
از
استفاده
از
این
فرضیه
ممکن
است
که
لازم
شود
تا
دقت
این
فرضیه
مورد
ارزیابی
قرار
گیرد
.
اینکار
از
دو
جهت
اهمیت
دارد
:
دقت
فرضیه
را
برای
مثالهای
نادیده
حدس
بزنیم
.
گاهی
اوقات
ارزیابی
فرضیه
جزئی
از
الگوریتم
یادگیری
است
:
مثل
حرس
کردن
درخت
تصمیم
.
Data Learning Hypothesis
Algorithm
Performance Assessment
روشهای
آماری
در
این
فصل
سعی
میشود
تا
روشهای
آماری
مناسب
برای
حدس
زدن
دقت
فرضیه
ها
معرفی
گردند
.
مبنای
کار
در
جهت
پاسخگوئی
به
سه
سوال
زیر
است
:
اگر
دقت
یک
فرضیه
برای
داده
های
محدودی
معلوم
باشد
دقت
آن
برای
سایر
مثالها
چه
قدر
خواهد
بود؟
اگر
یک
فرضیه
برای
داده
های
محدودی
بهتر
از
فرضیه
دیگری
عمل
کند
احتمال
اینکه
این
وضعیت
در
حالت
کلی
نیز
صادق
باشد
چقدر
است؟
وقتی
که
داده
آموزشی
اندکی
موجود
باشد
بهترین
راه
برای
اینکه
هم
فرضیه
را
یاد
بگیریم
و
هم
دقت
آنرا
اندازه
گیری
کنیم
چیست؟
کمی
داده
های
آموزشی
وقتی
که
داده
آموزشی
محدود
باشد
این
امکان
وجود
دارد
که
این
مثالها
نشان دهنده
توزیع
کلی
داده
ها
نباشند
مشکل
کمی
داده
وقتی
که
یادگیری
با
استفاده
از
داده
های
محدودی
انجام
میشود
دو
مشکل
ممکن
است
رخ
دهند
:
Bias in the estimate
دقت
یک
فرضیه
بر
روی
مثالهای
آموزشی
تخمین
مناسبی
برای
دقت
آن
برای
مثالهای
نادیده
نیست
.
زیرا
فرضیه
یاد
گرفته
شده
بر
اساس
این
داده
ها
برای
مثالهای
آتی
بصورت
optimistic
عمل
خواهد
نمود
.
برای
رهائی
از
این
امر
میتوان
از
مجموعه
داده
ها
ی
تست
استفاده
کرد
.
Variance in the estimate
حتی
با
وجود
استفاده
از
مجموعه
تست
این
امکان
وجود
دارد
که
خطای
اندازه
گیری
شده
با
خطای
واقعی
اختلاف
داشته
باشد
Bias and Variance in the Estimate
sample size
accuracy
Estimated Accuracy
True accuracy
Variance
Bias
در
یک
مثال
یادگیری
میتوان
برای
فضای
مثالهای
ورودی
یک
تابع
توزیع
احتمال
نامعلوم
D
در
نظر
گرفت
که
احتمال
رخداد
هر
نمونه
x
را
با
p(x)
مشخص
مینماید
.
در
اینصورت
با
دو
سوال
زیر
مواجه
هستیم
:
اگر
فرضیه
h
و
تعداد
n
نمونه
داشته
باشیم
که
بصورت
تصادفی
از
مثالهائی
با
توزیع
D
انتخاب
شده
باشند،
بهترین
تخمین
برای
دقت
h
برای
مثالهائی
با
همان
توزیع
چیست؟
خطای
احتمالی
در
این
تخمین
دقت
چقدر
است؟
تخمین
دقت
فرضیه
Input Space X
p(X)
خطای
نمونه
عبارت
است
از
خطای
فرضیه
روی
مجموعه
مثالهای
موجود
)
آموزشی
و
یا
تست
(
خطای
نمونه
فرضیه
h
نسبت
به
تابع
هدف
f
و
داده
نمونه
s
بصورت
زیر
بیان
میشود
:
error
s
(h)= 1/n
xS
(f(x),h(x))
که
در
ان
n
تعداد
مثالهای
s
ومقدار
(f(x),h(x))
برابر
با
1
است
اگر
f(x) h(x)
و
در
غیر
اینصورت
برابر
با
0
است
.
خطای
نمونه
و
خطای
واقعی
خطای
نمونه
و
خطای
واقعی
خطای
واقعی
عبارت
است
از
خطای
فرضیه
روی
مجموعه
تمام
مثالهای
با
توزیع
نامعلوم
D
و
برابر
است
با
احتمال
اینکه
یک
نمونه
تصادفی
به
غلط
دسته
بندی
شود
.
خطای
واقعی
فرضیه
h
نسبت
به
تابع
هدف
f
و
داده
با
توزیع
D
بصورت
زیر
بیان
میشود
:
error
D
(h)=
Pr
xD
[f(x)
h(x)]
آنچه
که
در
دست
داریم
خطای
نمونه
است
در
حالیکه
آنچه
که
به
دنبال
آن
هستیم
خطای
واقعی
است
.
در
اینصورت
باید
به
این
سوال
پاسخ
دهیم
که
خطای
نمونه
تا
چه
حد
ی
میتواند
تخمین
خوبی
برای
خطای
واقعی
باشد؟
مثال
یک
مجموعه
داده
6
تائی
با
توزیع
احتمال
زیر
وجود
دارد
:
P(X1) = 0.2 P(X4) = 0.1
P(X2) = 0.1 P(X5) = 0.2
P(X3) = 0.3 P(X6) = 0.1
فرضیه
h
برای
مجموعه
نمونه
{X1, X2, X3, X4}
میتواند
X1, X2, X3
را
بدرستی
دسته
بندی
کند
ولی
قادربه
دسته
بندی
صحیح
X4
نیست
.
دراین
صورت
خطای
نمونه
برابر
است
با
:
¼ (0 + 0 + 0 + 1) = ¼ = 0.25
اگر
این
فرضیه
برای
X6
صحیح
و
برای
X5
نادرست
باشد
در
اینصورت
خطای
واقعی
برابر
است
با
:
0.2(0) + 0.1(0) + 0.3(0) + 0.1(1) + 0.2(1) + 0.1(0) = 0.3