صفحه محصول - ارزیابی فرضیه ها

توضیحات

ارزیابی فرضیه ها (pptx) 36 اسلاید

دسته بندی : پاورپوینت

نوع فایل : PowerPoint (.pptx) ( قابل ویرایش و آماده پرینت )

تعداد اسلاید: 36 اسلاید

قسمتی از متن PowerPoint (.pptx) :

ارزیابی فرضیه ها مقدمه یک الگوریتم یادگیری با استفاده از داده های آموزشی فرضیه ای را بوجود میآورد . قبل از استفاده از این فرضیه ممکن است که لازم شود تا دقت این فرضیه مورد ارزیابی قرار گیرد . اینکار از دو جهت اهمیت دارد : دقت فرضیه را برای مثالهای نادیده حدس بزنیم . گاهی اوقات ارزیابی فرضیه جزئی از الگوریتم یادگیری است : مثل حرس کردن درخت تصمیم . Data Learning Hypothesis Algorithm Performance Assessment روشهای آماری در این فصل سعی میشود تا روشهای آماری مناسب برای حدس زدن دقت فرضیه ها معرفی گردند . مبنای کار در جهت پاسخگوئی به سه سوال زیر است : اگر دقت یک فرضیه برای داده های محدودی معلوم باشد دقت آن برای سایر مثالها چه قدر خواهد بود؟ اگر یک فرضیه برای داده های محدودی بهتر از فرضیه دیگری عمل کند احتمال اینکه این وضعیت در حالت کلی نیز صادق باشد چقدر است؟ وقتی که داده آموزشی اندکی موجود باشد بهترین راه برای اینکه هم فرضیه را یاد بگیریم و هم دقت آنرا اندازه گیری کنیم چیست؟ کمی داده های آموزشی وقتی که داده آموزشی محدود باشد این امکان وجود دارد که این مثالها نشان دهنده توزیع کلی داده ها نباشند مشکل کمی داده وقتی که یادگیری با استفاده از داده های محدودی انجام میشود دو مشکل ممکن است رخ دهند : Bias in the estimate دقت یک فرضیه بر روی مثالهای آموزشی تخمین مناسبی برای دقت آن برای مثالهای نادیده نیست . زیرا فرضیه یاد گرفته شده بر اساس این داده ها برای مثالهای آتی بصورت optimistic عمل خواهد نمود . برای رهائی از این امر میتوان از مجموعه داده ها ی تست استفاده کرد . Variance in the estimate حتی با وجود استفاده از مجموعه تست این امکان وجود دارد که خطای اندازه گیری شده با خطای واقعی اختلاف داشته باشد Bias and Variance in the Estimate sample size accuracy Estimated Accuracy True accuracy Variance Bias در یک مثال یادگیری میتوان برای فضای مثالهای ورودی یک تابع توزیع احتمال نامعلوم D در نظر گرفت که احتمال رخداد هر نمونه x را با p(x) مشخص مینماید . در اینصورت با دو سوال زیر مواجه هستیم : اگر فرضیه h و تعداد n نمونه داشته باشیم که بصورت تصادفی از مثالهائی با توزیع D انتخاب شده باشند، بهترین تخمین برای دقت h برای مثالهائی با همان توزیع چیست؟ خطای احتمالی در این تخمین دقت چقدر است؟ تخمین دقت فرضیه Input Space X p(X) خطای نمونه عبارت است از خطای فرضیه روی مجموعه مثالهای موجود ) آموزشی و یا تست ( خطای نمونه فرضیه h نسبت به تابع هدف f و داده نمونه s بصورت زیر بیان میشود : error s (h)= 1/n  xS (f(x),h(x)) که در ان n تعداد مثالهای s ومقدار (f(x),h(x)) برابر با 1 است اگر f(x)  h(x) و در غیر اینصورت برابر با 0 است . خطای نمونه و خطای واقعی خطای نمونه و خطای واقعی خطای واقعی عبارت است از خطای فرضیه روی مجموعه تمام مثالهای با توزیع نامعلوم D و برابر است با احتمال اینکه یک نمونه تصادفی به غلط دسته بندی شود . خطای واقعی فرضیه h نسبت به تابع هدف f و داده با توزیع D بصورت زیر بیان میشود : error D (h)= Pr xD [f(x)  h(x)] آنچه که در دست داریم خطای نمونه است در حالیکه آنچه که به دنبال آن هستیم خطای واقعی است . در اینصورت باید به این سوال پاسخ دهیم که خطای نمونه تا چه حد ی میتواند تخمین خوبی برای خطای واقعی باشد؟ مثال یک مجموعه داده 6 تائی با توزیع احتمال زیر وجود دارد : P(X1) = 0.2 P(X4) = 0.1 P(X2) = 0.1 P(X5) = 0.2 P(X3) = 0.3 P(X6) = 0.1 فرضیه h برای مجموعه نمونه {X1, X2, X3, X4} میتواند X1, X2, X3 را بدرستی دسته بندی کند ولی قادربه دسته بندی صحیح X4 نیست . دراین صورت خطای نمونه برابر است با : ¼ (0 + 0 + 0 + 1) = ¼ = 0.25 اگر این فرضیه برای X6 صحیح و برای X5 نادرست باشد در اینصورت خطای واقعی برابر است با : 0.2(0) + 0.1(0) + 0.3(0) + 0.1(1) + 0.2(1) + 0.1(0) = 0.3