پاورپوینت دیکشنری و بازیابی مقاوم (pptx) 41 اسلاید
دسته بندی : پاورپوینت
نوع فایل : PowerPoint (.pptx) ( قابل ویرایش و آماده پرینت )
تعداد اسلاید: 41 اسلاید
قسمتی از متن PowerPoint (.pptx) :
بنام خدا
دیکشنری و بازیابی مقاوم
(tolerant retrieval)
یادآوری
تمایز توکن/نوع
لغات نرمال شده در دیکشنری قرار می گیرند.
مشکلات توکن بندی
لغات هم ارز
اعداد – حساسیت به بزرگ و کوچک بودن حروف – ریشه یابی
پرش اشاره گرها
نمایه های دو کلمه ای (biword) برای عبارات
نمایه های موقعیتی برای پرس و جوی اصطلاحی
3
این جلسه
ساختار داده ای دیکشنری
بازیابی مقاوم (Tolerant retrieval)
پرس و جوی جایگزین (wild-card)
تصحیح املائی
Soundex (تصحیح آوائی)
4
ساختار داده ای دیکشنری برای نمایه معکوس
ساختار داده ای دیکشنری لغات، شماره اسناد، اشاره گر به postings و ... را در خود ذخیره می کند.
5
یک دیکشنری ساده
یک آرایه از ساختار
char[20] int Postings *
20 bytes 4/8 bytes 4/8 bytes
چگونه یک دیکشنری بصورت کارا در حافظه ذخیره می شود؟
چگونه یک عنصر در زمان کوتاهی پیدا می شود؟
6
ساختارهای داده ای دیکشنری
دو انتخاب:
جدول درهم سازی (Hashtables)
درخت ها (Trees)
بعضی از سیستم های IR از جدول درهم سازی استفاده می کنند و بعضی دیگر از درخت ها
7
جدول درهم سازی
هر لغت به یک عدد درهم سازی می شود.
(فرض می شود که جدول درهم سازی از قبل موجود می باشد)
موافقان
جستجو و بازیابی سریعتر از درخت انجام می شود.
O(1)
مخالفین
روش مناسبی برای یافتن تفاوت های بسیار ناچیز نمی باشد.
Judgment / judgement
قادر به جستجوی همه اصطلاحات شروع شده با یک پیشوند خاص نمی باشد.
در محیطی مانند وب که اندازه مجموعه واژگان در حال رشد می باشد، یک تابع درهم سازی برای نیازهای فعلی، ممکن است برای چند سال آینده کافی نباشد.
8
جدول درهم سازی
هر عبارت دیکشنری به یک عدد صحیح روی فضایی که به اندازه کافی بزرگ است و تصادم در آن بعید بوده، درهم سازی می شود.
در زمان پرس و جو، ما عبارت جستجو را بصورت جداگانه درهم سازی می کنیم.
9