هایدی

مرجع دانلود فایل ,تحقیق , پروژه , پایان نامه , فایل فلش گوشی

هایدی

مرجع دانلود فایل ,تحقیق , پروژه , پایان نامه , فایل فلش گوشی

مقاله افزایش حجم اطلاعات ذخیره شده

اختصاصی از هایدی مقاله افزایش حجم اطلاعات ذخیره شده دانلود با لینک مستقیم و پر سرعت .

مقاله افزایش حجم اطلاعات ذخیره شده


مقاله افزایش حجم اطلاعات ذخیره شده

لینک پرداخت و دانلود *پایین مطلب*

 

فرمت فایل:Word (قابل ویرایش و آماده پرینت)

 

تعداد صفحه:15

فهرست و توضیحات:

مقدمه:

تعیین میزان مرتبط بودن هر مستند به نیاز اطلاعاتی کاربر:

تفاوت بازیابی داده و بازیابی اطلاعات:

ذخیره وبازیابی اطلاعات

تعاریف اولیه:

نوع موجودیت:

 با افزایش حجم اطلاعات ذخیره شده در منابع مختلف قابل دسترس، بحث بازیابی این اطلاعات اهمیت ویژه ای یافته است. بازیابی اطلاعات دقیقا به فرایند استخراج مجموعه اطلاعات مورد نظر فرد اطلاق می شود. اطلاعات بازیابی شده می توانند تمامی منابع ممکن باشند. مانند متن، تصویر، صوت، ویدئو، و ...

هم اکنون بازیابی اطلاعات در حوزه ی متن توجه بیشتری از محققان را به خود جلب کرده است. مسلما همه ی شما هم با سیستم های بازیابی اطلاعات از اینترنت کار کرده اید. سیستم های Google ، MSN ، Yahoo سه نمونه از محبوب ترین این سیستم ها هستند.

مدل کردن کل اطلاعات برای بازیابی اطلاعات اولین کاری که هر سیستم باید انجام دهد این است که مدلی برای توصیف و تعیین شباهت میان اطلاعاتی که در اختیار دارد تعریف کند. سه مدل مهم در حوزه ی بازیابی اطلاعات مدل دودویی، مدل برداری، و مدل احتمالی هستند.

در مدل دودویی هر مستند یا document ، بصورت کیفی پر از تعدادی کلمه در نظر گرفته می شود. (Bag or word) در مدل برداری، هر مستند را به صورت برداری از کلمات در نظر می گیریم و در واقع، در این مدل، فضایی چند بعدی که ابعاد آنرا کلمات تشکیل می دهند ایجاد می کنیم. و سپس هر مستند در این فضا بصورت یک بردار نمایش داده می شود. موئلفه های این بردار مستند، در واقع وزن هایی هستند که نشان می دهند هر یک از کلمات چقدر در متمایز کردن مستند دخیل هستند. در مدل احتمالی ، به هر مستند احتمالی اختصاص داده می شود که مربوط بودن آن مستند را به نیاز کاربر به صورت احتمالی بین صفر و یک بیان می کند.

 

 بعد از تعریف این مدل، سیستم اکنون آماده است که نیاز اطلاعاتی کاربر را دریافت کند. معمولا کاربران نیاز اطلاعاتی خود را در قالب چندین کلمه و یا عبارات معمولی به سیستم بیان می کنند. سیستم سپس بر اساس مدلی که اطلاعات را در آن مدل کرده است، میزان مرتبط بودن هر مستند را با نیاز اطلاعاتی کاربر محاسبه می کند و آن مستنداتی که از همه مربتط تر تشخیص داده شده اند را به عنوان خروجی باز می گرداند.

در مدل دودویی، نیاز اطلاعاتی کاربر بصورت عبارتی منطقی با عملگر های AND , OR, NOT بیان می شود و هر مستندی که این عبارت در مورد آن صحیح باشد بازیابی می شود. مثلا اگر نیاز اطلاعاتی بصورت Iran AND Oil بیان شود، تمامی مستنداتی که کلمه ی Iran و Oil را با هم دارند به کاربر نمایش داده می شوند. متاسفانه در مدل دودویی مستند یا مرتبط است و یا نیست. هیچ معیاری برای سنجش میزان مرتبط بودن وجود ندارد. مثلا دو مستندی که یکی تماما در مورد ایران و نفت بحث می کند و دیگری در مورد اقتصاد جهانی صحبت می کند و فقط از نام ایران و نفت به عنوان مثالی در یک جمله استفاده کرده است، از نظر سیستم تفاوتی نیست. در صورتیکه در واقع مستند اول بیشتر به نیاز کاربر مربوط است.

در مدل برداری، برای سنجش میزان مرتبط بودن مستندات و نیاز اطلاعاتی کاربر، سیستم دقیقا به مانند قبل نیاز اطلاعاتی کاربر را هم به فضای چند بعدی از کلمات می برد و در نتیجه برای سنجش میزان شباهت میان این دو بردار می توان از زاویه ای که این دو بردار با هم می سازند استفاده کرد. مستنداتی که با نیاز اطلاعاتی کاربر دقیقا هم جهت هستند مسلما نسبت کلماتشان به همان نسبت کلمات نیاز اطلاعاتی است و در نتیجه مرتبط تر خواهند بود. برتری این مدل این است که به ما درجه ای از مرتبط بودن را می دهد.

در مدل احتمالی هم به ازای هر نیاز اطلاعاتی، تمامی مستندات بر اساس احتمال اینکه این مستند با نیاز اطلاعاتی مرتبط باشد مرتب می شوند و لیست مستندات در نهایت به صورت درجه بندی شده (مانند مدل برداری) به کاربر نمایش داده می شود به نحوی که اولین مستندی که کاربر می بیند از همه بیشتر احتمال دارد که به نیاز او مرتبط باشد.

 

 بین بازیابی اطلاعات و بازیابی داده تفاوت های زیادی وجود دارد. داده ها ابهام ندارند. اما اطلاعات نیاز به تفسیر دارد و در نتیجه مبهم می شوند. سیستم بازیابی داده نیاز به رفع این ابهام ها را ندارد اما در سیستم بازیابی اطلاعات باید هر چه بهتر اطلاعات را مدل کنیم تا ابهام ها در درک اطلاعات توسط سیستم کمتر شوند. برای همین است که بر خلاف سیستم های بازیابی داده که کارایی سیستم از نظر سرعت و فضا به عنوان معیار ارزیابی در نظر گرفته می شود، در سیستم های بازیابی اطلاعات، معیار دقت و یادآوری و معیارهایی شبیه به آنها بیشتر به عنوان معیار ارزیابی سیستم به کار
 می روند.

معیار های ارزیابی معیار دقت به حاصل تقسیم تعداد مستندات بازیابی شده ی واقعا مرتبط ، به تعداد کل مستندات بازیابی شده گفته می شود. و معیار یادآوری هم به حاصل تقسیم تعداد مستندات بازیابی شده ی مرتبط، به تعداد کل مستندات مرتبطی که در مجموعه ی اطلاعاتی موجود بوده است.

 

 


دانلود با لینک مستقیم


مقاله افزایش حجم اطلاعات ذخیره شده