گرانبار شدن اطلاعات یک مشکل عمده در وب کنونی به شمار میرود. برای مقابله با این مشکل، سیستمهای شخصیسازی وب ارائه شدهاند که محتوا و سرویسهای یک وبسایت را با افراد براساس علایق و رفتار گردشی آنها سازگار میکنند. یک مولفهی اساسی در هر سیستم شخصیسازی وب، مدل کاربر آن است. محتوای صفحات یک وبسایت را میتوان به منظور ایجاد مدل دقیقتری از کاربر مورد استفاده قرار داد، اما رویکردهای مبتنی بر کلمات کلیدی نگرش عمیقی از وبسایت ندارند. اخیرا تحقیقاتی برای ترکیب کردن معنای موجود در وبسایت در نمایش کاربران آن انجام شده است. تمامی این تلاشها یا از یک ردهبندی یا واژگان شناختی خاص و دست ساخته و یا از واژگانشناختیهای عمومی مانند WordNet برای نگاشت مشاهده صفحات به عناصر معنایی استفاده میکنند. با این وجود ساختن یک سلسله مراتب از مفاهیم بصورت دستی زمانبر و هزینهبر است. از سوی دیگر منابع معنایی لغوی عمومی از پوشش کم عبارات خاص دامنه رنج میبرند. در این پایان نامه ما قصد داریم که هر دوی این نقصها را برطرف کنیم. دستاورد اصلی ما این است که مکانیسمی برای بهبود نمایش کاربر در وبسایت بصورت خودکار و با استفاده از یک منبع معنایی لغوی جامع معرفی میکنیم. ما از Wikipedia، بزرگترین دایرهالمعارف امروزی به عنوان یک منبع غنی معنایی برای بهبود ساخت خودکار مدل برداری از علایق کاربر بهرهبرداری میکنیم. معماری ارائه شده شامل تعدادی مولفه است که عبارتند از: پیش پردازش اولیه، استخراج مفاهیم دامنهی وب سایت، استخراج کلمات کلیدی از وبسایت، سازندهی بردار کلمات کلیدی و نگاشت کلمات کلیدی به مفاهیم. دستاورد مهم دیگر استفاده از ساختار وب سایت برای محدود کردن خودکار مفاهیم خاص دامنه میباشد.
کلمات کلیدی: مدلسازی کاربر، کاوش Wikipedia، تکنیکهای معنایی ، شخصیسازی وب
فهرست مطالب
عنوان صفحه
1-1- دلایل نیاز به شخصیسازی وب 2
1-1-2- نیاز به جذب مشتری پابرجای برای وبسایت 3
1-3- فواید سیستم شخصیسازی وب 3
1-4- تفاوت شخصیسازی وب با تطبیق طرح کلی سایت 3
1-5- طبقهبندی عملکردهای اصلی شخصیسازی وب 4
1-6- نیازمندیهای اصلی سیستم شخصیسازی وب 5
1-7- رویکرد های موجود در شخصی سازی وب 6
1-8- نقش وب کاوی کاربرد وب در شخصیسازی وب 7
1-9- نیاز به استفاده از محتوا در شخصیسازی وب 7
1-10- نیاز به استفاده از معنا در شخصیسازی وب 8
1-13- رویکرد بکار رفته در تحقیق 10
2-1- شخصی سازی وب براساس وب کاوی کاربرد وب 12
2-1-1- آماده سازی و مدلسازی داده 14
2-1-1-1- منابع و انواع داده 15
2-1-1-1-1-2- منابع داده های کاربرد 17
2-1-1-1-4- داده های کاربران 22
2-1-1-2- آماده سازی و پیش پردازش دادهها 23
2-1-1-2-3- تشخیص مشاهده صفحه 26
2-1-1-2-4- تشخیص جلسه ی کاربر 26
2-1-1-2-7- پیش پردازش نهایی داده های کاربرد 30
2-1-1-2-8- یکپارچه سازی داده ها از منابع گوناگون 31
2-1-2- کشف الگو از داده های کاربرد وب 32
2-1-2-1- سطوح و انواع تحلیل 32
2-1-2-2- وظایف داده کاوی بر روی داده های کاربرد وب 33
2-1-2-2-1- کاوش قواعد انجمنی 34
2-1-2-2-2- کشف الگوهای ترتیبی 35
2-1-3- استفاده از الگوهای کشف شده جهت شخصی سازی وب 43
2-1-4- زمینه های تحقیقاتی شخصی سازی وب 43
2-2-3- واژگان شناختی و رده بندی 46
2-2-3-3- واژگان شناختی ها و رده بندی های موجود 49
2-2-3-3-1- واژگان شناختی های مربوط به یک دامنه ی خاص 49
2-2-3-3-2- واژگان شناختی های عمومی 49
2-2-3-3-2-3- دایرکتوری های وب 51
2-2-3-4- زبان های نمایش واژگان شناختی 52
2-2-4-1-1- نقاط ضعف و قوت Wikipedia 54
2-2-4-1-2- ساختار Wikipedia 55
2-2-4-1-3- انواع اطلاعات معنایی لغوی در Wikipedia 56
فصل سوم:کارهای انجام شده در زمینه مدلسازی کاربر در شخصی سازی وب با استفاده از محتوای وب 58
3- کارهای انجام شده در زمینه مدلسازی کاربر در شخصی سازی وب با استفاده از محتوای وب 59
3-1- تکنیک های مورد استفاده 60
3-1-2- تکنیک تحلیل معنایی پنهان 60
3-1-3- تکنیک های مربوط به محاسبه ی ارتباط معنایی دو کلمه 61
3-1-3-1- معیارهای ارتباط معنایی مهم در ساختارهای سلسله مراتبی 61
3-1-3-1-1- رویکردهای مبتنی بر مسیر 61
3-1-3-1-2- رویکردهای مبتنی بر محتوای اطلاعات 62
3-1-3-1-3- رویکردهای مبتنی بر همپوشانی متن 62
3-1-3-2- رویکردهای محاسبه ی ارتباط معنایی دو کلمه برای روابط غیر رابطه ی هست 63
3-1-3-3- کارهای انجام شده در مورد محاسبه ی ارتباط معنایی دو کلمه در Wikipedia 63
3-2- رویکردهای انجام شده در زمینه ی مدلسازی کاربر در وب سایت با استفاده از محتوای صفحات 64
3-2-1- رویکردهای بر مبنای کلمات کلیدی 65
3-2-2-2- روش های مبتنی بر سلسله مراتب 67
4-2-1- مولفه ی پیش پردازش اولیه ی ثبت 75
4-2-2- مولفه ی استخراج کلمات کلیدی از صفحات وب سایت 75
4-2-3- مولفه ی استخراج مفاهیم دامنه از وب سایت 78
4-2-4- مولفه ی سازنده ی بردار کلمات کلیدی 80
4-6- دیاگرام های UML قسمت های اصلی سیستم 84
4-7- بررسی تطابق طرح پیشنهادی با صورت مساله 85
فهرست اشکال
عنوان صفحه
شکل 2-1- مولفه های برون خطی آماده سازی داده و کشف الگو[Mobasher 2004]............... 13
شکل 2-2- مولفه برخط شخصیسازی وب [Mobasher 2004]........................................ 14
شکل 2-3- تراکنش HTTP.................................................................................... 15
شکل 2-4- URL و URI...................................................................................... 16
شکل 2-5- مکانهای جمعآوری دادههای کاربرد وب......................................................... 17
شکل 2-6- مثالی از مدل کردن رفتار گردشی کاربر با زنجیرهی مارکف..................................... 38
شکل 2-7- مثالی از مدل کردن رفتار گردشی در یک درخت تجمعی........................................ 39
شکل 2-8- مثالی از استخراج پروفایل های تجمعی کاربرد از خوشه های تراکنش ها....................... 41
شکل 2-9- بخشی از زمینههای تحقیقاتی شخصیسازی وب.................................................. 44
شکل 2-10- نمونهای از واژگان شناختی....................................................................... 47
شکل 2-11- نمونهای از یک ردهبندی.......................................................................... 49
جدول 2-1- مثال هایی از ارتباطات لغوی در WordNet................................................. 51
جدول 2-2- منابع اطلاعات معنایی لغوی در Wikipedia................................................. 56
شکل 3-1- استفاده از SVD برای تجزیه ماتریس d * t.................................................... 61
شکل 3-2- مفسر معنایی سیستم ESA [Gabrilovich 2007]...................................... 64
شکل 3-3- ماتریس session-page view [Zhang 2005]......................................... 66
شکل 3-4- تولید C-log [Eirinaki 2003 b].......................................................... 69
شکل 4-1- معماری کلی سیستم پیشنهادی..................................................................... 75
شکل 4-2- جزئیات مولفهی استخراج کلمات کلیدی.......................................................... 77
شکل 4-3- شبه کد مولفه استخراج کلمات کاندیدا............................................................. 77
شکل 4-4- شبه کد مولفه رتبهبندی کلمات کاندیدا............................................................ 78
شکل 4-5- جزئیات مولفهی استخراج مفاهیم دامنه............................................................ 79
شکل 4-6- شبه کد بخش فیلتر کردن کاندیدا................................................................... 80
جدول 4-1- بردارهای کلمات کلیدی صفحات وب سایت مثال1............................................ 81
جدول 4-2- بردارهای کلمات کلیدی جلسهی داده شده در مثال1............................................ 81
شکل 4-7- شبه کد مولفه سازنده بردار کلمات کلیدی......................................................... 82
شکل 4-8- شبه کد مولفهی نگاشت............................................................................. 83
جدول 4-3- کلمات کلیدی و وزنهای فرضی آنها در مثال 2.................................................. 83
جدول 4-4- مفاهیم موجود در صفحات جلسات کاربر به همراه وزنهای آنها در مثال 2.................... 83
شکل 4-9- class diagram مولفه های اصلی سیستم................................................... 84
شکل 4-10- sequence diagram بخش اصلی سیستم................................................ 86
فهرست جدول ها
عنوان صفحه
جدول 2-1- مثال هایی از ارتباطات لغوی در WordNet................................................. 66
جدول 2-2- منابع اطلاعات معنایی لغوی در Wikipedia................................................. 73
جدول 2-3- مقایسه ی انواع منابع معنایی لغوی جهت استفاده در شخصی سازی وب..................... 74
جدول 4-1- بردارهای کلمات کلیدی صفحات وب سایت مثال1.......................................... 110
جدول 4-2- بردارهای کلمات کلیدی جلسه ی داده شده در مثال1......................................... 110
جدول 4-3- کلمات کلیدی و وزن های فرضی آنها در مثال 2.............................................. 112
جدول 4-4- مفاهیم موجود در صفحات جلسات کاربر به همراه وزن های آنها در مثال 2................ 112
فصل اول: مقدمه
1- مقدمه مقدمه
در این فصل دلیل پرداختن به موضوع پروژه و صورت مساله آن مورد بررسی قرار میگیرد. برای این منظور ابتدا مقدماتی در رابطه با شخصیسازی وب، دلیل مطرح شدن آن، مولفه های اصلی و مشکلات آن به اختصار مطالبی ارائه میشود. در این میان به لزوم استفاده از معنا در فرآیند شخصیسازی وب اشاره شده و مدل کاربر به عنوان یک مولفه از سیستم شخصیسازی وب به منظور بهبود با استفاده از معنا مورد انتخاب قرار میگیرد. سپس مسالهای که پایان نامه سعی در حل آن دارد مطرح میگردد. در انتها رویکرد بکار رفته در تحقیق و ساختار پایان نامه ارائه میشود.
1-1- دلایل نیاز به شخصیسازی وب 1-1-1- گرانبار شدن اطلاعات
وب جهانی منبعی عظیم از اطلاعات را فراهم آورده است. در بررسیهای گوناگون انجام شده در زمینهی گسترش وب تخمین زده شده است که روزانه بیش از یک میلیون صفحه به وب اضافه میشود و بیش از 600 گیگابایت از صفحات در هر ماه تغییر میکنند[Nasraoui 2008] و[Achananuparp 2007] . این پدیده که گرانبار شدن اطلاعات نامیده میشود مشکلاتی را برای کاربران وب بوجود آورده است.
از مهمترین این مشکلات عدم دسترسی آسان به اطلاعات مورد نیاز میباشد. در این انبارهی عظیم کاربران در یافتن اطلاعات مورد نیاز خود در زمان مناسب و بصورت آسان دچار مشکل هستند زیرا از یک سو باید میزان ربط هر صفحه را با نیاز خود بررسی کنند و از سوی دیگر باید صفحات را از نظر میزان قابلیت اعتماد ارزیابی کنند.
برای رفع این مشکل در دهههای اخیر سیستمهای بازیابی اطلاعات و به تبع آن موتورهای جستجو ایجاد شدند که محتوای صفحات وب را اندیسگذاری میکنند و صفحات مرتبط با پرسش کاربر را برمیگردانند اما این تکنولوژیها دو مشکل دارند:
- حجم اطلاعاتی که موتورهای جستجو به کاربر تحویل میدهند بسیار بیشتر از آن است که قابل پردازش توسط کاربر باشد.
بیشتر موتورهای جستجوی معروف موجود در وب تنها از محتوای صفحات و ساختار ارتباطی موجود بین آنها برای ارزیابی میزان ربط صفحات با پرسش کاربر استفاده میکنند. از این رو برایشان اهمیت ندارد که پرسش توسط چه کسی و با چه علایق و دانش پیشزمینهای وارد شده
بهبود مدل کاربر در وب¬سایت بصورت خودکار با استفاده از معناشناسی با مفاهیم خاص دامنه