هایدی

مرجع دانلود فایل ,تحقیق , پروژه , پایان نامه , فایل فلش گوشی

هایدی

مرجع دانلود فایل ,تحقیق , پروژه , پایان نامه , فایل فلش گوشی

بهبود مدل کاربر در وب¬سایت بصورت خودکار با استفاده از معناشناسی با مفاهیم خاص دامنه

اختصاصی از هایدی بهبود مدل کاربر در وب¬سایت بصورت خودکار با استفاده از معناشناسی با مفاهیم خاص دامنه دانلود با لینک مستقیم و پر سرعت .
چکیده

گرانبار شدن اطلاعات یک مشکل عمده در وب کنونی به شمار می­رود. برای مقابله با این مشکل، سیستم­های شخصی­سازی وب ارائه شده­اند که محتوا و سرویس­های یک وب­سایت را با افراد براساس علایق و رفتار گردشی آن­ها سازگار می­کنند. یک مولفه­ی اساسی در هر سیستم شخصی­سازی وب، مدل کاربر آن است. محتوای صفحات یک وب­سایت را می­توان به منظور ایجاد مدل دقیق­تری از کاربر مورد استفاده قرار داد، اما رویکردهای مبتنی بر کلمات کلیدی نگرش عمیقی از وب­سایت ندارند. اخیرا تحقیقاتی برای ترکیب کردن معنای موجود در وب­سایت در نمایش کاربران آن انجام شده است. تمامی این تلاش­ها یا از یک رده­بندی یا واژگان شناختی خاص و دست ساخته و یا از واژگان­شناختی­های عمومی مانند WordNet برای نگاشت مشاهده صفحات به عناصر معنایی استفاده می­کنند. با این وجود ساختن یک سلسله مراتب از مفاهیم بصورت دستی زمان­بر و هزینه­بر است. از سوی دیگر منابع معنایی لغوی عمومی از پوشش کم عبارات خاص دامنه رنج می­برند. در این پایان نامه ما قصد داریم که هر دوی این نقص­ها را برطرف کنیم. دستاورد اصلی ما این است که مکانیسمی برای بهبود نمایش کاربر در وب­سایت بصورت خودکار و با استفاده از یک منبع معنایی لغوی جامع معرفی می­کنیم. ما از Wikipedia، بزرگ­ترین دایره­المعارف امروزی به عنوان یک منبع غنی معنایی برای بهبود ساخت خودکار مدل برداری از علایق کاربر بهره­برداری می­کنیم. معماری ارائه شده شامل تعدادی مولفه است که عبارتند از: پیش پردازش اولیه، استخراج مفاهیم دامنه­ی وب سایت، استخراج کلمات کلیدی از وب­سایت، سازنده­ی بردار کلمات کلیدی و نگاشت کلمات کلیدی به مفاهیم. دستاورد مهم دیگر استفاده از ساختار وب سایت برای محدود کردن خودکار مفاهیم خاص دامنه می­باشد.

 

کلمات کلیدی: مدلسازی کاربر، کاوش Wikipedia، تکنیک­های معنایی ، شخصی­سازی وب

 

 

     

 

    

 

 


فهرست مطالب

عنوان                                                                                                                   صفحه

فصل اول:مقدمه  1

1- مقدمه  2

1-1- دلایل نیاز به شخصیسازی وب   2

1-1-1- گرانبار شدن اطلاعات   2

1-1-2- نیاز به جذب مشتری پابرجای برای وبسایت   3

1-2- تعریف شخصیسازی وب   3

1-3- فواید سیستم شخصیسازی وب   3

1-4- تفاوت شخصیسازی وب با تطبیق طرح کلی سایت   3

1-5- طبقهبندی عملکردهای اصلی شخصیسازی وب   4

1-6- نیازمندیهای اصلی سیستم شخصیسازی وب   5

1-7- رویکرد های موجود در شخصی سازی وب   6

1-8- نقش وب کاوی کاربرد وب در شخصیسازی وب   7

1-9- نیاز به استفاده از محتوا در شخصیسازی وب   7

1-10- نیاز به استفاده از معنا در شخصیسازی وب   8

1-11- هدف پروژه 9

1-12- نحوهی گردآوری مراجع  9

1-13- رویکرد بکار رفته در تحقیق  10

1-14- ساختار پایان نامه 10

فصل دوم:مطالب پیش زمینه  11

2- مطالب پیش زمینه  12

مقدمه  12

2-1- شخصی سازی وب براساس وب کاوی کاربرد وب   12

2-1-1- آماده سازی و مدلسازی داده 14

2-1-1-1- منابع و انواع داده 15

2-1-1-1-1- داده های کاربرد 15

2-1-1-1-1-1- فرمت های ثبت   16

2-1-1-1-1-2- منابع داده های کاربرد 17

2-1-1-1-2- داده های محتوا 21

2-1-1-1-3- داده های ساختار 22

2-1-1-1-4- داده های کاربران  22

2-1-1-2- آماده سازی و پیش پردازش دادهها 23

2-1-1-2-1- پاکسازی داده ها 23

2-1-1-2-2- شناسایی کاربر  24

2-1-1-2-3- تشخیص مشاهده صفحه 26

2-1-1-2-4- تشخیص جلسه ی کاربر  26

2-1-1-2-5- تکمیل مسیر  27

2-1-1-2-6- تشخیص تراکنش    28

2-1-1-2-7- پیش پردازش نهایی داده های کاربرد 30

2-1-1-2-8- یکپارچه سازی داده ها از منابع گوناگون  31

2-1-2- کشف الگو از داده های کاربرد وب   32

2-1-2-1- سطوح و انواع تحلیل  32

2-1-2-2- وظایف داده کاوی بر روی داده های کاربرد وب   33

2-1-2-2-1- کاوش قواعد انجمنی  34

2-1-2-2-2- کشف الگوهای ترتیبی  35

2-1-2-2-3- خوشه بندی  40

2-1-3- استفاده از الگوهای کشف شده جهت شخصی سازی وب   43

2-1-4- زمینه های تحقیقاتی شخصی سازی وب   43

2-2- منابع معنایی لغوی  45

2-2-1- فرهنگ لغت   45

2-2-2- فرهنگ های جامع  45

2-2-3- واژگان شناختی و رده بندی  46

2-2-3-2- رده بندی  48

2-2-3-3- واژگان شناختی ها و رده بندی های موجود 49

2-2-3-3-1- واژگان شناختی های مربوط به یک دامنه ی خاص    49

2-2-3-3-2- واژگان شناختی های عمومی  49

2-2-3-3-2-1- CYC و OpenCYC   50

2-2-3-3-2-2- WordNet 50

2-2-3-3-2-3- دایرکتوری های وب   51

2-2-3-4- زبان های نمایش واژگان شناختی  52

2-2-4- فرهنگ های عمومی  53

2-2-4-1- Wikipedia  53

2-2-4-1-1- نقاط ضعف و قوت Wikipedia  54

2-2-4-1-2- ساختار Wikipedia  55

2-2-4-1-3- انواع اطلاعات معنایی لغوی در Wikipedia  56

فصل سوم:کارهای انجام شده در زمینه مدلسازی کاربر در شخصی سازی وب با استفاده از محتوای وب   58

3- کارهای انجام شده در زمینه مدلسازی کاربر در شخصی سازی وب با استفاده از محتوای وب   59

مقدمه  59

3-1- تکنیک های مورد استفاده 60

3-1-1- تکنیک tf-idf 60

3-1-2- تکنیک تحلیل معنایی پنهان  60

3-1-3- تکنیک های مربوط به محاسبه ی ارتباط معنایی دو کلمه 61

3-1-3-1- معیارهای ارتباط معنایی مهم در ساختارهای سلسله مراتبی  61

3-1-3-1-1- رویکردهای مبتنی بر مسیر  61

3-1-3-1-2- رویکردهای مبتنی بر محتوای اطلاعات   62

3-1-3-1-3- رویکردهای مبتنی بر همپوشانی متن  62

3-1-3-2- رویکردهای محاسبه ی ارتباط معنایی دو کلمه برای روابط غیر رابطه ی هست   63

3-1-3-3- کارهای انجام شده در مورد محاسبه ی ارتباط معنایی دو کلمه در Wikipedia  63

3-2- رویکردهای انجام شده در زمینه ی مدلسازی کاربر در وب سایت با استفاده از محتوای صفحات   64

3-2-1- رویکردهای بر مبنای کلمات کلیدی  65

3-2-2- رویکردهای معنایی  66

3-2-2-1- روش های آماری  66

3-2-2-2- روش های مبتنی بر سلسله مراتب   67

جمع بندی   72

فصل چهارم: 73

روش پیشنهادی   73

4- روش پیشنهادی   74

4- روش پیشنهادی   74

مقدمه  74

4-1- تعریف مساله  74

4-2- طراحی روش جدید  74

4-2-1- مولفه ی پیش پردازش اولیه ی ثبت   75

4-2-2- مولفه ی استخراج کلمات کلیدی از صفحات وب سایت   75

4-2-3- مولفه ی استخراج مفاهیم دامنه از وب سایت   78

4-2-4- مولفه ی سازنده ی بردار کلمات کلیدی  80

4-2-5- مولفه ی نگاشت   82

4-6- دیاگرام های UML قسمت های اصلی سیستم  84

4-7- بررسی تطابق طرح پیشنهادی با صورت مساله 85

جمع بندی   86

منایع  87


فهرست اشکال

عنوان                                                                                                                 صفحه

شکل 2-1- مولفه های برون خطی آماده سازی داده و کشف الگو[Mobasher 2004]............... 13

شکل 2-2- مولفه برخط شخصیسازی وب [Mobasher 2004]........................................ 14

شکل 2-3- تراکنش HTTP.................................................................................... 15

شکل 2-4- URL و URI...................................................................................... 16

شکل 2-5- مکانهای جمعآوری دادههای کاربرد وب......................................................... 17

شکل 2-6- مثالی از مدل کردن رفتار گردشی کاربر با زنجیرهی مارکف..................................... 38

شکل 2-7- مثالی از مدل کردن رفتار گردشی در یک درخت تجمعی........................................ 39

شکل 2-8- مثالی از استخراج پروفایل های تجمعی کاربرد از خوشه های تراکنش ها....................... 41

شکل 2-9- بخشی از زمینههای تحقیقاتی شخصیسازی وب.................................................. 44

شکل 2-10- نمونهای از واژگان شناختی....................................................................... 47

شکل 2-11- نمونهای از یک ردهبندی.......................................................................... 49

جدول 2-1- مثال هایی از ارتباطات لغوی در WordNet................................................. 51

جدول 2-2- منابع اطلاعات معنایی لغوی در Wikipedia................................................. 56

شکل 3-1- استفاده از SVD برای تجزیه ماتریس d * t.................................................... 61

شکل 3-2- مفسر معنایی سیستم ESA [Gabrilovich 2007]...................................... 64

شکل 3-3- ماتریس session-page view [Zhang 2005]......................................... 66

شکل 3-4- تولید C-log [Eirinaki 2003 b].......................................................... 69

شکل 4-1- معماری کلی سیستم پیشنهادی..................................................................... 75

شکل 4-2- جزئیات مولفهی استخراج کلمات کلیدی.......................................................... 77

شکل 4-3- شبه کد مولفه استخراج کلمات کاندیدا............................................................. 77

شکل 4-4- شبه کد مولفه رتبهبندی کلمات کاندیدا............................................................ 78

شکل 4-5- جزئیات مولفهی استخراج مفاهیم دامنه............................................................ 79

شکل 4-6- شبه کد بخش فیلتر کردن کاندیدا................................................................... 80

جدول 4-1- بردارهای کلمات کلیدی صفحات وب سایت مثال1............................................ 81

جدول 4-2- بردارهای کلمات کلیدی جلسهی داده شده در مثال1............................................ 81

شکل 4-7- شبه کد مولفه سازنده بردار کلمات کلیدی......................................................... 82

شکل 4-8- شبه کد مولفهی نگاشت............................................................................. 83

جدول 4-3- کلمات کلیدی و وزنهای فرضی آنها در مثال 2.................................................. 83

جدول 4-4- مفاهیم موجود در صفحات جلسات کاربر به همراه وزنهای آنها در مثال 2.................... 83

شکل 4-9- class diagram مولفه های اصلی سیستم................................................... 84

شکل 4-10- sequence diagram بخش اصلی سیستم................................................ 86


فهرست جدول ها

عنوان                                                                                                                  صفحه

 

جدول 2-1- مثال هایی از ارتباطات لغوی در WordNet................................................. 66

جدول 2-2- منابع اطلاعات معنایی لغوی در Wikipedia................................................. 73

جدول 2-3- مقایسه ی انواع منابع معنایی لغوی جهت استفاده در شخصی سازی وب..................... 74

جدول 4-1- بردارهای کلمات کلیدی صفحات وب سایت مثال1.......................................... 110

جدول 4-2- بردارهای کلمات کلیدی جلسه ی داده شده در مثال1......................................... 110

جدول 4-3- کلمات کلیدی و وزن های فرضی آنها در مثال 2.............................................. 112

جدول 4-4- مفاهیم موجود در صفحات جلسات کاربر به همراه وزن های آنها در مثال 2................ 112

 


 

 

  فصل اول: مقدمه

1- مقدمه مقدمه

در این فصل دلیل پرداختن به موضوع پروژه و صورت مساله آن مورد بررسی قرار می­گیرد. برای این منظور ابتدا مقدماتی در رابطه با شخصی­سازی وب، دلیل مطرح شدن آن، مولفه های اصلی و مشکلات آن به اختصار مطالبی ارائه می­شود. در این میان به لزوم استفاده از معنا در فرآیند شخصی­سازی وب اشاره شده و مدل کاربر به عنوان یک مولفه از سیستم شخصی­سازی وب به منظور بهبود با استفاده از معنا مورد انتخاب قرار می­گیرد. سپس مساله­ای که پایان نامه سعی در حل آن دارد مطرح می­گردد. در انتها رویکرد بکار رفته در تحقیق و ساختار پایان نامه ارائه می­شود.

1-1- دلایل نیاز به شخصی­سازی وب 1-1-1- گرانبار شدن اطلاعات

وب جهانی منبعی عظیم از اطلاعات را فراهم آورده است. در بررسی­های گوناگون انجام شده در زمینه­ی گسترش وب تخمین زده شده است که روزانه بیش از یک میلیون صفحه به وب اضافه می­شود و بیش از 600 گیگابایت از صفحات در هر ماه تغییر می­کنند[Nasraoui 2008] و[Achananuparp 2007] . این پدیده که گرانبار شدن اطلاعات نامیده می­شود مشکلاتی را برای کاربران وب بوجود آورده است.

از مهم­ترین این مشکلات عدم دسترسی آسان به اطلاعات مورد نیاز می­باشد. در این انباره­ی عظیم کاربران در یافتن اطلاعات مورد نیاز خود در زمان مناسب و بصورت آسان دچار مشکل هستند زیرا از یک سو باید میزان ربط هر صفحه را با نیاز خود بررسی کنند و از سوی دیگر باید صفحات را از نظر میزان قابلیت اعتماد ارزیابی کنند.

برای رفع این مشکل در دهه­های اخیر سیستم­های بازیابی اطلاعات و به تبع آن موتورهای جستجو ایجاد شدند که محتوای صفحات وب را اندیس­گذاری می­کنند و صفحات مرتبط با پرسش کاربر را برمی­گردانند اما این تکنولوژی­ها دو مشکل دارند:

  • حجم اطلاعاتی که موتورهای جستجو به کاربر تحویل می­دهند بسیار بیشتر از آن است که قابل پردازش توسط کاربر باشد.

بیشتر موتورهای جستجوی معروف موجود در وب تنها از محتوای صفحات و ساختار ارتباطی موجود بین آن­ها برای ارزیابی میزان ربط صفحات با پرسش کاربر استفاده می­کنند. از این رو برایشان اهمیت ندارد که پرسش توسط چه کسی و با چه علایق و دانش پیش­زمینه­ای وارد شده


دانلود با لینک مستقیم


بهبود مدل کاربر در وب¬سایت بصورت خودکار با استفاده از معناشناسی با مفاهیم خاص دامنه