توضیحات:
تحقیق تحلیل احساسات با استفاده از خوشهبندی گروهی مبتنی بر Kmeans++، در قالب فایل Word.
چکيده
تحلیل احساسات یکی از زیرشاخههای پردازش زبان طبیعی است که هدف آن طبقهبندی متون با توجه به احساسات و یا نگرشهای بیانشده هست و به دنبال طراحی ابزاری جهت استخراج خودکار احساسات از مرورهای منتشرشده بر روی شبکههای اجتماعی است. تحلیل احساسات کاربران، یکی از مهمترین منابع برای مشخص کردن احساسات عمومی است و اطلاعات ارزشمندی از جنبهی مثبت و منفی یک موضوع مشخص را استخراج میکند. امروزه این حوزه از تحقیق به علت گسترش روزافزون وب و رسانههای ارتباطی اهمیت بسیاری یافته است. دو روش یادگیری ماشین و مبتنی بر لغتنامه جهت استخراج خودکار معنایی و تحلیل احساسات وجود دارد. در سالهای اخیر پژوهشهای مختلفی درزمینه استفاده از روشهای یادگیری ماشین برای تحلیل احساسات انجامشده است. روشهای یادگیری ماشین به سه دستهی با ناظر، نیمه ناظر و بدون ناظر تقسیمبندی شدهاند. درزمینه تحلیل احساسات، اغلب از مدلهای با ناظر استفاده میکنند. درروش های با ناظر نیاز به تعداد زیادی داده برچسبگذاری شده وجود دارد تا بتوانند مدل طبقه بند موردنظر را آموزش دهند که این برچسبگذاری دستی معمولاً پرهزینه و زمانبر است و با مشکل وابستگی به حوزه کاربرد مواجه هستند. هدف این پژوهش، توصیف یک رویکرد کاملاً خودکار و بدون ناظر برای تحلیل احساسات هست که شامل دو مرحله تحلیل متنی و یادگیری گروهی بدون ناظر است. در پیادهسازی هر دو مرحله، از یک مجموعه از لغات احساسی SentiWordNet، استفادهشده است. در این پژوهش، ویژگیهای صفت و قید از اسناد استخراج میشوند و سپس ماتریسهای وزندار حضور و فرکانس و Vsm ها از مجموعههای داده ایجاد میشوند و این ماتریسها بهعنوان ورودی به الگوریتم خوشهبندی Kmeans و gmm داده میشوند. همچنین از یک روش یادگیری گروهی استفاده میشود که نتایج حاصل از الگوریتمهای پایه با ورودیهای مختلف به یک الگوریتم Mojority voting داده میشود و طبقهبندی نهایی احساسات متون انجام میشود. همچنین، بهجای الگوریتم Kmeans از الگوریتمهای Kmeans++ استفاده میشود. نتایج ارزیابی بر روی دو مجموعه داده خطوط هوایی استرالیا و سازندگان خانه (در استرالیا) نشان میدهند که روش پیشنهادی در مقایسه با روشهای دیگر کارایی خوشهبندی را ازلحاظ دقت، پایداری و تعمیمپذیری، بهبود میبخشند.
سرفصل ها:
فصل 1- مقدمه و بیان مسئله 11
1-1- مقدمه12
1-2- بیان مسأله 12
1-3- اهمیت و ضرورت پژوهش 14
1-4- اهداف پژوهش 15
1-5- سؤالات پژوهش 15
1-6- فرضیه پژوهش 16
1-7- نوآوری پژوهش 16
1-8- ساختار پژوهش 16
فصل 2- پیشینه تحقیق 18
2-1- مقدمه19
2-2- تعریف واژهها و اصطلاحات پژوهش 20
2-2-1- سطوح و رویکردهای تحلیل احساسات 20
2-2-2- قوانین زبانشناسی 22
2-2-3- روشهای تحلیل احساسات 23
2-2-3-1- روشهای مبتنی بر یادگیری ماشین 23
2-2-3-2- روشهای مبتنی بر واژگان 25
2-2-3-3- روشهای ترکیبی… 26
2-2-4- یادگیری گروهی (یادگیری تجمعی) 27
2-2-5- انواع ویژگی… 28
2-2-5-1- ویژگیهای نحوی 28
2-2-6- واژهنامه لغات حسی 29
2-2-6-1- شبکه واژگان 30
2-2-7- تبدیل متن به بردارهای عددی 32
2-2-7-1- هدف از استخراج ویژگیهای عددی از متن 32
2-2-8- رویکردهای مختلف بازنمایی برداری متون 32
2-2-8-1- مدل بردار کلمات با رویکرد کیف کلمات 34
2-2-8-2-مدل بردار کلمات با رویکرد بازنمایی معنایی توزیع شده 36
2-2-8-3-مدلهای مستقل از زمینه کلمات 37
2-2-8-4-مدلهای مبتنی بر زمینه کلمات 41
2-2-9-انواع الگوریتمهای خوشهبندی 43
2-2-9-1- الگوریتم K-Means 43
2-2-9-2- الگوریتم++K-Means 44
2-2-9-3- الگوریتم خوشهبندی سلسله مراتبی (AHC) 44
2-2-9-4- الگوریتم خوشهبندی فازی 45
2-2-9-5- الگوریتم k-medoids 46
2-2-9-6- الگوریتم GMM 46
2-2-9-7- الگوریتم clara 47
2-2-9-8- الگوریتم DBSCAN 47
2-2-10- ارزیابی عملکرد روشهای دستهبندی متن 47
2-2-10-1-معیار صحت 48
2-2-10-2-معیار یادآوری 48
2-2-10-3-معیار دقت 49
2-2-10-4-معیار امتیاز F1 50
2-2-11-روش اعتبارسنجی متقابل 50
2-3- پیشینه پژوهشی 51
فصل 3- روش پیشنهادی 63
3-1- مقدمه 64
3-2- روش پیشنهادی 65
3-2-1- پیشپردازش و تحلیل متنی خودکار 66
3-2-1-1- پیادهسازی sentiwordnet 69
3-2-1-2- تصحیح غلط املایی…. 69
3-2-1-3- مدیریت نفی…….. 70
3-2-1-4- مدیریت کنتراست70
3-2-2- مرحله پردازش 71
3-2-2-2-سنتی وردنت پیدا کردن فضای برداری(تولید 12 ماتریس دیگر) 74
3-2-2-3-الگوریتم k-means , گوسین gmm 75
3-2-2-4-مراکز قطبی)رفع مشکل ناپایداری) 77
3-2-3-کلمات خنثی و کاهش ویژگی 78
3-2-2-1-یادگیری گروهی78
فصل 4-تجزیه و تحلیل 83
4-1-مقدمه84
4-3-آزمایشات و تحلیلها 87
4-3-1-مجموعه داده 87
4-3-1-1 -مجموعه دادههای خطوط هوایی و سازندگان خانه 87
4-3-1-2-مجموعه دادههای فیلم و چند دامنه 87
4-3-2-ارزیابی تأثیر پیشپردازش بروی مدل 88
4-3-3-ارزیابی پارامترها و مدل 90
4-3-4-بحث و بررسی و ارزیابی عملکرد با کارهای گذشته 95
4-4-جمع بندی 98
فصل 5- نتیجه گیری و پیشنهادات 99
5-1- مقدمه…. 100
5-1-1- نتایج تحقیق 100
5-1-2- مزایای روش پیشنهادی 101
5-1-3- محدودیتهای روش پیشنهادی 101
5-2- مقایسه با سایر روشها 102
5-3- پیشنهادات و کارهای آتی 102
فهرست مراجع 104
راهنمای استفاده
فایل دانلودی را با نرم افزار rar از حالت فشرده خارج نمایید.
محتوای فایل دانلودی
محتوای فایل دانلودی شامل فایل word و pdf است.