پاورپوینت داده کاوی فایل 7 ارزیابی و تفسیر مدلها (pptx) 47 اسلاید
دسته بندی : پاورپوینت
نوع فایل : PowerPoint (.pptx) ( قابل ویرایش و آماده پرینت )
تعداد اسلاید: 47 اسلاید
قسمتی از متن PowerPoint (.pptx) :
بنام خدا
1
داده کاویفایل 7: ارزیابی و تفسیر مدلها
هدف از ارزیابی و تفسیر مدلها
1- چگونه مي توان نتايج داده كاوي را تفسير و با اطمينان از آنها استفاده كرد؟
2- مقايسه مدلهاي مختلف داده كاوي
مدلهايي كه با الگوريتم هاي يادگيري متفاوت بروي داده هاي يكسان و غير يكسان ساخته شده اند
مدلهايي كه با يك الگوريتم يادگيري، اما با داده ها و ويژگي هاي مختلفي ساخته شده اند
3- اجزا مدل داده كاوي بايد داراي چه شرايطي باشد تا بهترين نتايج را بدست آورد ؟
انواع استراتژي هاي موجود براي داده كاوي
دو استراتژي كلي كه تمام روشها در قالب اين دو استراتژي طبقه بندي مي شوند
Supervised learning
Unsupervised learning
تكنيكهاي ارزيابي مدل بيشتر متمركز فعالیتهای زير مي شود
Estimation
Classification
Clustering
Association
ارزيابي الگوریتم های دسته بندی
بعد از طبقه بندي داده ها در كلاسها، لازم است كه از صحت نتايج اين كلاس بندي اطمينان پيدا كنيم. کلیه معیارهای ارایه شده در ادامه هم برای داده های آموزشی در مرحله یادگیری و هم برای داده های آزمایشی در مرحله ارزیابی قابلیت محاسبه را دارد.
ماتريس پراكندگي (درهم ریختگی ) Confusion Matrix
C11 تعداد نمونه اي كه متعلق به كلاس يك بوده و به آن نيز تخصيص داده شده است
C12 تعداد نمونه اي كه متعلق به كلاس يك بوده و اشتباها به كلاس 2 تخصيص داده شده است
رکوردهای واقعی
رکوردهای پیش بینی
ماتريس پراكندگي
چند نتيجه مهم:
جمع كل اعداد ماتريس برابر تعداد كل نمونه هاي مورد استفاده براي تست مدل است.
اعداد قطر اصلي تعداد نمونه هايي است كه درست به كلاس مربوطه خويش تخصيص داده شده است.
جمع اعداد رديف I ام به غير از مقدار واقع بروي قطر اصلي تعداد نمونها يي است كه از كلاس I ام اشتباها به كلاسهاي ديگر تخصيص داده شده است.
جمع اعداد ستون j ام به غير از مقدار واقع بروي قطر اصلي تعداد نمونها يي است كه اشتباها به كلاس jام تخصيص داده شده است.
دسته بندی در دو کلاس
معیار دقت دسته بندی Classification Accuracy (CA)-Rate(CR)
مهم ترین معیار برای تعیین کارایی یک الگوریتم دسته بندی معیار دقت(Accuracy ) یا نرخ (Rate) دسته بندی است. این معیار دقت کل یک دسته بند را محاسبه می نماید. این معیار نشان دهنده این حقیقت است که دسته بند طراحی شده چند درصد از کل مجموعه رکوردهای آزمایشی را به درستی دسته بندی کرده است.
CA = 𝑇𝑁+𝑇𝑃 𝑇𝑁+𝐹𝑁+𝑇𝑃+𝐹𝑃
خطا : عبارت است از يك زير كلاس كه بطور اشتباه طبقه بندي مي شود
نرخ خطا عبارت است از تعداد خطا تقسيم بر تعداد نمونه هاي طبقه بندي شده
ER = 𝐹𝑁+𝐹𝑃 𝑇𝑁+𝐹𝑁+𝑇𝑃+𝐹𝑃 =1−CA