پاورپوینت فصل 6 کاوش الگوهای پرتکرار، انجمن ها و همبستگی ها مفاهیم اولیه و متدها (pptx) 19 اسلاید
دسته بندی : پاورپوینت
نوع فایل : PowerPoint (.pptx) ( قابل ویرایش و آماده پرینت )
تعداد اسلاید: 19 اسلاید
قسمتی از متن PowerPoint (.pptx) :
فصل 6: کاوش الگوهای پرتکرار، انجمن ها و همبستگی ها: مفاهیم اولیه و متدها
مفاهیم اولیه
متدهای کاوش مجموعه آیتم پرتکرار
الگوریتم آپریوری
تولید قوانین انجمنی
بهبود آپریوری
تحلیل الگوهای پرتکرار چیست؟
الگوی پرتکرار(Frequent Pattern – FP): یک الگو ( مجموعه ای از آیتم ها، زیرتوالی ها، زیرساختارها و...) که به دفعات در یک مجموعه داده اتفاق می افتد.
اولین باردرسال 1993 توسط Agrawal، Imielinski و Swami در زمینه آیتم های پرتکرار و کاوش قوانین انجمنی پیشنهاد شد.
الگوهای پرتکرار دو نوع هستند:
به صورت یک زیرتوالی : مثل خرید ابتدا یک PC، سپس یک دوربین دیجیتال و درنهایت یک کارت حافظه اگر به صورت پرتکرار درتاریخچه پایگاه داده یک فروشگاه اتفاق بیفتد، یک الگوی ترتیبی(پرتکرار) خواهد بود.
به صورت یک زیرساختار: اشاره به اشکال ساختاری مختلفی همانند زیرگراف ها، زیردرخت ها یا زیرشبکه ها دارد که ممکن است با مجموعه های آیتم یا زیرتوالی ها ترکیب شده باشند.اگر یک زیرساختار به دفعات تکرار شود به آن الگوی ساختاری (پرتکرار) گویند.
تحلیل الگوهای پرتکرار چیست؟
انگیزش: یافتن نظم ذاتی در داده ها
چه محصولاتی اغلب با هم خریداری می شوند؟ آبجو و پوشک؟! نان و پنیر؟
بعد از خرید PC چه محصولات دیگری خریداری می شوند؟
کدام نوع DNA به داروی جدید حساس است؟
آیا می توانیم به طور خودکار مستندات وب را طبقه بندی کنیم؟
کاربردها
تحلیل سبد خرید، بازاریابی متقابل، طراحی کاتالوگ، تحلیل کمپین فروش و تحلیل دنباله DNA
چرا کاوش الگوهای پرتکرار مهم است؟
الگوهای پرتکرار: نقش مهم و اساسی در مجموعه داده ها
نقشی اساسی در بسیاری از کارهای ضروری داده کاوی:
تحلیل های انجمنی و همبستگی
الگوهای ساختاری و ترتیبی
تحلیل الگوها در داده های مکان-زمانی، چندرسانه ای، سری های زمانی و داده های جریانی
کلاس بندی داده ها
تحلیل خوشه بندی
انبارسازی داده ها
فشرده سازی داده های معنایی
و دیگر زمینه ها...
تحلیل سبد خرید
تحلیل سبد خرید
جهان را مجموعه ای از آیتم های موجود در یک فروشگاه تصور کنید.هر آیتم دارای یک متغیر بولی است که نشان دهنده حضور یا غیبت آن است.
هر سبد خرید می تواند از طریق مقادیر بردار بولی تخصیص یافته به این متغیرها نشان داده شود.
بردارهای بولی میتوانند برای الگوهای خریدی که نشان دهنده آیتم های پرتکرار مرتبط باهم یا خریداری شده باهم هستند تجزیه و تحلیل شوند.
این الگوها میتوانند به فرم قوانین انجمنی (association rules) ارائه شوند.
computer => antivirus_software [support = 2% , confidence = 60%]
support و confidence دو معیار از قانون علاقه مندی هستند و به ترتیب منعکس کننده سودمندی و قطعیت قانون های آشکار شده هستند.
support به مقدار 2% یعنی 2% از تمام تراکنش های بررسی شده نشان میدهند که کامپیوتر و آنتی ویروس با هم خریداری شده اند.
cofidence به مقدار 60 % یعنی 60% از مشتریانی که کامپیوتر خریده اند همراه با آن آنتی ویروس هم خریده اند.
مجموعه آیتم های پرتکرار و قوانین انجمنی
مجموعه آیتم های پرتکرار و قوانین انجمنی
مجموعه آیتم های پرتکرار و قوانین انجمنی
قوانین انجمنی را مطلوب گویند اگر هم حداقل آستانه support و هم حداقل آستانه confidence را برآورده سازند.
چنین قوانینی را قوانین قوی می گویند.
آستانه ها توسط کاربران یا خبرگان این حوزه تعیین میشوند.
در کل کاوش قانون انجمنی یک فرآیند دو مرحله ایست:
یافتن تمام مجموعه های آیتم پرتکرار: طبق تعریف هریک از این مجموعه آیتم ها دست کم به تعداد حداقل min_sup تکرار خواهند شد.
تولید قوانین انجمنی قوی از مجموعه آیتم های پرتکرار: طبق تعریف این قوانین باید حداقل های support و confidence را برآورده کنند.