پاورپوینت کلان داده (pptx) 24 اسلاید
دسته بندی : پاورپوینت
نوع فایل : PowerPoint (.pptx) ( قابل ویرایش و آماده پرینت )
تعداد اسلاید: 24 اسلاید
قسمتی از متن PowerPoint (.pptx) :
موضوع :Big data
کلان داده چیست و چرا اهمیت دارد؟
پرداختن به مبحثی مانند کلانداده (مِهداده) که به طور گسترده و سریع توجهات را به خود جلب کرده کاری دشوار است. در حالیکه مبحث کلانداده تا چند سال پیش بسیار ناشناخته بود، امروزه یکی از پربحثترین موضوعات در بخشهای صنعتی است. در این قسمت از مقاله پیش رو، چیستی کلانداده (مِهداده)، دلایل اهمیت و مزایای تحلیل آن تشریح شده.
تحلیل کلانداده (big data analytics)چیست؟
با وجود آنکه کلانداده (مِهداده) یکی از مورد توجهترین اصطلاحات در بازار این روزها است، اما هیچ اتفاق نظری میان پژوهشگران گوناگون در رابطه با چگونگی تعریف آن وجود ندارد. این عبارت اغلب به عنوان مترادفی برای دیگر مفاهیم مرتبط مانند هوش تجاری (Business Intelligence) و دادهکاوی (data mining) مورد استفاده قرار میگیرد.
درست است که هر سه این عبارات در رابطه با تحلیل دادهها هستند و در اغلب شرایط برای تحلیلهای پیشرفته داده مورد استفاده قرار میگیرند، اما مفهوم کلانداده (مِهداده) هنگامی که حجم دادهها و تعداد منابع داده بسیار زیاد و پیچیدگی روشها و فناوریهای لازم برای کسب بینش از آنها بالا باشد، از دو مورد دیگر متمایز و متفاوت خواهد بود (برای مثال، راهکارهای سنتی انبار داده ممکن است در کار با کلاندادهها کم بیاوردند). آنچه بیان شد، مبانی لازم برای ارائه پرکاربردترین تعریف کلانداده (مِهداده) که در برگیرنده سه «V» یعنی حجم (Volume)، سرعت (Velocity) و تنوع (Variety) است، را فراهم میکند. شکل زیر نمای کلی این تعریف را نشان میدهد
حجم: حجم بالایی از دادهها، در مجموعه دادههایی با سایز ترابایت تا زتابایت وجود دارند.
سرعت: حجم زیاد دادهها از تراکنشهایی با نرخ تازهسازی بالا که منجر به آمدن جریانهای داده در سرعت بالا میشوند موجود هستند و زمان کار روی مبانی این جریانهای داده بسیار کوتاه خواهد بود. این امر منجر به یک تغییر اساسی از پردازش دستهای دادهها به جریانهای زمان واقعی شده است.
تنوع: دادهها دارای منابع داده گوناگونی هستند. این عبارت مفاهیم گوناگونی را در بحث تنوع دادهها در بر میگیرد. ابتدا آنکه دادهها میتوانند از منابع داده داخلی و خارجی فراهم شوند (تنوع در منابع داده). مهمتر آنکه دادهها میتوانند دارای فرمتهای گوناگون باشند. از جمله این فرمتها میتوان به دادههای تراکنشی و سوابق (log data)از دامنه کاربردهای گوناگون، دادههای ساختار یافته مانند دادههای پایگاه داده، دادههای نیمهساختار یافته مانند دادههای XML، دادههای ساختار نیافته مانند متن، تصویر، جریانهای ویدئویی، صوتی و دیگر موارد اشاره کرد. این یعنی یک تغییر اساسی از دادههای ساختار یافته به انواع در حال رشد دادههای ساختار نیافته یا ترکیبی از هر دو رخ داده است.
آنچه بیان شد هدایتگری به سوی پرکاربردترین تعریف کلانداده (مِهداده) در صنعت است که توسط گارتنر در سال 2۰12 ارائه شده؛ این تعریف در ادامه به طور کامل بیان شده است:کلانداده (مِهداده) دارایی اطلاعاتی در حجم، سرعت و یا تنوع بالا به شمار میآید که نیازمند روش نوآورانه و مقرون به صرفه پردازش اطلاعات است که بینش ارتقا یافته، تصمیمسازی و خودکارسازی فرآیندها را امکانپذیر میسازد.اکنون باید شفاف باشد که «کلان» در کلانداده تنها به حجم مربوط نیست. در حالیکه کلانداده (مِهداده) قطعا دربرگیرنده دادههای زیادی است، اما عبارت کلانداده تنها به حجم اشاره ندارد. این یعنی در صورتی که مسالهای کلانداده باشد، تنها بحث تحلیل حجم انبوهی از دادهها مطرح نیست، بلکه دادهها با سرعت تولید میشوند و در قالبهای پیچیده از منابع داده گوناگونی هستند.
در کلانداده چه نوع دادههایی مطرح هستند؟
سازمانها سنت طولانی در زمینه ثبت دادههای تراکنشی دارند. جدای از این، امروزه سازمانها دادههای افزودهای را نیز از محیط عملیاتی با سرعت در حال افزایشی ثبت میکنند. در ادامه برخی از مصادیق این امر ارائه شدهاند:
دادههای وب دادههای متنی دادههای زمانی و مکانی شبکههای هوشمند و دادههای حسگرها دادههای شبکههای اجتماعی
دادههای وب
دادههای رفتار سطح وب مشتریان مانند بازدید صفحات، جستوجوها، خواندن نقد و بررسیها، خریدها و دیگر موارد قابل ثبت هستند. این موارد میتوانند کارایی را در زمینههایی مانند «بهترین پیشنهاد بعدی» ، «مدلسازی رویگردانی مشتریان»، «بخشبندی مشتریان» و «تبلیغات هدفمند» بهبود ببخشند.
دادههای متنی
این نوع دادهها (ایمیلها، اخبار، خوراکهای فیسبوک، اسناد و دیگر موارد) از بزرگترین و پرکاربردترین انواع کلاندادهها هستند. در دادههای متنی، تمرکز معمولا روی استخراج حقایق کلیدی از متن و سپس استفاده از آنها به عنوان حقایق ورودی برای دیگر فرآیندهای تحلیلی است (برای مثال، دستهبندی خودکار ادعاهای بیمه به عنوان کلاهبرداری یا صحیح).