پاورپوینت خلاصه سازي متن

پاورپوینت خلاصه سازي متن (pptx) 46 اسلاید


دسته بندی : پاورپوینت

نوع فایل : PowerPoint (.pptx) ( قابل ویرایش و آماده پرینت )

تعداد اسلاید: 46 اسلاید

قسمتی از متن PowerPoint (.pptx) :

Text Summarization تاریخچه شروع خلاصه سازي متن به سال 1950 برمی گردد. به دلیل کمبود کامپیوترهاي قدرتمند و مشکلات موجود براي پردازش زبانهاي طبیعی کارهاي اولیه بروي مطالعه ظواهر متن مانند (موقعیت جمله و ، عبارات اشاره) ، متمرکز شده بود. سال 1970 تا 1980 هوش مصنوعی بکار آمد . Kupiec اولین الگوریتم مبتنی بر یادگیري را پیشنهاد داد. او عمل خلاصه سازي را به صورت یک مسئله دسته بندي ، درنظر گرفت و دسته بندي کننده هاي بیزین را براي تعیین جملاتی که باید در خلاصه وارد شود ، بکار برد. Chuang و Yang چندین الگوریتم مانند درخت تصمیم و دسته بندي کننده رابراي استخراج قطعات جمله پیشنهاد دادند . این روش خلاصه سازي اسناد در یک حوزه خاص عملکرد خوبی دارد. Elhadad و Barzilay خلاصه هایی با پیدا کردن زنجیره هاي لغوي ایجاد کردند که به توزیع کلمه و اتصالات لغوي بین آنها ، براي تقریب زدن محتوا و ارائه یک نمایش از ساختار لغوي بهم پیوسته متن اتکا می کرد کاربردها نمايش خلاصهاي از اطلاعات يافت شده توسط موتورهاي جستجو خلاصه کردن و مقايسه معالجات پيشنهاد شده براي يک بيمار توليد توصيه نامه مختصري بر يک کتاب و تبدیل کتابخانه ها به خلاصه ها و ... خلاصه سازي به ايجاد يک نمايش مختصرتر از يک دسته اطلاعات توسط يک برنامه کامپيوتري ، خلاصه سازي خودکارگفته ميشود. Other Applications Abstracts for Scientific and other articles News summarization(mostly Multiple document summarization) Classification of articles and other written data Web pages for search engines Web access from PDAs, Cell phones Question answering and data gathering انواع مدل هاي خلاصه سازي متن 1- استخراج جملات مهم از متن اصلي 2- ارائه مضمون اصلي متن را در قالب جملات جديد خلاصه سازی تک سنده و خلاصه سازی چند سنده : در تک سنده ، فقط با یک متن سروکار داریم. در چند سنده ، روی چند تا متن پردازش انجام می دهیم. منبع (ورودي) منبع : تک سنده ، چند سنده زبان : تک زبانه ، چند زبانه دسته : اخبار ، گزارش فني ، مقاله علمي و ... . اختصاصي : زمينه خاص ، عمومي. طول : کوتاه ( 1 تا 2 صفحه) ، بلند (بيش از 50 صفحه) . رسانه : متن ، رسم ، سمعي ، تصويري ، چند رسانهاي و ... . هدف کاربرد : عمومي ، پرسش گرا (به اطلاعات خاص مورد نياز توجه دارد) هدف : متن خلاصه براي چه منظوري استفاده ميشود؟ (هشدار، پيش نما، آگاهي، خلاصه تهيه اطلاعاتي از زندگي نامه) کاربر : بدون هدف ، هدفمند (کاربر خاصي موردنظر است) ترکيب (خروجي) اشتقاق : استخراج ، چکيده · فرمت : متن ، جدول ، نمايشهاي جغرافيايي ، خطوط زمان ، نمودار، تصوير · ویژگی های خلاصه سازی انواع روشهاي به کار رفته در خلاصه سازي متن: روشهايي که از اطلاعات آماري متن براي تعيين اهميت جملات استفاده ميکنند. روش هايي که روابط بين بخشهاي مختلف متن ، مفاهيم و معاني عبارات را نيز مورد توجه قرار ميدهند روشهاي دسته دوم خلاصه هايي با کيفيت بهتر توليد ميکنند ولي پياده سازي آنها پيچيده تر است. رويکردهاي خلاصه سازي خودکار متن الگوريتم ها را درسه سطح surface و entity و discourse بررسي ميکنيم. سطح Surface : از ويژگي ها ي سطحي براي پردازش استفاده ميکنند فرکانس کلمه : جملات مهم آنهايي هستند که دربردارنده کلمات با تعداد رخداد بالا مي باشند. سيستمهاي خلاصه سازي اوليه مستقيما از توزيع کلمه در منبع استفاده ميکردند. موقعيت : فرض را بر اين ميگيرد که جملات مهم بسته به نوع متن ، معمولا در موقعيت هاي مشخصي قرار دارند. چند قاعده کلي مثل روش تقدم و روش مبتني بر عنوان هم وجود دارند. روش تقدم تنها جملات اول را انتخاب ميکند. در روش مبتني بر عنوان ، کلمات تشکيل دهنده عنوان و سرصفحه در تهيه خلاصه نقش دارند. از موارد تعميم اين روشها ميتوان به OPP اشاره کرد که در سيستم SUMMARIST استفاده شده است . آنها در اين سيستم از روشهاي يادگيري ماشين براي شناسايي موقعيت اطلاعات مرتبط در انواع متني مختلف استفاده کردند. باياس : ارتباط واحدهاي معني دار، يا حضور کلماتي از عنوان يا سرفصل ، بخش آغازين متن يا تعداد کلمات پرسش گونه را به عنوان ويژگي درنظر ميگيرد. کلمات اشاره: نشاني از ارتباط يا بي ارتباطي هستند . آنها معمولا نشانه هاي غيرنمادين زبانشناختي هستند. (اشاراتي مانند : "بطورخلاصه" ، "درنتيجه" ، " در اين مقاله قصد داريم " و يا تاکيد کننده هايي مانند : "بطورقابل توجهي" ، "مهم" ، "بخصوص" ، "به ندرت" ، "غيرممکن") و همچنين عبارات تشويقي و کلمات مطرح در حوزه خاص نيز مي تواند در نظرگرفته شود. گرچه ليست اين عبارات به صورت دستي ساخته ميشود، اما مي توان به صورت خودکار هم آنها را تشخيص داد. سطح Surface رويکردهاي سطح موجوديت با مدل کردن موجوديتهاي متن (کلمات ساده ، مرکب و اسمي خاص، جملات و...) ، يک نمايش داخلي از متن و روابط آنها (موجوديتها) مي سازد. روابط بين موجوديتها شامل موارد زير است : مشابهت : کلمات مشابه آنهايي هستند که شکل مشابهي دارند. مثل کلماتي که ريشه يکسان دارند (مثل شبيه و شباهت) . مي توان از دو معيار مشابهت براي تعيين تعلق يک جمله به يک بافت بزرگتر استفاده کرد : 1- مشابهت بين يک جمله و مابقي سند 2- مشابهت بين جمله و عنوان سند . مجاورت : فاصله بين دادههاي متني که موجوديتها را شامل ميشوند ، يک فاکتور تعيين کننده براي برقراري روابط بين موجوديتها است. پيوستگي : اتصالات طبق این حقیقت عمل می کنند که واحدهاي متنی مهم معمولا شامل موجودیتهایی هستند که بعضا ساختارهاي معنایی اتصال قوي دارند : هم_رخدادي : کلماتی که در بافتهاي مشترك ظاهر می شوند ، می توانند بهم مرتبط هم_ ارجاعی : عبارات ارجاع دهنده(مرجع ) می توانند بهم لینک شوند. و ... روابط معنايي مبتني بر نمايش : روابط معنایی در بين موجوديتها برقرار ميکند سطح entity

نظرات کاربران

نظرتان را ارسال کنید

captcha

فایل های دیگر این دسته