سلام به همه. امروز من می خواهم به ارائه کار تحقیقاتی ما یادگیری به دلیل کسری: ریاضی کلمه حل مسئله به عنوان استخراج رابطه پیچیده.
من آلن از آزمایشگاه هوش مصنوعی ByteDance هستم، و این یک کار مشترک با Jierui Li از دانشگاه تگزاس در آستین و وی لو از SUTD است.
اول می خواهم در مورد انگیزه مان برای استدلال صحبت کنم.
بنابراین در اینجا نمونه هایی را نشان می دهیم که استدلال چند مرحله ای مفید است.
بنابراین این شکل از مقاله PaLM گرفته شده است که در آن آنها انجام باعث برای حل مشکل شبکه در سناریوی یادگیری شات چند.
بنابراین در سمت چپ، می توانیم ببینیم که آیا تنها با پرسش و پاسخ چند مثال می پردازیم، ممکن است نتونیم پاسخ های درست را به دست آوردیم.
اما اگر توضیحات استدلالی بیشتری ارائه کنیم، مدل قادر است توصیف استدلال را پیش بینی کند و همچنین در اینجا پیش بینی درستی انجام دهد.
بنابراین خوب است که استدلال چند مرحله ای قابل تفسیر به عنوان خروجی داشته باشید.
و ما همچنین فکر می کنیم مشکل کلمه ریاضی یک برنامه سرراست برای ارزیابی چنین توانایی های استدلالی است.
بنابراین ، در اینجا در راه اندازی مشکل ما ، با توجه به سوالات ما نیاز به حل این سوال و به دست آوردن پاسخ های عددی.
بنابراین در مجموعه داده های ما نیز بیان ریاضی داده می شود که منجر به ah به این پاسخ خاص نیز می شود.
بنابراین، فرضیات خاصی آه نیز مانند کار قبلی اعمال می شود.
ما فرض می کنیم دقت کمیت ها شناخته شده است.
و ما فقط اپراتورهای اساسی مانند اضافه، تفریق، ضرب، تقسیم، و نمایی را در نظر می گیرد.
علاوه بر این، اپراتورهای پیچیده را می توان در واقع به این اپراتورهای اساسی تجزیه کرد.
بنابراین ، کار قبلی در ریاضی کلمه حل مسئله ah در واقع می تواند ah را به دنباله به دنباله و دنباله به مدل درخت دسته بندی شده است.
بنابراین، توالی سنتی به مدل توالی، عبارت را به دنباله ای خاص برای نسل تبدیل می کند.
و پیاده سازی آن بسیار آسان است و می تواند به بسیاری از مشکل پیچیده مختلف عمومی.
اما اشکالات عملکرد در واقع به طور کلی بهتر از مدل ساخت یافته و عدم تفسیر پذیری آن برای پیش بینی نیست.
اما در واقع این جهت هنوز هم کاملا محبوب است به دلیل ام مدل ترانسفورماتور.
بنابراین، در مدل های مبتنی بر درخت، ما در واقع این عبارات را به شکل درخت ساختار می کنیم و از یک تراورز از پیش سفارش داده شده در نسل های درخت پیروی می کنیم.
بنابراین در اینجا ما همچنان اپراتورها را تولید می کنیم تا زمانی که به برگ ها برسند، که کمیت ها هستند.
بنابراین در اینجا چیز خوب این است که آن را در واقع به ما می دهد این ساختار درخت دودویی، و آن ام است، اما در واقع آن را کاملا ضد شهودی است چرا که ما تولید اپراتور اول و سپس در پایان ما تولید مقادیر.
و دومین چیز این است که حاوی برخی محاسبات تکراری نیز هست.
بنابراین در اینجا اگر به این بیان نگاه کنیم، هشت برابر سه به علاوه سه در واقع دو بار تولید می شود، اما در واقع باید از نتایج دوباره استفاده کنیم.
بنابراین، در رویکرد پیشنهادی ما می خواهیم آن مشکلات را گام به گام و شیوه های قابل تفسیر حل کنیم.
بنابراین به عنوان مثال، در اینجا در گام دوم، آه ما می توانیم این تفرقه انگیزان را که بیست و هفت است به دست آوریم.
و همچنین می توانیم به سوالات اصلی برای پیدا کردن محتویات مربوطه مراجعه کنیم.
و در این مراحل تفرقه انگیزان را به دست می گیریم.
بنابراین، آه و سپس در این مرحله سوم ما در واقع نقل قول دریافت کنید.
باشه . و بعد از این سه مرحله، ما در واقع می توانیم نتایج را از مرحله دوم دوباره استفاده کنیم، و سپس نتایج آه مرحله چهارم را بدست آوریم، و سپس در نهایت می توانیم سود سهام را به دست آوریم.
بنابراین، در اینجا ما در واقع کل بیان را به طور مستقیم تولید می کنیم به جای تولید یک اپراتور یا کمیت واحد.
بنابراین این روند را دقیق تر می کند.
بنابراین ، در سیستم کسری ما ، ما برای اولین بار با یک دسته از مقادیر ارائه شده در سوالات و همچنین از جمله برخی از ثابت به عنوان حالت اولیه ما آه حالت اولیه شروع می شود.
پس عبارت با e i j o p نشان داده می شود.
جایی که ما عملگر را از q_i تا q_j انجام می دهند و چنین عبارتی در واقع هدایت می شود.
بنابراین، ما همچنین تفریق با کلمات در اینجا برای نشان دادن جهت مخالف است.
این کاملا شبیه به استخراج رابطه است.
بنابراین در یک سیستم کسری رسمی، در یک مرحله زمانی t، عملگر را بین جفت q_i و q_j اعمال می کنیم و سپس این عبارت جدید را به دست می گیریم.
ما آن را به حالت بعدی اضافه می کنیم تا به یک کمیت جدید تبدیل شود.
بنابراین، این اسلایدها در واقع تکامل حالتی را تجسم می کنند که در آن ما مدام بیان را به حالت فعلی اضافه می کنیم.
بنابراین در پیاده سازی های مدل ما ابتدا از یک مدل زبان از پیش آموزش داده شده استفاده می کنیم که می تواند BERTs یا Robertas باشد و سپس جمله را کدگذاری می کنیم و سپس این بازنمایی های کمیتی را به دست می دهیم.
بنابراین، هنگامی که ما نمایندگی های کمیت را دریافت کنیم، می توانیم شروع به استنباط کنیم.
در اینجا نمونه ای از q_1 برای به دست آوردن نمایندگی برای q_2 تقسیم بر q_2 و سپس زمان q_3.
ابتدا بازنمایی جفت ah را بدست می آوریم که اساساً فقط دسته بندی بین q_1 تا q_2 است و سپس یک شبکه فیدفوروارد را اعمال می کنیم که توسط اپراتور پارامتری می شود.
و سپس در نهایت بازنمایی بیان را به دست می q_1 بر اساس q_2.
اما در واقع در عمل در مرحله استنباط ممکن است بتوانیم بیان نادرست را نیز به دست آوریم.
بنابراین، در اینجا تمام بیان ممکن برابر با سه برابر تعداد اپراتورها است.
بنابراین چیز خوب در اینجا این است که ما به راحتی می تواند محدودیت برای کنترل این جستجو این فضای جستجو اضافه کنید.
به عنوان مثال، اگر این عبارت مجاز نیست، به سادگی می توانیم این عبارت را در فضای جستجوی خود حذف کنیم.
بنابراین در مرحله دوم هم همین کار را می کنیم، اما تنها تفاوت این است که ما آه تنها تفاوت یک کمیت دیگر است.
پس این کمیت از عبارت محاسبه شده قبلی می آید.
بنابراین در نهایت ما می توانیم این عبارت نهایی را q_3 بار q_4.
و همچنین می بینیم که تعداد تمام بیان ممکن آه با گام قبلی متفاوت است.
بنابراین، آه چنین تفاوتی اعمال جستجوی پرتو را سخت می کند زیرا توزیع احتمال بین این دو مرحله نامتعادل است.
بنابراین روش آموزش شبیه به آموزش یک دنباله به مدل توالی است که در آن ما بهینه سازی از دست دادن در هر مرحله زمان.
و در اینجا ما همچنین از این تاو برای نشان دادن زمانی که ما باید این فرایند نسل را فسخ استفاده کنیم.
و در اینجا فضا از دنباله به دنباله متفاوت است زیرا فضا در هر مرحله زمانی متفاوت است در حالی که در توالی سنتی به دنباله مدل این تعداد واژگان است.
و همچنین به ما اجازه می دهد تا محدودیت های خاصی را از قبل از دانش قبلی تحمیل کنیم.
بنابراین ما آزمایش هایی را بر روی مجموعه داده های مشکل کلمه ریاضی معمولا استفاده می شود، MAWPS، Math23K، MathQA و SVAMP انجام می دهند.
و در اینجا به طور خلاصه نتایج را در مقایسه با بهترین رویکردهای قبلی نشان می دهیم.
بنابراین بهترین نوع اجرای ما روبرتا-دداکتیو ریسونر است.
و در واقع ما از جستجوی پرتو استفاده نمی کنیم، در مقابل تمام رویکردهای قبلی از جستجوی پرتو استفاده می کنند.
بسیار خوب. بنابراین، بهترین رویکردها اغلب مدل مبتنی بر درخت هستند.
بنابراین ، به طور کلی استدلال کننده ما قادر به قابل توجهی پیشی گرفتن قابل توجهی از این مدل مبتنی بر درخت است.
اما ما می توانیم اعداد مطلق در MathQA یا SVAMP واقعا بالا نیست.
بنابراین ما نتایج را در SVAMP بیشتر بررسی می کنیم.
و این مجموعه داده ها چالش برانگیز است چرا که نویسنده سعی کرد به صورت دستی آه اضافه کردن چیزی برای گیج کردن مدل NLP مانند اضافه کردن اطلاعات بی ربط و مقادیر اضافی.
بنابراین، در پیش بینی ما ما پیدا کردن برخی از ارزش های متوسط در واقع منفی هستند.
به عنوان مثال، ام، در این سوالات ما می پرسیدیم که جیک چند سیب دارد؟
اما ما برخی اطلاعات اضافی مانند هفده عکس کمتر داریم و استیون هشت عکس دارد که کاملا بی ربط است.
بنابراین ، مدل ما می سازد برخی از پیش بینی مانند این است که تولید مقادیر منفی است.
و ما مشاهده می کنیم که این دو عبارت در واقع نمرات مشابهی دارند.
بنابراین، ما در واقع می توانیم این فضای جستجو را با از بین بردن آن نتایجی که منفی هستند محدود کنیم تا بتونیم پاسخ را درست کنیم.
بنابراین ما بیشتر پیدا کردن چنین محدودیتی در واقع بهبود می یابد بسیار زیادی برای برخی از مدل ها.
به عنوان مثال، برای BERT، ما هفت امتیاز را بهبود می بخشیم و سپس برای مدل پایه روبرتا در واقع دو امتیاز را بهبود بخشیم.
بنابراین مدل بهتر زبان توانایی های درک زبان بهتری دارد به طوری که تعداد در اینجا برای روبرتا بیشتر و برای BERT پایین تر است.
و ما همچنین سعی می کنیم دشواری پشت این همه مجموعه داده را تجزیه و تحلیل کنیم.
ما فرض می کنیم که تعداد مقادیر استفاده نشده را می توان به عنوان اطلاعات بی ربط در اینجا در نظر گرفت.
بنابراین در اینجا ما می توانیم ببینیم که آه، ما درصد نمونه ها را با مقادیر استفاده نشده داریم، و مجموعه داده های SVAMP بزرگترین بخش را دارد.
و در اینجا عملکرد کلی را نیز نشان می دهیم.
برای آن نمونه ها بدون مقادیر استفاده نشده، بنابراین عملکرد کلی در واقع بالاتر از آن است، عملکرد در واقع بالاتر از عملکرد کلی است.
اما با آن نمونه هایی که با کمیت استفاده نشده در واقع راه بدتر از عملکرد کلی است.
برای MAWPS، ما واقعا موارد آزمون زیادی نداريم، بنابراین من فقط این قسمت را نادیده می گیرم.
بنابراین، در نهایت ما می خواهیم تفسیر پذیری را از طریق یک مثال آشغال سوال نشان دهیم.
بنابراین در اینجا مدل ما در واقع یک پیش بینی اشتباه در گام اول انجام می دهد.
بنابراین، ما در واقع می توانیم این بیان را با جمله در اینجا مرتبط کنیم. باشه .
بنابراین، ما فکر می کنیم این جمله ممکن است مدل را به یک پیش بینی نادرست گمراه کند.
بنابراین در اینجا کاشت سی و پنج دیگر باعث می شود مدل فکر می کنم آن را باید اپراتور علاوه بر.
بنابراین سعی می کنیم در جمله تجدید نظر کنیم تا چیزی شبیه تعداد درختان گلابی سی و پنج درخت کمتر از درختان سیب باشد.
بنابراین، ما آن را به انتقال معنایی دقیق تر به طوری که مدل قادر به ام پیش بینی درست است.
بنابراین، این مطالعه نشان می دهد که چگونه پیش بینی های قابل تفسیر به ما در درک رفتار مدل کمک می کند.
بنابراین برای نتیجه گیری کار ما، بنابراین اول مدل ما در واقع بسیار کارآمد است.
و ما قادر به ارائه روش حل قابل تفسیر هستیم.
و ما به راحتی می توانیم برخی از دانش قبلی به عنوان محدودیت است که می تواند کمک به بهبود عملکرد ترکیب.
و آخرین چیز این است که مکانیسم زمینه ای نه تنها در مورد وظایف حل مسئله شبکه بلکه وظایف دیگری که شامل استدلال چند مرحله ای اعمال می شود.
ما هم محدودیت های خاصی داریم.
اه ، اگر ما تعداد زیادی از اپراتورها و یا ثابت ، مصرف حافظه می تواند بسیار بالا باشد.
و دومین چیز این است که، همانطور که گفته شد، چون توزیع احتمال بین مراحل زمانی مختلف نامتعادل است، بنابراین اعمال استراتژی جستجوی پرتو نیز بسیار چالش برانگیز است.
پس این پایان صحبت است و از پرسش ها استقبال می شود. سپاسگزارم.
سلام اسم من آنتوان است و من از دانشگاه ماستریخت هستم.
من خواهد شد ارائه کار مشترک من با جری است که در مورد مجموعه داده های جدید برای بازیابی مقاله قانونی.
مسائل حقوقی بخشی جدایی ناپذیر از زندگی بسیاری از مردم است.
اما اکثریت شهروندان کم کم دانشی در مورد حقوق و فرایندهای اساسی قانونی خود دارند.
در نتیجه بسیاری از شهروندان آسیب پذیر که توان مالی کمک های پرهزینه یک کارشناس حقوقی را ندارد، بدون حفاظت یا بدترین حالت مورد بهره برداری قرار می گیرند.
همه کار با هدف پل شکاف بین مردم و قانون با توسعه یک سیستم بازیابی موثر برای مقالات قانونی است.
چنین سیستمی می توانست یک سرویس کمک حقوقی حرفه ای رایگان برای انسان های غیر ماهر ارائه دهد.
قبل از غواصی به سهم اصلی این اثر، بیایید ابتدا مشکل بازیابی مقاله قانونی را توصیف کنیم.
با توجه به یک سوال ساده در مورد یک موضوع حقوقی مانند، اگر محرمانه بودن حرفه ای را نقض کنم چه خطری را به خطر می بینم؟
یک مدل برای بازیابی تمام مقالات قانونی مربوطه از یک بدنه بزرگ قانون گذاری مورد نیاز است.
این وظیفه بازیابی اطلاعات همراه با مجموعه ای از چالش های خود را.
ابتدا به دو نوع زبان می پردازد.
زبان طبیعی مشترک برای سوالات و زبان پیچیده حقوقی برای اساسنامه.
این تفاوت در توزیع های زبان، بازیابی نامزدهای مربوطه را برای یک سیستم سخت تر می کند، چرا که به طور غیر مستقیم نیاز به یک سیستم تفسیر ذاتی دارد که بتواند یک سوال طبیعی را به یک سوال حقوقی ترجمه کند که با اصطلاحات اساسنامه مطابقت داشته باشد.
علاوه بر این ، قانون قانونی پشته ای از مقالات مستقل است که می تواند به عنوان یک منبع کامل از اطلاعات خود را درمان نمی شود ، بر خلاف اخبار و یا دستور العمل ها ، به عنوان مثال.
در عوض، این یک مجموعه ساخت یافته از مقررات قانونی است که یک معنای کامل تنها زمانی که در زمینه کلی در نظر گرفته شده است، یعنی همراه با اطلاعات تکمیلی از مقالات همسایه، زمینه ها و زیر میدان هایی که به آن تعلق دارند، و جای آنها در ساختار قانون است.
در نهایت، مقالات قانونی پاراگراف های کوچکی نیستند که معمولاً واحد بازیابی معمولی در بیشتر آثار بازیابی است.
در اینجا اسناد طولانی وجود دارد که ممکن است تا شش هزار کلمه باشد.
پیشرفت های اخیر در NLP علاقه زیادی را به بسیاری از وظایف قانونی، مانند پیش بینی قضاوت قانونی یا بررسی خودکار قرارداد تماس برانگیخته است.
اما بازیابی مقاله قانونی به دلیل نبود مجموعه داده های برچسب دار بزرگ و با کیفیت بالا عمدتاً دست نخورده باقی مانده است.
در این اثر یک مجموعه داده شهروند محور بومی جدید فرانسوی ارائه می کنیم تا مطالعه کنیم که آیا مدل های بازیابی می توانند کارایی و قابلیت اطمینان یک کارشناس حقوقی را برای وظیفه بازیابی مقاله قانونی تقریبی کنند یا خیر.
مقاله قانونی بلژیکی ما بازیابی مجموعه داده BSARD شامل بیش از یک هزار و صد سوال قانونی مطرح شده توسط شهروندان بلژیکی است.
این پرسش ها طیف گسترده ای از موضوعات را از خانواده، مسکن، پول، تا کار و تامین اجتماعی پوشش می دهد.
هر یک از آن ها توسط حقوقدانان با تجربه با اشاراتی به مقالات مربوطه از یک کورپوس بیش از بیست و دو هزار و ششصد مقاله قانونی از کدهای قانونی بلژیک برچسب گذاری شده اند.
بیایید در حال حاضر در مورد چگونگی جمع آوری این مجموعه داده ها صحبت کنید.
اول، ما با جمع آوری یک جسم بزرگ از مقالات قانونی آغاز شده است.
ما سی و دو کد بلژیکی در دسترس عموم در نظر گرفتیم و تمام مقالات و همچنین سرفصل های بخش مربوطه را استخراج کردیم.
سپس سوالات حقوقی را با اشاراتی به اساسنامه های مربوطه جمع آوری کردیم.
برای این کار با شرکت حقوقی بلژیک که هر سال حدود چهار هزار ایمیل از شهروندان بلژیکی دریافت می کند که در مورد یک مسئله حقوقی شخصی درخواست مشاوره می کنند، شریک می شود.
ما به اندازه کافی خوش شانس بودیم که به وب سایت های آنها دسترسی پیدا کنیم، جایی که تیم حقوقدانان با تجربه آنها به رایج ترین مسائل حقوقی بلژیکی ها می پردازد.
ما هزاران سوال را که با دسته ها، زیردسته ها و اشارات قانونی به اساسنامه های مربوطه اشاره شده بود، جمع آوری کردیم.
در نهایت مراجع قانونی را تصویب و سوالاتی را فیلتر کردیم که ارجاعات آنها در یکی از کدهای قانونی که در نظر گرفتیم مواد نبود.
منابع باقی مانده همسان شدند و تبدیل به شناسه مقاله مربوطه از corpus ما.
ما در نهایت با یک هزار و صد و هشت سوال به پایان رسید، هر کدام با دقت با شناسه مقالات مربوطه از کورپوس بزرگ ما از بیست و دو هزار و ششصد و سی و سه مقاله قانونی برچسب.
علاوه بر این، هر سوال با دسته اصلی و دسته بندی زیردسته ها همراه است.
و هر مقاله همراه با یک دسته بندی از زیرمجموعه عنوان در ساختار قانون است.
این اطلاعات اضافی در کار حاضر استفاده نمی شود، بلکه ممکن است مورد توجه تحقیقات آینده در مورد بازیابی اطلاعات قانونی یا طبقه بندی متن قانونی باشد.
بیایید به برخی از ویژگی های مجموعه داده های خود نگاه کنیم.
سوالات بین پنج تا چهل و چهار کلمه طول با میانه ای از چهارده کلمه است.
مقالات بسیار طولانی تر با طول میانه هفتاد و هفت کلمه، با صد و چهل و دو از آنها بیش از یک هزار کلمه است.
طولانی ترین یکی بودن تا پنج هزار و هفتصد و نود کلمه است.
همان طور که قبلاً اشاره شد، پرسش ها طیف گسترده ای از موضوعات را پوشش می دهند که حدود هشتاد و پنج درصد آن ها یا در مورد خانواده، مسکن، پول یا عدالت هستند.
در حالی که پانزده درصد باقی مانده نگرانی یا تامین اجتماعی، خارجی ها و یا کار.
این مقاله همچنین بسیار متنوع است چرا که از سی و دو کد مختلف بلژیکی می آیند که تعداد زیادی از موضوعات قانونی را پوشش می دهند.
در اینجا تعداد کل مقالات جمع آوری شده از هر یک از این کدهای بلژیکی است.
از بیست و دو هزار و ششصد و سی و سه مقاله، تنها یک هزار و ششصد و دوازده مقاله مربوط به حداقل یک سوال در مجموعه داده ها گفته می شود.
و حدود هشتاد درصد از این مقالات ذکر شده از هر دو قانون مدنی، کدهای قضایی، کدهای تحقیقات کیفری یا قانون مجازات می آیند.
این در حالی است که هجده مورد از سی و دو کد کمتر از پنج مقاله ذکر شده به عنوان مربوط به حداقل یک سوال دارند.
که می تواند با این واقعیت توضیح داده شود که آن کدها کمتر بر روی افراد و نگرانی های آنها متمرکز شده اند.
به طور کلی میانه تعداد استنادها برای این مقالات ذکر شده دو است و کمتر از بیست و پنج درصد آن ها بیش از پنج بار مورد استناد قرار می گیرد.
با استفاده از تمام مجموعه داده ها، ما چندین رویکرد بازیابی از جمله معماری واژگانی و متراکم را محک زنیم.
با توجه به یک پرس و جو و یک مقاله، یک مدل واژگانی یک نمره را به جفت مقاله پرس و جو با محاسبات مجموع بیش از شرایط پرس و جو از وزن هر یک از این شرایط در آن مقاله اختصاص می دهد.
ما با توابع استاندارد TF-IDF و BM25 رتبه بندی آزمایش می کنیم.
مشکل اصلی این رویکردها این است که آنها تنها می توانند مقالاتی را بازیابی کنند که حاوی کلمات کلیدی موجود در پرس و جو هستند.
برای غلبه بر این محدودیت، ما با یک معماری مبتنی بر عصبی آزمایش می کنیم که می تواند روابط معنایی بین پرس و جوها و مقاله را ضبط کند.
ما از یک مدل دو انکودر استفاده می کنیم که پرس و جوها و مقالات را به بازنمایی های برداری متراکم نقشه برداری می کند و یک نمره ارتباط بین یک جفت مقاله پرس و جو را با شباهت تعبیه های آن ها محاسبه می کند.
این جاسازی ها به طور معمول از یک عملیات جمع آوری بر روی خروجی یک مدل جاسازی کلمه ناشی می شوند.
ابتدا اثربخشی دو کدسازهای سیام را در یک راه اندازی ارزیابی شات صفر مطالعه می کنیم، به این معنی که مدل های جاسازی کلمه از پیش آموزش داده شده بدون هیچ گونه ریزسازی اضافی به خارج از جعبه اعمال می شوند.
ما با کدکن متن مستقل زمینه، یعنی word2vec و fastText، و مدل های جاسازی وابسته به زمینه، یعنی روبرتا و به طور خاص تر CamemBERT که یک مدل روبرتا فرانسوی است، آزمایش می کنیم.
علاوه بر این ، ما آموزش CamemBERT خود ما مبتنی بر مدل آه دو کدگذاری در مجموعه داده های ما.
توجه داشته باشید که برای آموزش، ما با دو طعم معماری بی انکودر آزمایش می کنیم.
سیامز که از یک مدل جاسازی کلمه منحصر به فرد استفاده می کند که پرس و جو و مقاله را با هم در یک فضای برداری متراکم مشترک نقشه برداری می کند، و دو برج، که از دو مدل جاسازی کلمه مستقل استفاده می کند که پرس و جو و مقاله را به طور جداگانه در فضاهای جاسازی مختلف کدگذاری می کنند.
ما با میانگین، حداکثر و CLS جمع آوری و همچنین محصول و cosine برای شباهت های محاسباتی آزمایش.
در اینجا نتیجه پایه ما در مجموعه آزمون.
با روش های واژگانی بالا، بی کدکن های سیام در یک راه اندازی شات صفر در وسط، و بی کدکن های ریز زیر ارزیابی شدند.
به طور کلی، دو انکودر ریز به طور قابل توجهی از تمام پایه های دیگر پیشی می گیرد.
مدل دو برجی بیش از گونه های سیام خود را در فراخوان در صد بهبود می یابد، اما به طور مشابه بر روی متریک های دیگر انجام می دهد.
اگرچه BM25 دو انکودر آموزش دیده را به طور قابل توجهی انجام نداد، اما عملکرد آن نشان داد که هنوز یک پایه قوی برای بازیابی خاص دامنه است.
با توجه به ارزیابی صفر شات بی کد کننده سیام، در میابیم که به طور مستقیم با استفاده از جاسازی های یک مدل CamemBERT از پیش آموزش داده شده بدون بهینه سازی برای وظیفه بازیابی اطلاعات نتایج ضعیفی می دهد که با یافته های قبلی همخوانی دارد.
علاوه بر این، ما مشاهده می کنیم که دو encoder مبتنی بر word2vec به طور قابل توجهی از مدل های مبتنی بر fastText و BERT پیشی گرفت، نشان می دهد که شاید جاسازی سطح کلمه از پیش آموزش داده شده مناسب تر برای وظیفه نسبت به سطح شخصیت و یا تعبیه سطح زیر کلمه زمانی که خارج از جعبه استفاده می شود.
اگر چه امیدوار کننده است، این نتایج نشان می دهد فرصت کافی برای بهبود در مقایسه با یک کارشناس حقوقی ماهر است که در نهایت می تواند تمام مقالات مربوطه را به هر سوال بازیابی و در نتیجه نمرات کامل دریافت کنید.
بیایید با بحث در مورد دو محدودیت از مجموعه داده های ما به نتیجه برسیم.
اول، کورپوس مقاله محدود به کسانی است که از سی و دو کد بلژیکی در نظر گرفته شده جمع آوری شده است، که کل قانون بلژیک را پوشش نمی دهد به عنوان مقالاتی از فرمان ها، دستورالعمل ها و فرمان ها گم شده است.
در طول ساخت مجموعه داده ها، تمام ارجاعات به این مقالات جمع آوری نشده نادیده گرفته می شوند که باعث می شود برخی سوالات تنها با کسری از تعداد اولیه مقالات مربوطه به پایان برسد.
این اطلاعات به این ترتیب نشان می دهد که پاسخ موجود در مقالات مربوطه باقی مانده ممکن است ناقص باشد، اگر چه هنوز کاملا مناسب است.
دوم اینکه باید توجه داشته باشید که به تنهایی نمی توان به همه پرسش های قانونی با اساسنامه پاسخ داد.
به عنوان مثال، سوال، آیا می توانم مستاجرانم را اخراج کنم اگر سر و صدای زیادی ایجاد کنند؟
ممکن است یک پاسخ دقیق در قانون قانونی است که کمی آستانه سر و صدا خاص که در آن اخراج مجاز است.
در عوض صاحبخانه احتمالاً باید بیشتر به قانون پرونده تکیه کند و پیشینه هایی شبیه به وضعیت فعلی خود پیدا کند.
به عنوان مثال مستاجران هفته ای تا دو AM دو مهمانی می سازد.
از این رو، برخی از سوال بهتر از دیگران به وظیفه بازیابی مقاله قانونی مناسب است، و دامنه آنهایی که کمتر مناسب باقی می ماند به تعیین می شود.
امیدواریم کار ما باعث علاقه به توسعه مدل های بازیابی مقاله قانونی عملی و قابل اعتماد شود.
که می تواند کمک به بهبود دسترسی به عدالت برای همه.
شما می توانید مقاله، مجموعه داده ها و کد های ما را در لینک های زیر بررسی کنید. سپاسگزارم.
سلام، ما خوشحال به ارائه کار ما در VALSE؛ معیار مستقل وظیفه برای آزمایش بینایی و مدل های زبان با پدیده های زبانی خاص به معنای.
چرا ما در راه اندازی این معیار مشکل انجام دادیم؟
خوب، در طول سال های گذشته، ما شاهد انفجار دید مبتنی بر ترانسفورماتور و مدل های زبان از پیش آموزش داده شده بر روی مقادیر زیادی از جفت متن تصویر بوده ایم.
هر یک از این مدل ها دولت از هنر را بر روی وظایف بینایی و زبان مانند پاسخ به سوال بصری، استدلال عقل سلیم بصری، بازیابی تصویر، زمینه عبارت سوق می دهد.
بنابراین ما یک پیام گرفتیم، دقت در مورد این وظایف و معیارهای خاص به طور پیوسته در حال افزایش است.
اما آیا ما می دانیم که مدل ها در واقع چه چیزی را آموخته اند؟
چه چیزی است که یک ترانسفورماتور بینایی و زبان در هنگام اختصاص نمره بالا برای این تصویر و این جمله برای مطابقت درک؟
و نمره پایین برای این یکی؟
آیا دید و مدل های زبان بر روی چیز درست تمرکز می کنند؟
یا همان طور که کار قبلی نشان داده است روی سوگیری ها تمرکز می کنند؟
برای روشن کردن نور بیشتر بر روی این جنبه، ما یک جهت آگنوستیک وظیفه تر را پیشنهاد می کنیم و VALSE را معرفی می کنیم که حساسیت مدل های بینایی و زبانی را نسبت به پدیده های زبانی خاصی که هم بر مودال های زبانی و هم بر مودالیت های بصری تأثیر می گذارد، آزمایش می کند.
ما وجود، کثرت، شمارش، روابط فضایی، اعمال و هسته نهاد را هدف قرار می گیریم.
اما چگونه آزمایش کنیم که آیا مدل های دید و زبان این پدیده ها را گرفته اند یا خیر؟
با خنثی کردن روشی که پیش از این برای مدل های بینایی و زبان تنها برای عبارات اسم توسط راوی شخار و همدستان، و شمارش توسط ما در کار قبلی اعمال می شد.
Foiling basically means that we take the caption of an image and produce a foil by altering the caption such that it does not describ the image anymore.
و ما این تغییرات عبارت را با تمرکز بر شش قطعه خاص مانند وجود، کثرت، شمارش، روابط فضایی، اعمال و هسته گرایی نهاد انجام می دهیم، جایی که هر قطعه می تواند از یک یا چند ابزار تشکیل شده باشد، در صورتی که ما بیش از یک راه جالب برای ایجاد مصادیق فویل پیدا کنیم.
به عنوان مثال در مورد قطعه اعمال، دو ابزار داریم، یکی اینکه فعل عمل در آن ها با یک عمل متفاوت تغییر می کند و دیگری که در آن عمل کننده ها معاوضه می شوند.
شمارش و کورفرانس نیز قطعاتی هستند که بیش از یک ساز دارند.
و ما این فویل ها را با اطمینان از شکست در توصیف تصویر، دستوری بودن، و در غیر این صورت جملات معتبر ایجاد می کنیم.
این کار آسان نیست زیرا یک زیرنویس فویل شده ممکن است کمتر از زیرنویس اصلی باشد.
به عنوان مثال، هر چند غیرممکن نیست، اما از نظر آماری کمتر احتمال دارد که گیاهان یک مرد را قطع کنند تا یک مرد برای بریدن گیاهان، و مدل های بزرگ دید و زبان می توانستند این موضوع را بردارند.
بنابراین برای به دست آوردن فویل های معتبر باید اقدام کنیم.
ابتدا از مدل های زبان قوی برای پیشنهاد فویل استفاده می کنیم.
دوم ، ما با استفاده از استنباط زبان طبیعی و یا NLI کوتاه برای فیلتر کردن فویل است که هنوز هم می تواند توصیف تصویر ، از زمانی که ساخت فویل ما نیاز به اطمینان حاصل شود که آنها موفق به توصیف تصویر.
برای آزمایش خودکار این استنباط زبان طبیعی را با منطق زیر اعمال می کنیم.
We consider an image to be the premise and its caption its entailed hypothesis.
علاوه بر این، ما زیرنویس را فرض می کنیم، و فویل فرضیه آن است.
اگر یک مدل NLI پیش بینی فویل به تناقض و یا خنثی با توجه به عنوان، ما این را به عنوان یک شاخص از فویل معتبر است.
اگر NLI پیش بینی فویل به توسط عنوان مستلزم, آن را نمی تواند یک فویل خوب, از آنجا که توسط transitivity آن را توصیف صادقانه از تصویر را, و ما فیلتر این فویل.
اما این روش کامل نیست، فقط یک شاخص برای فویل های معتبر است.
بنابراین، به عنوان یک اقدام سوم برای تولید فویل های معتبر، ما به کار annotators انسان به اعتبار داده های مورد استفاده در VALSE.
بنابراین، پس از فیلترینگ و ارزیابی انسان، ما به عنوان بسیاری از نمونه های آزمون به عنوان در این جدول شرح داده شده است.
توجه داشته باشید که VALSE هیچ داده آموزشی ارائه نمی دهد بلکه تنها داده های تست.
از آنجا که آن را صفر شات تست معیار تنها، آن را به اهرم قابلیت های موجود از چشم انداز و مدل های زبان پس از پیش آموزش طراحی شده است.
Finetuning تنها مدل ها را قادر به بهره برداری از مصنوعات و یا سوگیری های آماری در داده ها.
و همه ما می دانیم که این مدل ها دوست دارند تقلب کنند و میانبر ببرند.
و همانطور که گفتیم، ما علاقه مند به ارزیابی این هستیم که چشم انداز و مدل های زبان پس از آموزش پیش از آموزش چه قابلیت هایی دارند.
ما با پنج مدل بینایی و زبان بر روی VALSE، یعنی با CLIP، LXMert، ViLBERT، ViLBERT دوازده در یک، و VisualBERT آزمایش می کنیم.
دو تا از مهم ترین متریک های ارزیابی ما دقت مدل ها در طبقه بندی جفت جمله تصویر به شرح ها و فویل ها هستند.
شاید بیشتر مربوط به این ویدیو، ما متریک مجاز تر ما به نمایش می گذارد، دقت pairwise، که اندازه گیری می کند که آیا نمره همترازی جمله تصویر برای جفت متن تصویر درست بیشتر از جفت فویل آن است.
برای متریک ها و نتایج بیشتر بر روی آنها، کاغذ ما را بررسی کنید.
نتایج با دقت جفت در اینجا نشان داده شده است و آنها سازگار با نتایج ما از متریک های دیگر کردم این است که بهترین عملکرد شات صفر توسط ViLBERT دوازده در یک به دست آورد، و به دنبال آن ViLBERT، LXMert، CLIP، و در نهایت VisualBERT.
قابل توجه است که چگونه ابزارهای متمرکز بر روی اشیاء فردی مانند وجود و عبارات اسم تقریبا توسط ViLBERT دوازده در یک حل می شود، برجسته است که مدل ها قادر به شناسایی اشیاء نام گذاری شده و حضور آنها در تصاویر هستند.
با این حال، هیچ یک از قطعات باقی مانده را نمی توان به طور قابل اعتمادی در تنظیمات فویل کارانه ما حل کرد.
ما از کثرت و شمارش ابزارها می بینیم که مدل های بینایی و زبان در تشخیص ارجاعات به تک در مقابل اشیاء متعدد، یا شمارش آن ها در یک تصویر دچار مشکل می شوند.
قطعه رابطه نشان می دهد که آن ها در طبقه بندی صحیح یک رابطه فضایی به نام بین اشیاء در یک تصویر مشکل دارند.
آنها همچنین در تشخیص اقدامات و شناسایی شرکت کنندگان خود مشکل دارند، حتی اگر توسط سوگیری های امکان پذیری همان طور که در قطعه اقدامات می بینیم حمایت شوند.
از قطعه کورفرانس می فهمیم که ردیابی ارجاعات متعدد به یک جسم در یک تصویر با استفاده از  ضمیرها نیز برای مدل های بینایی و زبان دشوار است.
به عنوان یک بررسی عقل، و از آنجا که آن را یک آزمایش جالب است، ما همچنین معیار دو متن تنها مدل، GPT یک و GPT دو، برای ارزیابی اینکه آیا VALSE توسط این مدل های unimodal با محاسبات perplexity از درست و شرح فویل، هیچ تصویر در اینجا، و پیش بینی ورود با کمترین اغتشاش قابل حل است.
اگر اغتشاش برای فویل بالاتر است، ما این را به عنوان نشانه ای که عنوان فویل ممکن است از سوگیری plausibility و یا سوگیری های زبانی دیگر رنج می برند.
و جالب است که ببینیم در برخی موارد، متن تنها مدل های GPT امکان پذیری جهان را بهتر از مدل های بینایی و زبان گرفته اند.
بنابراین برای جمع بندی، VALSE یک معیار است که با استفاده از لنز سازه های زبانی برای کمک به جامعه برای بهبود بینایی و مدل های زبان با آزمایش سخت توانایی های زمینه بصری خود است.
آزمایش های ما نشان می دهد که مدل های بینایی و زبان اشیاء نام برده شده و حضور آن ها در تصاویر را به خوبی شناسایی می کنند، همان طور که قطعه وجود نشان داده است، اما مبارزه می کنند تا در صحنه های بصری هنگامی که مجبور به احترام به شاخص های زبانی می شوند، به هم پیوسته و روابط خود را زمین بینند.
ما واقعا می خواهم برای تشویق جامعه به استفاده از VALSE برای اندازه گیری پیشرفت به سمت زمینه زبان با چشم انداز و مدل های زبان.
و حتی بیشتر، VALSE می تواند به عنوان یک ارزیابی غیر مستقیم از مجموعه داده ها مورد استفاده قرار گیرد، چرا که مدل ها می توانند قبل و بعد از آموزش یا ریز کردن ارزیابی شوند تا ببینند که آیا یک مجموعه داده به بهبود مدل ها در هر یک از جنبه های آزمایش شده توسط VALSE کمک می کند یا نه.
اگر علاقه مندید، داده های VALSE در GitHub را بررسی کنید، و اگر سوالی دارید از تماس با ما دریغ نمی کنید.
سلام، اسم من کامزاوا از دانشگاه توکیو است.
I'll be presenting a paper entitled RNSum: A Large-Scale Dataset for Automatic Release Note Generation via Commit Logs Summarization.
من در این دستور توضیح می دهم.
ابتدا تولید یادداشت انتشار خودکار را معرفی می کنم که در این تحقیق روی آن کار می کنیم.
یادداشت انتشار یک سند فنی است که تغییرات توزیع شده با هر انتشار یک محصول نرم افزاری را خلاصه می کند.
تصویر یک یادداشت انتشار برای نسخه دو نقطه شش نقطه چهار کتابخانه vuejs را نشان می دهد.
یادداشت های انتشار نقش مهمی در توسعه منبع باز دارند اما برای آماده سازی دستی وقت گیر هستند.
بنابراین، آن را بسیار مفید خواهد بود که قادر به تولید یادداشت های انتشار با کیفیت بالا به طور خودکار.
من به دو تحقیق قبلی در تولید یادداشت انتشار خودکار defer.
اولی سیستمی به نام ARENA است که در بیست و چهارده منتشر شد.
این یک رویکرد مبتنی بر قانون طول می کشد، به عنوان مثال با استفاده از استخراج کننده تغییر برای استخراج تمام تفاوت ها، تغییرات کتابخانه و تغییرات سند از تفاوت های بین انتشار، و در نهایت ترکیب آنها.
قابل توجه ترین ویژگی این سیستم استخراج کننده مسئله در گوشه بالا سمت راست است.
که باید به جیرا، سیستم ردیاب مسئله، و تنها می تواند به پروژه هایی که از جیرا استفاده می کنند اعمال شود.
به عبارت دیگر، نمی توان از آن برای بسیاری از پروژه ها در GitHub استفاده کرد.
دومی گلیف است که به تازگی در بیست و بیست اعلام شده است.
در اینترنت موجود است و از طریق پیپ قابل نصب است.
این سیستم دارای یک مدل ساده یادگیری مبتنی بر طبقه بندی متن و خروجی یکی از پنج برچسب مانند ویژگی ها و یا رفع اشکال برای هر ورودی متعهد پیام.
این تصویر یک استفاده نمونه است که یک برچسب اصلاحی یا رفع اشکال را برمیگرداند.
داده های آموزشی گلیف نسبتاً کوچک، حدود پنج هزار نفر است و در آزمایش های شرح داده شده در زیر نشان داده خواهد شد.
عملکرد مدل طبقه بندی متن بالا نیست.
من دو تحقیق مرتبط ارائه می دهد، اما مشکلات آنها قابل استفاده محدود و منابع داده کمیاب است.
مقاله ما این دو مشکل را حل می کند و به طور خودکار یادداشت های انتشار با کیفیت بالا تولید می کند.
با یک مشکل قابل استفاده محدود، یک روش خلاصه سازی کلاسی با کیفیت بالا را پیشنهاد می کنیم که تنها با استفاده از پیام های متعهد به عنوان ورودی استفاده می شود.
از این روش پیشنهادی می توان برای تمام مخزن های انگلیسی استفاده کرد.
برای مشکل دوم از منابع داده کمیاب، ما مجموعه داده RNSum ما متشکل از حدود هشتاد و دو هزار قطعه از داده ها با جمع آوری داده ها از مخزن GitHub عمومی با استفاده از API GitHub ساخته شده است.
بعد، مجموعه داده هایمان را توصیف می کنم.
در اینجا نمونه ای از داده ها است.
سمت چپ یک پیام متعهد است و سمت راست یادداشت های انتشار است.
یادداشت های انتشار به عنوان بهبود و یا رفع برچسب, و غیره.
ما یک کار است که طول می کشد پیام های متعهد به عنوان ورودی و خروجی یادداشت های انتشار برچسب راه اندازی شده است.
این را می توان به عنوان یک کار خلاصه سازی در نظر گرفت.
در حال حاضر چهار برچسب از پیش تعریف شده: ویژگی ها, بهبود, رفع اشکال, حذف deprecations و شکستن تغییرات.
این ها بر اساس تحقیقات قبلی و عوامل دیگر تعیین شده بودند.
توجه داشته باشید انتشار در سمت راست پایین از توجه داشته باشید انتشار در پایین سمت چپ استخراج شده است.
در این زمان لازم است چهار برچسبی که از قبل راه اندازی شده اند را تشخیص داد.
اما برچسب ها همیشه با هر مخزن همخوانی نیستند.
به عنوان مثال، برچسب بهبود شامل بهبود، پیشرفت، بهینه سازی، و مانند آن است.
ما یک لیست واژگان از حدود سی برچسب برای هر یک از این تغییرات اشاره ای آماده شده است.
این است که برای تشخیص کلاس یادداشت انتشار، و جمع آوری متن انتشار است که به دنبال به عنوان جمله یادداشت انتشار برای کلاس.
بعدش يه پيغام متعهدانه ست
پیام های متعهد به هر انتشار گره خورده است.
همانطور که در تصویر زیر نشان داده شده است، اگر انتشار فعلی نسخه دو نقطه پنج تا نوزده باشد، باید نسخه انتشار قبلی دو نقطه پنج تا هجده را شناسایی کنیم و یک diff دریافت کنیم.
این کمی خسته کننده است و کافی نیست که فقط یک لیست از انتشار و نگاه کردن به قبل و بعد از.
ما یک قانون تطبیق heuristic برای دریافت نسخه های قبلی و بعدی ایجاد کردیم.
تجزیه و تحلیل مجموعه داده ها.
در پایان هفت هزار و دویست مخزن و هشتاد و دو هزار قطعه داده جمع آوری شد.
همچنین میانگین تعداد نشانه های یادداشت های انتشار شصت و سه است که برای یک کار خلاصه سازی کاملاً بالا است.
همچنین تعداد نشانه های منحصر به فرد در هشت هزار و هشتصد سی هزار نشانه کاملاً بزرگ است.
این به دلیل تعداد زیادی از نام های کلاس یا روش منحصر به فرد یافت شده در مخزن است.
بعد روش پیشنهادی را توضیح می دهم.
سپس مدل خلاصه سازی انتزاعی کلاسی شامل دو ماژول عصبی است.
طبقه بندی کننده با استفاده از BERT یا CodeBERT و ژنراتور با استفاده از BART.
اول ، CEAS با استفاده از طبقه بندی کننده برای طبقه بندی هر پیام متعهد را به پنج کلاس یادداشت انتشار ، که با استفاده از بهبود ، رفع اشکال ، deprecations ، به علاوه دیگر.
پیام های متعهد طبقه بندی شده به عنوان دیگر دور انداخته می شوند.
سپس CEAS ژنراتور را به چهار سند برچسب دار به طور مستقل اعمال می کند و یادداشت های انتشار برای هر کلاس تولید می کند.
در این وظیفه مکاتبات مستقیم بین پیام های ارتکابی و یادداشت های انتشار معلوم نیست.
بنابراین، برای آموزش طبقه بندی کننده، به همین دلیل است که ما نظرسنجی ها را به هر ورودی متعهد پیام با استفاده از ده کاراکتر اول هر پیام متعهد واگذار کردیم.
ما رویکرد خلاصه سازی انتزاعی کلاسی را با دو روش مختلف مدل سازی کردیم.
مدل اول، که ما آن را CAS-Single می نامیم، از یک شبکه تک شش تا شش تشکیل شده و یک متن یادداشت انتشار واحد تولید می کند که یک دسته بندی از ورودی پیام های متعهد را می دهد.
متون خروجی را می توان بر اساس نمادهای نقطه پایانی خاص کلاس خاص به بخش های کلاسی تقسیم کرد.
روش دوم، روش، که ما آن را CAS-Multi می نامیم، شامل چهار شبکه مختلف seq2seq است که هر کدام با یکی از کلاس های یادداشت انتشار ثابت مطابقت دارد.
خيلي خب، بذار آزمايشات رو توضيح بدم.
پنج روش با هم مقايسه شدند: CEAS، CAS-Single، CAS-Multi، Clustering، و مطالعه قبلی، گليف.
در مورد ارزیابی، در برخی موارد، یادداشت های انتشار خروجی در جملات متعدد هستند.
از آنجا که محاسبه تعداد جملات آن طور که هستند دشوار است، با فضاها ترکیب می شوند و با آن ها به عنوان یک جمله طولانی برخورد می شود.
BLEU زمانی مجازات می شود که سیستم یک جمله کوتاه را خروجی کند.
این مجازات منجر به ارزش BLEU پایین تر در نتایج آزمایش شرح داده شده بعدی.
در نهایت، ما همچنین محاسبه ویژگی به دلیل ROUGE و BLEU را نمی توان محاسبه اگر یادداشت های انتشار خالی است.
یک ویژگی بالاتر به این معنی است که مدل در مواردی که یادداشت های انتشار خالی فرض می کنند، یک متن خالی را به درستی خروجی می دهد.
در اینجا نتایج.
از آنجا که مجموعه داده ها حاوی آدرس های ایمیل، مقادیر هش دار و غیره است، ما مجموعه داده های پاک شده را نیز ارزیابی کردیم که آن ها را مستثنی می کند.
CEAS و CAS به ROUGE-L بیش از ده امتیاز بالاتر از پایه ها دست یافتند.
به طور خاص، در مجموعه آزمون پاک، شکاف نمره بین روش پیشنهادی و پایه ها به بیش از بیست امتیاز پرید.
این نتایج نشان می دهد که CEAS و CAS به طور قابل توجهی تحت تاثیر قرار می دهند.
CEAS کردم نمره ROUGE - L بهتر از CAS نشان می دهد که ترکیب طبقه بندی کننده و ژنراتور در آموزش طبقه بندی کننده با استفاده از برچسب شبه موثر است.
پوشش بالای CEAS را می توان احتمالا به این دلیل به دست آورد که طبقه بندی کننده می تواند بر انتخاب پیام های متعهد مربوطه برای هر کلاس تمرکز کند.
CAS-Multi تمایل به عملکرد ROUGE-L بالاتر از CAS-Single داشت.
پیشنهاد می کند که آن را نیز موثر است به طور مستقل توسعه مدل های خلاصه سازی انتزاعی متفاوت برای هر کلاس یادداشت انتشار.
در اینجا تجزیه و تحلیل خطا.
روش های CAS تمایل به جملات کوتاه تر خروجی نسبت به جملات مرجع انسانی دارند.
در شکل سمت راست، جمله مرجع سه یا چهار جمله دارد، در حالی که CAS تنها یک جمله دارد.
دلیل بی میلی این مدل این است که در آموزش داده ها، تنها سی و سه درصد جملات در برچسب ویژگی ها و چهل درصد در برچسب بهبودها حضور دارند.
علاوه بر این، روش های CAS نمی توانند یادداشت های انتشار دقیق را بدون اطلاعات اضافی تولید کنند.
مثال بالا در سمت راست نمونه ای از یک پیام متعهد بسیار کثیف است، و جمله کامل را نمی توان بدون اشاره به پیشرفت یا مسئله مربوطه تولید کرد.
مثال زیر نشان می دهد که دو پیام متعهد در ورودی مرتبط هستند و باید به یک جمله ترکیب شوند، اما این کار نتواند انجام دهد.
در نهایت، یک نتیجه گیری.
ما یک مجموعه داده جدید برای تولید یادداشت انتشار خودکار ساخته شده است.
ما همچنین یک وظیفه برای وارد کردن پیام های متعهد و خلاصه آنها را فرموله کرده اند به طوری که آن را به تمام پروژه های نوشته شده به زبان انگلیسی قابل اجرا است.
آزمایش های ما نشان می دهد که روش پیشنهادی تولید یادداشت های انتشار کمتر پر سر و صدا در پوشش بالاتر از پایه.
لطفا مجموعه داده های ما را در GitHub بررسی کنید.
سپاسگزارم.
سلام. اسم من "صف هرري" ه.
و من مقاله ما را ارائه, چند شات غنی سازی داده های جدولی با استفاده از معماری ترانسفورماتور ریز کوک.
دانشمندان داده داده ها را تجزیه و تحلیل می کنند و عمدتاً بر روی دستکاری ویژگی های موجود داده ها تمرکز می کنند.
اما گاهی اوقات این ویژگی ها محدود است.
تولید ویژگی با استفاده از یک منبع داده دیگر ممکن است اطلاعات قابل توجهی اضافه کنید.
هدف تحقیق ما غنی سازی خودکار داده های جدولی با استفاده از متن آزاد منابع خارجی است.
فرض کنید که ما یک مجموعه داده جدولی و یک پایه دانش داریم.
ما نیاز به یک فرایند خودکار است که شامل پیوند نهاد و تجزیه و تحلیل متن برای استخراج ویژگی های جدید از متن آزاد پایه دانش است.
چارچوب ما FeSTE دقیقا این فرایند خودکار است.
پس بیایید یک مثال در یک مجموعه داده تغذیه شده به FeSTE ببینیم.
در این مثال مجموعه داده ها مجموعه داده های دانشگاه است.
هنگامی که هدف آن طبقه بندی دانشگاه ها در دانشگاه های رده پایین و دانشگاه های عالی رتبه است.
به عنوان پایگاه دانش از ویکی پدیا استفاده می کنیم.
فاز اول FeSTE پیوند نهاد است.
هنگامی که هر نهاد، در این مثال نام دانشگاه، به یک نهاد درون پایگاه دانش مرتبط است.
و متن موجودیت های پایه دانش استخراج و به مجموعه داده ها اضافه می شود.
در این مثال متن چکیده صفحه ویکی پدیا است.
در حال حاضر، ما نیاز به تولید و یا استخراج ویژگی ها از متن بازیابی شده است.
بنابراین ، ما نیاز به ah ویژگی استخراج فاز ah که شامل تجزیه و تحلیل متن.
و این تازگی اصلی این مقاله است و من در اسلایدهای بعدی به آن شیرجه عمیق خواهم زد.
پس از مرحله استخراج ویژگی، یک فاز تولید ویژگی زمانی که ما با استفاده از ویژگی های استخراج شده برای تولید تعداد کمی از ویژگی های جدید وجود دارد.
ابتدا ویژگی های ah را در تعداد کلاس های مجموعه داده های اصلی تولید کنید.
در این مثال مجموعه داده های اصلی دارای دو کلاس است.
بنابراین ، FeSTE تولید دو ویژگی های جدید است.
اما اگر مجموعه داده ها پنج کلاس داشته باشد، FeSTE پنج ویژگی جدید تولید می کند.
هر ویژگی نشان دهنده احتمال برای هر کلاس است.
برای تجزیه و تحلیل متن، از حالت فعلی تجزیه و تحلیل متن استفاده می کنیم که مدل های زبان مبتنی بر ترانسفورماتور به عنوان BERT، GPT، XLNet و غیره هستند.
این است اما این احتمال وجود ندارد که ما می توانیم مدل های زبان با استفاده از مجموعه داده های ورودی آموزش.
بنابراین یک رویکرد ساده لوحانه خواهد بود آه هدف کار finetuning.
بنابراین ، در مرحله استخراج ویژگی ، ما می توانیم مدل های زبان از پیش آموزش داده شده دانلود ، finetune مدل زبان بیش از مجموعه داده های هدف.
در این مثال برای ظریف کردن مدل زبان، طبقه بندی ah برای طبقه بندی متن به کلاس ها، انتزاعی به کلاس ها، پایین یا بالا.
دریافت خروجی مدل زبان، که احتمال برای هر کلاس و استفاده به عنوان ویژگی های جدید است.
مشکل این رویکرد این است که مجموعه داده ها ممکن است چند نهاد متمایز / متون داشته باشد.
در آزمایش ما، تقریبا نیمی از مجموعه داده ها حاوی کمتر از چهارصد نمونه و کوچکترین مجموعه داده ها حاوی سی و پنج نمونه در آن، در یک مجموعه آموزشی است.
بنابراین برای ظریف کردن یک مدل زبان بیش از آه این مجموعه داده ها بی اثر خواهد بود.
اما ما می توانیم از دانش قبلی در مورد مجموعه داده های از پیش تجزیه و تحلیل شده استفاده کنیم.
از آنجا که FeSTE، ما FeSTE را بر روی یک مجموعه داده های متعدد اعمال می کنیم، می توانیم از n منهای یک مجموعه داده برای جمع آوری اطلاعات در مورد n منهای یک مجموعه داده استفاده کنیم، و از این اطلاعات زمانی استفاده کنیم که مجموعه داده های nth را تجزیه و تحلیل کنیم.
چیزی که ما، چیزی که ما پیشنهاد می کنیم این است که اضافه کنیم، تا یک مرحله ریز کننده دیگر اضافه کنیم.
يه مرحله ي اوليه ي چند وظیفه ای
هنگامی که شما finetune مدل زبان بیش از n منهای یک مجموعه داده.
و، سپس ما یک مرحله ظریف دیگر را اجرا می کنیم که یک کار هدف ظریف کننده است، هنگامی که شما خوب زمانی که ما مدل زبان را بر روی مجموعه داده های هدف nth ظریف می کنیم.
دولت از هنر در چند وظیفه ای آه finetuning چند وظیفه ای به نام MTDNN.
در MTDNN، MTDNN سر ah را در تعداد وظایف در مجموعه آموزش حفظ می کند.
بنابراین، در این مثال چهار وظیفه در مجموعه آموزش وجود دارد، بنابراین MTDNN چهار سر را همان طور که در تصویر می بینید حفظ می کند.
و از یک دسته تصادفی از آه از مجموعه آموزشی نمونه برداری می کند.
و اگر دسته تصادفی متعلق به یک مثلاً وظیفه طبقه بندی تک جمله ای باشد، مسیرهای رو به جلو و عقب را از طریق سر اول اجرا می کند.
و اگر دسته تصادفی متعلق به وظیفه رتبه بندی جفتی باشد، مسیر رو به جلو و عقب را از طریق سر آخر اجرا می کند.
در سناریوی ما، مجموعه داده های جدولی آه در تعداد کلاس ها متفاوت است.
بنابراین وظایف زیادی وجود دارد.
MTDNN تعداد کلاس ها، هدها، لایه های خروجی را حفظ کرد.
و اضافی ، علاوه بر این MTDNN نیاز به اولیه سر جدید برای مجموعه داده های جدید با یک کار جدید است.
رویکرد ما، به نام اصلاح وظیفه finetuning است، در رویکرد ما اصلاح وظیفه finetuning، به جای حفظ سر های متعدد، ما هر مجموعه داده ها را به یک جمله در هر مشکل طبقه بندی، که وظایف دو کلاس است، اصلاح می کنیم.
پس بیایید یک مثال ببینیم.
در اینجا مجموعه داده های ورودی ما است که متشکل از نهادها، ویژگی ها، متن و کلاس ها است.
و وظیفه را از طبقه بندی متن به پایین یا بالا اصلاح می کنیم تا متن، انتزاعی و کلاس را به درست یا نادرست طبقه بندی کنیم.
یا به عبارت دیگر مدل زبان را آموزش داده بودیم تا یک انتزاعی و کلاس آه را به انتزاعی و کلاس آه طبقه بندی کنیم، اگر چکیده متعلق به کلاس باشد یا نه.
بنابراین بردار برچسب در این مورد همیشه آه باقی می ماند که همیشه با دو کلاس تشکیل شده است.
و این الگوریتم ah برای رویکرد ریز سازی خوب و دوباره تنظیم شده ماست.
پس بیایید چارچوب کامل را ببینیم.
مجموعه داده ها به FeSTE تغذیه می شود.
و سپس ah FeSTE مرحله پیوند نهاد را اجرا می کند.
متن را از پایه دانش استخراج می کند که در این مثال چکیده صفحه ویکی پدیا است.
سپس وظیفه را به یک کار طبقه بندی جمله جفتی دوباره بیان کرد.
مدل زبان را بر روی وظیفه جدید و احتمال خروجی برای هر کلاس به کار برد.
و در حال حاضر که مدل زبان در حال حاضر بیش از n منهای یک مجموعه داده ها با استفاده از finetuning چند وظیفه ای اولیه finetuned.
سپس از بردار خروجی مدل زبان به عنوان یک ویژگی تازه تولید شده در تعداد کلاس ها استفاده می کنیم.
برای ارزیابی چارچوب ما، از مجموعه داده های طبقه بندی جدولی ah هفده استفاده می کنیم که از نظر اندازه، ویژگی ها، تعادل، دامنه و عملکرد اولیه متفاوت است.
و به عنوان پایگاه دانش از ویکی پدیا استفاده می کنیم.
ما آزمایش خود را به عنوان ترک یکی از ارزیابی ah که در آن ما آموزش FeSTe بیش از شانزده مجموعه داده ها و اعمال آن را به مجموعه داده هفدهم طراحی.
ما همچنین، ما همچنین هر مجموعه داده ها را به چهار برابر تقسیم و اعمال چهار برابر اعتبار سنجی متقابل.
سپس ویژگی های جدید را تولید می کنیم و با استفاده از پنج طبقه بندی کننده ارزیابی ارزیابی می کنیم.
ما در آزمایش های ما پایه معماری پایه BERT استفاده کنید.
در اینجا نتایج آزمایش های ما است.
شما می توانید ببینید که ما مقایسه چارچوب ما را به هدف finetuning مجموعه داده ها، هدف ظریف کردن وظیفه، و FINETUNing مقدماتی MTDNN.
و ریز سازی دوباره تنظیم شده ما به بهترین نتیجه دست می یابد، بهترین عملکرد.
در حالی که MTDNN به بهبود دو درصدی بیش از ریز کردن مجموعه داده های هدف دست یافت.
رویکرد ما به بهبود شش درصدی دست یافت.
هنگامی که به مجموعه داده های کوچک ah نگاه می کنیم، می بینیم که عملکرد MTDNN کاهش می یابد و بهبود پرلیم، فاز ریز کردن چند وظیفه ای اولیه به یک نقطه پنج درصد کاهش می یابد.
اما عملکرد ما در مقایسه با وظیفه هدف به تنهایی به یازده درصد افزایش یافت.
برای جمع بندی، FeSTE چند غنی سازی شات از سی و پنج نمونه در آزمایش های ما را قادر می سازد.
از یک معماری برای تمام کارها و مجموعه داده ها استفاده می کند.
و سر آه مدل را نگه می دارد.
اما مرحله اصلاح را اضافه می کند.
مجموعه قطار را تقویت می کند و به یک مقدار هدف با معنای معنایی نیاز دارد تا ما می توانیم آن را به مدل زبان تغذیه کنیم و از آن در مسئله طبقه بندی جفت جمله استفاده کنیم.
سپاسگزارم.
