سلام به همگی. امروز می‌خواهم مقاله [تحقیقاتی] خود را در خصوص [یادگیری] دلیل از راه قیاس ارائه کنم. عنوان مقاله: حل [مسائل تشریحی ریاضی] به صورت [استخراج رابطه] پیچیده.
من Allan از آزمایشگاه ByteDance [AI] هستم، و این یک کار مشترک با Jierui Li از دانشگاه تگزاس در آستین و Wei Lu از [SUTD] است.
ابتدا می‌خواهم در مورد انگیزه [استدلال] صحبت کنم.
در اینجا نمونه‌هایی را نشان می‌دهیم که در آن [استدلال] چند مرحله‌ای مفید است.
این شکل از [مقاله] [PaLM] گرفته شده است، در این مقاله درخواست حل [مسئله] شبکه در سناریوی [یادگیری] چند مرحله‌ای انجام می‌شود.
بنابراین در سمت چپ، می‌توانیم ببینیم که اگر فقط با [سوال] و پاسخ چند مثال بزنیم، ممکن است نتوانیم پاسخ‌های صحیح را بدست آوریم.
اما اگر توضیح بیشتر [استدلالی] بدهیم، [مدل] می‌تواند توصیف [استدلالی] را پیش‌بینی کند و در اینجا [پیش‌بینی] صحیح نیز انجام دهد.
بنابراین بهتر است که [استدلال] چند مرحله‌ای [قابل تفسیر] را به عنوان خروجی داشته باشیم.
همچنین به نظر ما [مسائل تشریحی ریاضی] یک کاربرد ساده برای ارزیابی چنین توانایی‌های [استدلالی] است.
بنابراین در اینجا در تنظیم [مسئله] با توجه به [سوالات]، لازم است این [سوال] حل شود و پاسخ‌های عددی به دست آید.
بنابراین در [مجموعه داده‌های] ورودی، عبارت ریاضی نیز داده می‌شود که به این [پاسخ] خاص نیز منجر می‌شود.
بنابراین، برخی از مفروضات نیز مانند مقاله [قبلی] اعمال می‌شود.
فرض می‌کنیم دقت کمیت‌ها مشخص است.
و ما فقط عملگرهای اساسی مانند جمع، تفریق، ضرب، تقسیم و نمایی را در نظر می‌گیریم.
[علاوه بر این] عملگرهای پیچیده را می‌توان به این عملگرهای اصلی تجزیه کرد.
بنابراین، مقاله [قبلی] در حل [مسائل تشریحی ریاضی] را در واقع می‌توان به صورت مدل [دنباله] به [دنباله] و [دنباله] به [مدل] درخت طبقه‌بندی کرد.
بنابراین، [مدل] سنتی [دنباله] به [دنباله]، عبارت را به یک [دنباله] خاص [برای] [تولید] تبدیل می‌کند.
و پیاده سازی آن بسیار آسان است و می‌توان آن را به بسیاری از [مسائل] پیچیده مختلف [تعمیم] داد.
اما اشکال کار این است که عملکرد کلی آن بهتر از [مدل] [ساخت‌یافته] نیست و [پیش‌بینی] آن [تفسیرپذیری] ندارد.
ولی در واقع این رویکرد هنوز هم به دلیل استفاده از [مدل] [مبدل] بسیار عمومیت دارد.
بنابراین، در [مدل‌های] مبتنی بر درخت، ما در واقع این عبارات را به شکل [ساختار] درختی در می‌آوریم و یک پیمایش از پیش سفارش‌شده در تولید درخت را دنبال می‌کنیم.
بنابراین در اینجا ما به [تولید] عملگرها ادامه می‌دهیم تا زمانی که به برگ‌ها برسیم که همان مقادیر هستند.
بنابراین نکته خوب ماجرا این است که در واقع این کار [ساختار] درخت [دودویی] را به ما می‌دهد، که در واقع کاملاً غیرمعمول است زیرا ما ابتدا عملگر را تولید می‌کنیم و سپس در پایان مقادیر را بدست می‌آوریم.
و دومین مورد این است که شامل محاسبات تکراری نیز می‌شود.
بنابراین اگر به این عبارت توجه کنیم، هشت ضربدر سه به علاوه سه در واقع دو بار [تولید می‌شود]، اما در واقع باید از نتایج دوباره استفاده کنیم.
بنابراین، در [رویکرد] پیشنهادی خود می‌خواهیم آن مسائل را به صورت گام به گام و [قابل تفسیر] حل کنیم.
لذا [به عنوان] مثال، در اینجا در مرحله دوم، می‌توانیم این مقسوم‌ علیه را بدست آوریم که بیست و هفت است.
و همچنین می‌توانیم برای یافتن مطالب مرتبط به [سوالات] اصلی مراجعه کنیم.
و در این مراحل مقسوم علیه‌ها را بدست می‌آوریم.
بنابراین در مرحله سوم، در واقع ضریب را بدست می‌آوریم.
خیلی خب. و بعد از این سه مرحله عملاً می‌توانیم از نتایج مرحله دوم مجدداً استفاده کنیم و سپس نتایج مرحله چهارم را بدست آوریم و در نهایت می‌توانیم مقسوم را بدست آوریم.
بنابراین، در اینجا ما به جای [تولید] یک عملگر یا کمیت واحد، در واقع کل عبارت را مستقیماً تولید می‌کنیم.
این کار فرآیند را دقیق‌تر می‌کند.
بنابراین، در [سیستم] قیاسی خود، ابتدا با دسته‌ای از کمیت‌های ارائه‌شده در [پرسش‌ها] کار را شروع می‌کنیم و همچنین مقداری ثابت را به‌عنوان حالت اولیه خود وارد می‌کنیم.
بنابراین، عبارت با e i j o p نشان داده می‌شود.
که در آن عملگر را از q_i تا q_j اجرا می‌کنیم، و چنین عبارتی در واقع هدایت می‌شود.
بنابراین، ما در اینجا تفریق بصورت [تشریحی] نیز داریم تا جهت مخالف را نشان دهیم.
این کار کاملاً [شبیه] به [استخراج رابطه] است.
بنابراین در یک [سیستم] قیاسی رسمی، در گام زمانی t، عملگر را بین جفت q_i و q_j اعمال می‌کنیم و سپس این عبارت جدید را به دست می‌آوریم.
آن را به حالت بعدی اضافه می‌کنیم تا به یک کمیت جدید تبدیل شود.
بنابراین، این اسلایدها در واقع تکامل حالتی را تجسم می‌کنند که در آن عبارتی را به حالت فعلی اضافه می‌کنیم.
بنابراین در پیاده‌سازی‌های [مدل] خود، ابتدا از یک [مدل] [زبان از پیش آموزش‌دیده] استفاده می‌کنیم که می‌تواند [BERTs] یا Robertas باشد و سپس [جمله] را [کدگذاری] می‌کنیم و سپس [بازنمایی] این مقادیر را به دست می‌آوریم.
بنابراین، هنگامی که مقدار [بازنمایی] را به دست آوردیم، می‌توانیم [استنتاج] را شروع کنیم.
در اینجا مثالی از q_1 را نشان می‌دهیم تا [بازنمایی] [برای] q_2 تقسیم بر q_2 و سپس ضربدر q_3 به دست آوریم.
ابتدا جفت [بازنمایی] را می‌گیریم، که اساساً فقط [الحاقی] بین q_1 و q_2 است، و سپس یک شبکه پیشخور اعمال می‌کنیم که پارامترهای آن توسط اپراتور تعیین می‌شود.
و در نهایت عبارت [بازنمایی] q_1 تقسیم بر q_2 را بدست می‌آوریم.
اما در واقع، در عمل و در مرحله [استنتاج]، ممکن است عبارت نادرست را نیز دریافت کنیم.
در اینجا تمام عبارات ممکن برابر با سه برابر [تعداد] عملگرها است.
نکته خوب ماجرا این است که می‌توانیم به راحتی محدودیت‌هایی برای کنترل این [جستجو] به فضای [جستجو] اضافه کنیم.
به عنوان مثال، اگر عبارتی مجاز نباشد، می‌توانیم به سادگی این عبارت را در فضای [جستجوی] خود حذف کنیم.
بنابراین در مرحله دوم، ما همان کار را انجام می‌دهیم، اما تنها تفاوت این است که یک کمیت بیشتر است.
این مقدار از عبارت محاسبه شده [قبلی] بدست می‌آید.
بنابراین در نهایت می‌توانیم عبارت نهایی q_3 ضربدر q_4 را بدست آوریم.
و همچنین می‌توانیم ببینیم که [تعداد] همه عبارت‌های ممکن با مرحله [قبلی] فرق دارد.
چنین تفاوتی [جستجوی پرتو] را دشوار می‌کند زیرا توزیع احتمال بین این دو مرحله، نامتعادل است.
بنابراین روند [آموزش]، [مشابه] [آموزش] یک [مدل] [دنباله] به [دنباله] است که در آن افت را در هر مرحله زمانی بهینه می‌کنیم.
و در اینجا نیز از این تاو برای نشان دادن این موضوع استفاده می‌کنیم که چه زمانی باید این فرآیند [تولید] را خاتمه دهیم.
و در اینجا فضا با فضای [دنباله] به [دنباله] متفاوت است زیرا فضا در هر مرحله زمانی فرق دارد در حالی که در [مدل] [دنباله] به [دنباله] این فضا همان [تعداد] [واژگان] است.
و همچنین به ما اجازه می‌دهد که محدودیت‌های خاصی را از [دانسته‌های] قبلی اعمال کنیم.
بنابراین ما آزمایش‌هایی را روی [مجموعه داده‌های] از قبل موجود [مسائل تشریحی ریاضی] مانند [MAWPS]، Math23K، [MathQA] و [SVAMP] مورد استفاده قرار می‌دهیم.
در اینجا به طور خلاصه نتایج [مقایسه] با بهترین رویکردهای [قبلی] را نشان می‌دهیم.
می‌بینیم که بهترین نوع عملکرد متعلق به Roberta-DeductiveReasoner است.
در واقع ما از [جستجوی پرتو] استفاده نمی‌کنیم، در حالی که تمام رویکردهای [قبلی] از [جستجوی پرتو] استفاده می‌کنند.
خب. بنابراین، بهترین رویکردها اغلب شامل [مدل‌های] مبتنی بر درخت هستند.
به طور کلی استدلال ما می‌تواند به طور قابل توجهی بهتر از این [مدل] مبتنی بر درخت عمل کند.
از طرف دیگر می‌توانیم ببینیم که اعداد مطلق در [MathQA] یا [SVAMP] واقعاً زیاد نیستند.
بنابراین نتایج بدست آمده از [SVAMP] را بیشتر بررسی می‌کنیم.
و این [مجموعه داده] چالش برانگیز است زیرا نویسنده سعی کرده است که [به صورت دستی] مواردی را اضافه کند تا [مدل] [NLP] گیج شود، مانند افزودن [اطلاعات] نامربوط و مقادیر اضافی.
بنابراین، در [پیش‌بینی] متوجه می‌شویم که برخی از مقادیر میانی در واقع منفی هستند.
مثلاً، در این [سوالات] می‌پرسیم «جیک چند سیب دارد؟»
اما برخی [اطلاعات] اضافی داریم، مانند هفده عکس کمتر، و استیون هشت عکس دارد، که کاملاً بی‌ربط است.
بنابراین، [مدل] ما [پیش‌بینی‌هایی] مانند این را انجام می‌دهد که مقادیر منفی تولید می‌کند.
و مشاهده می‌کنیم که این دو عبارت در واقع دارای امتیازات [مشابه] هستند.
بنابراین، ما می‌توانیم با حذف نتایجی که منفی هستند، این فضای [جستجو] را محدود کنیم تا بتوانیم کاری کنیم که [پاسخ] درست باشد.
بنابراین متوجه می‌شویم که چنین [محدودیتی] واقعاً [برای] برخی [مدل‌ها]، تا حد زیادی موجب بهبود عملکرد است.
[به عنوان] مثال، [برای] [BERT]، توانستیم هفت امتیاز مدل را بهبود دهیم و [برای] [مدل پایه] Roberta، در واقع دو امتیاز مدل را بهبود بخشیدیم.
بنابراین اگر [مدل زبان] بهتر باشد توانایی‌های [درک زبان] بهتری دارد، به طوری که [عدد] در اینجا برای Roberta بالاتر و [برای] [BERT] کمتر است.
در اینجا تلاش می‌کنیم دشواری موجود در پشت این همه [مجموعه داده] را تحلیل کنیم.
فرض می‌کنیم [تعداد] مقادیر استفاده نشده را می‌توان در اینجا به عنوان [اطلاعات] نامربوط در نظر گرفت.
بنابراین می‌توانیم درصد نمونه‌های با مقادیر استفاده نشده را ببینیم که در آن [مجموعه داده] [SVAMP] بیشترین سهم را دارد.
در اینجا عملکرد کلی را نیز نشان می‌دهیم.
[برای] نمونه‌هایی که مقادیر استفاده نشده ندارند، عملکرد آنها از عملکرد کلی بهتر است.
اما در مورد نمونه هایی که کمیت استفاده نشده دارند، عملکرد آنها بسیار بدتر از عملکرد کلی است.
[برای] [MAWPS]، موارد آزمایشی زیادی نداریم، بنابراین این بخش را نادیده می‌گیرم.
بنابراین، در نهایت می‌خواهیم [تفسیرپذیری] را از طریق یک نمونه [سوال] آشفتگی نشان دهیم.
در اینجا [مدل] ما در مرحله اول یک [پیش‌بینی] اشتباه انجام می‌دهد.
در واقع می‌توانیم این عبارت را با [جمله] در اینجا مرتبط کنیم. بسیار خوب .
ما فکر می‌کنیم که این [جمله] ممکن است [مدل] را به یک پیش‌بینی نادرست هدایت کند.
بنابراین در اینجا «کاشت سی و پنج درخت دیگر» باعث می‌شود [مدل] فکر کند که باید از یک عملگر جمع استفاده کند.
بنابراین سعی می‌کنیم [جمله] را به گونه‌ای اصلاح کنیم که [تعداد] درختان گلابی سی و پنج عدد کمتر از درختان سیب باشد.
بنابراین، ما برای انتقال دقیق‌تر [معنا] به گونه‌ای جمله را تغییر می‌دهیم که [مدل] بتواند [پیش‌بینی] درستی داشته باشد.
بنابراین، این مطالعه نشان می‌دهد که چگونه پیش‌بینی‌های [قابل تفسیر] به ما در درک رفتار [مدل] کمک می‌کنند.
به عنوان نتیجه این مقاله باید گفت که [مدل] ما در واقع بسیار کارآمد است.
و ما قادر به ارائه روش حل [قابل تفسیر] هستیم.
و به راحتی می‌توانیم [دانش] قبلی را به عنوان [محدودیت] وارد کنیم که می‌تواند به بهبود عملکرد کمک کند.
و آخرین مورد این است که مکانیسم اساسی نه تنها برای حل [مسئله] شبکه قابل استفاده است بلکه برای سایر [وظایف] که شامل [استدلال] چند مرحله‌ای هستند نیز اعمال می‌شود.
مدل ما محدودیت‌های خاصی نیز دارد.
اگر [تعداد] عملگر یا ثابت‌ها [زیاد] باشد، میزان حافظه مصرفی ممکن است بسیار زیاد شود.
و دومین محدودیت این است که همانطور که گفته شد، چون توزیع احتمال بین مراحل مختلف زمانی نامتعادل است، بنابراین اعمال استراتژی [جستجوی پرتو] نیز بسیار چالش برانگیز خواهد بود.
به پایان بحث رسیدیم، خوشحال می‌شوم [سوالات] شما را بشنوم. متشکرم.
سلام، اسم من آنتوان است و از دانشگاه ماستریخت هستم.
من مقاله مشترک خود با جری را ارائه خواهم کرد که در مورد یک [مجموعه داده] جدید [برای] [بازیابی] مواد قانونی است.
مسائل حقوقی بخش جدایی ناپذیری از زندگی بسیاری از افراد است.
اما اکثریت شهروندان اطلاعات کمی در مورد حقوق و فرآیندهای قانونی پایه خود دارند.
در نتیجه، بسیاری از شهروندان قشر ضعیف که توانایی پرداخت مبالغ سنگین به یک متخصص حقوقی را ندارند، بدون پشتیبان رها می‌شوند یا بدتر از همه، مورد استثمار قرار می‌گیرند.
هدف از ارائه این مقاله این است که با ایجاد یک سیستم [بازیابی] مواد قانونی، شکاف بین مردم و قانون را پر کنیم.
چنین [سیستمی] می‌تواند خدمات حقوقی حرفه‌ای رایگان [برای] افراد غیر کارشناس ارائه دهد.
قبل از پرداختن به مزایای اصلی این مقاله، اجازه دهید ابتدا [مسئله] [بازیابی] مواد قانونی را شرح دهیم.
با توجه به یک [سوال] ساده در مورد یک موضوع حقوقی کار را شروع می‌کنیم سوالی مانند این: در صورت نقض محرمانگی حرفه‌ای چه خطری مرا تهدید می‌کند؟
یک [مدل] لازم است تا تمام مواد قانونی مربوطه را از مجموعه [بزرگ] قوانین بازیابی کند.
این [کار] [بازیابی اطلاعات] با مجموعه‌ای از چالش‌ها همراه است.
اول اینکه با دو نوع [زبان] سروکار دارد.
[زبان طبیعی] مشترک [برای] طرح [سوالات] و [زبان] حقوقی پیچیده [برای] جستجو در قوانین.
این تفاوت در[توزیع] [زبان]، بازیابی پاسخ‌های درست مربوطه را برای [سیستم] سخت‌تر می‌کند، زیرا به طور غیرمستقیم به یک [سیستم] ذاتی برای تفسیر نیاز دارد که بتواند یک [سوال] [طبیعی] را به [سوال] قانونی ترجمه کند که با [اصطلاحات] موجود در قوانین مطابقت داشته باشد.
علاوه بر این، قانون بر خلاف [اخبار] یا دستورالعمل‌ها، مجموعه‌ای از مواد مستقل نیست که بتواند به تنهایی به عنوان یک [منبع] کامل از [اطلاعات] تلقی شود.
بلکه مجموعه‌ای [ساختار یافته] از مقررات قانونی است که تنها در یک [زمینه] کلی، یعنی همراه با [اطلاعات] تکمیلی از مواد قانونی همسایه، زمینه‌ها و زیرشاخه‌هایی که به آنها تعلق دارند و جایگاه آنها در [ساختار] قانون، یک [معنای] کامل پیدا می‌کنند.
در نهایت، برخلاف بیشتر مقالات مرتبط با [بازیابی]، مواد قانونی پاراگراف‌های کوتاهی نیستند که معمولاً در فرآیند [بازیابی] معمولی با آنها سروکار داریم.
در مواد قانونی، [اسناد] طولانی بوده و ممکن است تا شش هزار [کلمه] باشد.
[پیشرفت‌های اخیر] در [NLP] توجه زیادی را به سمت [کارهای] حقوقی، مانند [پیش‌بینی] قضاوت قانونی یا بررسی خودکار قراردادهای تماس، برانگیخته است.
اما موضوع [بازیابی] مواد قانونی عمدتاً به دلیل فقدان [مجموعه داده‌های] [برچسب خورده] [باکیفیت] و [عظیم] دست نخورده باقی مانده است.
در این کار، ما یک [مجموعه داده] شهروند محور بومی کشور [فرانسه] را ارائه می‌کنیم تا بررسی کنیم که آیا [مدل‌های] [بازیابی] می‌توانند بصورت تقریبی کارایی و قابلیت اطمینان یک متخصص حقوقی را [برای] [کار] [بازیابی] مواد قانونی داشته باشند.
[مجموعه داده] [بازیابی] مواد قانونی کشور بلژیک یعنی [BSARD] شامل بیش از هزار و صد [سوال] قانونی است که توسط شهروندان بلژیکی مطرح شده است.
این [سوالات] طیف وسیعی از موضوعات از خانواده، مسکن، پول، کار و تأمین [اجتماعی] را پوشش می‌دهد.
هر یک از این سوالات توسط حقوقدانان مجرب با ارجاع به مواد قانونی مرتبط از [مجموعه متون] شامل بیش از بیست و دو هزار و ششصد ماده قانونی از قوانین حقوقی بلژیک [برچسب] زده شده‌اند.
اکنون اجازه دهید در مورد نحوه جمع‌آوری این [مجموعه داده] صحبت کنیم.
ابتدا با گردآوری [متون] [گسترده‌ای] از مواد حقوقی کار را شروع می‌کنیم.
ما سی و دو آئین‌نامه کشور بلژیک را که در دسترس عموم است در نظر گرفتیم و تمام مواد و همچنین عناوین بخش‌های [مرتبط] را [استخراج کردیم].
سپس [سوالات] حقوقی را با ارجاع به قوانین مربوطه جمع‌آوری کردیم.
برای انجام این کار، ما با یک شرکت حقوقی در کشور بلژیک همکاری کردیم که هر سال حدود چهار هزار ایمیل از شهروندان بلژیکی دریافت می‌کند که در مورد یک موضوع حقوقی شخصی درخواست مشاوره می‌کنند.
ما به اندازه کافی خوش شانس بودیم که به وب‌سایت آنها دسترسی پیدا کردیم، در این وبسایت تیم حقوقدانان با تجربه به رایج‌ترین مسائل حقوقی مردم بلژیک می‌پردازند.
ما هزاران [سوال] را همراه با [تفسیر] و دسته‌‌بندی‌ها، زیرمجموعه‌ها و ارجاعات قانونی به قوانین مربوطه جمع‌آوری کردیم.
در نهایت، مراجع قانونی را بررسی کردیم و [سوالاتی] را که ارجاعات آنها در یکی از آئین‌نامه‌های حقوقی مورد نظر ما نبود، فیلتر کردیم.
منابع باقیمانده مطابقت داده شد و به شناسه ماده قانونی [مرتبط] از [مجموعه متون] تبدیل شد.
در نهایت به هزار و صد و هشت [سوال] رسیدیم که هر کدام با دقت [برچسب] شناسه مواد قانونی مربوطه را از بین [مجموعه] [متون] شامل بیست و دو هزار و ششصد و سی و سه ماده قانونی داشتند.
علاوه بر این، هر [سوال] با دسته اصلی و [پیوستگی] زیرمجموعه‌ها همراه بود.
و هر ماده با [پیوستگی] عنوان بعدی در [ساختار] قانون همراه شده بود.
این [اطلاعات] اضافی در مقاله حاضر استفاده نمی شود، اما ممکن است [برای] [تحقیقات] آینده در خصوص [بازیابی اطلاعات] حقوقی یا [طبقه‌بندی متون] حقوقی جالب باشد.
بیایید به برخی از ویژگی‌های [مجموعه داده] خود نگاهی بیاندازیم.
[سوالات] بین پنج تا چهل و چهار [کلمه] داشتند و میانگین تعداد کلمات، چهارده [کلمه] بود.
مواد قانونی بسیار طولانی‌تر هستند، طول متوسط هفتاد و هفت [کلمه] که صد و چهل و دو مورد از آنها شامل بیش از هزار [کلمه] هستند.
طولانی‌ترین ماده قانونی تا پنج هزار و هفتصد و نود [کلمه] دارد.
همانطور که قبلاً ذکر شد، [سوالات] شامل [گستره وسیعی] از موضوعات می‌شود، که حدود هشتاد و پنج درصد آنها در مورد خانواده، مسکن، پول یا عدالت هستند.
در حالی که پانزده درصد باقیمانده مربوط به تأمین [اجتماعی]، اتباع خارجی یا کار است.
این مواد بسیار متنوع هستند زیرا برگرفته شده از سی و دو آئین‌نامه مختلف کشور بلژیک است که [تعداد زیادی] از موضوعات حقوقی را پوشش می‌دهد.
در اینجا کل [تعداد] مواد قانونی جمع آوری شده از هر یک از این آئین‌نامه‌های مختلف کشور بلژیک ارائه شده است.
از بیست و دو هزار و ششصد و سی و سه ماده قانونی، تنها یک هزار و ششصد و دوازده ماده به عنوان مواد مربوط به حداقل یک [سوال] در [مجموعه داده] ارجاع شد.
و حدود هشتاد درصد از این مواد ارجاع شده، از قانون مدنی، قوانین قضایی، قوانین تحقیقات جنایی یا قوانین جزایی برگرفته شده است.
در همین حال، هجده آئین‌نامه از سی و دو آئین‌نامه کمتر از پنج ماده قانونی دارند که با حداقل یک [سوال] مرتبط هستند.
که می‌توان به این صورت توضیح داد که آئین‌نامه‌ها کمتر بر افراد و نگرانی‌هایشان تمرکز داشتند.
به طور کلی، میانگین [تعداد] استنادها [برای] این مواد قانونی استناد شده دو است و کمتر از بیست و پنج درصد از آنها بیش از پنج بار استناد شده است.
با استفاده از کل [مجموعه‌های داده]، چندین رویکرد [بازیابی]، از جمله رویکرد [واژگانی] و معماری متراکم را محک زدیم.
فرض کنید یک [جستار] و یک ماده قانونی داریم، یک [مدل] [واژگانی] با محاسبه مجموع عبارات [جستار] در [وزن] مربوط به هر یک از این اصطلاحات در آن ماده قانونی، امتیازی را به جفت ماده قانونی - [جستار] اختصاص می‌دهد.
ما با توابع رتبه بندی استاندارد TF-[IDF] و BM25 آزمایش می‌کنیم.
[مشکل] اصلی در این رویکردها این است که این روش‌ها فقط می‌توانند مواد قانونی را بازیابی کنند که حاوی کلمات کلیدی موجود در [جستار] هستند.
برای غلبه بر این محدودیت، یک معماری مبتنی بر [شبکه عصبی] را آزمایش می‌کنیم که می‌تواند روابط [معنادار] بین [جستار] و ماده قانونی را ثبت کند.
ما از یک [مدل] [رمزگذار] دوگانه استفاده می‌کنیم که [جستارها] و مواد قانونی را در [بازنمایی‌های] [برداری] متراکم نگاشت می‌کند و امتیاز ارتباط بین یک جفت ماده قانونی - [جستار] را بر اساس [شباهت] [جاسازی‌های] آنها محاسبه می‌کند.
این [جاسازی‌ها] معمولاً از یک عملیات ادغام در خروجی یک [مدل] [جاسازی کلمه] ناشی می‌شوند.
ابتدا، ما اثربخشی [رمزگذار] دوگانه Siamese را در تنظیم [ارزیابی] مرحله صفر مطالعه می‌کنیم، [به این معنی] که [مدل‌های] [جاسازی کلمه] [از پیش آموزش‌دیده] را بصورت آماده و بدون هیچ گونه [تنظیم دقیق] اضافی اعمال می‌کنیم.
ما با [رمزگذار] [متن] مستقل [متون]، [یعنی] [word2vec] و fastText، و [مدل‌های] [جاسازی] وابسته به [متن]، [یعنی] Roberta و به طور خاص‌تر [CamemBERT] که [مدل] روبرتای [فرانسوی] است آزمایش می‌کنیم.
[علاوه بر این]، [مدل] [رمزگذار] دوگانه خود را که مبتنی بر [CamemBERT] است بر روی [مجموعه داده] خود آموزش می‌دهیم.
توجه داشته باشید که [برای] [آموزش]، ما با دو شیوه معماری [رمزگذار] دوگانه آزمایش می‌کنیم.
Siamese، که از یک [مدل] منحصر به فرد [جاسازی کلمه] استفاده می‌کند که [جستار] و ماده قانونی را با هم در یک [فضای برداری] متراکم [به اشتراک گذاشته] نگاشت می‌کند، و دو برج، که از دو [مدل] مستقل [جاسازی کلمه] استفاده می‌کند، [جستار] و ماده قانونی را به طور جداگانه در فضاهای [جاسازی] مختلف [کدگذاری] می‌کند.
ما با میانگین، حداکثر و ادغام [CLS] و همچنین ضرب و [کسینوس] [برای] شباهت‌های محاسباتی استفاده می‌کنیم.
در اینجا نتیجه مدل پایه ما در مجموعه‌های آزمایشی ارائه شده است.
با [روش‌های] واژگانی بالا، [رمزگذارهای] دوگانه Siamese در تنظیم مرحله صفر در وسط، و [رمزگذارهای] دوگانه دقیق در زیر ارزیابی شدند.
به طور کلی، [رمزگذار] دوگانه تنظیم شده به طور قابل توجهی از تمام [مدل‌های پایه] دیگر بهتر عمل می‌کند.
[مدل] دو برج نسبت به انواع Siamese خود در هنگام فراخوانی در یکصد بهبود می‌یابد، اما در [معیارهای] دیگر عملکرد مشابهی دارد.
اگرچه BM25 عملکرد قابل‌توجهی در [رمزگذار] دوگانه آموزش‌دیده نداشت، اما عملکرد آن نشان داد که هنوز یک مدل پایه قوی [برای] [بازیابی] اطلاعات در یک [دامنه] خاص است.
با توجه به [ارزیابی] مرحله صفر [رمزگذار] دوگانه Siamese، متوجه شدیم که استفاده مستقیم از [جاسازی‌های] یک [مدل از پیش آموزش‌دیده] [CamemBERT] بدون بهینه‌سازی [برای] [کار] [بازیابی اطلاعات]، نتایج ضعیفی در پی دارد که با یافته‌های [قبلی] مطابقت دارد.
[به‌علاوه]، مشاهده می‌کنیم که [رمزگذار] دوگانه مبتنی بر [word2vec] به طور قابل‌توجهی از [مدل‌های] fastText و [BERT] عملکرد بهتری داشت، که نشان می‌دهد شاید [جاسازی‌های] سطح [کلمه] [از پیش آموزش‌دیده] نسبت به [جاسازی‌های] سطح کاراکتر یا سطح [زیرکلمه] بصورت آماده مناسبتر باشد.
اگرچه این نتایج امیدوارکننده است، اما در مقایسه با یک متخصص حقوقی ماهر که می‌تواند در نهایت تمام مواد قانونی مرتبط با هر [سوالی] را بازیابی کند و در نتیجه نمرات عالی کسب کند، فرصت کافی [برای] بهبود وجود دارد.
در انتها در مورد دو محدودیت [مجموعه داده] خود بحث کرده و نتیجه‌گیری می‌کنیم.
اولاً، [مجموعه متون] مواد قانونی محدود به مواردی است که از سی و دو آئین‌نامه بلژیک جمع آوری شده است، که کل قوانین بلژیک را در بر نمی‌گیرد زیرا موادی از فرامین، بخشنامه‌ها و احکام وجود ندارد.
در طی ساخت [مجموعه داده]، تمام ارجاعات به این مواد قانونی که جمع آوری نشده بودند نادیده گرفته شد، که باعث می‌شود برخی [سوالات] تنها به بخشی از مواد قانونی اولیه منجر شوند.
بنابراین، با داشتن این [اطلاعات] ممکن است که [پاسخ] موجود در مواد قانونی مرتبط باقی مانده ناقص باشد، اگرچه هنوز کاملاً مناسب است.
ثانیاً، باید توجه داشته باشیم که همه [سوالات] حقوقی را نمی‌توان تنها با قانون پاسخ داد.
[به عنوان] مثال این [سوال]: اگر مستاجرم زیاد سر و صدا کند آیا می‌توانم او را بیرون کنم؟
ممکن است در قانون، [پاسخ] همراه با جزئیات وجود نداشته باشد که در آن آستانه صدای خاصی را که در آن اخراج مجاز است، بصورت مقدار بیان کند.
بلکه احتمالاً صاحبخانه باید بیشتر به رویه قضایی تکیه کند و سوابق [مشابه] با وضعیت فعلی خود را بیابد.
[مثلاً] مستأجر دوبار در هفته تا ساعت دو بامداد مهمانی می‌گیرد.
[از این رو] برخی [سوالات] نسبت به سایرین برای [کار] [بازیابی] ماده قانونی مناسبترند، و [دامنه] مواردی که خیلی مناسب نیستند باید مشخص شود.
امیدواریم که مقاله ما موجب شود توجه به توسعه [مدل‌های] عملی و قابل اعتماد [بازیابی] مواد قانونی برانگیخته شود.
این امر می‌تواند موجب بهبود دسترسی به عدالت [برای] همه شود.
می‌توانید [مقاله]، [مجموعه داده] و آئین‌نامه را در لینک‌های زیر بررسی کنید. متشکرم.
سلام، خوشحالیم که مقاله خود را در خصوص [VALSE] ارائه می‌کنیم. یک معیار مستقل از [کار] [برای] آزمایش بینایی و [مدل‌های زبان] با پدیده‌های خاص [زبانی].
چرا ما در تنظیم این معیار دچار مشکل شدیم؟
خب، در طی سال‌های گذشته، شاهد رشد انفجاری [مدل‌های زبانی] و بینایی مبتنی بر [مبدل] بودیم که بر روی مقادیر زیادی جفت [تصویر] - [متن] [آموزش‌ دیده] شده‌اند.
هر یک از این [مدل‌ها] موجب پیشبرد فناوری‌های بینایی و [زبانی] مانند [پاسخ به سؤالات بصری]، [استدلال] [حس مشترک] [بصری]، [بازیابی] [تصویر] و تعیین [زمینه][عبارت] شدند.
بنابراین پیامی که دریافت کردیم این بود: دقت انجام این [کارها] و معیارهای خاص به طور پیوسته در حال افزایش است.
اما آیا ما می‌دانیم که [مدل‌ها] در واقع چه چیزی را آموخته‌اند؟
هنگامی که [مبدل] بینایی و [زبانی]، امتیاز بالایی را به یک [تصویر] یا یک [جمله] می‌دهد در واقع متوجه چه چیزی شده است؟
و وقتی امتیاز پایینی به آیتم دیگری می‌دهد متوجه چه موضوعی شده است؟
آیا [مدل‌های زبانی] و بینایی روی موارد درست تمرکز می‌کنند؟
یا همانطور که در مقاله [قبلی] نشان داده شده دچار [سوگیری] می‌شوند؟
برای روشن کردن بیشتر این [جنبه]، ما جهت‌گیری بدون شناخت [کار] را در نظر گرفته و مدل [VALSE] را معرفی می‌کنیم که حساسیت مدل‌های بینایی و [زبانی] را با پدیده‌های خاص [زبانی] که [شیوه‌های] [زبانی] و [بینایی] را تحت تأثیر قرار می‌دهند، آزمایش می‌کند.
هدف ما بررسی وجود، کثرت، شمارش، [روابط] [مکانی]، اعمال و [همبستگی] [نهادی] است.
اما چگونه این موضوع را آزمایش کنیم که آیا [مدل‌های زبانی] و بینایی این پدیده را به تصویر کشیده‌اند یا خیر؟
این کار را با فویل پیچی انجام می دهیم، [روشی] که قبلاً [برای] [مدل‌های زبانی] و بینایی و فقط برای عبارات [اسم] توسط Ravi Shekhar و همکاران اعمال شده بود و با در نظر گرفتن مقاله [قبلی] .
فویل پیچی به این معنی است که عنوان یک [تصویر] را می‌گیریم و آن را تغییر می‌دهیم به گونه‌ای که دیگر [تصویر] را توصیف نکند.
این تغییرات [عبارت] را با تمرکز بر شش بخش خاص انجام می‌دهیم: وجود، کثرت، شمارش، [روابط] [مکانی]، عمل و [همبستگی] [نهادی]، که در آن هر بخش می‌تواند از یک یا چند ابزار تشکیل شده باشد، در هر مورد ما بیش از یک روش جالب برای ایجاد نمونه‌های فویل پیدا کردیم.
[مثلاً] در مورد بخش عمل دو ابزار داریم، در یکی [فعل] عمل به عمل دیگری تغییر می‌کند و در دیگری که در آن فعل عوض می‌شود.
شمارش و [همبستگی] نیز بخش‌هایی هستند که بیش از یک ابزار دارند.
و ما این فویل‌ها را با اطمینان از این موضوع ایجاد می‌کنیم که [تصویر] را توصیف نمی‌کنند، [جملات گرامری] هستند و نیز معتبر هستند.
انجام این کار آسان نیست، زیرا احتمال یک عنوان فویل شده از احتمال عنوان اصلی کمتر است.
[به عنوان مثال]، اگرچه غیرممکن نیست، اما از نظر آماری احتمال کمتری [برای] جمله: «درخت در حال بریدن انسان» نسبت به جمله «انسان در حال بریدن درخت» وجود دارد، و [مدل‌های زبانی] و بینایی [بزرگ] می‌توانند این موضوع را تشخیص دهند.
[بنابراین] برای به دست آوردن فویل‌های معتبر باید اقداماتی را انجام دهیم.
ابتدا از [مدل‌های زبانی] قوی برای [پیشنهاد] فویل‌ها استفاده می‌کنیم.
در ادامه از [استنتاج زبان طبیعی] یا [NLI] کوتاه برای فیلتر کردن فویل‌هایی استفاده می‌کنیم که هنوز ممکن است [تصویر] را توصیف کنند، زیرا هنگام ساختن فویل‌ها باید اطمینان حاصل کنیم که [تصویر] را توصیف نمی کنند.
برای آزمایش این کار [به طور خودکار]، [استنتاج زبان طبیعی] را با منطق زیر اعمال می‌کنیم.
ما یک [تصویر] را به عنوان مقدمه و عنوان آن را مستلزم فرضیه می‌دانیم.
علاوه بر این، عنوان را مقدمه و فویل را فرضیه می‌دانیم.
اگر [مدل] [NLI] اینطور پیش‌بینی کند که با توجه به عنوان تصویر، فویل متناقض یا خنثی است، در اینصورت فویل را معتبر در نظر می‌گیریم.
اگر [مدل] [NLI] اینطور پیش‌بینی کند که فویل شامل عنوان تصویر است، در اینصورت نمی‌تواند فویل خوبی باشد، زیرا توصیفی واقعی از [تصویر] ارائه می‌دهد و ما این فویل‌ها را فیلتر می‌کنیم.
اما این روش کامل نیست و فقط یک نشانگر [برای] فویل‌های معتبر است.
[بنابراین]، به عنوان معیار سوم [برای] [تولید] فویل‌های معتبر، از [تفسیر] [انسان] برای اعتبارسنجی [داده‌های] استفاده شده در [VALSE] استفاده می‌کنیم.
بنابراین، پس از فیلتر کردن و [ارزیابی انسانی]، تعداد نمونه‌های آزمایشی که داریم مطابق این جدول می‌شود.
توجه داشته باشید که [VALSE] هیچ [داده‌ آموزشی] ارائه نمی‌کند، بلکه فقط [داده‌ها] را آزمایش می‌کند.
از آنجایی که این معیار، فقط یک معیار آزمایش در مرحله صفر است لذا برای استفاده از قابلیت‌های [موجود] [مدل‌های زبان] و بینایی و پس از [پیش‌آموزش] طراحی شده است.
[تنظیم دقیق] فقط باعث می‌شود [مدل‌ها] از مصنوعات یا [سوگیری] آماری در [داده‌ها] بهره‌برداری کنند.
و همه ما می‌دانیم که این [مدل ها] دوست دارند تقلب کنند و از میانبر استفاده کنند.
و همانطور که گفتیم، ما علاقمندیم بدانیم که [مدل‌های زبانی] و بینایی بعد از [پیش آموزش] چه قابلیت‌هایی دارند.
ما پنج مدل بینایی و [زبانی] را روی [VALSE] آزمایش کردیم [شامل]: [CLIP]، [LXMert]، [ViLBERT]، [ViLBERT] دوازده در یک، و [VisualBERT] .
مهم‌ترین [معیارهای] [ارزیابی] عبارتند از دقت [مدل‌ها] در [طبقه‌بندی] جفت [تصویر] - [جمله] به [عنوان تصویر] و فویل‌ها.
دراین ویدیو، ما معیارهای مجاز خود را نشان خواهیم داد که شامل دقت [دو به دو] است و نشان می‌دهد آیا امتیاز [تناسب] [تصویر] با [جمله] از جفت [تصویر] - [متن] صحیح [برای] جفت فویل شده آن بیشتر است یا خیر.
[برای] بررسی [معیارهای] بیشتر و نتایج، [مقاله] ما را بررسی کنید.
نتایج مربوط به دقت [دو به دو] در اینجا نشان داده شده است و با نتایجی که ما از [معیارهای] دیگر به دست آوردیم مطابقت دارند لذا بهترین عملکرد برای مرحله صفر توسط [ViLBERT] دوازده در یک بدست می‌آید و به دنبال آن [ViLBERT]، [LXMert]، [CLIP] و در نهایت [VisualBERT] در رده‌های بعدی قرار دارند.
نکته قابل توجه این است که چگونه ابزارهای متمرکز بر روی اشیاء منفرد مانند عبارات وجود و [اسم] تقریباً توسط [ViLBERT] دوازده در یک حل می‌شوند و نشان می‌دهد که [مدل‌ها] قادر به [شناسایی] اشیاء [همراه با نام] و حضور آنها در تصاویر هستند.
با این حال، هیچ یک از بخش‌های باقی مانده را نمی‌توان به طور قابل اعتماد در تنظیمات فویلینگ [متضاد] ما حل کرد.
از ابزارهای کثرت و شمارش می‌بینیم که [مدل‌های زبانی] و بینایی در تشخیص ارجاعات به اشیاء منفرد و چندگانه، یا شمارش آنها در یک [تصویر] مشکل دارند.
بخش [رابطه] نشان می‌دهد که این مدل‌ها در [طبقه بندی] صحیح [رابطه] [مکانی] بین اشیاء در [تصویر] مشکل دارند.
مدل‌ها همچنین در تشخیص اقدامات و [شناسایی] شرکت کنندگان خود مشکل دارند، حتی اگر توسط [سوگیری‌های] معقول پشتیبانی شوند، همانطور که در بخش عمل‌ها می‌بینیم.
از بخش [مطابقت]، متوجه می‌شویم که ردیابی چندین ارجاع به یک شیء در یک [تصویر] با استفاده از [ضمایر] نیز [برای] [مدل‌های زبانی] و بینایی دشوار است.
برای بررسی عقلانی بودن عبارت، و چون آزمایش جالبی است، دو[مدل] فقط [متنی]، یعنی [GPT] یک و [GPT] دو را محک می‌زنیم تا ارزیابی کنیم که آیا [VALSE] با این [مدل‌های] یک‌وجهی از طریق محاسبه [گیجی]، عنوان صحیح و فویل شده قابل حل است یا خیر. در اینجا [تصویر] وجود ندارد و ورودی با کمترین [گیجی] پیش‌بینی می‌شود.
اگر [گیجی] [برای] عنوان فویل شده بیشتر باشد، این را به عنوان نشانه‌ای در نظر می‌گیریم که عنوان فویل شده ممکن است دچار سوگیری معقولیت یا سایر [سوگیری‌های] [زبانی] شود.
و جالب است که ببینید در برخی موارد، [مدل‌های] فقط [متنی] [GPT] معقول بودن عنوان را بهتر از [مدل‌های زبانی] و بینایی نشان می‌دهند.
بنابراین به طور خلاصه، [VALSE] معیاری است که با آزمایش‌های سخت بر روی قابلیت‌های [زمینه‌سازی] [بینایی]، از لنز ساختارهای [زبانی] برای کمک به بهبود [مدل‌های زبانی] و بینایی استفاده می‌کند.
آزمایش‌های ما نشان می‌دهد که [مدل‌های زبانی] و بینایی، اشیاء [نام‌گذاری‌شده] و حضور آن‌ها در تصاویر را به خوبی شناسایی می‌کنند، همانطور که در بخش وجود نشان داده شد، اما وقتی مجبور به مد نظر قرار دادن شاخص‌های [زبانی] می‌شوند، تلاش می‌کنند تا وابستگی متقابل و روابط آنها را در تصاویر [بصری] پایه‌گذاری کنند.
ما واقعاً می‌خواهیم جامعه را تشویق کنیم که از [VALSE] [برای] اندازه‌گیری پیشرفت به سمت [زبان] [زمینه‌سازی] همراه با [مدل‌های زبان] و بینایی استفاده کنند.
و در ادامه، [VALSE] می‌تواند به‌عنوان ارزیابی غیرمستقیم [مجموعه‌های داده] مورد استفاده قرار گیرد، زیرا [مدل‌ها] را می‌توان قبل و بعد از [آموزش] یا [تنظیم دقیق] ارزیابی کرد تا ببینیم آیا [مجموعه داده] به [مدل‌ها] کمک می‌کند تا از منظر جنبه‌های آزمایش شده توسط [VALSE] بهبود یابند یا خیر.
اگر علاقمند هستید [داده] [VALSE] را در GitHub بررسی کنید، و یا [سوالی] دارید، از تماس با ما دریغ نکنید.
سلام، نام من Kamezawa است و از دانشگاه توکیو هستم.
[مقاله‌ای] ارائه خواهم داد با عنوان [RNSum]: یک [مجموعه داده‌] در مقیاس بزرگ [برای] [تولید] «یادداشت انتشار» بصورت [خودکار] از طریق [خلاصه] گزارش‌های ثبت شده.
ترتیب توضیح مطالب به اینصورت خواهد بود.
ابتدا، [تولید] متن «یادداشت انتشار» بصورت [خودکار] را که در این [تحقیق] روی آن کار می‌کنیم، معرفی می‌کنم.
«یادداشت انتشار» یا release note یک [سند] فنی است که تغییرات نسخه جدید از یک محصول نرم‌افزاری را بصورت خلاصه شرح می‌دهد.
در این [تصویر] یک یادداشت انتشار [برای] نسخه 2.6.4 کتابخانه vuejs نشان داده شده است.
یادداشت‌ انتشار نقش مهمی در توسعه نرم‌افزارهای [منبع باز] دارد، اما آماده‌سازی [دستی] آن زمان‌بر است.
[بنابراین]، بسیار مفید خواهد بود اگر بتوانیم یادداشت‌های انتشار [با کیفیت] بالا را [به طور خودکار] تولید کنیم.
شما را به دو تحقیق [قبلی] در مورد [تولید] [خودکار] یادداشت انتشار ارجاع می‌دهم.
اولین سیستم [سیستمی] به نام [ARENA] است که در2014 منتشر شد.
این سیستم یک [رویکرد] مبتنی بر قاعده دارد، یعنی از [استخراج‌گر] تغییر برای استخراج تفاوت‌ها، تغییرات رخ داده در کتابخانه و تغییرات [سند] با توجه به تفاوت‌های موجود بین نسخه‌ها و در نهایت ترکیب آنها استفاده می‌کند.
قابل توجه ترین ویژگی این [سیستم]، [ استخراج‌گر] مشکلات نرم‌افزاری در گوشه بالا سمت راست است.
این موضوع باید به Jira یا [سیستم] ردیاب مشکلات نرم‌افزاری واگذار شود و فقط برای پروژه‌هایی که از Jira استفاده می‌کنند قابل اعمال است.
به عبارت دیگر، نمی‌توان از آن [برای] بسیاری از پروژه‌ها در GitHub استفاده کرد.
دومی Glyph است که اخیراً در 2020 منتشر شده است.
Glyph در [اینترنت] موجود و از طریق pip قابل نصب است.
این [سیستم] یک [مدل] [طبقه بندی متن] مبتنی بر [آموزش] ساده دارد و یکی از پنج برچسب [ویژگی‌ها] یا رفع اشکال [برای] هر پیام [ورودی] را در [خروجی] می‌دهد.
این [تصویر] یک نمونه از کاربرد آن است که برچسب اصلاح یا رفع اشکال را نشان می‌دهد.
[داده‌های آموزشی] Glyph نسبتاً کوچک است، حدود پنج هزار، و در آزمایش‌هایی که در زیر توضیح داده می‌شود نشان داده خواهد شد.
عملکرد [مدل] [طبقه‌بندی متن] خیلی مناسب نیست.
من دو تحقیق مرتبط را ارائه می‌کنم، که مشکلات آنها کاربرد محدود و [منابع] [داده] کمیاب است.
[مقاله] ما این دو مشکل را حل می‌کند و [به‌طور خودکار] یادداشت‌های انتشار [با کیفیت] بالا تولید می‌کند.
در خصوص [مشکل] محدودیت کاربرد، ما [خلاصه‌برداری] کلاسه شده [با کیفیت] بالا را با استفاده از پیام‌های تعهد به عنوان [ورودی] [پیشنهاد می‌کنیم].
این [روش] پیشنهادی را می‌توان [برای] مخازن [انگلیسی] استفاده کرد.
[برای] دومین [مشکل] که کمیاب بودن منابع [داده] است، [مجموعه داده] [RNSum] خود را متشکل از حدود هشتاد و دو هزار قطعه [داده] با جمع آوری [داده] از مخازن عمومی GitHub با استفاده از GitHub [ API] ساختیم.
در مرحله بعد، [مجموعه داده] خود را شرح خواهم داد.
در اینجا یک نمونه از [داده‌ها] ارائه شده است.
سمت چپ یک پیام تعهد و سمت راست یادداشت‌های انتشار است.
یادداشت‌های انتشار به عنوان بهبود یا اصلاح و غیره [برچسب‌گذاری می‌شوند].
ما یک [کار] راه‌اندازی کرده‌ایم که پیام‌های تعهد را به عنوان [ورودی] گرفته و یادداشت‌های انتشار [برچسب‌شده] را به عنوان [خروجی] می‌دهد.
این کار را می‌توان به عنوان یک [کار] [خلاصه‌نویسی] در نظر گرفت.
ما چهار برچسب از پیش تعریف کرده‌ایم: [ویژگی‌ها]، بهبودها، رفع اشکال‌ها، حذف‌ بخش‌های منسوخ و تغییرات مهم.
اینها بر اساس [پژوهش] قبلی و عوامل دیگر تنظیم شدند.
یادداشت انتشار که در پایین سمت راست نشان داده شده از یادداشت انتشار در پایین سمت چپ [استخراج شده است].
در این زمان لازم است چهار برچسبی که از قبل تنظیم شده‌اند شناسایی شوند.
اما برچسب‌ها همیشه با مخازن سازگار نیستند.
به عنوان مثال، برچسب بهبودها شامل بهبودها، تقویت‌ها، بهینه‌سازی‌ها و غیره است.
ما یک فهرست [واژگان] متشکل از سی برچسب [برای] هر یک از این تغییرات نمادین آماده کردیم.
این فهرست برای شناسایی کلاس یادداشت انتشار است، و [متن] انتشار را که به عنوان [جمله] یادداشت انتشار [برای] کلاس که در زیر آمده است، جمع آوری می‌کند.
بعدی یک پیام تعهد است.
پیام‌های تعهد به نسخه‌ها مرتبط نیستند.
همانطور که در [تصویر] زیر نشان داده شده است، اگر نسخه کنونی نسخه 2.5.19 باشد، باید نسخه انتشار [قبلی] 2.5.18 را شناسایی کرده و یک تفاوت دریافت کنیم.
این کار کمی خسته کننده است و فقط به دست آوردن لیستی از نسخه‌ها و نگاه کردن به قبل و بعد آن کافی نیست.
ما یک قانون تطبیق [اکتشافی] برای دریافت نسخه [قبلی] و بعدی ایجاد کردیم.
[تحلیل] [مجموعه داده].
در پایان هفت هزار و دویست مخزن و هشتاد و دو هزار قطعه [داده] جمع‌آوری شد.
همچنین، میانگین [تعداد] [کلمات] یادداشت‌های انتشار شصت و سه می‌باشد که [برای] [کار] [خلاصه‌نویسی] بسیار زیاد است.
همچنین [تعداد] [کلمات] منحصربه‌فرد کاملاً [زیاد] و هشتصد و سی هزار است.
این امر به دلیل [زیاد بودن] [تعداد] کلاس‌های منحصربه‌فرد یا نام‌های [روش] موجود در مخزن است.
در ادامه، [روش] پیشنهادی را توضیح خواهم داد.
مدل [استخراجی] و [مدل] [خلاصه‌ کننده چکیده] از دو ماژول [عصبی] تشکیل شده است.
یک [طبقه‌بندی کننده] از [BERT] یا [CodeBERT] و یک مبدل از [BART] استفاده می‌کند.
ابتدا، [CEAS] از یک [طبقه‌بندی کننده] برای طبقه‌بندی پیام‌های تعهد به پنج کلاس یادداشت انتشار استفاده می‌کند که از بهبودها، رفع اشکال‌ها، منسوخ شدن‌ها و یک کلاس دیگر استفاده می‌کند.
پیام‌های تعهد طبقه‌بندی‌شده به عنوان «سایر پیام‌ها» کنار گذاشته می‌شوند.
سپس [CEAS]، مبدل را به صورت مستقل روی چهار [برچسب] [اسناد] اعمال می‌کند و یادداشت‌های انتشار [برای] هر کلاس را ایجاد می‌کند.
در این [کار]، مطابقت مستقیم بین پیام‌های تعهد و یادداشت‌های انتشار مشخص نیست.
برای آموزش [طبقه‌بندی کننده]، با استفاده از ده کاراکتر اول هر پیام تعهد، نظرسنجی‌ها را به پیام‌های تعهد [ورودی] اختصاص دادیم.
ما [رویکرد] [خلاصه کننده چکیده] طبقاتی را با دو [روش] متفاوت مدل کردیم.
اولین [مدل]، که ما آن را [CAS]-Single می‌نامیم، از یک شبکه شش در شش تشکیل شده است و یک [متن] یادداشت انتشار تولید می‌کند که یک [الحاق] از پیام‌های تعهد [ورودی] ایجاد می‌کند.
[متون] خروجی را می‌توان بر اساس نمادهای نقطه پایانی ویژه کلاس به بخش‌های کلاس تقسیم کرد.
[روش] دوم که ما آن را [CAS]-Multi می‌نامیم، از چهار شبکه [seq2seq] مختلف تشکیل شده است که هر کدام به یکی از کلاس‌های یادداشت انتشار ثابت مربوط می‌شود.
خب، اجازه دهید آزمایش‌ها را توضیح دهم.
پنج [روشی] که [مقایسه] شدند عبارتند از: [CEAS]، [CAS]-Single، [CAS]-Multi، [Clustering]، و مطالعه [قبلی] یعنی Glyph.
با توجه به [ارزیابی]، در برخی موارد، یادداشت‌های انتشار به چند [جمله] در خروجی منجر می‌شود.
از آنجایی که محاسبه [تعداد] [جملات] دشوار است، لذا آنها را با فاصله ترکیب کرده و به عنوان یک [جمله] طولانی تلقی می‌کنیم.
[BLEU] زمانی که [سیستم] یک [جمله] کوتاه را در [خروجی] را صادر کند، جریمه می‌شود.
این جریمه منجر به یک مقدار [BLEU] کمتر در نتایج آزمایش می‌شود که در ادامه توضیح داده می‌شود.
در نهایت، ما ویژگی را نیز محاسبه می‌کنیم، زیرا در صورت خالی بودن یادداشت‌های انتشار، [ROUGE] و [BLEU] قابل محاسبه نیستند.
ویژگی بالاتر به این معنی است که در مواردی که یادداشت‌های انتشار خالی فرض می‌شوند، [مدل] به درستی یک [متن] خالی را در [خروجی] می‌دهد.
نتیجه‌گیری در اینجا ارائه شده است.
از آنجایی که [dataset] حاوی آدرس‌های ایمیل، مقادیر هش‌شده و غیره است، ما [مجموعه داده] پاک‌شده را نیز ارزیابی کردیم، که آنها را حذف می‌کند.
[CEAS] و [CAS] از نظر امتیازهای [ROUGE]-L بیش از ده امتیاز بالاتر از [مدل‌های پایه] هستند.
به ویژه، در مجموعه تست تمیز، شکاف امتیازی بین [روش] پیشنهادی و [مدل‌های پایه] به بیش از بیست امتیاز افزایش یافت.
این نتایج نشان می‌دهد که [CEAS] و [CAS] به طور قابل توجهی تحت تأثیر قرار می‌گیرند.
[CEAS] امتیاز [ROUGE]-L بهتری نسبت به [CAS] گرفت که نشان می‌دهد ترکیب یک [طبقه‌بندی کننده] و یک مبدل در [آموزش] [طبقه‌بندی کننده] با استفاده از برچسب‌های [کاذب] مؤثر است.
پوشش بالای [CEAS] احتمالاً به این دلیل حاصل می‌شود که [طبقه بندی کننده] می‌تواند بر انتخاب پیام‌های مربوط به تعهد [برای] هر کلاس تمرکز کند.
[CAS]-Multi از نظر عملکرد [ROUGE]-L بالاتر از [CAS]-Single است.
این موضوع نشان می‌دهد که توسعه مستقل [مدل‌های] [خلاصه کننده چکیده] [برای] هر کلاس یادداشت انتشار، به‌طور مستقل مؤثر است.
در اینجا یک خطای [تحلیل] وجود دارد.
خروجی [روش‌های] [CAS]، [جملات] کوتاه‌تری نسبت به [جملات] مرجع [انسانی] هستند.
در شکل سمت راست، [جمله] مرجع دارای سه یا چهار [جمله] است، در حالی که [CAS] فقط یک جمله دارد.
دلیل عدم تمایل [مدل] این است که در [داده‌های آموزشی]، تنها سی و سه درصد [جملات] برچسب [ویژگی‌ها] و چهل درصد برچسب بهبود دارند.
[به‌علاوه]، [روش‌های CAS] نمی‌توانند یادداشت‌های انتشار دقیقی را بدون [اطلاعات] اضافی ایجاد کنند.
مثال شکل بالا سمت راست، نمونه‌ای از یک پیام تعهد بسیار نامرتب را نشان می‌دهد و [جمله] کامل، بدون ارجاع به پیشرفت [مرتبط] یا مسئله قابل [تولید] نیست.
مثال زیر نشان می‌دهد که دو پیام تعهد در [ورودی] به هم مرتبط هستند و باید در یک [جمله] ترکیب شوند، اما این کار را انجام نمی دهد.
و در نهایت نتیجه‌گیری.
ما یک [مجموعه داده] [برای] [تولید] [خودکار] یادداشت انتشار ساختیم.
همچنین [کار] وارد کردن پیام‌های تعهد و [خلاصه نمودن] آن‌ها را فرموله کرده‌ایم تا برای همه پروژه‌های [نوشته شده] به [زبان انگلیسی] قابل اجرا باشد.
آزمایش‌های ما نشان می‌دهد که [روش] پیشنهادی، یادداشت‌های انتشار با نویز کمتری در پوشش بالاتر نسبت به [مدل‌های پایه] ایجاد می‌کند.
لطفاً [مجموعه داده] ما را در GitHub بررسی کنید.
متشکرم.
سلام. اسم من Asaf Harari است.
من [مقاله] خود را با عنوان غنی‌سازی [داده‌های] جدولی در چند مرحله با استفاده از [معماری] [مبدل‌های] تنظیم‌شده ارائه خواهم کرد.
دانشمندان [داده ها] را تجزیه و تحلیل می‌کنند و عمدتاً بر روی دستکاری [ویژگی‌های] [موجود] در [داده‌ها] تمرکز می‌کنند.
اما گاهی اوقات، این [ویژگی‌ها] محدود است.
[تولید] ویژگی با استفاده از سایر [منابع] [داده] ممکن است [اطلاعات] قابل توجهی را اضافه کند.
هدف [تحقیق] ما غنی سازی [خودکار] [داده‌های] جدولی با استفاده از [متون] رایگان از منابع خارجی است.
فرض کنید یک [مجموعه داده] جدولی و یک [پایگاه دانش] داریم.
ما به یک فرآیند [خودکار] نیاز داریم که شامل [پیوند نهاد] و [تحلیل] [متن] برای استخراج [ویژگی‌های] جدید از [متون] رایگان [پایگاه دانش] باشد.
چارچوب ما یعنی [FeSTE] دقیقاً همین فرآیند را بصورت [خودکار] انجام می‌دهد.
اجازه دهید مثالی را در [مجموعه داده] وارد شده به [FeSTE] ببینیم.
در این مثال، [مجموعه داده] دانشگاه به عنوان [مجموعه داده] استفاده شده است.
هدف، طبقه‌بندی دانشگاه‌ها به دانشگاه‌های با رتبه پایین و دانشگاه‌های با رتبه بالا می‌باشد.
برای [پایگاه دانش]، ما از [ویکی‌پدیا] استفاده می‌کنیم.
مرحله اول [FeSTE] [پیوند نهاد] است.
هر [نهاد] که در این مثال نام دانشگاه است، به یک [نهاد] در [پایگاه دانش] [پیوند می‌شود].
و [متن] [نهادهای] [پایگاه دانش] [استخراج] شده و به [مجموعه داده] اضافه می‌شود.
در این مثال، [متن] همان چکیده صفحه [ویکی پدیا] است.
اکنون، باید [ویژگی‌ها] را از [متن] [بازیابی شده] تولید یا استخراج کنیم.
بنابراین، ما نیاز به فاز [استخراج] ویژگی داریم که شامل [تحلیل] [متن] است.
و این بدیع بودن اصلی این [مقاله] است که در اسلایدهای بعدی به آن خواهم پرداخت.
پس از فاز [استخراج] ویژگی، یک مرحله [تولید] ویژگی وجود دارد که از [ویژگی‌های] [استخراج شده] برای تولید [تعداد] کمی از [ویژگی‌های] جدید استفاده می‌کنیم.
ابتدا [ویژگی‌ها] را در [تعداد] کلاس‌های [مجموعه داده] اصلی ایجاد می‌کنیم.
در این مثال، [مجموعه داده] اصلی دارای دو کلاس است.
[FeSTE] دو [ویژگی] جدید ایجاد می‌کند.
اما اگر [مجموعه داده] دارای پنج کلاس باشد، [FeSTE] پنج [ویژگی] جدید ایجاد می‌کند.
هر ویژگی نشان دهنده احتمال [برای] هر کلاس است.
برای تجزیه و تحلیل [متن]، ما از پیشرفته‌ترین مدل‌های [تحلیل] [متن] استفاده می‌کنیم که [مدل‌های زبان] مبتنی بر [مبدل] مانند [BERT]، [GPT]، [XLNet] و غیره هستند.
بعید است که بتوانیم [مدل‌های زبان] را با استفاده از [مجموعه داده‌های] [ورودی] آموزش دهیم.
بنابراین [رویکرد] ساده معادل [کار] [تنظیم دقیق] [هدف] خواهد بود.
بنابراین، در فاز ویژگی [استخراج]، می‌توانیم [مدل‌های] [زبان از پیش آموزش داده شده] را دانلود کنیم و [مدل زبان] را روی [هدف] [مجموعه داده] تنظیم دقیق کنیم.
این مثال برای تنظیم دقیق [مدل زبان]، طبقه‌بندی [متن] به کلاس‌ها، چکیده به کلاس‌ها، کم یا زیاد است.
خروجی [مدل زبان] را که احتمال [برای] هر کلاس است دریافت و به عنوان [ویژگی] جدید استفاده می‌کنیم.
[مشکل] این [رویکرد] این است که [مجموعه داده] ممکن است تمایز کمی بین [نهادها] / [متن] ایجاد کند.
در آزمایش ما، تقریباً نیمی از [مجموعه داده‌ها] شامل کمتر از چهارصد نمونه و کوچکترین [مجموعه داده] شامل سی و پنج نمونه در یک مجموعه [آموزشی] است.
بنابراین تنظیم دقیق [مدل زبان] بر روی این [مجموعه داده] بی‌اثر خواهد بود.
اما می‌توانیم از [دانش] قبلی درباره [مجموعه‌های داده] از پیش تحلیل‌شده استفاده کنیم.
ما [FeSTE] را روی یک [مجموعه داده] چندگانه اعمال می‌کنیم، می‌توانیم از n منهای یک [مجموعه داده] برای جمع آوری [اطلاعات] در مورد n منهای یک [مجموعه داده] استفاده کنیم، و از این [اطلاعات] در هنگام تجزیه و تحلیل nامین [مجموعه داده] استفاده کنیم.
آنچه را که ما پیشنهاد می‌کنیم اضافه کردن یک مرحله [تنظیم دقیق] دیگر است.
یک مرحله [تنظیم دقیق] [چند وظیفه‌ای] مقدماتی.
وقتی [مدل زبان] را روی n منهای یک [مجموعه داده] تنظیم دقیق می‌کنیم.
و سپس مرحله [تنظیم دقیق] دیگری را اجرا می‌کنیم که [هدف]آن [کار] [تنظیم دقیق] است، زمانی که ما [مدل زبان] را روی nامین [مجموعه داده] [هدف] تنظیم دقیق می‌کنیم.
پیشرفته ترین مدل در [تنظیم دقیق] [چند وظیفه‌ای]، [MTDNN] نام دارد.
در [MTDNN]، [MTDNN] سرها را در [تعداد] [کارها] در مجموعه [آموزش] نگه می‌دارد.
بنابراین، در این مثال چهار [کار] در مجموعه [آموزش] وجود دارد، بنابراین [MTDNN]، چهار سر را همانطور که در [تصویر] می‌بینید حفظ می‌کند.
و یک دسته تصادفی را از مجموعه [آموزش] نمونه‌برداری می‌کند.
و اگر دسته تصادفی متعلق به [کار] [طبقه بندی جمله] منفرد باشد، مسیرهای رو به جلو و عقب را از طریق سر اول اجرا می‌کند.
و اگر دسته تصادفی متعلق به [کار] رتبه‌بندی [جفتی] باشد، مسیر رو به جلو و عقب را از طریق آخرین سر اجرا می‌کند.
در سناریوی ما، [مجموعه داده‌های] جدولی در [چند] کلاس‌ با هم فرق دارند.
بنابراین [کارهای] زیادی وجود دارد.
[MTDNN] [تعداد] کلاس‌ها، سرها و لایه‌های خروجی را حفظ می‌کند.
[به علاوه] [MTDNN] نیاز به مقداردهی اولیه سرهای جدید [برای] یک [داده] جدید با یک [کار] جدید دارد.
[رویکرد] ما، به نام [تنظیم دقیق] فرمول‌بندی مجدد [کار]، در [رویکرد] [تنظیم دقیق] [کار] اصلاح مجدد ما قرار دارد، به جای حفظ چندین سر، هر [مجموعه داده] را به یک [جمله] در هر [مسئله] [طبقه بندی] فرمول‌بندی می کند که [کار] دو کلاس است.
اجازه دهید مثالی بزنیم.
در اینجا [مجموعه داده] [ورودی] نشان داده شده که از [نهاد]، [ویژگی‌ها]، [متن] و کلاس‌ها تشکیل شده است.
[کار] را از [طبقه‌بندی] [متن] به کم یا زیاد، چکیده و کلاس به درست یا نادرست دوباره فرم‌بندی می‌کنیم.
یا به عبارت دیگر [مدل زبان] را آموزش می‌دهیم که یک چکیده و کلاس را طبقه‌بندی کند، که چکیده متعلق به کلاس هست یا نیست.
بنابراین [بردار] برچسب در این مورد همیشه از دو کلاس تشکیل شده است.
و این [الگوریتم] [برای] [رویکرد] مطلوب ماست که بدقت [تنظیم] و دوباره فرموله شده است.
بیایید چارچوب کامل را ببینیم.
[مجموعه داده] وارد [FeSTE] می‌شود.
و سپس [FeSTE] فاز [پیوند نهاد] را اجرا می‌کند.
در این فاز، [متن] از [پایگاه دانش] استخراج می‌شود، که در این مثال چکیده صفحه [ویکی‌پدیا] است.
سپس [کار] به یک [کار] [طبقه بندی جمله] [جفت‌وار] فرموله می‌شود.
[مدل زبان] برای [کار] جدید و احتمال خروجی [برای] هر کلاس اعمال می‌شود.
و اکنون [مدل زبان] با استفاده از یک [تنظیم دقیق] [چند وظیفه‌ای] مقدماتی بر روی n منهای یک [مجموعه داده] تنظیم می‌شود.
سپس از [بردار] خروجی [مدل زبان] به عنوان یک ویژگی جدیداً [تولید شده] در [تعداد] کلاس‌ها استفاده می‌کنیم.
برای ارزیابی چارچوب خود، از هفده [مجموعه داده] [طبقه‌بندی شده] جدولی استفاده می‌کنیم که از نظر اندازه، [ویژگی‌ها]، تعادل، [دامنه] و عملکرد اولیه متفاوت هستند.
و به عنوان [پایگاه دانش] از [ویکی‌پدیا] استفاده می‌کنیم.
ما آزمایش خود را طوری طراحی می‌کنیم که یک [ارزیابی] را کنار بگذاریم، [FeSTe] را بر روی شانزده [مجموعه داده] آموزش می‌دهیم و آن را به [مجموعه داده] هفدهم اعمال می‌کنیم.
همچنین، هر [مجموعه داده] را به چهار مجموعه تقسیم می‌کنیم و اعتبارسنجی متقاطع چهار لایه را اعمال می‌کنیم.
سپس، [ویژگی‌های] جدید را تولید می‌کنیم و آنها را با استفاده از پنج مدل [طبقه‌بندی کننده] ارزیابی می‌کنیم.
ما در آزمایشات خود از معماری پایه [BERT] استفاده می‌کنیم.
در اینجا نتایج آزمایشات ما ارائه شده است.
می‌توانید بینید که ما چارچوب خود را با [تنظیم دقیق] [مجموعه داده] [هدف]، [تنظیم دقیق] [کار] [هدف]، و [تنظیم دقیق] مقدماتی [MTDNN] مقایسه می‌کنیم.
و [تنظیم دقیق] فرموله شده ما، بهترین نتیجه و بهترین عملکرد را دارد.
در حالی که [MTDNN] نسبت به [تنظیم دقیق] [مجموعه داده] [هدف]، دو درصد بهتر است.
[رویکرد] ما شش درصد بهتر است.
وقتی به [مجموعه داده] کوچکی نگاه می‌کنیم، می‌بینیم که عملکرد [MTDNN] کاهش می‌یابد و بهبود مرحله [تنظیم دقیق] [چند وظیفه‌ای] مقدماتی تا حد پنج درصد کاهش می‌یابد.
اما عملکرد مدل ما [در مقایسه] با [تنظیم دقیق] [کار] [هدف] به تنهایی تا یازده درصد افزایش یافته است.
[برای] جمع‌بندی می توان گفت [FeSTE] باعث می‌شود غنی‌سازی چند مرحله‌ای بر روی سی و پنج نمونه در آزمایش‌های ما ممکن شود.
این مدل از یک معماری [برای] تمام [کارها] و [مجموعه داده‌ها] استفاده می‌کند.
و خود را سردمدار [مدل‌ها] حفظ می‌کند.
اما مرحله فرموله کردن مجدد را به عنوان یک مرحله اضافی نیاز دارد.
این مدل مجموعه آموزش را تقویت می‌کند و به یک مقدار [هدف] [معنایی] نیاز دارد، بنابراین ما می‌توانیم آن را به [مدل زبان] وارد کنیم و از آن در [مسئله] [طبقه‌بندی] [جفت جمله] استفاده کنیم.
متشکرم.