مرحبا بالجميع. اليوم أنا ذاهب لتقديم عملنا البحثي التعلم إلى السبب استنتاجي: الرياضيات كلمة حل المشكلة كما استخراج العلاقة المعقدة.
أنا ألان من مختبر ByteDance AI، وهذا عمل مشترك مع Jierui Li من جامعة تكساس في أوستن ووي لو من SUTD.
أولاً، أود أن أتحدث عن دوافعنا للتفكير.
لذا نعرض هنا أمثلة حيث يكون التفكير متعدد الخطوات مفيدًا.
لذا فإن هذا الرقم مأخوذ من ورقة PaLM حيث يقومون بأداء المطالبة لحل مشكلة الشبكة في سيناريو تعلم اللقطة القليلة.
لذلك على الجانب الأيسر، يمكننا أن نرى ما إذا كنا سنعطي بعض الأمثلة بسؤال وإجابات فقط، فقد لا نتمكن من الحصول على الإجابات الصحيحة.
ولكن إذا قدمنا وصفًا أكثر منطقية، فإن النموذج قادر على التنبؤ بوصف المنطق وأيضًا إجراء تنبؤ صحيح هنا.
لذلك من الجيد أن يكون هناك منطق متعدد الخطوات قابل للتفسير كمخرجات.
ونعتقد أيضًا أن مسألة الكلمات الرياضية هي تطبيق مباشر لتقييم قدرات التفكير هذه.
لذلك، هنا في إعداد المشكلة، بالنظر إلى الأسئلة التي نحتاجها لحل هذا السؤال والحصول على الإجابات العددية.
لذلك في مجموعات البيانات الخاصة بنا، نحصل أيضًا على التعبير الرياضي الذي يؤدي إلى ah لهذه الإجابة المحددة أيضًا.
لذلك، تنطبق بعض الافتراضات آه أيضا كما في العمل السابق.
نفترض أن دقة الكميات معروفة.
وننظر فقط في العوامل الأساسية مثل الجمع والطرح والضرب والقسمة والأسية.
علاوة على ذلك، يمكن تحلل المشغلين المعقدين فعليًا في هؤلاء المشغلين الأساسيين.
لذلك، يمكن تصنيف العمل السابق في حل مسائل الكلمات الرياضية آه في الواقع إلى تسلسل لتسلسل وتسلسل لنموذج الشجرة.
لذا، فإن التسلسل التقليدي لنموذج التسلسل يحول التعبير إلى تسلسل محدد للتوليد.
ومن السهل جدًا تنفيذه ويمكن تعميمه على العديد من المشكلات المعقدة المختلفة.
لكن العيوب هي أن الأداء ليس في الواقع أفضل من النموذج المنظم وافتقاره إلى قابلية التفسير للتنبؤ.
ولكن في الواقع هذا الاتجاه لا يزال يحظى بشعبية كبيرة بسبب أم نموذج المحولات.
لذلك، في النماذج القائمة على الأشجار، نقوم في الواقع ببناء هذه التعبيرات في شكل شجرة ونتبع اجتيازًا مرتبًا مسبقًا في أجيال الأشجار.
هنا نستمر في توليد المشغلين حتى نصل إلى الأوراق، وهي الكميات.
اذاً الشيء الجيد هنا هو انه يعطينا بنية الشجرة الثنائية هذه، وهي امم ولكنها في الواقع غير بديهية تماماً لأننا نولد المشغل اولا ثم في النهاية نولد الكميات
والشيء الثاني هو أنه يحتوي أيضًا على بعض الحسابات المتكررة.
إذا نظرنا إلى هذا المقدار، فإن ثمانية في ثلاثة زائد ثلاثة يتم توليدها مرتين، ولكن في الواقع يجب أن نعيد استخدام النتائج.
لذلك، في نهجنا المقترح نريد حل تلك المشاكل خطوة بخطوة وبطرق قابلة للتفسير.
على سبيل المثال، هنا في الخطوة الثانية، يمكننا الحصول على هذه القسمة وهي سبعة وعشرون.
ويمكننا أيضًا الرجوع إلى الأسئلة الأصلية للعثور على المحتويات ذات الصلة.
وفي هذه الخطوات نحصل على القواسم.
إذن، آه ثم في هذه الخطوة الثالثة نحصل على خارج القسمة.
حسنًا. وبعد هذه الخطوات الثلاث، يمكننا في الواقع إعادة استخدام النتائج من الخطوة الثانية، ثم الحصول على نتائج ah للخطوة الرابعة، ثم أخيرًا يمكننا الحصول على المقسومات.
إذن، نحن هنا نولد التعبير بالكامل مباشرةً بدلاً من توليد عامل تشغيل أو كميات واحدة.
وهذا يجعل العملية أكثر دقة.
لذلك، في نظامنا الاستنتاجي، نبدأ أولاً بمجموعة من الكميات المعروضة في الأسئلة وأيضًا بما في ذلك بعض الثابت كحالة أولية لحالتنا الأولية.
لذلك، يتم تمثيل التعبير بواسطة e i j o p.
حيث نؤدي المشغل من q_i إلى q_j، ويتم توجيه هذا التعبير بالفعل.
إذن، لدينا أيضًا الطرح بالكلمات هنا لتمثيل الاتجاه المعاكس.
هذا يشبه إلى حد كبير استخراج العلاقة.
إذن في نظام استنتاجي شكلي، عند خطوة زمنية t، نطبق العامل بين زوج q_i وq_j، ثم نحصل على هذا التعبير الجديد.
نضيفها إلى الحالة التالية لتصبح كمية جديدة.
لذا، فإن هذه الشرائح تصور في الواقع تطور الحالة حيث نستمر في إضافة التعبير إلى الحالة الحالية.
لذلك في تطبيقات النموذج لدينا، نستخدم أولاً نموذج لغة مدرّب مسبقًا والذي يمكن أن يكون BERTs أو Robertas ثم نقوم بتشفير الجملة ثم نحصل على تمثيلات الكمية هذه.
لذلك، بمجرد أن نحصل على تمثيلات الكمية، يمكننا البدء في الاستدلال.
هنا نعرض مثال q _1 للحصول على تمثيل q _2 مقسومًا على q _2 ثم ضرب q _3.
أولاً نحصل على تمثيل زوج ah، وهو في الأساس مجرد تسلسل بين q _1 و q _2، ثم نطبق شبكة تغذية أمامية يتم تحديدها بواسطة المشغل.
وأخيرًا نحصل على تمثيل التعبير q _1 مقسومًا على q _2.
ولكن في الواقع، في الممارسة العملية، في مرحلة الاستدلال، قد نكون قادرين على الحصول على التعبير غير الصحيح كذلك.
إذن، كل التعبيرات الممكنة هنا تساوي ثلاثة أضعاف عدد العاملين.
لذا فإن الشيء الجميل هنا هو أنه يمكننا بسهولة إضافة قيود للتحكم في مساحة البحث هذه.
على سبيل المثال، إذا لم يكن هذا التعبير مسموحًا به، فيمكننا ببساطة إزالة هذا التعبير في مساحة البحث الخاصة بنا.
في الخطوة الثانية، نفعل الشيء نفسه، لكن الفرق الوحيد هو أننا آه الفرق الوحيد هو كمية واحدة أخرى.
إذن هذه الكمية تأتي من التعبير المحسوب السابق.
اذاً اخيراً يمكننا ان نحصل على هذه العبارة النهائية q _3 × q _4
ويمكننا أيضًا أن نرى أن عدد جميع تعبيرات ah الممكنة يختلف عن الخطوة السابقة.
لذا، فإن مثل هذا الاختلاف يجعل من الصعب تطبيق بحث الشعاع لأن التوزيع الاحتمالي بين هاتين الخطوتين غير متوازن.
لذا فإن إجراء التدريب يشبه تدريب تسلسل لنموذج التسلسل حيث نقوم بتحسين الخسارة في كل خطوة زمنية.
وهنا نستخدم تاو لتمثيل متى يجب علينا إنهاء عملية التوليد هذه.
وهنا تختلف المساحة من تسلسل إلى تسلسل لأن المساحة مختلفة في كل خطوة زمنية بينما في التسلسل التقليدي لنموذج التسلسل هذا هو عدد المفردات.
ويسمح لنا أيضًا بفرض قيود معينة من المعرفة السابقة.
لذلك نجري تجارب على مجموعات بيانات المسائل الرياضية الشائعة الاستخدام، MAWPS، Math23K،  MathQA و SVAMP.
وهنا نعرض بإيجاز النتائج مقارنة بأفضل الأساليب السابقة.
لذلك لدينا أفضل أداء البديل هو Roberta - dediveReasoner.
وفي الواقع نحن لا نستخدم شعاع البحث، في المقابل جميع النهج السابقة تستخدم شعاع البحث.
حسناً، إذاً أفضل الطرق غالباً ما تكون على شكل شجرة
لذلك، بشكل عام، منطقتنا قادرة على التفوق بشكل كبير على هذا النموذج القائم على الشجرة.
ولكن يمكننا أن نرى أن الأرقام المطلقة على MathQA أو SVAMP ليست عالية حقًا.
لذلك نحن مزيد من التحقيق في النتائج على SVAMP.
وتشكل مجموعة البيانات هذه تحديًا لأن المؤلف حاول إضافة شيء يدويًا لإرباك نموذج البرمجة اللغوية العصبية مثل إضافة معلومات غير ذات صلة وكميات إضافية.
لذلك، في تنبؤنا نجد أن بعض القيم الوسيطة هي في الواقع سالبة.
على سبيل المثال، في هذه الأسئلة نسأل كم تفاحة يملك جايك ؟
لكن لدينا بعض المعلومات الإضافية مثل سبعة عشر صورة أقل، وستيفن لديه ثماني صور، وهو أمر غير ذي صلة تمامًا.
لذلك، نموذجنا يجعل بعض التنبؤ مثل هذا الذي ينتج القيم السالبة.
ونلاحظ أن هاتين العبارتين لهما درجات متشابهة.
لذلك، يمكننا في الواقع الحد من مساحة البحث هذه عن طريق إزالة تلك النتائج التي هي سلبية حتى نتمكن من جعل آه جعل الإجابة صحيحة.
لذا نجد كذلك أن مثل هذا القيد يحسن في الواقع الكثير بالنسبة لبعض النماذج.
على سبيل المثال، بالنسبة لبيرت، قمنا بتحسين سبع نقاط، ثم بالنسبة لنموذج روبرتا الأساسي، قمنا بتحسين نقطتين.
لذا فإن نموذج اللغة الأفضل لديه قدرات أفضل على فهم اللغة بحيث يكون الرقم هنا أعلى بالنسبة لروبرتا وأقل بالنسبة لبيرت.
ونحاول أيضًا تحليل الصعوبة الكامنة وراء كل مجموعات البيانات هذه.
نفترض أن عدد الكميات غير المستخدمة يمكن اعتباره معلومات غير ذات صلة هنا.
هنا يمكننا أن نرى أن ah،لدينا النسبة المئوية للعينات بكميات غير مستخدمة، ومجموعة بيانات SVAMP لديها الجزء الأكبر.
وهنا نعرض أيضًا الأداء العام.
بالنسبة لتلك العينات التي لا تحتوي على كميات غير مستخدمة، وبالتالي فإن الأداء العام هو في الواقع أعلى من، والأداء هو في الواقع أعلى من الأداء العام.
ولكن مع تلك العينات التي مع كمية غير المستخدمة هو في الواقع أسوأ بكثير من، أسوأ من الأداء العام.
بالنسبة لـ MAWPS، ليس لدينا الكثير من حالات الاختبار، لذلك أتجاهل هذا الجزء.
لذلك، أخيرًا، نريد إظهار قابلية التفسير من خلال مثال اضطراب السؤال.
لذا هنا نموذجنا في الواقع يجعل التنبؤ الخاطئ في الخطوة الأولى.
لذا، يمكننا ربط هذا التعبير مع الجملة هنا. حسنا.
لذلك، نعتقد أن هذه الجملة قد تضلل النموذج إلى تنبؤات غير صحيحة.
لذا هنا زرع 35 أخرى يجعل النموذج يجعل النموذج يعتقد أنه يجب أن يكون عامل جمع.
لذلك نحن نحاول مراجعة الجملة لتكون شيئا مثل عدد أشجار الكمثرى هي خمسة وثلاثين أقل من أشجار التفاح.
لذلك، نجعلها تنقل دلالات أكثر دقة بحيث يكون النموذج قادرًا على جعل التنبؤ صحيحًا.
لذا، توضح هذه الدراسة كيف تساعدنا التنبؤات القابلة للتفسير على فهم سلوك النموذج.
لنختتم عملنا، أولاً نموذجنا هو في الواقع فعال جداً.
ونحن قادرون على توفير إجراء حل قابل للتفسير.
ويمكننا بسهولة دمج بعض المعرفة السابقة كقيد يمكن أن يساعد في تحسين الأداء.
وآخر شيء هو أن الآلية الأساسية لا تنطبق فقط على مهام حل مشكلات الشبكة ولكن أيضًا المهام الأخرى التي تنطوي على التفكير متعدد الخطوات.
ولدينا أيضا بعض القيود.
آه، إذا كان لدينا عدد كبير من المشغلين أو الثوابت، يمكن أن يكون استهلاك الذاكرة مرتفعًا جدًا.
والشيء الثاني هو أنه، كما ذكرنا، لأن توزيع الاحتمالات غير متوازن بين خطوات زمنية مختلفة، لذلك من الصعب أيضًا تطبيق استراتيجية البحث عن الشعاع.
إذاً هذه هي نهاية الحديث، والأسئلة مرحب بها. شكراً لكم.
مرحبا، اسمي أنطوان وأنا من جامعة ماستريخت.
سأقدم عملي المشترك مع جيري الذي يدور حول مجموعة بيانات جديدة لاسترجاع المادة القانونية.
القضايا القانونية هي جزء لا يتجزأ من حياة الكثير من الناس.
لكن غالبية المواطنين ليس لديهم سوى القليل من المعرفة بحقوقهم والإجراءات القانونية الأساسية.
ونتيجة لذلك، يُترك العديد من المواطنين الضعفاء الذين لا يستطيعون تحمل تكاليف المساعدة المكلفة من خبير قانوني دون حماية، أو أسوأ من ذلك، يُستغلون.
تهدف جميع الأعمال إلى سد الفجوة بين الناس والقانون من خلال تطوير نظام استرجاع فعال للمواد القانونية.
ويمكن لمثل هذا النظام أن يوفر خدمة مساعدة قانونية مهنية مجانية للبشر غير المهرة.
قبل الغوص في المساهمة الرئيسية لهذا العمل، دعونا أولا وصف مشكلة استرجاع المادة القانونية.
بالنظر إلى سؤال بسيط حول مسألة قانونية مثل، ما الذي أخاطر به إذا انتهكت السرية المهنية ؟
وهناك حاجة إلى نموذج لاسترداد جميع المواد القانونية ذات الصلة من مجموعة كبيرة من التشريعات.
تأتي مهمة استرجاع المعلومات هذه مع مجموعة من التحديات الخاصة بها.
أولاً، يتعامل مع نوعين من اللغة.
اللغة الطبيعية المشتركة للأسئلة واللغة القانونية المعقدة للنظام الأساسي.
هذا الاختلاف في توزيعات اللغات يجعل من الصعب على النظام استرجاع المرشحين ذوي الصلة، لأنه يتطلب بشكل غير مباشر نظام تفسير متأصل يمكنه ترجمة سؤال طبيعي إلى سؤال قانوني يطابق مصطلحات القوانين.
إلى جانب ذلك، فإن القانون التشريعي ليس كومة من المقالات المستقلة التي يمكن التعامل معها كمصدر كامل للمعلومات من تلقاء نفسها، على عكس الأخبار أو الوصفات، على سبيل المثال.
بدلاً من ذلك، إنها مجموعة منظمة من الأحكام القانونية التي لها معنى كامل فقط عند النظر إليها في السياق العام، أي مع المعلومات التكميلية من المقالات المجاورة والحقول والحقول الفرعية التي تنتمي إليها ومكانها في هيكل القانون.
وأخيرا، فإن المواد القانونية ليست فقرات صغيرة والتي عادة ما تكون وحدة الاسترجاع النموذجية في معظم أعمال الاسترجاع.
هنا، هناك وثائق طويلة قد تصل إلى ستة آلاف كلمة.
أثارت التطورات الأخيرة في البرمجة اللغوية العصبية اهتمامًا كبيرًا بالعديد من المهام القانونية، مثل التنبؤ بالحكم القانوني أو مراجعة عقد الاتصال الآلي.
لكن استرجاع المقالات القانونية ظل بشكل أساسي دون مساس بسبب عدم وجود مجموعات بيانات كبيرة وعالية الجودة.
في هذا العمل، نقدم مجموعة بيانات فرنسية جديدة تركز على المواطن الفرنسي لدراسة ما إذا كانت نماذج الاسترجاع يمكن أن تقارب كفاءة وموثوقية الخبير القانوني لمهمة استرجاع المادة القانونية.
تتكون مجموعة بيانات استرجاع المقالات القانونية البلجيكية BSARD من أكثر من ألف ومائة سؤال قانوني يطرحها المواطنون البلجيكيون.
تغطي هذه الأسئلة مجموعة واسعة من الموضوعات من الأسرة والإسكان والمال إلى العمل والضمان الاجتماعي.
وقد تم تصنيف كل منها من قبل فقهاء ذوي خبرة مع إشارات إلى المواد ذات الصلة من مجموعة من أكثر من اثنين وعشرين ألف وستمائة مادة قانونية من مدونات القانون البلجيكي.
لنتحدث الآن عن كيفية جمعنا لمجموعة البيانات هذه.
أولاً، بدأنا بتجميع مجموعة كبيرة من المقالات القانونية.
نظرنا في اثنين وثلاثين مدونة بلجيكية متاحة للجمهور واستخرجنا جميع المقالات بالإضافة إلى عناوين الأقسام المقابلة.
ثم جمعنا أسئلة قانونية مع إشارات إلى القوانين ذات الصلة.
للقيام بذلك، نتشارك مع مكتب المحاماة البلجيكي الذي يتلقى كل عام حوالي أربعة آلاف رسالة بريد إلكتروني من المواطنين البلجيكيين الذين يطلبون المشورة بشأن قضية قانونية شخصية.
كنا محظوظين بما فيه الكفاية للوصول إلى مواقعها على شبكة الإنترنت، حيث فريقهم من الحقوقيين ذوي الخبرة يعالج القضايا القانونية الأكثر شيوعا البلجيكيين.
جمعنا الآلاف من الأسئلة المشروحة مع الفئات والفئات الفرعية والمراجع القانونية للقوانين ذات الصلة.
أخيرًا، مررنا المراجع القانونية وقمنا بتصفية الأسئلة التي لم تكن مراجعها مقالات في أحد مدونات القانون التي نظرنا فيها.
تمت مطابقة المراجع المتبقية وتحويلها إلى معرفات المقالة المقابلة من جسمنا.
انتهى بنا المطاف مع ألف ومائة وثمانية أسئلة، وصفت كل بعناية مع معرفات المواد ذات الصلة من لدينا مجموعة كبيرة من اثنين وعشرين ألف وستمائة وثلاثة وثلاثين المواد القانونية.
بالإضافة إلى ذلك، يأتي كل سؤال مع الفئة الرئيسية وسلسلة من الفئات الفرعية.
وكل مادة تأتي مع تسلسل عنوان السيادة في هيكل القانون.
ولا تستخدم هذه المعلومات الإضافية في هذا العمل، ولكنها قد تكون ذات أهمية للبحوث المقبلة بشأن استرجاع المعلومات القانونية أو تصنيف النصوص القانونية.
دعونا نلقي نظرة على بعض خصائص مجموعة البيانات الخاصة بنا.
الأسئلة هي بين خمس وأربع وأربعين كلمة طويلة بمتوسط أربعة عشر كلمة.
المقالات أطول بكثير مع متوسط طول سبعة وسبعين كلمة، مع مائة واثنتين وأربعين منها تتجاوز ألف كلمة.
أطول واحد يصل إلى خمسة آلاف وسبعمائة وتسعين كلمة.
كما ذكرنا سابقًا، تغطي الأسئلة مجموعة واسعة من الموضوعات، حيث يتعلق حوالي خمسة وثمانين بالمائة منها إما بالعائلة أو السكن أو المال أو العدالة.
في حين أن الخمسة عشر في المائة المتبقية تتعلق إما بالضمان الاجتماعي أو الأجانب أو العمل.
كما أن المقالة متنوعة للغاية لأنها تأتي من اثنين وثلاثين مدونة بلجيكية مختلفة تغطي عددًا كبيرًا من الموضوعات القانونية.
فيما يلي إجمالي عدد المقالات التي تم جمعها من كل من هذه الرموز البلجيكية.
من بين اثنين وعشرين ألف وستمائة وثلاثة وثلاثين مادة، يشار إلى ألف وستمائة واثني عشر فقط على أنها ذات صلة بسؤال واحد على الأقل في مجموعة البيانات.
وحوالي ثمانين في المئة من هذه المواد المذكورة تأتي إما من القانون المدني أو القوانين القضائية أو قوانين التحقيق الجنائي أو قوانين العقوبات.
وفي الوقت نفسه، ثمانية عشر من أصل اثنين وثلاثين رموز لديها أقل من خمس مقالات المذكورة ذات الصلة إلى سؤال واحد على الأقل.
وهو ما يمكن تفسيره بحقيقة أن تلك الرموز ركزت بشكل أقل على الأفراد وشواغلهم.
بشكل عام، يبلغ متوسط عدد الاستشهادات لهذه المقالات المذكورة اثنين، ويتم الاستشهاد بأقل من خمسة وعشرين بالمائة منها أكثر من خمس مرات.
باستخدام جميع مجموعات البيانات، قمنا بقياس العديد من مناهج الاسترجاع، بما في ذلك الهندسة المعمارية المعجمية والكثيفة.
بالنظر إلى استعلام ومقالة، يقوم نموذج معجمي بتعيين درجة لزوج مقالة الاستعلام عن طريق حساب المجموع على مصطلحات الاستعلام لأوزان كل من هذه المصطلحات في تلك المقالة.
نقوم بتجربة وظائف تصنيف TF - IDF و BM25 القياسية.
تكمن المشكلة الرئيسية في هذه الأساليب في أنها لا تستطيع سوى استرداد المقالات التي تحتوي على كلمات رئيسية موجودة في الاستعلام.
للتغلب على هذا القيد، نقوم بتجربة بنية عصبية يمكنها التقاط العلاقات الدلالية بين الاستعلامات والمقالة.
نستخدم نموذجًا ثنائي الترميز يقوم بتخطيط الاستعلامات والمقالات في تمثيلات متجهة كثيفة وحساب درجة الصلة بين زوج مقالات الاستعلام من خلال تشابه تضميناتها.
تنتج هذه التضمينات عادةً عن عملية تجميع على مخرجات نموذج تضمين الكلمات.
أولاً، ندرس فعالية أجهزة الترميز الثنائية السيامية في إعداد تقييم اللقطة الصفرية، مما يعني أن نماذج تضمين الكلمات المدربة مسبقًا يتم تطبيقها خارج الصندوق دون أي ضبط إضافي.
نقوم بتجربة ترميز النص المستقل للسياق، أي word2vec و fastText، ونماذج التضمين المعتمدة على السياق، وهي روبرتا وبشكل أكثر تحديدًا CamemBERT وهو نموذج روبرتا الفرنسي.
بالإضافة إلى ذلك، نقوم بتدريب أجهزة الترميز الثنائية الخاصة بنا القائمة على CamemBERT على مجموعة البيانات الخاصة بنا.
لاحظ أنه بالنسبة للتدريب، نقوم بتجربة النكهات الخاصة بهندسة الترميز الثنائي.
سيامي، الذي يستخدم نموذجًا فريدًا لتضمين الكلمات يقوم بتخطيط الاستعلام والمقالة معًا في مساحة متجهة كثيفة مشتركة، وبرجين، يستخدم نموذجين مستقلين لتضمين الكلمات يشفران الاستعلام والمقالة بشكل منفصل في مساحات تضمين مختلفة.
نقوم بتجربة التجميع المتوسط والحد الأقصى و CLS بالإضافة إلى المنتج وجيب التمام لحوسبة أوجه التشابه.
فيما يلي نتيجة خط الأساس الخاص بنا في مجموعات الاختبار.
مع الأساليب المعجمية أعلاه، تم تقييم أجهزة الترميز الثنائية السيامية في إعداد صفر طلقة في الوسط، وأجهزة الترميز الثنائية الموالفة أدناه.
بشكل عام، يتفوق جهاز الترميز الثنائي المضبوط بشكل كبير على جميع خطوط الأساس الأخرى.
نموذج البرجين يحسن أكثر من المتغيرات السيامية على استدعاء في مائة، ولكن يؤدي بالمثل على المقاييس الأخرى.
على الرغم من أن أداء BM25 كان ضعيفًا في جهاز الترميز الثنائي المدرب بشكل كبير، إلا أن أدائه أشار إلى أنه لا يزال خط أساس قوي لاسترجاع النطاق المحدد.
فيما يتعلق بتقييم اللقطة الصفرية لجهاز الترميز الثنائي السيامي، نجد أن استخدام تضمينات نموذج CamemBERT المدرّب مسبقًا بشكل مباشر دون تحسين مهمة استرجاع المعلومات يعطي نتائج سيئة، وهو ما يتوافق مع النتائج السابقة.
علاوة على ذلك، نلاحظ أن برنامج الترميز الثنائي المستند إلى word2vec قد تفوق بشكل كبير على نماذج fastText و BERT، مما يشير إلى أن تضمينات مستوى الكلمة المدربة مسبقًا ربما تكون أكثر ملاءمة للمهمة من مستوى الأحرف أو تضمينات مستوى الكلمات الفرعية عند استخدامها خارج الصندوق.
على الرغم من أن هذه النتائج واعدة، إلا أنها تشير إلى وجود فرصة كبيرة للتحسين مقارنة بخبير قانوني ماهر يمكنه في النهاية استرداد جميع المقالات ذات الصلة بأي سؤال وبالتالي الحصول على درجات مثالية.
دعونا نختتم بمناقشة اثنين من القيود من مجموعة البيانات لدينا.
أولاً، تقتصر مجموعة المواد على تلك التي تم جمعها من القوانين البلجيكية الاثنين والثلاثين، والتي لا تغطي القانون البلجيكي بأكمله حيث لا توجد مواد من المراسيم والتوجيهات والمراسيم.
أثناء إنشاء مجموعة البيانات، يتم تجاهل جميع الإشارات إلى هذه المقالات غير المجمعة، مما يؤدي إلى أن تنتهي بعض الأسئلة بجزء صغير فقط من العدد الأولي للمقالات ذات الصلة.
وبالتالي فإن هذه المعلومات تعني أن الإجابة الواردة في المواد ذات الصلة المتبقية قد تكون غير كاملة، على الرغم من أنها لا تزال مناسبة تماما.
ثانياً، يجب أن نلاحظ أنه لا يمكن الإجابة على جميع الأسئلة القانونية من خلال القوانين وحدها.
على سبيل المثال، السؤال، هل يمكنني طرد المستأجرين إذا أحدثوا الكثير من الضوضاء ؟
قد لا يكون لديك إجابة مفصلة في إطار القانون التشريعي الذي يحدد عتبة ضوضاء محددة يُسمح فيها بالإخلاء.
بدلاً من ذلك، ربما يجب على المالك الاعتماد أكثر على السوابق القضائية وإيجاد سوابق مماثلة لوضعهم الحالي.
على سبيل المثال، يجعل المستأجرين طرفين في الأسبوع حتى الساعة الثانية صباحًا.
وبالتالي، فإن بعض الأسئلة أكثر ملاءمة من غيرها لمهمة استرجاع المادة القانونية، ولا يزال يتعين تحديد مجال الأقل ملاءمة.
نأمل أن يثير عملنا الاهتمام بتطوير نماذج استرجاع مقالة قانونية عملية وموثوقة.
ويمكن أن يساعد ذلك على تحسين وصول الجميع إلى العدالة.
يمكنك التحقق من ورقتنا ومجموعة البيانات والرمز على الروابط التالية. شكرا لك.
مرحبًا، يسعدنا تقديم عملنا على VALSE ؛ معيار مستقل عن المهام مخصص لاختبار نماذج الرؤية واللغة مع ظواهر لغوية محددة.
لماذا قمنا بالمشكلة في وضع هذا المعيار ؟
حسنًا، خلال السنوات الماضية، شهدنا انفجارًا في نماذج الرؤية واللغة القائمة على المحولات والتي تم تدريبها مسبقًا على كميات كبيرة من أزواج نصوص الصور.
كل واحد من هذه النماذج يدفع للدولة من بين الفن على الرؤية واللغة المهام مثل الإجابة على الأسئلة البصرية، المنطق البصري الحس، واسترجاع الصور، تأريض العبارة.
لذلك حصلنا على رسالة، والدقة في هذه المهام ومعايير محددة تتزايد باطراد.
لكن هل نعرف ما الذي تعلمته النماذج بالفعل ؟
ما الذي يفهمه محوّل الرؤية واللغة عند تعيين درجة عالية لهذه الصورة وهذه الجملة لمطابقتها ؟
والنتيجة المنخفضة لهذا واحد ؟
هل تركز نماذج الرؤية واللغة على الشيء الصحيح ؟
أم أنها تركز على التحيزات كما هو موضح في العمل السابق ؟
لإلقاء المزيد من الضوء على هذا الجانب، نقترح اتجاهًا أكثر لاأدريًا للمهمة ونقدم VALSE الذي يختبر حساسية نماذج الرؤية واللغة لظواهر لغوية محددة تؤثر على كل من الطرائق اللغوية والبصرية.
نحن نستهدف الوجود والتعددية والعد والعلاقات المكانية والأفعال والكيان الأساسي.
ولكن كيف نختبر ما إذا كانت نماذج الرؤية واللغة قد التقطت هذه الظاهرة ؟
من خلال إحباط طريقة سبق تطبيقها على نماذج الرؤية واللغة فقط للعبارات الاسمية من قبل رافي شيخار والمتعاونين، وعلى العد من قبلنا في العمل السابق.
إحباط يعني أساسا أن نأخذ التسمية التوضيحية للصورة وإنتاج احباط عن طريق تغيير التسمية التوضيحية بحيث لا يصف الصورة بعد الآن.
ونقوم بتعديلات العبارة هذه من خلال التركيز على ست قطع محددة مثل الوجود والتعددية والعد والعلاقات المكانية والأفعال واختيار الكيان، حيث يمكن أن تتكون كل قطعة من أداة واحدة أو أكثر، في حال وجدنا أكثر من طريقة مثيرة للاهتمام لإنشاء حالات احباط.
على سبيل المثال، في حالة قطعة الأفعال، لدينا أداتان، واحدة يتم فيها تغيير فعل الفعل بعمل مختلف، وواحدة يتم فيها تبديل الفاعلين.
العد والفرز هي أيضا القطع التي لديها أكثر من أداة واحدة.
ونقوم بإنشاء هذه الرقائق من خلال التأكد من أنها تفشل في وصف الصورة، وأنها نحوية، وجمل صالحة.
هذا ليس من السهل القيام به لأن التسمية التوضيحية التي تم إحباطها قد تكون أقل احتمالا من التسمية التوضيحية الأصلية.
على سبيل المثال، على الرغم من أنه ليس مستحيلاً، إلا أنه من غير المرجح إحصائياً أن تقوم النباتات بقطع رجل من رجل لقطع النباتات، ويمكن لنماذج الرؤية واللغة الكبيرة أن تلتقط ذلك.
لذلك، للحصول على رقائق صالحة، يجب علينا اتخاذ إجراءات.
أولاً، نستخدم نماذج لغوية قوية لاقتراح رقائق.
ثانيًا، نستخدم استدلال اللغة الطبيعية أو NLI القصير لتصفية الرقائق التي لا تزال تصف الصورة، لأنه عند بناء الرقائق نحتاج إلى التأكد من فشلها في وصف الصورة.
لاختبار هذا تلقائيًا، نطبق الاستدلال اللغوي الطبيعي مع الأساس المنطقي التالي.
نحن نعتبر أن الصورة هي الفرضية وأن تعليقها يستلزم فرضية.
بالإضافة إلى ذلك، نعتبر التسمية التوضيحية هي الفرضية، والرقائق هي فرضيتها.
إذا توقع نموذج NLI أن الرقاقة تتناقض أو تكون محايدة فيما يتعلق بالتسمية التوضيحية، فإننا نأخذ هذا كمؤشر على رقاقة صالحة.
إذا تنبأ NLI بالرقائق التي ستترتب على التسمية التوضيحية، فلا يمكن أن يكون رقائق جيدة، لأنه من خلال العبور سيعطي وصفًا حقيقيًا للصورة، ونقوم بتصفية هذه الرقائق.
لكن هذا الإجراء ليس مثاليًا، إنه مجرد مؤشر على الرقائق الصالحة.
لذلك، كإجراء ثالث لتوليد رقائق صالحة، نستخدم الشروح البشرية للتحقق من صحة البيانات المستخدمة في VALSE.
لذلك، بعد التصفية والتقييم البشري، لدينا العديد من حالات الاختبار كما هو موضح في هذا الجدول.
لاحظ أن VALSE لا تقدم أي بيانات تدريب ولكن فقط بيانات الاختبار.
نظرًا لأنه معيار اختبار صفر طلقة فقط، فقد تم تصميمه للاستفادة من القدرات الحالية لنماذج الرؤية واللغة بعد التدريب المسبق.
ومن شأن الضبط الدقيق أن يمكّن النماذج فقط من استغلال القطع الأثرية أو التحيزات الإحصائية في البيانات.
ونحن نعلم جميعا أن هذه النماذج ترغب في الغش واتخاذ اختصارات.
وكما قلنا، نحن مهتمون بتقييم القدرات التي تتمتع بها نماذج الرؤية واللغة بعد التدريب المسبق.
نقوم بتجربة خمسة نماذج للرؤية واللغة على VALSE، وهي CLIP و LXMert و ViLBERT و ViLBERT اثنا عشر في واحد و VisualBERT.
اثنين من أهم مقاييس التقييم لدينا هي دقة النماذج في تصنيف أزواج الجمل الصورة في التسميات التوضيحية والرقائق.
ربما أكثر ملاءمة لهذا الفيديو، سنعرض مقياسنا الأكثر تساهلاً، الدقة الزوجية، والتي تقيس ما إذا كانت درجة محاذاة جملة الصورة أكبر لزوج نص الصورة الصحيح منها لزوجها الفاشل.
لمزيد من المقاييس والنتائج عليها، تحقق من ورقتنا.
وتظهر النتائج مع دقة الزوجية هنا وأنها تتفق مع النتائج التي حصلنا عليها من المقاييس الأخرى هو أن أفضل أداء صفر النار يتحقق من قبل فيلبيرت اثني عشر في واحد، تليها فيلبيرت، لكسميرت، كليب، وأخيرا فيسوالبيرت.
من الجدير بالملاحظة كيف يتم حل الأدوات التي تركز على الكائنات الفردية مثل الوجود والعبارات الاسمية تقريبًا بواسطة ViLBERT اثني عشر في واحد، مما يسلط الضوء على أن النماذج قادرة على تحديد الكائنات المسماة ووجودها في الصور.
ومع ذلك، لا يمكن حل أي من القطع المتبقية بشكل موثوق في إعدادات إحباط الخصومة لدينا.
نرى من التعددية وأدوات العد أن نماذج الرؤية واللغة تواجه صعوبة في التمييز بين الإشارات إلى كائنات مفردة مقابل كائنات متعددة، أو عدها في صورة.
توضح قطعة العلاقة أن لديهم صعوبات في تصنيف العلاقة المكانية المسماة بشكل صحيح بين الكائنات في الصورة.
لديهم أيضًا صعوبة في تمييز الإجراءات وتحديد المشاركين فيها، حتى لو كانت مدعومة بتحيزات المعقولية كما نرى في قطعة الإجراءات.
من قطعة coreference، نجد أن تتبع إشارات متعددة إلى نفس الكائن في صورة باستخدام الضمائر أمر صعب أيضًا على نماذج الرؤية واللغة.
للتحقق من سلامة العقل، ولأنها تجربة مثيرة للاهتمام، فإننا نقيس أيضًا نموذجين للنص فقط، GPT one و GPT two، لتقييم ما إذا كان VALSE قابلاً للحل بواسطة هذه النماذج أحادية الواسطة عن طريق حساب حيرة التسمية التوضيحية الصحيحة والفاشلة، ولا توجد صورة هنا، والتنبؤ بالمدخل بأقل حيرة.
إذا كان الحيرة أعلى بالنسبة للرقائق، فإننا نأخذ هذا كمؤشر على أن التسمية التوضيحية الفاشلة قد تعاني من تحيز المعقولية أو التحيزات اللغوية الأخرى.
ومن المثير للاهتمام أن نرى أنه في بعض الحالات، استحوذ النص فقط على نماذج GPT على معقولية العالم بشكل أفضل من نماذج الرؤية واللغة.
وخلاصة القول، فإن VALSE هو معيار يستخدم عدسة التركيبات اللغوية لمساعدة المجتمع على تحسين نماذج الرؤية واللغة من خلال اختبار قدراتهم على التأريض البصري.
تظهر تجاربنا أن نماذج الرؤية واللغة تحدد الأشياء المسماة ووجودها في الصور بشكل جيد، كما هو موضح في قطعة الوجود، ولكنها تكافح من أجل تأسيس ترابطها وعلاقاتها في المشاهد المرئية عندما تضطر إلى احترام المؤشرات اللغوية.
نود حقًا تشجيع المجتمع على استخدام VALSE لقياس التقدم المحرز نحو التأسيس اللغوي بنماذج الرؤية واللغة.
والأكثر من ذلك، يمكن استخدام VALSE كتقييم غير مباشر لمجموعات البيانات، حيث يمكن تقييم النماذج قبل وبعد التدريب أو الضبط لمعرفة ما إذا كانت مجموعة البيانات تساعد النماذج على تحسين أي من الجوانب التي اختبرتها VALSE.
إذا كنت مهتمًا، فتحقق من بيانات VALSE على GitHub، وإذا كان لديك أي أسئلة، فلا تتردد في الاتصال بنا.
مرحبا، اسمي كاميزاوا من جامعة طوكيو.
سأقدم ورقة بعنوان RNSum: مجموعة بيانات واسعة النطاق لإنشاء ملاحظة الإصدار التلقائي عبر تلخيص سجلات الالتزام.
سأشرح بهذا الترتيب.
أولاً، سأقدم إنشاء ملاحظات الإصدار التلقائي الذي نعمل عليه في هذا البحث.
ملاحظة الإصدار هي مستند فني يلخص التغييرات الموزعة مع كل إصدار لمنتج برمجي.
تُظهر الصورة ملاحظة إصدار للإصدار الثاني من النقطة السادسة من النقطة الرابعة من مكتبة vuejs.
تلعب ملاحظات الإصدار دورًا مهمًا في تطوير المصادر المفتوحة ولكنها تستغرق وقتًا طويلاً للتحضير يدويًا.
لذلك، سيكون من المفيد جدًا أن تكون قادرًا على إنشاء ملاحظات إصدار عالية الجودة تلقائيًا.
سوف أرجع إلى بحثين سابقين حول إنشاء ملاحظة الإصدار التلقائي.
الأول هو نظام يسمى الساحة صدر في أربعة وعشرين.
يتطلب الأمر نهجًا قائمًا على القواعد، على سبيل المثال استخدام مستخرج التغيير لاستخراج جميع الاختلافات وتغييرات المكتبة وتغييرات المستندات من الاختلافات بين الإصدارات، والجمع بينها أخيرًا.
الميزة الأبرز لهذا النظام هي مستخرج المشكلة في الزاوية اليمنى العليا.
والتي يجب تركها لـ JIRA، نظام تعقب المشكلات، ولا يمكن تطبيقها إلا على المشاريع التي تستخدم JIRA.
وبعبارة أخرى، لا يمكن استخدامه للعديد من المشاريع على GitHub.
والثاني هو Glyph، الذي تم الإعلان عنه مؤخرًا في العشرين.
وهو متاح على شبكة الإنترنت ويمكن تثبيته عبر PIP.
يحتوي هذا النظام على نموذج بسيط لتصنيف النص القائم على التعلم ويخرج واحدة من خمس تسميات مثل الميزات أو إصلاحات الأخطاء لكل رسالة التزام إدخال.
هذه الصورة عبارة عن استخدام نموذجي يقوم بإرجاع ملصق تصحيحي أو إصلاح الأخطاء.
بيانات تدريب Glyph صغيرة إلى حد ما، حوالي خمسة آلاف، وسيتم عرضها في التجارب الموضحة أدناه.
أداء نموذج تصنيف النص ليس مرتفعًا.
أقدم بحثين متصلين، لكن مشاكلهما هي التطبيق المحدود وموارد البيانات الشحيحة.
ورقتنا يحل هاتين المشكلتين ويولد تلقائيا ملاحظات الافراج عالية الجودة.
مع مشكلة قابلية التطبيق المحدودة، نقترح طريقة تلخيص صفية عالية الجودة باستخدام رسائل الالتزام فقط كمدخلات.
يمكن استخدام هذه الطريقة المقترحة لجميع المستودعات الإنجليزية.
بالنسبة للمشكلة الثانية المتمثلة في ندرة موارد البيانات، قمنا ببناء مجموعة بيانات RNSum الخاصة بنا والتي تتكون من حوالي اثنين وثمانين ألف قطعة من البيانات من خلال جمع البيانات من مستودعات GitHub العامة باستخدام GitHub API.
بعد ذلك، سأصف مجموعة البيانات الخاصة بنا.
هنا مثال على البيانات.
الجانب الأيسر هو رسالة التزام والجانب الأيمن هو ملاحظات الإصدار.
يتم تصنيف ملاحظات الإصدار على أنها تحسينات أو إصلاحات، إلخ.
لقد أنشأنا مهمة تأخذ رسائل الالتزام كمدخلات وتخرج ملاحظات الإصدار المسمى.
ويمكن اعتبار ذلك مهمة تلخيص.
لقد حددنا مسبقًا أربع تسميات: الميزات والتحسينات وإصلاح الأخطاء وعمليات إزالة الإهلاك والتغييرات العاجلة.
وقد وضعت هذه على أساس البحوث السابقة وعوامل أخرى.
ملاحظة الإصدار في أسفل اليمين مستخرجة من ملاحظة الإصدار في أسفل اليسار.
في هذا الوقت، من الضروري الكشف عن الملصقات الأربعة التي تم إعدادها مسبقًا.
لكن الملصقات لا تتوافق دائمًا مع كل مستودع.
على سبيل المثال، تتضمن تسمية التحسينات التحسينات والتحسينات والتحسينات وما إلى ذلك.
قمنا بإعداد قائمة مفردات من حوالي ثلاثين تسميات لكل من هذه الاختلافات الترميزية.
هذا هو الكشف عن فئة مذكرة الإصدار، ويجمع نص الإصدار الذي يلي كجملة مذكرة الإصدار للفئة.
التالي هو رسالة التزام.
لا ترتبط رسائل الالتزام بكل إصدار.
كما هو موضح في الصورة أدناه، إذا كان الإصدار الحالي هو الإصدار الثاني من خمسة إلى تسعة عشر، فنحن بحاجة إلى تحديد الإصدار السابق من اثنين من خمسة إلى ثمانية عشر والحصول على فرق.
هذا ممل بعض الشيء ولا يكفي مجرد الحصول على قائمة من الإصدارات وإلقاء نظرة على قبل وبعد.
أنشأنا قاعدة مطابقة إرشادية للحصول على الإصدارات السابقة والقادمة.
تحليل مجموعة البيانات.
في النهاية، تم جمع سبعة آلاف ومائتي مستودع واثنين وثمانين ألف قطعة من البيانات.
أيضًا، يبلغ متوسط عدد رموز ملاحظات الإصدار ثلاثة وستين، وهو مرتفع جدًا لمهمة التلخيص.
أيضا، عدد الرموز الفريدة كبير جدا في ثمانية آلاف وثمانمائة وثلاثين ألف.
ويرجع ذلك إلى العدد الكبير من أسماء الفئات أو الأساليب الفريدة الموجودة في المستودع.
بعد ذلك، سأشرح الطريقة المقترحة.
يتكون نموذج التلخيص الاستخراجي ثم التجريدي من وحدتين عصبيتين.
مصنف يستخدم BERT أو CodeBERT ومولد يستخدم BART.
أولاً، يستخدم CEAS مصنفًا لتصنيف كل رسالة التزام إلى خمس فئات من ملاحظات الإصدار، والتي تستخدم التحسينات، وإصلاح الأخطاء، والإهلاك، بالإضافة إلى فئة أخرى.
يتم تجاهل رسائل الالتزام المصنفة على أنها أخرى.
ثم تطبق CEAS المولد على المستندات الأربعة المسماة بشكل مستقل وتولد ملاحظات الإصدار لكل فئة.
في هذه المهمة، لا تعرف المراسلات المباشرة بين رسائل الالتزام وملاحظات الإصدار.
لذلك، لتدريب المصنف، لهذا السبب قمنا بإعادة تعيين الاستطلاعات لكل رسالة التزام إدخال باستخدام الأحرف العشرة الأولى من كل رسالة التزام.
قمنا بنمذجة نهج التلخيص التجريدي الصفي بطريقتين مختلفتين.
يتكون النموذج الأول، الذي نسميه CAS - Single، من شبكة واحدة من ستة إلى ستة وتولد نص ملاحظة إصدار واحد يعطي سلسلة من رسائل التزام الإدخال.
يمكن تقسيم نصوص الإخراج إلى شرائح صفية استنادًا إلى رموز نقطة نهاية خاصة بالفئة.
الطريقة الثانية، الطريقة، التي نسميها CAS - Multi، تتكون من أربع شبكات seq2seq مختلفة، كل منها يتوافق مع واحدة من فئات ملاحظات الإصدار الثابتة.
حسنا، اسمحوا لي أن أشرح التجارب.
تمت مقارنة خمس طرق: CEAS، CAS - Single، CAS - Multi، Clustering، والدراسة السابقة، Glyph.
فيما يتعلق بالتقييم، في بعض الحالات، تكون ملاحظات الإصدار ناتجة في جمل متعددة.
نظرًا لأنه من الصعب حساب عدد الجمل كما هي، يتم دمجها مع المسافات ومعاملتها كجملة واحدة طويلة.
يتم معاقبة BLEU عندما يقوم النظام بإخراج جملة قصيرة.
تؤدي هذه العقوبة إلى انخفاض قيمة BLEU في نتائج التجربة الموصوفة بعد ذلك.
أخيرًا، نحسب أيضًا الخصوصية لأنه لا يمكن حساب ROUGE و BLEU إذا كانت ملاحظات الإصدار فارغة.
تعني الخصوصية الأعلى أن النموذج يقوم بإخراج نص فارغ بشكل صحيح في الحالات التي تفترض فيها ملاحظات الإصدار فارغة.
هذه هي النتائج.
نظرًا لأن مجموعة البيانات تحتوي على عناوين بريد إلكتروني وقيم تجزئة وما إلى ذلك، فقد قمنا أيضًا بتقييم مجموعة البيانات التي تم تنظيفها، والتي تستبعدها.
حققت CEAS و CAS درجات ROUGE - L أكثر من عشر نقاط أعلى من خطوط الأساس.
على وجه الخصوص، في مجموعة الاختبار النظيفة، قفزت فجوة النتيجة بين الطريقة المقترحة وخطوط الأساس إلى أكثر من عشرين نقطة.
تشير هذه النتائج إلى أن CEAS و CAS يتأثران بشكل كبير.
حصلت CEAS على درجة ROUGE - L أفضل من CAS مما يشير إلى أن الجمع بين المصنف والمولد فعال في تدريب المصنف باستخدام تسميات زائفة.
يمكن تحقيق تغطية عالية لـ CEAS ربما لأن المصنف يمكن أن يركز على اختيار رسائل الالتزام ذات الصلة لكل فئة.
تميل CAS - Multi إلى إنتاج ROUGE - L أعلى من CAS - Single.
مما يشير إلى أنه من الفعال أيضًا تطوير نماذج تلخيص تجريدية مختلفة بشكل مستقل لكل فئة من فئات ملاحظات الإصدار.
فيما يلي تحليل للأخطاء.
تميل أساليب CAS إلى إخراج جمل أقصر من الجمل المرجعية البشرية.
في الشكل على اليمين، تحتوي الجملة المرجعية على ثلاث أو أربع جمل، بينما تحتوي CAS على جملة واحدة فقط.
سبب تردد هذا النموذج هو أنه في بيانات التدريب، لا يوجد سوى ثلاثة وثلاثين بالمائة من الجمل في ملصق الميزات وأربعين بالمائة في ملصق التحسينات.
علاوة على ذلك، لا يمكن لطرق CAS إنشاء ملاحظات إطلاق دقيقة دون معلومات إضافية.
المثال الأعلى على اليمين هو مثال على رسالة ارتكاب فوضوية للغاية، ولا يمكن إنشاء الجملة الكاملة دون الرجوع إلى التقدم أو المشكلة المقابلة.
يوضح المثال أدناه أن رسالتي الالتزام في الإدخال مرتبطتان ويجب دمجهما في جملة واحدة، لكنه يفشل في القيام بذلك.
وأخيرا، خاتمة.
لقد أنشأنا مجموعة بيانات جديدة لتوليد ملاحظات الإصدار التلقائي.
كما قمنا بصياغة مهمة إدخال رسائل الالتزام وتلخيصها بحيث تنطبق على جميع المشاريع المكتوبة باللغة الإنجليزية.
تظهر تجاربنا أن الطريقة المقترحة تولد ملاحظات إطلاق صاخبة أقل عند تغطية أعلى من خطوط الأساس.
يرجى التحقق من مجموعة البيانات الخاصة بنا على GitHub.
شكرًا لك.
مرحباً، اسمي (عساف هراري)
وسأقدم ورقتنا، إثراء البيانات المجدولة قليلة الطلقة باستخدام هندسة المحولات الدقيقة.
يحلل علماء البيانات البيانات ويركزون بشكل أساسي على معالجة الميزات الحالية للبيانات.
ولكن في بعض الأحيان، تكون هذه الميزات محدودة.
قد يضيف توليد السمات باستخدام مصدر بيانات آخر معلومات جوهرية.
هدف بحثنا هو إثراء البيانات المجدولة تلقائيًا باستخدام النص المجاني للمصادر الخارجية.
لنفترض أن لدينا مجموعة بيانات مجدولة وقاعدة معرفية.
نحن بحاجة إلى عملية تلقائية تتضمن ربط الكيان وتحليل النص لاستخراج ميزات جديدة من النص الحر لقاعدة المعرفة.
إطارنا FeSTE هو بالضبط هذه العملية التلقائية.
لذلك دعونا نرى مثالًا في مجموعة بيانات يتم تغذيتها في FeSTE.
في هذا المثال، مجموعة البيانات هي مجموعة بيانات جامعية.
عندما يكون هدفها هو تصنيف الجامعات إلى جامعات منخفضة المستوى وجامعات رفيعة المستوى.
كقاعدة معرفية، نستخدم ويكيبيديا.
المرحلة الأولى من FeSTE هي ربط الكيان.
عندما يرتبط كل كيان، في هذا المثال اسم الجامعة، بكيان داخل قاعدة المعرفة.
ويتم استخراج نص كيانات قاعدة المعرفة وإضافته إلى مجموعة البيانات.
في هذا المثال، النص هو ملخص صفحة ويكيبيديا.
الآن، نحن بحاجة إلى إنشاء أو استخراج ميزات من النص المسترد.
لذلك، نحن بحاجة إلى آه مرحلة استخراج الميزة آه الذي يتضمن تحليل النص.
وهذه هي الحداثة الرئيسية لهذه الورقة وسأغوص فيها بعمق في الشرائح التالية.
بعد مرحلة استخراج الميزات، هناك مرحلة توليد الميزات عندما نستخدم الميزات المستخرجة لتوليد عدد قليل من الميزات الجديدة.
قم أولاً بإنشاء ميزات ah في عدد فئات مجموعة البيانات الأصلية.
في هذا المثال، تحتوي مجموعة البيانات الأصلية على فئتين.
لذلك، يولد FeSTE ميزتين جديدتين.
ولكن إذا كانت مجموعة البيانات تحتوي على خمس فئات، فإن FeSTE يولد خمس ميزات جديدة.
تمثل كل ميزة احتمال كل فئة.
لتحليل النص، نستخدم الحالة الحالية لتحليل النص، وهي نماذج لغوية تعتمد على المحولات مثل BERT و GPT و  XLNet وغيرها.
إنه كذلك ولكن ليس من المحتمل أن نتمكن من تدريب نماذج اللغة باستخدام مجموعات بيانات الإدخال.
لذلك فإن النهج الساذج سيكون آه مهمة الهدف الصقل.
لذلك، في مرحلة استخراج الميزات، يمكننا تنزيل نماذج اللغة المدربة مسبقًا، وضبط نموذج اللغة على مجموعة البيانات المستهدفة.
في هذا المثال لصقل نموذج اللغة، لتصنيف آه لتصنيف النص إلى فئات، مجردة في فئات، منخفضة أو عالية.
تلقي إخراج نموذج اللغة، وهو احتمال لكل فئة واستخدامها كميزات جديدة.
المشكلة في هذا النهج هي أن مجموعات البيانات قد تحتوي على عدد قليل من الكيانات / النصوص المتميزة.
في تجربتنا، ما يقرب من نصف مجموعات البيانات تحتوي على أقل من أربعمائة عينة وأصغر مجموعة بيانات تحتوي على خمسة وثلاثين عينة في، في مجموعة التدريب.
لذا فإن صقل نموذج اللغة على آه هذه مجموعة البيانات لن تكون فعالة.
ولكن يمكننا استخدام المعرفة المسبقة حول مجموعات البيانات التي تم تحليلها مسبقًا.
نظرًا لأن FeSTE، نطبق FeSTE على مجموعة بيانات متعددة، يمكننا استخدام مجموعات البيانات n ناقص واحد لجمع معلومات حول مجموعات البيانات n ناقص واحد، واستخدام هذه المعلومات عندما نحلل مجموعة البيانات nth.
ما نقترحه هو أن نضيف، لإضافة مرحلة ضبط أخرى.
مرحلة أولية لضبط المهام المتعددة.
عند ضبط نموذج اللغة على n ناقص مجموعة بيانات واحدة.
ثم نقوم بتنفيذ مرحلة ضبط أخرى وهي مهمة ضبط الهدف، عندما تكون على ما يرام عندما نقوم بضبط نموذج اللغة على مجموعة البيانات المستهدفة nth.
الدولة من بين الفن في تعدد المهام آه ضبط المهام المتعددة تسمى MTDNN.
في MTDNN، تحتفظ MTDNN برؤساء آه في عدد المهام في مجموعة التدريب.
لذلك، في هذا المثال هناك أربع مهام في مجموعة التدريب، لذلك MTDNN الحفاظ على أربعة رؤساء كما ترون في الصورة.
ويأخذ عينات عشوائية من مجموعة التدريب.
وإذا كانت الدفعة العشوائية تنتمي إلى مهمة تصنيف جملة واحدة، على سبيل المثال، فإنها تنفذ مسارات أمامية وخلفية من خلال الرأس الأول.
وإذا كانت الدفعة العشوائية تنتمي إلى مهمة الترتيب الزوجي، فإنها تنفذ المسار إلى الأمام والخلف من خلال الرأس الأخير.
في السيناريو الخاص بنا، تختلف مجموعات البيانات المجدولة آه في عدد الفئات.
لذلك هناك العديد من المهام.
حافظت MTDNN على عدد من الفئات والرؤوس وطبقات الإخراج.
وبالإضافة إلى ذلك، MTDNN يحتاج إلى تهيئة رؤساء جدد لمجموعة بيانات جديدة مع مهمة جديدة.
نهجنا، الذي يسمى ضبط إعادة صياغة المهام، هو في نهجنا ضبط إعادة صياغة المهام، بدلاً من الحفاظ على رؤوس متعددة، نقوم بإعادة صياغة كل مجموعة بيانات في جملة لكل مشكلة تصنيف، وهي مهام فئتين.
لذلك دعونا نرى مثالا.
فيما يلي مجموعة بيانات الإدخال الخاصة بنا والتي تتكون من الكيانات والميزات والنصوص والفئات.
ونعيد صياغة المهمة من تصنيف النص إلى منخفض أو مرتفع لتصنيف النص والمجرّد والطبقة إلى صواب أو خطأ.
أو بعبارة أخرى، قمنا بتدريب نموذج اللغة لتصنيف الملخص والطبقة آه إلى الملخص والطبقة آه، إذا كان الملخص ينتمي إلى الفصل أم لا.
متجه التسمية في هذه الحالة يبقى دائمًا ah والذي يتكون دائمًا من فئتين.
وهذه هي خوارزمية آه لنهجنا الدقيق المعاد صياغته.
دعونا نرى الإطار الكامل.
تم تغذية مجموعة البيانات في FeSTE.
ثم آه FeSTE ينفذ مرحلة ربط الكيان.
إنه يستخرج النص من قاعدة المعرفة، والتي في هذا المثال هي ملخص صفحة ويكيبيديا.
ثم أعادت صياغة المهمة في مهمة تصنيف جملة ثنائية.
تطبيق نموذج اللغة على المهمة الجديدة واحتمال الإخراج لكل فئة.
والآن بعد أن تم ضبط نموذج اللغة بالفعل على n ناقص مجموعة بيانات واحدة باستخدام ضبط أولي متعدد المهام.
ثم نستخدم متجه الإخراج لنموذج اللغة كميزة تم إنشاؤها حديثًا في عدد الفئات.
لتقييم إطار عملنا، نستخدم سبعة عشر مجموعة بيانات تصنيفية مجدولة تختلف في الحجم والميزات والتوازن والنطاق والأداء الأولي.
وكقاعدة معرفية نستخدم ويكيبيديا.
نقوم بتصميم تجربتنا على أنها ترك تقييم واحد حيث نقوم بتدريب FeSTe على أكثر من ستة عشر مجموعة بيانات وتطبيقها على مجموعة البيانات السابعة عشرة.
نحن أيضًا، نقسم كل مجموعة بيانات إلى أربعة طيات ونطبق التحقق من صحة أربعة طيات.
بعد ذلك، نقوم بإنشاء الميزات الجديدة وتقييمها باستخدام خمسة مصنفات تقييم.
نستخدم في قاعدة تجاربنا بنية قاعدة بيرت.
هذه هي نتائج تجاربنا.
يمكنك أن ترى أننا نقارن إطارنا لاستهداف ضبط مجموعة البيانات، وضبط المهمة المستهدفة، وضبط MTDNN الأولي.
ويحقق ضبطنا المعاد صياغته أفضل نتيجة وأفضل أداء.
في حين حققت MTDNN تحسنًا بنسبة 2 ٪ على ضبط مجموعة البيانات المستهدفة.
حقق نهجنا تحسنا بنسبة 6 ٪.
عندما ننظر إلى مجموعة بيانات ah الصغيرة، يمكننا أن نرى أن أداء MTDNN ينخفض وتحسين المرحلة التمهيدية، تنخفض مرحلة ضبط المهام المتعددة الأولية إلى خمسة بالمائة.
لكن أداؤنا ارتفع إلى 11 في المائة مقارنة بالمهمة المستهدفة وحدها.
بالنسبة للتلخيص، يتيح FeSTE القليل من التخصيب بالرصاص من 35 عينة في تجاربنا.
يستخدم بنية واحدة لجميع المهام ومجموعات البيانات.
وتبقي رأس آه من النموذج.
لكنه يضيف مرحلة إعادة الصياغة.
إنه يزيد من مجموعة القطارات ويحتاج إلى قيمة مستهدفة ذات معنى دلالي حتى نتمكن من إدخالها في نموذج اللغة واستخدامها في مشكلة تصنيف زوج الجملة.
شكرًا لك.
