مرحبًا بكم جميعًا، سأقدم اليوم عملنا البحثي تعلم التفكير بشكل استنتاجي: حل math word problem كاستخراج للعلاقة المعقدة.
أنا ألان من مختبر ByteDance AI، وهذا عمل مشترك مع جيروي لي من جامعة تكساس في أوستن ووي لو من SUTD.
أولًا، أود أن أتحدث عن دوافعنا الخاصة بالمنطق.
لذلك نعرض هنا أمثلة يكون فيها المنطق متعدد الخطوات مفيدًا.
وهذا الرقم مأخوذ من ورقة PaLM حيث يقومون بالحث على حل مشكلة الشبكة في سيناريو التعلم القليل اللقطات.
فعلى الجانب الأيسر، يمكننا أن نرى أنه إذا كنا نقدم بعض الأمثلة بأسئلة وأجوبة فقط، فقد لا نتمكن من الحصول على الإجابات الصحيحة.
ولكن إذا قدمنا المزيد من الوصف المنطقي، يكون النموذج قادرًا على التنبؤ بالوصف المنطقي وإجراء تنبؤ صحيح هنا أيضًا.
لذلك من الجيد الحصول على منطق متعدد الخطوات قابل للتفسير كإخراج.
ونعتقد أيضًا أن مشكلة الكلمات الرياضية هي تطبيق مباشر لتقييم قدرات المنطق هذه.
لذلك، هنا في إعداد المشكلة، بالنظر إلى الأسئلة نحتاج إلى حل هذا السؤال والحصول على الإجابات العددية.
لذلك في مجموعات البيانات لدينا أيضًا التعبير الرياضي الذي يؤدي إلى هذه الإجابة بالذات كذلك.
لذلك، تنطبق بعض الافتراضات أيضًا كما هو الحال في العمل السابق.
نفترض أن دقة الكميات معروفة.
وننظر فقط في العوامل الأساسية مثل الجمع والطرح والضرب والقسمة والأس.
علاوة على ذلك، يمكن تحليل العوامل المعقدة بالفعل إلى هذه العوامل الأساسية.
يمكن تصنيف العمل السابق في حل math word problem في الواقع إلى نموذج تسلسل إلى تسلسل وتسلسل إلى شجرة.
إذًا، يحول نموذج تسلسل إلى تسلسل التقليدي التعبير إلى تسلسل محدد للتوليد.
ومن السهل جدًا تنفيذه ويمكن تعميمه على العديد من المشكلات المعقدة المختلفة.
لكن العوائق تتمثل في أن الأداء في الواقع ليس أفضل بشكل عام من النموذج المنظم وافتقاره إلى إمكانية التفسير فيما يخص التنبؤ.
ولكن في الواقع هذا الاتجاه لا يزال يحظى بشعبية كبيرة بسبب نموذج المحول.
لذلك، في النماذج القائمة على الأشجار، نقوم في الواقع ببناء هذه التعبيرات في شكل الشجرة واتباع اجتياز مرتب مسبقًا في توليد الأشجار.
لذلك نستمر هنا في توليد العوامل حتى نصل إلى الأوراق، ألا وهي الكميات.
الشيء الجيد هنا هو أنه يعطينا في الواقع بنية الشجرة الثنائية، ولكنه في الواقع غير بديهي تمامًا لأننا نقوم بتوليد العامل أولًا ثم في النهاية نقوم بتوليد الكميات.
والشيء الثاني هو أنه يحتوي أيضًا على بعض الحسابات المتكررة.
وإذا نظرنا إلى هذا التعبير، فإن ثمانية في ثلاثة زائد ثلاثة تولدت مرتين، ولكن في الواقع يجب أن نعيد استخدام النتائج.
لذلك، في نهجنا المقترح نريد حل تلك المشاكل خطوة بخطوة وبطرق قابلة للتفسير.
على سبيل المثال، هنا في الخطوة الثانية، يمكننا الحصول على هذه القواسم وهي سبعة وعشرون.
ويمكننا أيضًا الرجوع إلى الأسئلة الأصلية للعثور على المحتويات ذات الصلة.
وفي هذه الخطوات نحصل على القواسم.
ثم في هذه الخطوة الثالثة نحصل على حاصل القسمة.
حسنًا، وبعد هذه الخطوات الثلاث، يمكننا في الواقع إعادة استخدام النتائج من الخطوة الثانية، ومن ثم الحصول على نتائج الخطوة الرابعة، ومن ثم في النهاية يمكننا الحصول على القواسم.
لذلك، نقوم هنا في الواقع بتوليد التعبير بالكامل مباشرة بدلًا من توليد عوامل أو كميات مفردة.
وهذا يجعل العملية أكثر دقة.
لذلك، في نظامنا الاستنتاجي، نبدأ أولًا بمجموعة من الكميات المعروضة في الأسئلة بالإضافة إلى تضمين بعض القيم الثابتة كحالتنا الأولية.
لذلك، يتم تمثيل التعبير بواسطة e i j o p.
حيث نقوم بتنفيذ العامل من q_i إلى q_j، ويتم توجيه هذا التعبير بالفعل.
ولدينا أيضًا عملية طرح بكلمات هنا لتمثيل الاتجاه المعاكس.
وهذا مماثل إلى حد كبير لاستخراج العلاقة.
لذلك في النظام الاستنتاجي الرسمي، في الخطوة الزمنية t، نطبق العامل بين الزوج q_i وq_j، ثم نحصل على هذا التعبير الجديد.
ونضيفه إلى الحالة التالية ليصبح كمية جديدة.
لذا، فإن هذه الشرائح تصور في الواقع تطور الحالة حيث نستمر في إضافة التعبير إلى الحالة الحالية.
في تطبيقات النموذج، نستخدم أولًا نموذج لغة مدربة مسبقًا والذي يمكن أن يكون BERTs أو Robertas ثم نقوم بتشفير الجملة ونحصل على تمثيلات الكمية هذه.
وبمجرد أن نحصل على تمثيلات الكمية، يمكننا البدء في القيام بالاستدلال.
نعرض هنا مثالاً لـ q_1 للحصول على تمثيللـ q_2 مقسومًا على q_2 ثم ضربه في q_3.
أولًا، نحصل على تمثيل الزوج، وهو في الأساس مجرد سلسلة بين q_1 وq_2، ثم نطبق شبكة متطورة يتم تحديد معلماتها بواسطة العامل.
وأخيرًا نحصل على تمثيل التعبير q_1 مقسومًا على q _2.
ولكن في الواقع، في الممارسة العملية، في مرحلة الاستدلال، قد نتمكن من الحصول على التعبير غير الصحيح أيضًا.
إذًا، كل التعبيرات المحتملة هنا تساوي ثلاثة أضعاف عدد العوامل.
الشيء الجميل هنا هو أنه يمكننا بسهولة إضافة قيود للتحكم في مساحة هذا البحث.
على سبيل المثال، إذا لم يكن هذا التعبير مسموحًا به، فيمكننا ببساطة إزالة هذا التعبير في مساحة البحث لدينا.
في الخطوة الثانية، نفعل الشيء ذاته، ولكن الفرق الوحيد يكمن في وجود كمية واحدة أخرى.
وتأتي هذه الكمية من التعبير المحسوب السابق.
وأخيرًا يمكننا الحصول على هذا التعبير النهائي q_3 مضروبًا في q_4.
ويمكننا أيضًا أن نرى أن عدد كل التعبيرات الممكنة يختلف عن الخطوة السابقة.
يجعل هذا الاختلاف من الصعب تطبيق beam search لأن توزيع الاحتمالات بين هاتين الخطوتين غير متوازن.
ويعد إجراء التدريب مماثلًا لتدريب نموذج تسلسل إلى تسلسل الذي نقوم فيه بتحسين الخسارة في كل خطوة زمنية.
وهنا نستخدم ذلك أيضًا لتمثيل متى يجب أن ننهي عملية التوليد هذه.
وهنا تختلف المساحة من تسلسل إلى تسلسل لأن المساحة تختلف في كل خطوة زمنية بينما في نموذج تسلسل إلى تسلسل التقليدي يكون هذا هو عدد المفردات.
كما أنه يسمح لنا بفرض قيود معينة من المعرفة السابقة.
لذلك نجري تجارب على مجموعات بيانات math word problem الأكثر استخدامًا، وهي MAWPS وMath23K وMathQA وSVAMP.
وهنا نعرض النتائج بإيجاز مقارنة بأفضل الأساليب السابقة.
لذلك يعد أفضل متغير أداء لدينا هو Roberta-DeductiveReasoner.
وفي الحقيقة نحن لا نستخدم beam search، على عكس جميع الأساليب السابقة التي تستخدم beam search.
حسنًا، غالبًا ما تكون أفضل الأساليب نموذجًا قائمًا على الأشجار.
وبشكل عام، فإن المنطق لدينا قادر على التفوق بشكل كبير على هذا النموذج القائم على الأشجار.
ولكن يمكننا أن نرى أن الأرقام المطلقة على MathQA أو SVAMP ليست عالية حقًا.
ولذلك نُحقق في النتائج على SVAMP.
وتمثل مجموعة البيانات هذه تحديًا لأن المؤلف حاول إضافة شيء ما يدويًا لإرباك نموذج معالجة اللغة الطبيعية مثل إضافة معلومات غير ذات صلة وكميات إضافية.
إذًا، نجد في تنبؤاتنا أن بعض القيم الوسيطة هي في الواقع قيم سلبية.
على سبيل المثال في هذه الأسئلة نسأل كم تفاحة يمتلكها جيك؟
ولكن لدينا بعض المعلومات الإضافية مثل سبعة عشر صورة أقل، وستيفن لديه ثماني صور، وهو أمر غير ذي صلة تمامًا.
إذًا، يقوم نموذجنا ببعض التنبؤات مثل التنبؤ الذي ينتج قيم سالبة.
ونلاحظ أن هذين التعبيرين لهما درجات مماثلة.
يمكننا في الواقع تقييد مساحة البحث هذه عن طريق إزالة تلك النتائج السلبية حتى نتمكن من الوصول إلى الإجابة الصحيحة.
ونجد كذلك أن هذا القيد يتحسن في الواقع كثيرًا لبعض النماذج.
على سبيل المثال، بالنسبة إلى بيرت، نقوم بتحسين سبع نقاط، ثم بالنسبة ل نموذج Roberta الأساسي، قمنا بالفعل بتحسين نقطتين.
إذًا، فإن نموذج اللغة الأفضل لديه قدرات أفضل في فهم اللغة بحيث يكون العدد هنا أعلى بالنسبة إلى Roberta وأقل بالنسبة إلى بيرت.
ونحاول أيضًا تحليل الصعوبة الكامنة وراء كل مجموعات البيانات هذه.
نفترض أنه يمكن اعتبار عدد الكميات غير المستخدمة معلومات غير ذات صلة هنا.
هنا يمكننا أن نرى أن لدينا النسبة المئوية للعينات ذات الكميات غير المستخدمة، وأن مجموعة بيانات SVAMP بها الجزء الأكبر.
ونعرض هنا أيضًا الأداء العام.
بالنسبة إلى تلك العينات التي لا تتضمن كميات غير مستخدمة، يكون الأداء في الواقع أعلى من الأداء العام.
ولكن مع تلك العينات، فإن الكمية غير المستخدمة هي في الواقع أسوأ بكثير من الأداء العام.
بالنسبة إلى MAWPS، ليس لدينا الكثير من حالات الاختبار، لذلك أتجاهل هذا الجزء فحسب.
وأخيرًا، نريد إظهار إمكانية التفسير من خلال مثال اضطراب سؤال.
هنا يقوم نموذجنا بالفعل بإجراء تنبؤ خاطئ في الخطوة الأولى.
إذًا، يمكننا ربط هذا التعبير مع الجملة هنا. حسنًا.
نعتقد أن هذه الجملة قد تضلل النموذج إلى تنبؤات غير صحيحة.
لذا فإن زرع خمسة وثلاثين آخرين هنا يجعل النموذج يعتقد أنه يجب أن يكون عامل إضافة.
لذا، نحن نحاول مراجعة الجملة لتكون شيئًا مثل عدد أشجار الكمثرى أقل بخمسة وثلاثين من أشجار التفاح.
لذا، نجعلها تنقل دلالات أكثر دقة بحيث يكون النموذج قادرًا على تصحيح التنبؤ.
لذا، توضح هذه الدراسة كيف تساعدنا التنبؤات القابلة للتفسير على فهم سلوك النموذج.
لنختتم عملنا، أولًا يعد نموذجنا فعالًا جدًا.
ونحن قادرون على توفير إجراء حل قابل للتفسير.
ويمكننا بسهولة دمج بعض المعرفة السابقة كقيود يمكن أن تساعد في تحسين الأداء.
والشيء الأخير هو أن الآلية الأساسية لا تنطبق فقط على مهام حل مشكلات الشبكة ولكن أيضًا المهام الأخرى التي تتضمن المنطق متعدد الخطوات.
ولدينا أيضًا بعض القيود.
إذا كان لدينا عدد كبير من العوامل أو الثوابت، فقد يكون استهلاك الذاكرة مرتفعًا للغاية.
والشيء الثاني هو، كما ذكرنا، لأن التوزيع الاحتمالي غير متوازن بين الخطوات الزمنية المختلفة، يكون من الصعب أيضًا تطبيق استراتيجية beam search.
إذًا، هذه نهاية الحديث ونرحب بطرح الأسئلة. شكرًا لكم.
مرحبًا، اسمي أنطوان وأنا من جامعة ماستريخت.
سأقدم عملي المشترك مع جيري الذي يدور حول مجموعة بيانات جديدة لاسترجاع المادة القانونية.
تعد القضايا القانونية جزءًا لا يتجزأ من حياة الكثير من الأشخاص.
ولكن غالبية المواطنين ليس لديهم سوى القليل من المعرفة بحقوقهم وإجراءاتهم القانونية الأساسية.
ونتيجة لذلك، يُترك العديد من المواطنين الضعفاء الذين لا يستطيعون تحمل تكاليف المساعدة المكلفة من خبير قانوني دون حماية، أو الأسوأ من ذلك، أنهم يُستغلون.
تهدف جميع الأعمال إلى سد الفجوة بين الأشخاص والقانون من خلال تطوير نظام استرجاع فعال للمواد القانونية.
يمكن لمثل هذا النظام أن يوفر خدمة مساعدة قانونية احترافية مجانية للأشخاص غير المهرة.
قبل الخوض في المساهمة الرئيسية لهذا العمل، دعنا أولًا نصف مشكلة استرجاع المادة القانونية.
بالنظر إلى سؤال بسيط حول مسألة قانونية مثل، ما الذي أخاطر به إذا انتهكت السرية المهنية؟
يلزم وجود نموذج لاسترداد جميع المواد القانونية ذات الصلة من مجموعة كبيرة من التشريعات.
تأتي مهمة استرجاع المعلومات بمجموعة التحديات الخاصة بها.
أولًا، تتعامل مع نوعين من اللغة.
لغة طبيعية مشتركة للأسئلة ولغة قانونية معقدة للقوانين.
وهذا الاختلاف في توزيعات اللغة يجعل من الصعب على النظام استرداد المرشحين ذوي الصلة، لأنه يتطلب بشكل غير مباشر نظام ترجمة متأصل يمكنه ترجمة سؤال طبيعي إلى سؤال قانوني يطابق مصطلحات القوانين.
إلى جانب ذلك، فإن القانون التشريعي ليس عبارة عن مجموعة من المواد المستقلة التي يمكن التعامل معها كمصدر كامل للمعلومات بمفردها، على عكس الأخبار أو الوصفات، على سبيل المثال.
بل هو عبارة عن مجموعة منظمة من الأحكام القانونية التي يكون لها معنى كامل عند النظر إليها في السياق العام فقط، أي بالاقتران مع المعلومات التكميلية من المواد المجاورة، والحقول، والحقول الفرعية التي تنتمي إليها ومكانها في هيكل القانون.
وأخيرًا، المواد القانونية ليست فقرات صغيرة وهي عادةً وحدة الاسترجاع النموذجية في معظم أعمال الاسترجاع.
هنا، توجد مستندات طويلة قد تصل إلى ستة آلاف كلمة.
أثارت التطورات الأخيرة في معالجة اللغة الطبيعية اهتمامًا كبيرًا بالعديد من المهام القانونية، مثل التنبؤ بالحكم القانوني أو المراجعة التلقائية للعقود.
ولكن استرجاع المادة القانونية ظل دون تغيير بشكل أساسي بسبب عدم وجود مجموعات بيانات كبيرة وعالية الجودة مصنفة.
في هذا العمل، نقدم مجموعة بيانات جديدة تتمحور حول المواطن الفرنسي الأصلي لدراسة ما إذا كانت نماذج الاسترجاع يمكن أن تقارب كفاءة وموثوقية خبير قانوني لمهمة استرجاع المادة القانونية.
تتكون مجموعة بيانات استرجاع المواد القانونية البلجيكية BSARD من أكثر من ألف ومائة سؤال قانوني طرحها مواطنون بلجيكيون.
تغطي هذه الأسئلة مجموعة واسعة من الموضوعات من الأسرة والإسكان والمال والعمل والضمان الاجتماعي.
وتم تصنيف كل منها من قبل فقهاء ذوي خبرة بالمواد ذات الصلة من مجموعة تتكون من أكثر من 22 ألفًا وستمائة مادة قانونية من القانون البلجيكي.
لنتحدث الآن عن كيفية جمعنا مجموعة البيانات هذه.
أولًا، بدأنا بتجميع مجموعة كبيرة من المواد القانونية.
ودرسنا اثنين وثلاثين قانونًا بلجيكيًا متاحًا للجمهور واستخرجنا جميع المواد بالإضافة إلى عناوين الأقسام المتطابقة.
ثم جمعنا أسئلة قانونية تخص القوانين ذات الصلة.
وللقيام بذلك، نتشارك مع مكتب المحاماة البلجيكي الذي يتلقى كل عام حوالي أربعة آلاف رسالة بريد إلكتروني من المواطنين البلجيكيين الذين يطلبون المشورة بشأن قضية قانونية شخصية.
كنا محظوظين بما فيه الكفاية للوصول إلى موقعهم على شبكة الإنترنت، حيث يعالج فريقهم من الحقوقيين ذوي الخبرة القضايا القانونية الأكثر شيوعًا لدى البلجيكيين.
لقد جمعنا آلاف الأسئلة المشروحة بالفئات والفئات الفرعية والمراجع القانونية للقوانين ذات الصلة.
أخيرًا، مررنا المراجع القانونية وقمنا بتصفية الأسئلة التي لم تكن مراجعها مواد في أحد مدونات القوانين التي درسناها.
تمت مطابقة المراجع المتبقية وتحويلها إلى معرفات المواد المتطابقة من مجموعتنا.
انتهى بنا المطاف بألف ومائة وثمانية سؤال، كل منها مصنف بعناية بمعرفات المواد ذات الصلة من مجموعتنا الكبيرة المكونة من اثنين وعشرين ألفًا وستمائة وثلاثة وثلاثين مادة قانونية.
بالإضافة إلى ذلك، يأتي كل سؤال بفئة رئيسية وسلسلة من الفئات الفرعية.
وتأتي كل مادة مصحوبة بتسلسل العنوان التالي في هيكل القانون.
لم تُستخدم هذه المعلومات الإضافية في العمل الحالي، ولكنها قد تكون ذات أهمية للبحث المستقبلي حول استرجاع المعلومات القانونية أو تصنيف النص القانوني.
دعونا نلقي نظرة على بعض خصائص مجموعة البيانات الخاصة بنا.
تتكون الأسئلة من خمس إلى أربع وأربعين كلمة بمتوسط أربعة عشر كلمة.
وتعد المواد أطول بكثير بمتوسط طول يبلغ سبع وسبعين كلمة، حيث يتجاوز مائة واثنان وأربعون منها ألف كلمة.
وتصل أطول مادة إلى خمسة آلاف وسبعمائة وتسعين كلمة.
كما ذكرنا سابقًا، تغطي الأسئلة مجموعة واسعة من الموضوعات، وتتعلق حوالي خمسة وثمانين في المائة منها إما بالأسرة أو الإسكان أو المال أو العدالة.
في حين أن الخمسة عشر في المائة المتبقية تتعلق إما بالضمان الاجتماعي أو الأجانب أو العمل.
كما أن المواد متنوعة للغاية لأنها تأتي من اثنين وثلاثين قانونًا بلجيكيًا مختلفًا يغطي عددًا كبيرًا من الموضوعات القانونية.
وهذا هو العدد الإجمالي للمواد التي تم جمعها من كل من هذه القوانين البلجيكية.
من بين اثنين وعشرين ألف وستمائة وثلاثة وثلاثين مادة، تمت الإشارة إلى ألف وستمائة واثني عشر مادة على أنها ذات صلة بسؤال واحد على الأقل في مجموعة البيانات.
وحوالي ثمانين في المئة من هذه المواد المذكورة تأتي إما من القانون المدني أو القوانين القضائية أو قوانين التحقيق الجنائي أو قوانين العقوبات.
وفي الوقت نفسه، فإن ثمانية عشر من أصل اثنين وثلاثين قانونًا تحتوي على أقل من خمس مواد مذكورة على أنها ذات صلة بـ سؤال واحد على الأقل.
وهو ما يمكن تفسيره بحقيقة أن تلك القوانين ركزت بشكل أقل على الأفراد ومخاوفهم.
وبشكل عام، متوسط عدد الاقتباسات لهذه المواد المذكورة اثنان، وأقل من خمسة وعشرين بالمائة منها تم اقتباسها أكثر من خمس مرات.
باستخدام جميع مجموعات البيانات، قمنا بقياس العديد من أساليب الاسترجاع، بما في ذلك البنية المعجمية والمكثفة.
بوجود استعلام ومادة، يقوم النموذج المعجمي بتعيين درجة لزوج مادة الاستعلام عن طريق حساب المجموع على شروط الاستعلام لأوزان كل من هذه المصطلحات في تلك المادة.
نجرب مع وظائف التصنيف القياسية TF-IDF وBM25.
تكمن المشكلة الرئيسية في هذه الأساليب في أنها لا تستطيع استرداد سوى المواد التي تحتوي على كلمات أساسية موجودة في الاستعلام.
وللتغلب على هذا القيد، نجرب بنية قائمة على العصبية يمكنها التقاط العلاقات الدلالية بين الاستعلامات والمادة.
نحن نستخدم نموذجًا ثنائي المشفر يقوم بتعيين الاستعلامات والمواد في تمثيلات متجهية كثيفة وحساب درجة الصلة بين زوج المادة والاستعلام عن طريق تشابه التضمينات الخاصة بهما.
عادة ما تنتج هذه التضمينات من عملية تجميع على إخراج نموذج تضمين الكلمات.
أولًا، ندرس فعالية المشفرات الثنائية السيامية في إعداد تقييم صفري، مما يعني أن نماذج تضمين الكلمات المدربة مسبقًا يتم تطبيقها خارج الصندوق دون أي ضبط دقيق إضافي.
نجرب مع مشفر النص المستقل عن السياق، وهو word2vec وfastText، ونماذج التضمين المعتمدة على السياق، وهي Roberta وبشكل أكثر تحديدًا CamemBERT وهو نموذج Roberta فرنسي.
وبالإضافة إلى ذلك، نقوم بتدريب المشفرات الثنائية للنموذج القائم على CamemBERT على مجموعة البيانات الخاصة بنا.
لاحظ أنه بالنسبة إلى التدريب، نقوم بتجربة نوعين من بنية المشفر الثنائي.
اللغة السيامية، التي تستخدم نموذجًا فريدًا لتضمين الكلمات تعين الاستعلام والمادة معًا في مساحة متجهية مكثفة مشتركة، ونموذج برجين، يستخدم نموذجين مستقلين لتضمين الكلمات يشفران الاستعلام والمادة بشكل منفصل في مسافات تضمين مختلفة.
نقوم بتجربة التجميع المتوسط والحد الأقصى و CLS بالإضافة إلى المنتج والجيب لحساب أوجه التشابه.
فيما يلي نتيجة خط الأساس الخاص بنا في مجموعات الاختبار.
باستخدام الأساليب المعجمية أعلاه، تم تقييم المشفرات الثنائية السيامية في إعداد صفري في المنتصف، والمشفرات الثنائية المحددة بدقة أدناه.
بشكل عام، يتفوق المشفر الثنائي المحدد بدقة بشكل كبير على جميع خطوط الأساس الأخرى.
يتحسن نموذج البرحين على المتغيرات السيامية عند الاستدعاء عند مائة، ولكنه يعمل بالمثل على المقاييس الأخرى.
على الرغم من أن أداء BM25 كان أقل من أداء برنامج المشفر الثنائي المدرب بشكل كبير، إلا أن أداؤه أشار إلى أنه لا يزال يمثل خطًا أساسيًا قويًا لاسترجاع المجال المحدد.
فيما يتعلق بالتقييم الصفري للمشفر الثنائي السيامي، نجد أن الاستخدام المباشر لتضمينات نموذج CamemBERT مدرب مسبقًا دون تحسين لمهمة استرجاع المعلومات يعطي نتائج سيئة، وهو ما يتوافق مع النتائج السابقة.
علاوة على ذلك، نلاحظ أن المشفر الثنائي المستند إلى word2vec قد تفوق بشكل كبير على النماذج المستندة إلى fastText وBERT، مما يشير إلى أنه ربما تكون التضمينات على مستوى الكلمات المدربة مسبقًا أكثر ملاءمة للمهمة من تضمينات مستوى الحرف أو الكلمة الفرعية عند استخدامها خارج الصندوق.
على الرغم من أن هذه النتائج واعدة، إلا أنها تشير إلى فرصة كبيرة للتحسين مقارنة بالخبير القانوني الماهر الذي يمكنه في النهاية استرداد جميع المواد ذات الصلة لأي سؤال وبالتالي الحصول على درجات مثالية.
دعونا نختتم بمناقشة اثنين من قيود مجموعة البيانات.
أولًا، تقتصر مجموعة المواد على المواد التي تم جمعها من الاثنين وثلاثين قانونًا بلجيكيًا التي تمت دراستها، والتي لا تغطي القانون البلجيكي بأكمله حيث إن مواد المراسيم والتوجيهات والمراسيم غير مضمنة.
أثناء إنشاء مجموعة البيانات، يتم تجاهل جميع الإشارات إلى هذه المواد التي لم يتم جمعها، مما يتسبب في إنهاء بعض الأسئلة بجزء صغير فقط من العدد الأولي للمواد ذات الصلة.
وبالتالي تشير هذه المعلومات إلى أن الإجابة الواردة في المواد الأخرى ذات الصلة قد تكون غير كاملة، على الرغم من أنها لا تزال مناسبة تمامًا.
ثانيًا، يجب أن نلاحظ أنه لا يمكن الإجابة على جميع الأسئلة القانونية بالقوانين وحدها.
على سبيل المثال، السؤال، هل يمكنني طرد المستأجرين إذا أحدثوا الكثير من الضوضاء؟
قد لا يكون له إجابة مفصلة ضمن القانون التشريعي تحدد حدًا معينًا للضوضاء يُسمح عندها بالطرد.
وبدلاً من ذلك، ربما ينبغي للمالك أن يعتمد أكثر على السوابق القضائية وأن يجد سوابق مماثلة لوضعه الحالي.
على سبيل المثال، يقوم المستأجرون بحفلين في الأسبوع حتى الساعة الثانية صباحًا.
ومن ثم، فإن بعض الأسئلة مناسبة أكثر من غيرها لمهمة استرجاع المادة القانونية، ويبقى تحديد مجال الأسئلة الأقل ملاءمة.
نأمل أن يثير عملنا الاهتمام بتطوير نماذج استرجاع مواد قانونية عملية وموثوقة.
ويمكن أن يساعد ذلك في تحسين وصول الجميع إلى العدالة.
يمكنك الاطلاع على ورقتنا ومجموعة بياناتنا ومدونتنا على الروابط التالية. شكرًا لكم.
مرحبًا، يسعدنا تقديم عملنا على VALSE؛ وهو معيار مهام مستقل يهدف إلى اختبار نماذج الرؤية واللغة بظواهر لغوية محددة.
لماذا عنينا بوضع هذا المعيار؟
حسنًا، خلال السنوات الماضية، شهدنا انفجارًا في الرؤية القائمة على المحولات ونماذج اللغة المدربة مسبقًا على كميات كبيرة من أزواج النصوص والصور.
يدفع كل من هذه النماذج أحدث ما توصل إليه العلم في مهام الرؤية واللغة مثل الإجابة على الأسئلة المرئية، والتفكير المنطقي المرئي، واسترجاع الصور، وتأسيس العبارات.
وفهمنا أن الدقة في هذه المهام والمعايير المحددة تزداد باطراد.
لكن هل نعرف ما الذي تعلمته النماذج بالفعل؟
ما الذي يفهمه محول اللغة والرؤية عند تخصيص درجة عالية لهذه الصورة وهذه الجملة لمطابقتها؟
والنتيجة المنخفضة لهذا النموذج؟
هل نماذج الرؤيةواللغة تركز على الشيء الصحيح؟
أم أنهم تركز على biases كما هو موضح في العمل السابق؟
لإلقاء مزيد من الضوء على هذا الجانب، نقترح اتجاهًا أكثر حيادية للمهمة ونقدم VALSE الذي يختبر حساسية نماذج الرؤية واللغة لظواهر لغوية محددة تؤثر على كل من الطرائق اللغوية والبصرية.
نستهدف الوجود والتعددية والعد والعلاقات المكانية والأفعال ومرجعية الكيان.
ولكن كيف نختبر ما إذا كانت نماذج الرؤية واللغة قد استوعبت هذه الظاهرة؟
من خلال إحباط طريقة تم تطبيقها سابقًا لنماذج الرؤية وباللغة فقط للعبارات الاسمية بواسطة رافي شيخار والمتعاونين، وعلى العد من قبلنا في العمل السابق.
يعني إحباط بشكل أساسي أننا نأخذ تعليقًا على الصورة وننتج رقاقة عن طريق تغيير التسمية التوضيحية بحيث لا تصف الصورة بعد الآن.
ونقوم بتعديلات العبارة هذه من خلال التركيز على ستة أجزاء محددة مثل الوجود والتعددية والعد والعلاقات المكانية والأفعال ومرجعية الكيان، حيث يمكن أن تتكون كل قطعة من أداة واحدة أو أكثر، في حال وجدنا أكثر من طريقة مثيرة للاهتمام لإنشاء حالات احباط.
على سبيل المثال، في حالة قطعة الإجراءات، لدينا أداتان، أحدهما يتم فيه تغيير فعل الإجراء بإجراء مختلف، والآخر يتم فيه تبديل الفاعلين.
يعد العد والمرجعية أيضًا قطعًا بها أكثر من أداة واحدة.
وننشئ هذه الرقائق عن طريق التأكد من أنها تفشل في وصف الصورة، وأنها جمل نحوية، وبخلاف ذلك جمل صحيحة.
هذا ليس من السهل القيام به لأن التسمية التوضيحية التي تم إحباطها قد تكون أقل احتمالية من التسمية التوضيحية الأصلية.
على سبيل المثال، على الرغم من أن ذلك ليس مستحيلًا، إلا أنه من الناحية الإحصائية تقل احتمالية قيام النباتات بقطع رجل من رجل لقطع النباتات، ويمكن لنماذج الرؤية واللغة الكبيرة أن تلتقط هذا الأمر.
لذلك، للحصول على رقائق صالحة، يجب علينا اتخاذ إجراءات.
أولاً، نستخدم نماذج لغة قوية لاقتراح رقائق.
ثانيًا، نستخدم الاستدلال اللغوي الطبيعي، أو اختصارًا NLI، لتصفية الرقائق التي يمكن أن تظل تصف الصورة، لأنه عند إنشاء الرقائق نحتاج إلى التأكد من فشلها في وصف الصورة.
لاختبار ذلك تلقائيًا، نطبق استدلال اللغة الطبيعية بالأساس المنطقي التالي.
نعتبر أن الصورة هي الفرضية وأن تعليقها يستلزم فرضية.
بالإضافة إلى ذلك، نعتبر التسمية التوضيحية هي الفرضية، والرقائق هي فرضيتها.
إذا توقع نموذج NLI أن الرقاقة تتناقض أو تكون محايدة فيما يتعلق بالتسمية التوضيحية، فإننا نأخذ هذا كمؤشر على رقاقة صالحة.
إذا تنبأ NLI بالرقائق التي ستترتب على التسمية التوضيحية، فلا يمكن أن تكون رقائق جيدة، لأنه من خلال العبور سيعطي وصفًا صادقًا لـ الصورة، ونقوم بتصفية هذه الرقائق.
ولكن هذا الإجراء ليس مثاليًا، بل هو مجرد مؤشر ل رقائق صالحة.
لذلك، كإجراء ثالث لتوليد رقائق صالحة، نستخدم المعلقين البشريين للتحقق من صحة البيانات المستخدمة في VALSE.
لذلك، بعد التصفية والتقييم البشري، لدينا العديد من حالات الاختبار كما هو موضح في هذا الجدول.
لاحظ أن VALSE لا يقدم أي بيانات تدريب ولكنه يختبر البيانات فقط.
نظرًا لأنه معيار اختبار صفري فقط، فهو مصمم للاستفادة من القدرات الحالية لنماذج الرؤية واللغة بعد التدريب المسبق.
سيمّكن الضبط الدقيق النماذج من استغلال المصنوعات اليدوية أو biases الإحصائية في البيانات.
ونحن نعلم جميعًا أن هذه النماذج ترغب في الغش واتخاذ طريق مختصر.
وكما قلنا، نحن مهتمون بتقييم القدرات التي تتمتع بها نماذج الرؤية و للغة بعد التدريب المسبق.
نختبر خمسة نماذج للرؤية و اللغة على VALSE، وهي مع CLIP وLXMert وViLBERT وViLBERT اثني عشر في واحد وVisualBERT.
اثنان من أهم مقاييس التقييم لدينا هما دقة النماذج في تصنيف أزواج جمل الصورة إلى تسميات توضيحية ورقاقات.
ربما يكون أكثر ملاءمة لهذا الفيديو، سنعرض مقياسنا الأكثر تساهلاً، دقة الاقتران، التي تقيس ما إذا كانت نتيجة sentence alignment الصورة أكبر لزوج نص الصورة الصحيح من زوجها المحبط.
لمزيد من المقاييس والنتائج عليها، يرجى الاطلاع على ورقتنا.
النتائج بدقة الاقتران معروضة هنا وهي متوافقة مع النتائج التي حصلنا عليها من المقاييس الأخرى وهي أن أفضل أداء صفري يتم تحقيقه بواسطة ViLBERT اثني عشر في واحد، متبوعًا بـ ViLBERT وLXMert وCLIP وأخيرًا VisualBERT.
من الملاحظ أن الأدوات التي تتمحور حول الكائنات الفردية مثل الوجود والعبارات الاسمية يتم حلها تقريبًا بواسطة ViLBERT اثني عشر في واحد، مما يبرز أن النماذج قادرة على تحديد الكائنات المسماة ووجودها في الصور.
ومع ذلك، لا يمكن حل أي من القطع المتبقية بشكل موثوق في إعدادات إحباط العداء الخاصة بنا.
نرى من التعددية وأدوات العد أن الرؤية و نماذج اللغة تواجه صعوبة في التمييز بين الإشارات إلى كائن واحد مقابل كائنات متعددة، أو عدها في صورة.
تُظهر قطعة العلاقة أن لديهم صعوبات في تصنيف اسم علاقة مكاني بشكل صحيح بين الكائنات في صورة.
لديهم أيضا صعوبة في التمييز بين الإجراءات وتحديد المشاركين فيها، حتى لو كانت مدعومة من معقولية biases كما نرى في قطعة الإجراءات.
من قطعة المراجع المشترك، اكتشفنا أن تتبع إشارات متعددة لنفس الكائن في صورة ما باستخدام الضمائر هو أيضًا أمر صعب بالنسبة لنماذج اللغة والرؤية.
للتحقق من سلامة العقل، ولأنها تجربة مثيرة للاهتمام، فإننا نقيس أيضًا اثنين نص فقط نماذج، GPT واحد وGPT اثنين، لتقييم ما إذا كان VALSE قابلاً للحل بواسطة هذه النماذج أحادية الواسطة عن طريق حساب الحيرة من التسمية التوضيحية الصحيحة والفاشلة، لا صورة هنا، وتوقع الإدخال بأقل حيرة.
إذا كانت الحيرة أكبر بالنسبة للرقائق المعدنية، فإننا نأخذ هذا كمؤشر على أن التسمية التوضيحية المحبطة قد تعاني من تحيز المعقولية أو biases لغوية أخرى.
ومن المثير للاهتمام أن نرى أنه في بعض الحالات، نصت نماذج GPT النصية فقط على معقولية العالم بشكل أفضل من نماذج اللغة والرؤية.
باختصار، VALSE هو معيار يستخدم عدسة التركيبات اللغوية لمساعدة المجتمع على تحسين الرؤية ونماذج اللغة من خلال الاختبار الجاد لقدراتهم على التأسيس البصري.
تُظهر تجاربنا أن نماذج اللغة والرؤية تحدد الأشياء المسماة ووجودها في الصور جيدًا، كما يتضح من قطعة الوجود، لكنها تكافح من أجل تأسيس ترابطها وعلاقاتها في المشاهد المرئية عند إجبارها على احترام المؤشرات اللغوية.
نود حقًا تشجيع المجتمع على استخدام VALSE لقياس التقدم نحو تأسيس اللغة مع نماذج اللغة والرؤية.
علاوة على ذلك، يمكن استخدام VALSE كتقييم غير مباشر لمجموعات البيانات، حيث يمكن تقييم النماذج قبل وبعد التدريب أو الضبط الدقيق لمعرفة ما إذا كانت مجموعة البيانات تساعد النماذج على تحسين أي من الجوانب التي تم اختبارها بواسطة VALSE.
إذا كنت مهتمًا، فراجع بيانات VALSE على GitHub، وإذا كان لديك أي أسئلة، فلا تتردد في الاتصال بنا.
مرحبًا، اسمي كاميزاوا من جامعة طوكيو.
سأقدم ورقة بعنوان RNSum: مجموعة بيانات كبيرة الحجم لتوليد ملاحظات الإصدار التلقائي عبر تلخيص سجلات الالتزام.
وسأشرح بهذا الترتيب.
أولًا، سأقدم توليد ملاحظات الإصدار التلقائي الذي نعمل عليه في هذا البحث.
ملاحظة الإصدار عبارة عن مستند تقني يلخص التغييرات الموزعة مع كل إصدار من منتج البرنامج.
تُظهر الصورة ملاحظة إصدار للنسخة الثانية وستة فاصلة أربعة من مكتبة vuejs.
تؤدي ملاحظات الإصدار دورًا مهمًا في تطوير المصدر المفتوح ولكنها تستغرق وقتًا طويلاً للإعداد يدويًا.
لذلك، سيكون من المفيد للغاية التحلي بالقدرة على إنشاء ملاحظات الإصدار تلقائيا بجودة عالية.
سوف أشير إلى بحثين سابقين بشأن توليد ملاحظات الإصدار تلقائيًا.
الأول هو نظام يسمى ARENA صدر في 2014.
يتطلب الأمر نهجًا قائمًا على القواعد، على سبيل المثال باستخدام مستخرج التغيير لاستخراج جميع الاختلافات وتغييرات المكتبة وتغييرات المستند من الاختلافات بين الإصدارات، ثم دمجها في النهاية.
الميزة الأبرز لهذا النظام هي مستخرج المشاكل في الزاوية اليمنى العليا،
وهذه المشكلات يجب تركها إلى Jira، نظام تعقب المشكلات، ولا يمكن تطبيقها إلا على المشاريع التي تستخدم Jira.
بمعنى آخر، لا يمكن استخدامه في العديد من المشاريع على GitHub.
والثاني هو Glyph، الذي تم الإعلان عنه مؤخرًا في 2020.
وهو متاح على الإنترنت ويمكن تثبيته عبر PIP.
يحتوي هذا النظام على نموذج تصنيف نصي بسيط قائم على التعلم و مخرجات واحدة من خمس تسميات مثل ميزات أو إصلاحات الأخطاء لكل رسالة التزام إدخال.
هذه الصورة هي استخدام نموذجي يقوم بإرجاع ملصق تصحيحي أو إصلاح الأخطاء.
بيانات تدريب Glyph صغيرة إلى حد ما، حوالي خمسة آلاف، وسيتم عرضها في التجارب الموضحة أدناه.
أداء نموذج تصنيف النص ليس مرتفعًا.
أقدم بحثين مرتبطين، لكن مشاكلهما تكمن في قابلية التطبيق المحدودة وندرة موارد البيانات.
تحل ورقتنا البحثية هاتين المشكلتين وتنشئ ملاحظات إصدار عالية الجودة تلقائيًا.
بالنسبة لمشكلة قابلية التطبيق المحدودة، نقترح طريقة تلخيص صنفية عالية الجودة باستخدام رسائل الالتزام فقط كإدخال.
يمكن استخدام هذه الطريقة المقترحة لجميع المستودعات الإنجليزية.
بالنسبة للمشكلة الثانية المتمثلة في موارد البيانات النادرة، قمنا ببناء مجموعة بيانات RNSum الخاصة بنا والتي تتكون من حوالي ثمانين ألف قطعة من البيانات عن طريق جمع البيانات من مستودعات GitHub العامة باستخدام GitHub API.
بعد ذلك، سأصف مجموعة البيانات الخاصة بنا.
فيما يلي مثال على البيانات.
الجانب الأيسر هو رسالة التزام والجانب الأيمن هو ملاحظات الإصدار.
يتم تصنيف ملاحظات الإصدار على أنها تحسينات أو إصلاحات، وما إلى ذلك.
أنشأنا مهمة تأخذ رسائل الالتزام كمدخلات وتخرج ملاحظات الإصدار مصنفة.
ويمكن اعتبار ذلك مهمة تلخيص.
لقد حددنا مسبقًا أربع تصنيفات هي: الميزات والتحسينات وإصلاحات الأخطاء وعمليات الإيقاف والتغييرات التالفة.
وقد تم وضع هذه التصنيفات على أساس البحوث السابقة وعوامل أخرى.
ملاحظة الإصدار في أسفل اليمين مستخرجة من ملاحظة الإصدار في أسفل اليسار.
في هذا الوقت، من الضروري الكشف عن المسميات الأربعة التي تم إعدادها مسبقًا.
لكن المسميات لا تتوافق دائمًا مع كل مستودع.
على سبيل المثال، تتضمن تصنيفات التحسينات، التقدمات والترقيات والتطويرات وما إلى ذلك.
لقد أعددنا قائمة مفردات تضم حوالي ثلاثين تسمية لكل من هذه الاختلافات الترميزية.
يستخدم هذا للكشف عن فئة ملاحظات الإصدار، ويجمع نص الإصدار الذي يلي جملة ملاحظة الإصدار لـلفصل.
التالي هو رسالة التزام.
لا ترتبط رسائل الالتزام بكل إصدار.
كما هو موضح في الصورة أدناه، في حال كان الإصدار الحالي هو الإصدار الثاني من 2.5 إلى 19، فنحن بحاجة إلى تحديد الإصدار السابق من 2.5 إلى 18 والحصول على فرق.
هذا الأمر ممل بعض الشيء ولا يكفي مجرد الحصول على قائمة بالإصدارات وإلقاء نظرة على ما قبلها وبعدها.
لقد أنشأنا قاعدة مطابقة إرشادية للحصول على الإصدارات السابقة والقادمة.
تحليل مجموعة البيانات.
في النهاية، تم جمع سبعة آلاف ومائتي مستودع واثنين وثمانين ألف قطعة من البيانات.
بالإضافة إلى ذلك، فإن متوسط عدد رموز ملاحظات الإصدار هو ثلاثة وستون وهو مرتفع للغاية لـ مهمة التلخيص.
وأيضًا، يعتبر عدد الرموز الفريدة كبير للغاية حيث يبلغ ثمانية آلاف وثمانمائة وثلاثين ألفًا.
هذا يرجع إلى العدد الكبير من أسماء الفئات أو الطرق الفريدة الموجودة في المستودع.
وبعد ذلك، سأشرح الطريقة المقترحة.
يتكون نموذج التلخيص الاستخراجي ثم abstractive summarization من وحدتين عصبيتين.
المصنف الذي يستخدام BERT أو CodeBERT ومولد باستخدام BART.
أولاً، يستخدم CEAS مصنف لتصنيف كل رسالة التزام إلى خمس فئات من ملاحظات الإصدار، والتي تستخدم التحسينات، وإصلاحات الأخطاء، والإهمالات، بالإضافة إلى أخرى.
يتم تجاهل رسائل الالتزام المصنفة على أنها أخرى.
ثم يقوم CEAS بتطبيق المولد على المستندات الأربعة المصنفة بشكل مستقل ويقوم بإنشاء ملاحظات إصدار لكل فئة.
في هذه المهمة، المراسلات المباشرة بين رسائل الالتزام وملاحظات الإصدار غير معروفة.
لذلك، لتدريب المصنف، لهذا السبب قمنا بإعادة تعيين الاستطلاعات لكل رسالة التزام إدخال باستخدام الأحرف العشرة الأولى من كل رسالة التزام.
قمنا بنمذجة نهج abstractive summarization الطبقي من خلال طريقتين مختلفتين.
يتكون النموذج الأول، الذي نسميه CAS -Single، من شبكة واحدة من ستة إلى ستة شبكات ويقوم بإنشاء نص ملاحظة إصدار واحد يعطي سلسلة من رسائل الالتزام بالإدخال.
يمكن تقسيم نصوصالمخرجات إلى شرائح حسب الفصل استنادًا إلى رموز نقطة نهاية خاصة بالفئة.
تتكون الطريقة الثانية، وهي الطريقة، التي نسميها CAS - Multi، من أربع شبكات seq2seq مختلفة، كل منها يتوافق مع إحدى فئات ملاحظات الإصدار الثابت.
حسنًا، اسمحوا لي أن أشرح التجارب.
تمت مقارنة خمس طرق هي: CEAS، وCAS- Single، وCAS - Multi، وClustering، و previous study ،Glyph.
فيما يتعلق بـ التقييم، في بعض الحالات، يتم إخراج ملاحظات الإصدار في جمل متعددة.
نظرًا لأنه من الصعب حساب عدد الجمل كما هو، يتم دمجها مع المسافات ومعاملتها على أنها جملة طويلة واحدة.
ويُعاقب BLEU عندما يُخرج النظام جملة قصيرة.
وتؤدي هذه العقوبة إلى انخفاض قيمة BLEU في نتائج التجربة الموضحة بعد ذلك.
وأخيرًا، نحسب أيضًا الدقة لأنه لا يمكن حساب ROUGE وBLEU إذا كانت ملاحظات الإصدار فارغة.
وتعني الدقة الأعلى أن النموذج يخرج نصًا فارغًا بشكل صحيح في الحالات التي تفترض فيها ملاحظات الإصدار أنها فارغة.
جاءت النتائج كما يلي.
نظرًا لأن مجموعة البيانات تحتوي على عناوين بريد إلكتروني وقيم مجزأة وما إلى ذلك، فقد قمنا أيضًا بتقييم مجموعة البيانات التي تم تنظيفها، والتي تستبعدها.
حقق CEAS وCAS درجات ROUGE-L أعلى بأكثر من عشر نقاط من خطوط الأساس.
على وجه الخصوص، في مجموعة الاختبار النظيف، قفزت فجوة النتيجة بين الطريقة المقترحة وخطوط الأساس إلى أكثر من عشرين نقطة.
وتشير هذه النتائج إلى أن CEAS وCAS يتأثران بشكل كبير.
حصل CEAS على درجة ROUGE-L أفضل من CAS مما يشير إلى أن الجمع بين المصنف والمولد فعال في تدريب المصنف باستخدام ملصقات زائفة.
يمكن تحقيق تغطية عالية لـ CEAS على الأرجح لأن المصنف يمكنه التركيز على اختيار رسائل الالتزام ذات الصلة لكل فئة.
يميل CAS المتعدد إلى إنتاج ROUGE-L أعلى من CAS المفرد.
مما يشير إلى أنه من الفعال أيضًا تطوير نماذج abstractive summarization مختلفة بشكل مستقل لكل فئة من فئات مذكرة الإصدار.
وهنا تحليل الخطأ.
تميل أساليب CAS إلى إخراج جمل أقصر من الجمل المرجعية البشرية.
في الشكل على اليمين، تحتوي الجملة المرجعية على ثلاث أو أربع جمل، بينما يحتوي CAS على جملة واحدة فقط.
وسبب نفور هذا النموذج هو أنه في بيانات التدريب فقط ثلاثة وثلاثون بالمائة من الجمل موجودة في تسمية الميزات وأربعين بالمائة في ملصق التحسينات.
علاوة على ذلك، لا يمكن لأساليب CAS إنشاء ملاحظات إصدار دقيقة بدون معلومات إضافية.
المثال العلوي الموجود على اليمين هو مثال على رسالة الالتزام الفوضوية للغاية، ولا يمكن توليد الجملة الكاملة دون الرجوع إلى التقدم أو المشكلة المتطابقة.
ويوضح المثال أدناه أن رسالتي الالتزام في الإدخال مرتبطتان ويجب دمجهما في جملة واحدة، لكنه يفشل في القيام بذلك.
وأخيرًا، خاتمة.
لقد أنشأنا مجموعة بيانات جديدة لتوليد ملاحظات الإصدار التلقائي.
لقد قمنا أيضًا بصياغة مهمة إدخال رسائل الالتزام وتلخيصها بحيث تكون قابلة للتطبيق على جميع المشاريع المكتوبة باللغة الإنجليزية.
وتُظهر تجاربنا أن الطريقة المقترحة تولد ملاحظات إصدار أقل صخبًا عند وجود تغطية أعلى من خطوط الأساس.
يرجى الاطلاع على مجموعة بياناتنا على GitHub.
شكرًا لكم.
مرحبًا. اسمي عساف هراري.
وسأقدم ورقتنا؛ إثراء بيانات جدولية قليلة باستخدام بنيات محولات مضبوطة بدقة.
يحلل علماء البيانات البيانات ويركزون بشكل أساسي على التلاعب بالميزات الحالية للبيانات.
ولكن في بعض الأحيان، تكون هذه الميزات محدودة.
قد يضيف توليد الميزة باستخدام مصدر بيانات آخر معلومات جوهرية.
هدفنا البحثي هو الإثراء التلقائي للبيانات الجدولية باستخدام النص الحر للمصادر الخارجية.
افترض أن لدينا مجموعة بيانات مجدولة وknowledge base.
نحتاج إلى عملية تلقائية تتضمن ربط الكيانات وتحليل النص لاستخراج ميزات جديدة من النص الحر لknowledge base.
إطار عملنا FeSTE هو بالضبط هذه العملية التلقائية.
لذلك دعونا نرى مثالاً في مجموعة بيانات يتم إدخالها في FeSTE.
في هذا المثال، مجموعة البيانات هي مجموعة بيانات جامعية.
عندما يكون هدفها هو تصنيف الجامعات إلى جامعات منخفضة المستوى وجامعات رفيعة المستوى.
نستخدم ويكيبيديا، باعتبارها knowledge base.
المرحلة الأولى من FeSTE هي entity linking.
عندما يكون كل كيان، اسم الجامعة في هذا المثال، مرتبطًا بكيان داخل knowledge base.
ويتم استخراج نص كيانات knowledge base وإضافته إلى مجموعة البيانات.
في هذا المثال، النص هو ملخص صفحة ويكيبيديا.
والآن، نحتاج إلى إنشاء أو استخراج ميزات من النص المسترجع.
لذلك، نحن بحاجة إلى ميزة مرحلة الاستخراج التي تتضمن تحليل النص.
وهذه هي الحداثة الرئيسية لهذه الورقة وسأتناولها بتعمق في الشرائح التالية.
بعد مرحلة استخراج الميزات، توجد مرحلة توليد ميزة عندما نستخدم الميزات المستخرجة لإنشاء عدد صغير من الميزات الجديدة.
قم أولاً بإنشاء ميزات في عدد فئات مجموعة البيانات الأصلية.
في هذا المثال، تحتوي مجموعة البيانات الأصلية على فئتين.
لذلك، FeSTE يولد ميزتين جديدتين.
ولكن إذا كانت مجموعة البيانات تحتوي على خمس فئات، فإن FeSTE تنشئ خمس ميزات جديدة.
تمثل كل ميزة الاحتمالية لكل فئة.
لتحليل النص، نستخدم أحدث تقنيات تحليل النص، وهي نماذج لغة قائمة على المحولات مثل بيرت وGPT وXLNet وما إلى ذلك.
إنه كذلك، ولكن ليس من المحتمل أن نتمكن من تدريب نماذج اللغة باستخدام مجموعات البيانات المدخلة.
لذا فإن النهج البسيط سيكون بمثابة ضبط دقيق للمهمة المستهدفة.
لذلك، في مرحلة استخراج الميزات، يمكننا تنزيل نماذج اللغة المدربة مسبقًا، وصقل نموذج اللغة على مجموعة البيانات المستهدفة.
في هذا المثال، لضبط نموذج اللغة بدقة، لتصنيف النص إلى فئات، والتجريد إلى فئات، منخفضة أو عالية.
احصل على مخرجات نموذج اللغة، وهي الاحتمالية لكل فئة واستخدامها كميزات جديدة.
تكمن مشكلة هذا النهج في أن مجموعات البيانات قد تحتوي على عدد قليل من الكيانات / النصوص المتميزة.
في تجربتنا، تحتوي نصف مجموعات البيانات تقريبًا على أقل من أربعمائة عينة، وتحتوي أصغر مجموعة بيانات على خمسة وثلاثين عينة في مجموعة التدريب.
لذا فإن ضبط نموذج اللغة بدقة على مجموعة البيانات هذه لن يكون فعالًا.
لكن يمكننا استخدام المعرفة المسبقة حول مجموعات البيانات التي تم تحليلها مسبقًا.
لأن FeSTE، نطبق FeSTE على مجموعة بيانات متعددة، يمكننا استخدام n ناقص واحد مجموعات البيانات لجمع معلومات حول n ناقص واحد مجموعات البيانات، واستخدام هذه المعلومات عندما نحلل nth مجموعة البيانات.
ما نقترحه هو إضافة مرحلة ضبط دقيق أخرى.
مرحلة الضبط الدقيق الأولية متعددة المهام.
عندما تقوم بضبط نموذج اللغة على مجموعات البيانات ناقص واحد.
وبعد ذلك نقوم بتنفيذ مرحلة ضبط دقيق أخرى وهي مهمة ضبط دقيق للهدف، عندما نقوم بضبط نموذج اللغة على nth مجموعة بيانات الهدف.
أحدث ما توصلت إليه التكنولوجيا في الضبط الدقيق متعدد المهام يسمى MTDNN.
في MTDNN، يحتفظ MTDNN برؤوس في عدد من المهام في مجموعة التدريب.
لذلك، في هذا المثال هناك أربع مهام في مجموعة التدريب، لذلك MTDNN يحافظ على أربعة رؤساء كما ترون في الصورة.
ويأخذ عينات عشوائية من مجموعة التدريب.
وإذا كانت الدفعة العشوائية تنتمي إلى، على سبيل المثال sentence classification مهمة، فإنها تنفذ مسارات أمامية وخلفية من خلال الرأس الأول.
وإذا كانت الدفعة العشوائية تنتمي إلى الترتيب الاقتراني للمهمة، فإنها تنفذ المسار إلى الأمام والخلف من خلال الرأس الأخير.
في السيناريو الخاص بنا، تختلف مجموعات البيانات المجدولة في عدد الفئات.
لذلك هناك العديد من المهام.
حافظت MTDNN على عدد الفئات والرؤوس وطبقات الإخراج.
بالإضافة إلى ذلك، يحتاج MTDNN إلى تهيئة رؤوس جديدة لمجموعة بيانات جديدة بمهمة جديدة.
نهجنا، يسمى مهمة إعادة صياغة الضبط الدقيق، في نهجنا مهمة إعادة صياغة الضبط الدقيق، بدلاً من الحفاظ على رؤوس متعددة، نعيد صياغة كل مجموعة بيانات في جملة لكل تصنيف مشكلة، وهي فئتان مهام.
لذلك دعونا نرى مثالاً.
إليك إدخال مجموعة البيانات التي تتكون من الكيانات و الميزات و النص والفئات.
ونعيد صياغة المهمة من تصنيف النص إلى منخفض أو مرتفع لتصنيف النص والملخص والفئة إلى صواب أو خطأ.
أو بعبارة أخرى، قمنا بتدريب نموذج اللغة لتصنيف الملخص والطبقة إلى الملخص والطبقة، إذا كان الملخص ينتمي إلى الفصل أم لا.
لذا فإن التسمية المتجه في هذه الحالة تبقى دائمًا والتي تتكون دائمًا من فئتين.
وهذه هي الخوارزمية ل نهجنا الدقيق المعاد صياغته لنهج الضبط الدقيق.
دعونا نرى الإطار الكامل.
تم تغذية مجموعة البيانات في FeSTE.
ثم يقوم FeSTE بتنفيذ مرحلة entity linking.
إنه يستخرج النص من knowledge base، والتي في هذا المثال هي ملخص صفحة ويكيبيديا.
ثم أعاد صياغة المهمة في مهمة اقتران تصنيف الجملة.
تطبيق نموذج اللغة على المهمة الجديدة واحتمال الإخراج لكل فئة.
والآن بعد أن تم ضبط نموذج اللغة بالفعل على n ناقص مجموعة بيانات واحدة باستخدام ضبط دقيق متعدد المهام أولي.
ثم نستخدم متجه الناتج من نموذج اللغة كميزة تم توليدها حديثًا في عدد من الفئات.
لتقييم إطارنا، نستخدم سبعة عشر جدول تصنيف مجموعات البيانات التي تختلف في الحجم و الميزات والتوازن و المجال والأداء الأولي.
نستخدم ويكيبيديا، باعتبارها knowledge base.
نقوم بتصميم تجربتنا على أنها ترك واحد من التقييم حيث نقوم بتدريب FeSTe أكثر من ستة عشر مجموعات البيانات وتطبيقه على مجموعة البيانات السابعة عشرة.
كما قمنا أيضًا بتقسيم كل مجموعة بيانات إلى أربع طيات ونطبق أربعة أضعاف التحقق من الصحة.
ثم نقوم بتوليد الميزات الجديدة وتقييمها باستخدام مصنفات التقييم الخمسة.
نحن نستخدم في قاعدة تجاربنا بنية قاعدة بيرت.
هذه هي النتائج ل تجاربنا.
يمكنك أن ترى أننا نقارن إطار عملنا بـ هدف مجموعة بيانات الضبط الدقيق، الضبط الدقيقلهدف المهمة، وضبط دقيق أولي لMTDNN.
و ضبطنا الدقيق يحقق أفضل نتيجة وأفضل أداء.
بينما حققت MTDNN تحسنًا بنسبة 2 في المائة على هدف مجموعة بيانات الضبط الدقيق.
حقق نهجنا تحسنًا بنسبة ستة بالمائة.
عندما ننظر إلى مجموعة البيانات الصغيرة، يمكننا أن نرى أن أداء MTDNN ينخفض وينخفض تحسين الضبط الدقيق للمرحلة الأولية متعدد المهام إلى نقطة واحدة وخمسة بالمائة.
لكن أداؤنا ارتفع إلى أحد عشر بالمائة مقارنة بـ الضبط الدقيق لهدف المهمة وحده.
للتلخيص، يتيح FeSTE القليل من الإثراء من خمسة وثلاثين عينة في تجاربنا.
يستخدم بنية واحدة لجميع المهام ومجموعات البيانات.
ويبقى رأس النموذج.
لكنه يضيف مرحلة إعادة الصياغة.
إنه يزيد من مجموعة القطارات ويحتاج إلى قيمة الهدف مع معنى دلالي حتى نتمكن من إدخاله في نموذج اللغة واستخدامه في مشكلة تصنيف sentence pair.
شكرًا لكم.
