مرحبًا، هذه إيلينا وسأقدم عملنا، الكشف عن الاقتراضات غير المتشابهة باللغة الإسبانية: مجموعة مشروحة ومقاربات للنمذجة.
لذلك سنقوم بتغطية ماهية الاقتراض المعجمي، والمهمة التي اقترحناها، ومجموعة البيانات التي أصدرناها وبعض النماذج التي استكشفناها.
ولكن بادئ ذي بدء، ما هو الاقتراض المعجمي ولماذا يهم كمهمة البرمجة اللغوية العصبية ؟
حسنًا، الاستعارة المعجمية هي في الأساس دمج الكلمات من لغة إلى لغة أخرى.
على سبيل المثال، في اللغة الإسبانية نستخدم الكلمات التي تأتي من اللغة الإنجليزية.
وهنا لديك بعض الأمثلة، كلمات مثل البودكاست والتطبيق والتمويل الجماعي عبر الإنترنت، كل هذه كلمات إنجليزية نستخدمها أحيانًا باللغة الإسبانية.
الاستعارة المعجمية هي نوع من الاستعارة اللغوية التي تتكاثر بشكل أساسي في أنماط لغة واحدة من اللغات الأخرى.
وفي بعض الأحيان تتم مقارنة الاقتراض وتبديل التعليمات البرمجية ووصفها بأنها سلسلة متصلة، حيث يكون تبديل التعليمات البرمجية هو الشيء الذي يفعله ثنائيو اللغة حيث يخلطون لغتين في نفس الوقت.
ومع ذلك، هناك بعض الاختلافات بين الاقتراض المعجمي وتبديل الرموز.
سنركز على الاقتراض المعجمي.
تبديل التعليمات البرمجية هو شيء يتم القيام به من قبل ثنائيي اللغة وبحكم التعريف لا يتم دمج مفاتيح التعليمات البرمجية في أي من اللغات المستخدمة، في حين أن الاقتراض المعجمي هو شيء يتم القيام به أيضًا من قبل أحاديي اللغة.
سوف تمتثل القروض لقواعد اللغة المتلقية.
ويمكن في نهاية المطاف دمج القروض في لغة المتلقي.
فلماذا الاقتراض ظاهرة مثيرة للاهتمام ؟
حسنا، من وجهة نظر اللغويات، الاقتراض هو مظهر من مظاهر كيف تتغير اللغات وكيف تتفاعل.
وكذلك الاقتراضات المعجمية هي مصدر للكلمات الجديدة.
هنا لديك بعض الأمثلة على الاقتراضات المعجمية التي تم دمجها في اللغة الإسبانية ككلمات جديدة.
من حيث قروض البرمجة اللغوية العصبية آه هي مصدر مشترك للكلمات خارج المفردات.
وفي الواقع، أثبت الكشف التلقائي عن الاقتراضات المعجمية آه أنه مفيد لمهام البرمجة اللغوية العصبية مثل التحليل أو توليف النص إلى كلام أو الترجمة الآلية.
كان هناك اهتمام متزايد بتأثير اللغة الإنجليزية على اللغات الأخرى وخاصة المتعلقة بالاقتراضات المعجمية الإنجليزية، والتي كانت تسمى أحيانًا الأنجليكية.
وهنا، لديك بعض الأمثلة على عمل آه على الكشف التلقائي عن الاقتراض في آه بعض هذه اللغات.
لذا فإن المهمة التي نقترحها هي الكشف عن القروض المعجمية غير المستوعبة في النشرات الإخبارية الإسبانية.
مما يعني أننا مهتمون باستخراج الكلمات المستعارة من اللغات الأخرى التي يتم استخدامها في الصحف الإسبانية ولكن لم يتم دمجها أو استيعابها في اللغة المتلقية.
لم يتم دمجها بعد في اللغة الإسبانية.
هنا لديك مثال.
هذه جملة بالإسبانية: Las prendas bestsellers se estampan con stimos florales, animal print o retales tipo patchwork.
وكما ترون، هناك ثلاث نصوص ممتدة والتي هي في الواقع كلمات إنجليزية مثل الأكثر مبيعاً، مطبوعات الحيوانات والخلط.
هذه هي أنواع الامتدادات التي نهتم باستخراجها واكتشافها.
كانت هناك كلمة سابقة عن الكشف عن الأنجليكانية آه والتي تتكون من نموذج كرف للكشف عن الأنجليكانية على نيوزواير الإسبانية.
حقق هذا النموذج درجة F1 من ستة وثمانين.
ولكن كانت هناك بعض القيود على حد سواء أم في مجموعة البيانات ونهج النمذجة.
لذلك ركزت مجموعة البيانات حصريًا على مصدر واحد للأخبار، وتألفت فقط من العناوين الرئيسية.
وأيضا كان هناك تداخل في الاقتراضات التي تظهر في مجموعة التدريب ومجموعة الاختبار.
وقد حال ذلك دون تقييم ما إذا كان نهج النمذجة يمكن أن يعمم بالفعل على القروض غير المرئية سابقا.
لذلك ما نهدف إليه هو معالجة بعض هذه القيود في المهمة.
لذا، كبداية، أنشأنا مجموعة بيانات جديدة.
كان الهدف من مجموعة البيانات الجديدة التي تم شرحها مع الاقتراضات المعجمية والهدف هو إنشاء مجموعة اختبار كانت صعبة قدر الإمكان.
لذلك سيكون هناك الحد الأدنى من التداخل في الكلمات والموضوعات بين مجموعة التدريب ومجموعة الاختبار.
ونتيجة لذلك، تأتي مجموعة الاختبار من مصادر وتواريخ لا نراها في مجموعة التدريب.
هنا يمكنك أن ترى أنه لا يوجد تداخل في الوقت.
انها أيضا، مجموعة الاختبار هو أيضا الاقتراض الكثيفة جدا.
فقط لإعطائك بعض الأرقام، إذا كانت مجموعة التدريب تحتوي على ستة قروض لكل ألف رمز، فإن مجموعة الاختبار تحتوي على عشرين قرضًا لكل ألف رمز.
احتوت مجموعة الاختبار على أكبر عدد ممكن من الكلمات خارج المفردات.
في الواقع، اثنان وتسعون في المئة من القروض في مجموعة الاختبار هي OOV.
لذلك، لم يتم رؤيتهم أثناء التدريب.
وتألفت المجموعة في الأساس من مجموعة من النصوص التي جاءت من مصادر مختلفة من الصحف الإسبانية.
و آه تم شرحه باليد آه باستخدام علامتين.
واحد للاقتراضات المعجمية الإنجليزية التي هي غالبية الاقتراضات المعجمية باللغة الإسبانية، ثم التسمية الأخرى للاقتراض من لغات أخرى.
نحن نستخدم تنسيقات CONLL واستخدمنا الترميز الحيوي حتى نتمكن من ترميز اقتراضات رمزية واحدة مثل APP أو اقتراضات رمزية متعددة مثل التعلم الآلي.
هذه هي أرقام الجسم.
كما ترون، فإنه يصل إلى ما يقرب من ثلاثمائة وسبعين ألف رمز.
وهنا لدينا عدد الامتدادات التي تم تصنيفها على أنها إنجليزية والامتدادات التي تم تصنيفها على أنها قروض أخرى وكم منها كانت فريدة من نوعها.
وهنا لديك بضعة أمثلة من مجموعة البيانات.
كما ترون هنا على سبيل المثال، لدينا ah في المثال الأول، لدينا الطهي دفعة الاقتراض وهو اقتراض متعدد الكلمات.
وقد شرحناه باستخدام ترميز BIO - UM.
لذلك تم استخدام السيرة الذاتية للكلمات باللغة الإسبانية لذلك ليس للكلمات التي لم يتم استعارتها.
وهنا في هذا المثال الثاني، لديك مقاعد البدلاء وتحطم والتي وصفت أيضا على أنها قروض من اللغة الإنجليزية.
لذلك، بمجرد أن حصلنا على مجموعة البيانات، استكشفنا عدة نماذج لمهمة استخراج واكتشاف هذه الاقتراضات المعجمية.
أول واحد جربناه كان نموذج الحقل العشوائي المشروط.
كان هذا هو النموذج الذي تم استخدامه في العمل السابق.
واستخدمنا نفس الميزات المصنوعة يدويًا من تلك الموجودة في ذلك العمل.
كما ترون، هذه هي الميزات.
هذه هي الميزات الثنائية مثل الكلمة أو الرمز المميز في الحالة العلوية ؟
هل هو عنوان العنوان ؟
هل هي علامة اقتباس ؟
أشياء من هذا القبيل، وهي نوع الميزات التي يتوقعها المرء في مهمة التعرف على الكيان المسمى.
هذه هي النتائج التي حصلنا عليها.
نحصل على خمسة وخمسين درجة F1 باستخدام نموذج CRF مع ميزات يدوية الصنع.
وهو اختلاف كبير مختلف أم مقارنة مع درجة F1 المبلغ عنها من ستة وثمانين، والتي كانت النتيجة التي تم الحصول عليها مع نفس نموذج CRF، نفس الميزات ولكن على مجموعة بيانات مختلفة أيضا للكشف عن الاقتراض المعجمي الإسبانية.
لذلك، هذا يثبت أن مجموعة البيانات التي أنشأناها أكثر صعوبة وأننا بحاجة إلى استكشاف نماذج أكثر تطوراً لهذه المهام.
لذلك، اختبرنا نموذجين يعتمدان على المحولات.
استخدمنا BETO وهو نموذج BERT أحادي اللغة تم تدريبه على اللغة الإسبانية وكذلك BERT متعدد اللغات.
كلا النموذجين نستخدمهما من خلال مكتبة المحولات بواسطة HuggingFace.
هذه هي النتائج التي حصلنا عليها.
كما ترون، أداء بيرت متعدد اللغات أفضل من بيتو على حد سواء على مجموعة التطوير وعلى مجموعة الاختبار وعبر جميع المقاييس.
فقط لدينا فكرة للمقارنة، نموذج CRF حصل على 82.
حصل نموذج CRF على خمسة وخمسين درجة F1، في حين حصل بيرت متعدد اللغات على اثنين وثمانين، وهو فرق كبير.
لذلك، بمجرد حصولنا على هذه النتائج، سألنا أنفسنا سؤالًا آخر وهو، هل يمكننا العثور على نموذج BiLSTM - CRF، وتغذيته بأنواع مختلفة من التضمينات، والتضمينات التي ترمز لأنواع مختلفة من المعلومات اللغوية وتتفوق على النتائج التي تم الحصول عليها بواسطة النماذج القائمة على المحولات ؟
لذلك من أجل القيام بذلك، أجرينا بعض التجارب الأولية، قمنا بتشغيل هذا بواسطة نموذج BiLSTM - CRF باستخدام مكتبة مضيئة.
وحاولنا تجربة نوع مختلف من التضمينات مثل المحولات القائمة على المحولات ولكن أيضًا النص السريع، وتضمين الأحرف، وما إلى ذلك.
ما اكتشفناه هو أن التضمينات القائمة على المحولات تؤدي أداءً أفضل من التضمينات غير السياقية، وأن الجمع بين تضمينات BERT الإنجليزية و BETO الإسبانية يتفوق على تضمينات BERT متعددة اللغات.
وأن التضمينات BPE تنتج أفضل F1 وتضمين الأحرف تنتج استدعاء أفضل.
مع أخذ ذلك في الاعتبار، كانت هذه أفضل النتائج التي حصلنا عليها.
كان كلا النموذجين من طراز BiLSTM - CRF باستخدام FLARE.
تم تغذية أحدهما بتضمينات BETO و BERT و BPE، والآخر بتضمينات BETO و BERT و BPE وأيضًا التضمينات الشخصية.
كان هذا الأخير هو الذي حقق أعلى درجة في الفورمولا 1 في مجموعة الاختبار، على الرغم من أن أعلى درجة في مجموعة التطوير تم الحصول عليها من قبل واحد دون تضمين الأحرف.
فقط آه أن نضع في اعتبارنا أن أفضل نتيجة حصلنا عليها مع بيرت متعدد اللغات حصلت على F1 من ستة وسبعين في مجموعة التطوير واثنين وثمانين في مجموعة الاختبار.
وهذا يعد تحسنا بالمقارنة مع هذه النتائج.
أخيرًا، طرحنا على أنفسنا سؤالًا آخر وهو هل يمكن تأطير اكتشاف الاقتراض المعجمي على أنه نقل التعلم من تحديد اللغة في تبديل التعليمات البرمجية ؟
لذلك، نقوم بتشغيل نفس نموذج BiLSTM - CRF الذي قمنا بتشغيله باستخدام FLARE، ولكن بدلاً من استخدام هذه المحولات غير المكيّفة المستندة إلى BERT و BETO، استخدمنا تضمينات تبديل الشفرة.
ما هي تضمينات رمز التبديل ؟
حسنًا، هذه هي التضمينات التي تم ضبطها بشكل جيد على التضمينات القائمة على المحولات والتي تم تدريبها مسبقًا لتحديد اللغة في القسم الإنجليزي الإسباني من مجموعة بيانات تبديل رمز LinCE.
LinCE عبارة عن مجموعة بيانات حول تبديل التعليمات البرمجية تحتوي على قسم حول تبديل التعليمات البرمجية الإنجليزية الإسبانية والإنجليزية الإسبانية.
لذلك قمنا بتغذية BiLSTM - CRF مع تضمينات رمز التبديل وتضمين الأحرف اختياريًا، وتضمين BPE وما إلى ذلك.
كانت أفضل نتيجة حصلنا عليها 84.22، وهي أعلى نتيجة في جميع النماذج التي جربناها في مجموعة الاختبار.
على الرغم من أن أفضل نتيجة للفورمولا 1 التي حصلنا عليها في مجموعة التطوير، والتي كانت تسعة وسبعين، كانت أقل من أفضل نتيجة حصل عليها BiLSTM - CRF مع تضمينات غير متكيفة.
لذلك، بعض الاستنتاجات من عملنا.
لقد أنتجنا مجموعة بيانات جديدة من النشرات الإخبارية الإسبانية التي تم شرحها بالاقتراضات المعجمية غير المستوعبة.
مجموعة البيانات هذه أكثر كثافة في الاقتراض وغنية بـ OOV من الموارد السابقة.
لقد استكشفنا أربعة أنواع من النماذج للكشف عن الاقتراض المعجمي.
من حيث تحليل الأخطاء، حسناً، الإستدعاء كان نقطة ضعف لجميع النماذج.
آه، كما ترون هنا، بعض السلبيات الكاذبة المتكررة تشمل الاقتراضات الكبيرة، والكلمات الموجودة في كل من الإنجليزية والإسبانية، على سبيل المثال.
ومن المثير للاهتمام أيضًا، يبدو أن تضمينات BPE تعمل على تحسين درجة F1.
ويبدو أن تضمين الشخصية يحسن الاستدعاء.
وهو اكتشاف مثير للاهتمام ربما يمكننا استكشافه في العمل المستقبلي.
حسناً، هذا كل ما أملكه
شكراً جزيلاً لإستماعك
اسمي أنطوان.
أنا طالب دكتوراه في جامعة ماساتشوستس أمهرست.
أقدم ورقتنا KinyaBERT: نموذج لغة كينيارواندية مدرك للمورفولوجيا.
اليوم، سأتحدث عن الدافع وراء هذا البحث.
ثم سأقدم بنية نموذج KinyaBERT بالتفصيل.
سأتحدث بعد ذلك عن نتائجنا التجريبية، ثم أنهي ببعض الاستنتاجات.
نعلم جميعًا أن التطورات الحديثة في معالجة اللغة الطبيعية أصبحت ممكنة بفضل استخدام نماذج لغوية مدربة مسبقًا مثل بيرت.
ومع ذلك، لا يزال هناك عدد من القيود.
نظرًا للمورفولوجيا المعقدة التي تعبر عنها معظم اللغات الغنية مورفولوجيًا، لا يمكن لزوج البايت في كل مكان الذي يشفر خوارزمية الترميز التي استخدمتها استخراج الوحدات المعجمية للكلمة الفرعية الدقيقة، بمعنى الأشكال، اللازمة للتمثيل الفعال.
على سبيل المثال، لدينا هنا ثلاث كلمات كينيارواندية تحتوي على عدة صيغ صرفية، لكن خوارزميات BPE لا يمكنها استخراجها.
وذلك لأن بعض القواعد المورفولوجية تنتج أشكالًا سطحية مختلفة تخفي المعلومات المعجمية الدقيقة، ولا يمكن لـ BPE، الذي يعتمد فقط على الأشكال السطحية، الوصول إلى هذا النموذج المعجمي.
التحدي الثاني هو أنه حتى لو كان لدى المرء إمكانية الوصول إلى محلل مورفولوجي أوراكل، فإن استبدال رموز BPE بالمورفيمات لا يكفي للتعبير عن التركيب المورفولوجي.
هناك فجوة ثالثة في البحث هي أن نماذج اللغة الجديدة المدربة مسبقًا غالبًا ما يتم تقييمها على لغات الموارد العالية.
ونحن بحاجة إلى تقييم قابليتها للتطبيق على الموارد المنخفضة واللغات المتنوعة أيضًا.
لذلك، نقدم KinyaBERT، وهو تكيف بسيط ولكنه فعال لعمارة بيرت التي تهدف إلى التعامل بشكل أكثر فعالية مع اللغات الغنية مورفولوجية.
نقوم بتقييم KinyaBERT على Kinyarwanda، وهي لغة غنية مورفولوجية منخفضة الموارد، والتي يتحدث بها أكثر من اثني عشر مليون شخص في جميع أنحاء شرق ووسط أفريقيا.
المدخلات إلى النموذج هي إما جملة أو مستند.
على سبيل المثال، لدينا جون twarahamubonye biradutangaza، مما يعني أننا فوجئنا بالعثور على جون هناك.
كما ترون، تحتوي الكلمات الكينيارواندية على العديد من الأشكال التي تحتوي على معلومات مختلفة فيها.
لذلك، في نموذجنا، نمرر هذه الجملة أو المستند إلى محلل مورفولوجي.
الذي يولد بعد ذلك الصرفية الواردة في كل من الكلمات.
عادة ما تكون الصرفية مصنوعة من الجذعية وصفر أو أكثر من اللواحق.
قد تشير اللواحق إلى التوتر أو الجانب أو الموضوع أو الكائن في الأفعال، وغالبًا ما تتعلق بفئة اسم البانتو للموضوعات والأشياء.
ينتج المحلل الصرفي أيضًا جزءًا من علامة الكلام لكل كلمة.
بعد هذه الخطوة، نقوم بعمل تضمينات لـ spee - لجزء من علامات الكلام.
التضمينات للملصقات.
وتضمينات للجذع.
هذه هي مستوى التشكل، هذه هي تضمينات مستوى التشكل.
ثم نمرر هذه التضمينات من خلال مشفر مورفولوجي، وهو مشفر محول صغير يتم تطبيقه على كل كلمة بشكل مستقل.
ناتج ال هي المتجهات التي يتم وضعها في سياقها مع المعلومات المورفولوجية في كل كلمة.
الآن، نقوم بالتركيب حيث يتم دمج التضمينات المورفولوجية المقابلة لجزء من الكلام والجذع معًا.
كما أننا نسلسلهم مع تضمين جذع آخر على مستوى الجملة.
ثم نقوم بتشكيل إدخال إلى الجملة الرئيسية أو ترميز المستند.
الناتج النهائي هو التضمينات السياقية التي يمكن استخدامها لمهام البرمجة اللغوية العصبية النهائية.
بالنسبة للمحلل المورفولوجي، نستخدم مبادئ التشكل ذات المستويين المحدودين مع التنفيذ المخصص المصمم خصيصًا للغة الكينيارواندية.
نحن على نحو فعال نموذج مورفولوجيا جميع الكلمات الكينيارواندية، بما في ذلك اللفظية والأسماء والضمائر التوضيحية والتملك، والأرقام، وغيرها.
نستخدم جزءًا غير خاضع للإشراف من خوارزمية تمييز الكلام.
يتم استخدام نموذج عامل من الدرجة الأولى لحساب احتمال المورفولوجيا، وهو في الأساس الاحتمال الذي يتم تعيينه بواسطة المحلل المورفولوجي.
نأخذ في الاعتبار أيضًا جزء أسبقية علامة الكلام بالإضافة إلى الاتفاقيات النحوية الموجودة في كلمات الإدخال.
يستخدم جزء من علامة الكلام استدلال ثنائي الاتجاه ثنائي الاتجاه والذي يحسن من خوارزمية Viterbi الأكثر استخدامًا لفك التشفير.
بعض الملاحظات هنا للترميز الموضعي.
أولاً، لا يستخدم مشفر المورفولوجيا أي ترميز موضعي.
وذلك لأن كل من المورفيمات تحتل فتحة معروفة في النموذج المورفولوجي.
ولذلك، فإن المعلومات الموضعية متأصلة عندما يتم إعطاء الصرفية.
ثانياً، يستخدم مشفر الجملة ما يسمى بالتضمينات الموضعية النسبية غير المقيدة، والتي تم نشرها مؤخرًا في مؤتمر ICLR.
تفصل هذه التضمينات الموضعية بشكل أساسي الارتباطات الموضعية من حساب الانتباه الرمزي إلى حساب الانتباه الرمزي.
على غرار بيرت، نستخدم نموذجًا لغويًا مقنعًا قبل التدريب.
في الأساس علينا أن نتنبأ بكل من الساق واللواحق المرتبطة بالكلمات.
خلال مرحلة ما قبل التدريب، يتم النظر في خمسة عشر في المئة من جميع الكلمات للتنبؤ، منها ثمانين في المئة ملثمين، ويتم تبادل عشرة في المئة مع كلمات عشوائية، وترك عشرة في المئة دون تغيير.
للتنبؤ بالعلامات، نواجه بعض مشكلات تصنيف الملصقات المتعددة.
لهذا، نحن إما مجموعة معا يلصق في عدد ثابت من مجموعات والتنبؤ مجموعة كعلامة فئة.
الخيار الآخر هو التنبؤ بمتجه الاحتمال.
نقوم بتقييم كل من هذه الأساليب في تجاربنا.
نقوم بتدريب KinyaBERT مسبقًا على حوالي اثنين ونصف غيغابايت من نص Kinyarwanda، ومقارنته بثلاثة نماذج أساسية.
واحد هو نموذج متعدد اللغات يسمى XLM - R، الذي يتم تدريبه على مجموعة نصية كبيرة مصنوعة من لغات متعددة.
يتم تدريب خطي الأساس الآخرين على نفس النص الكينيارواندي باستخدام خوارزمية ترميز زوج البايت أو باستخدام التحليل المورفولوجي دون استخدام بنية تشفير المحولات ذات المستويين.
يتم تكوين جميع النماذج في البنية الأساسية، والتي هي حوالي بين مائة ومائة وعشرة ملايين المعلمات، مع Kinyarwanda مع KinyaBERT باستخدام أقل عدد من المعلمات.
يتم تدريب جميع الموديلات باستثناء متعدد اللغات مسبقًا على اثنين وثلاثين ألف تحديث تدريجي بحجم دفعة من ألفين وخمسمائة وستين تسلسلًا في كل دفعة.
نقوم بتقييم النماذج المدربة مسبقًا على ثلاث مجموعات من المهام.
أحدهما هو معيار الغراء الذي غالبًا ما يستخدم لتقييم فعالية نماذج اللغة المدربة مسبقًا.
نحصل على بيانات قياس الغراء الخاصة بنا من خلال ترجمة البيانات المرجعية الأصلية إلى اللغة الكينيارواندية باستخدام Google Translate.
المهمة الثانية هي معيار التعرف على الكيان المسمى Kinyarwanda، وهو عبارة عن مجموعة بيانات عالية الجودة تم شرحها بواسطة متحدثين أصليين مدربين.
والثالث هو مهمة تصنيف الأخبار حيث نقوم بسحب المقالات الإخبارية من العديد من مواقع الويب وجمع علامات التصنيف الخاصة بها والتي تم تعيينها من قبل المؤلفين ثم نحاول بشكل أساسي التنبؤ بنفس الفئات.
والآن ننتقل إلى النتائج.
بالنسبة لمعيار الغراء، نجد أن KinyaBERT يتفوق باستمرار على النماذج الأساسية.
هنا نعرض متوسط الأداء لعشرة أشواط ضبط.
كما نجري تقييمًا للمستخدم للترجمات التي يتم إنتاجها بواسطة Google Translate.
في الأساس، قام المستخدمون بتقييم حوالي ستة آلاف مثال، وتعيين الدرجات على مقياس من واحد إلى أربعة، وتقييم جودة الترجمات.
والنتيجة هي أن العديد من الترجمات كانت صاخبة.
ولكن، كان على جميع النماذج التعامل مع نفس ضجيج الترجمة، ولا يزال من المهم ملاحظة الأداء النسبي بين النماذج.
بالنسبة لمهمة التعرف على الكيان المسمى، نجد أيضًا أن KinyaBERT تقدم أفضل أداء مع أداء متغير انحدار توزيع الملصق بشكل أفضل.
هذه النتائج هي أيضا متوسطات عشرة أشواط finetuning.
بالنسبة لمهمة تصنيف الأخبار، نجد نتائج مختلطة.
وقد وجد العمل السابق على تصنيف النص للكينيارواندا أن الكشف البسيط عن الكلمات الرئيسية يكفي في الغالب لحل هذه المهمة المحددة.
لذلك، هناك مكاسب أقل من استخدام نماذج اللغة المدربة مسبقًا.
في هذه المهمة الخاصة لتصنيف الأخبار.
أجرينا أيضًا دراسة الاجتثاث لمعرفة ما إذا كانت هناك هياكل بديلة تعمل على تحسين الأداء.
بالنسبة لمعيار الغراء، نجد أن استخدام مجموعات اللصق يؤدي أداءً أفضل باستمرار، بينما يحقق هدف الانحدار الاحتمالي أفضل أداء في التعرف على الكيان المسمى.
أيضا من خلال النظر في الدرجات المنخفضة للضبط، نجد أن KinyaBERT لديه تقارب أفضل في معظم الحالات.
في الختام، أظهر هذا العمل فعالية الاستخدام الصريح للمعلومات المورفولوجية في نماذج اللغة المدربة مسبقًا.
تتيح بنية محول الترميز ذات المستويين المقترحة التقاط التركيب المورفولوجي للتعقيد المورفولوجي، وهو جانب مهم من اللغات الغنية مورفولوجيًا.
يجب أن تحفز هذه النتائج مزيدًا من البحث في نماذج اللغة المدروسة مسبقًا للغة المورفولوجية.
مرحبًا، اسمي Michał Pietruszka ويسرني أن أقدم لكم الورقة المعنونة Sparsifying Transformer Models with Trainable Representation Pooling.
عمل تم إنجازه في Applica AI بالتعاون مع Lukasz Borchmann و Lukasz Garncarek.
واسمحوا لي أن أبدأ بالمشاكل التي يستهدفها عملنا.
تعمل طريقتنا بشكل جيد في الحالات التي يتم فيها النظر في المدخلات الطويلة.
بشكل تقريبي، إنه مخصص لأوامر المهام والمدخلات لأكثر من ألفي رمز مميز والأهداف أقصر من المدخلات المقدمة.
هذا له بعض التطبيقات المحددة في البرمجة اللغوية العصبية.
على سبيل المثال، يمكن للمرء أن يتخيل أنه بالنظر إلى مستند طويل، هناك حاجة لتلخيصه أو تصنيفه أو الإجابة على السؤال حوله أو استخراج المعلومات أو بعض العبارات الرئيسية.
اسمحوا لي أن أذكر محول الفانيليا ومسألة تعقيد انتباهه التي تعتمد على مربع خط الإدخال.
في محول الفانيليا، مع اتصال الاهتمام الكامل، يجب حساب علاقات كل رمز رمزي لكل رمز رمزي آخر.
التعقيد الحسابي للانتباه، يعتمد هذا على عدد الطبقات l، طول التسلسل n، طول تسلسل آخر، وأبعاد التمثيلات.
وبالمثل، في الاهتمام المتقاطع لجهاز فك التشفير، لهذه الصورة على الجانب الأيمن، الفرق الوحيد هنا هو أن الرموز المميزة المستهدفة تحضر إلى رموز الإدخال في هذه الحالة.
وهو ما يمكن رؤيته أيضًا في هذه الصيغة.
تمثل درجة BLEU العلاقات التي يجب حسابها.
في حالة الاهتمام الكامل، نحتاج إلى حساب كل العلاقات داخل تسلسل الإدخال.
الآن، نرى ما يحدث عندما يكون لدينا مشفر blockwise يعمل عن طريق الحد من اتصال الرموز بحيث يمكنهم فقط رؤية الرموز الأخرى القريبة.
تتم قراءة النص في أجزاء يمكن أن تقلل بشكل كبير من عدد الحسابات على جانب التشفير، ولكنها لا تحسن الاهتمام المتبادل لجهاز فك التشفير حيث يتم تمرير كل رمز إدخال إلى جهاز فك التشفير على أي حال.
وغالبا ما يشار إلى هذه الطريقة باسم الانصهار في فك.
يمكن تفسير التحسن هنا على أنه تغيير إحدى تبعيات n إلى ثابت آخر m يمثل حجم الكتلة.
ملاحظتنا الرئيسية هي أن معظم الرموز غير ذات صلة بمجموعة واسعة من المهام ويمكن تجاهلها بالكامل تقريبًا. يتم توضيح ذلك على الشريحة.
الأجزاء الوحيدة من المدخلات ذات صلة بالإخراج المطلوب.
على سبيل المثال.
يمكن للمرء أن يقرأ مقالا مرة واحدة بمناسبة أهم أجزاء مع تمييز، ومن ثم إنتاج ملخص على أساس هذا الجزء من المرحلة الوسطى فقط.
وبالتالي فإن تكلفة إبراز وتحديد ما إذا كان الرمز المميز الحالي ضروريًا لإنتاج الملخص رخيصة وتعتمد فقط على تمثيل الرمز المميز.
تجميع الرموز المميزة ممكن.
بفضل أفضل مشغل لدينا وتكلفته لا تذكر.
تكلفة إنتاج ملخص من مدخلات مختصرة هي أيضا أقل بكثير مما كانت عليه في نموذج الفانيليا عندما يتم النظر في المدخلات بأكملها.
ولكن هنا سؤال.
كيفية تحديد الرموز المميزة الهامة والتدرجات backpropagate لهذا التحديد ؟
المشكلة الأساسية الأساسية التي نحلها هي اقتراح آلية اختيار قابلة للتدريب.
واحد يمكن أن يسمح للتدرج أن ينتشر مرة أخرى أثناء التدريب بحيث يمكن للشبكة تعلم كيفية اختيار الرموز الأكثر أهمية.
بتعبير أدق
وبالنظر إلى بعض التضمينات التي تم الحصول عليها من طبقة خطية بسيطة، فإن المهمة هي إعادة أعلى درجات التضمين. أولاً، يتم تبديل التسلسل ويتم تحضير الأزواج بحيث يتم أخذ متجه التسجيل الأعلى مع متجه التسجيل السفلي.
بعد ذلك، يتم حساب الأوزان باستخدام softmax المعزز على الدرجات.
بعد كل جولة من جولات البطولة، تتكون المتجهات والدرجات الجديدة كمزيج خطي من تلك الأزواج مع الأوزان التي تم الحصول عليها.
باختصار، نجمعهما خطيًا عن طريق إجراء softmax على درجاتهم.
وبينما يجمع بين اثنين من الرموز المميزة، يمكن إنتاج بعض الضوضاء.
لكنه يسمح أيضًا بنشر التدرجات في جميع عمليات تضمين الإدخال.
باختصار، تعتمد قمة k القابلة للتدريب التي نقترحها على أداء بطولة مثل الاختيار الناعم في كل خطوة.
ومن منظور مختلف، يتبع تجميع التمثيل طبقة التشفير.
أولاً، يتم تسجيل كل تمثيل ثم يتم تمرير فقط أولئك الذين حصلوا على أعلى الدرجات إلى الطبقة التالية.
يمكن إجراء الترميز كما هو الحال في بنية المحولات القياسية على إدخال الطول الكامل.
ومع ذلك، من الممكن معالجة النص في كتل ذات طول ثابت بطول ثابت واختيار أفضل تمثيل عالميًا.
فيما يلي مثال على تجميع التمثيل الذي تم تقديمه بعد أداة التشفير.
أثر هذا بشكل مباشر على سبب الانتباه المتقاطع، والذي لا يعتمد على طول الإدخال N، ولكن على ثابت K، الذي يمثل الطول المجمع.
يُعلم هذا الثابت بعدد التمثيلات التي يتم اختيارها وتمريرها إلى وحدة فك التشفير.
إنتاج ملخص من نص أقصر هو أرخص بكثير من الحل السابق.
حيث يمكن تقصير طول التسلسل بعامل كبير.
على سبيل المثال، استخدمنا بنجاح k من ستة عشر أو حتى ستين مرة أربعة أو حتى أربعة وستين مرة أصغر من قيمة n في تجاربنا.
يرجى ملاحظة أن التأثير المفيد لترميز blockwise والاهتمام الذاتي مستمر.
تذكر أن التكلفة الحسابية للانتباه تعتمد على مربع طول الإدخال.
يمكن أن يؤدي تقليل المدخلات في وقت مبكر أثناء عملية الترميز إلى خفض التكاليف بشكل كبير.
بالنسبة لنموذج الهرم، قمنا بتضييق حجم التمثيل على خرج كل طبقة من الطبقات المختارة، مما أدى إلى انخفاض كبير في التكلفة الحسابية مع استمرار الترميز.
كما ترون، فإن التكلفة الحسابية الإجمالية لجهاز التشفير الكامل هنا أقل من ضعف تكلفة الطبقة الأولى كاملة الحجم.
عندما يتم إدخال التجميع في وقت سابق، فإن مجموع جميع المربعات الأرجوانية يكون محددًا بثابت، لا يعتمد على عدد الطبقات l.
ولكن على c الثابت، والذي يمكن أن يتأثر بوضع طبقات التجميع داخل الشبكة.
تم قياس تحسيناتنا على ثمانية آلاف رمز للمدخلات الطويلة.
ويوضح الشكل أنه عند المشاركة في التجميع، يتم تحقيق أفضل قابلية للتطوير لعمق الشبكة.
هنا يمكن للمرء أن يلاحظ أن تدريب هرم أربع وعشرين طبقة يمكن أن يكون أرخص من تدريب محول الفانيليا من طبقتين على مثل هذه المدخلات الطويلة.
ناهيك عن مدى سهولة خروج محول الفانيليا من الذاكرة لمثل هذا الإدخال الطويل.
يتم إجراء المقارنة النوعية النوعية النوعية لهرم الاتجاه الخاص بنا إلى خط الأساس الآخر في مهمة تلخيص المستند الطويل، أو بالنظر إلى نص مقالة من arXiv أو PubMed، فإن المهمة هي إنشاء ملخصها.
وهكذا، يمكن للمرء أن يرى blockwise، وهو خط الأساس لدينا، يعمل على مستوى re، أحدث النماذج الحديثة، في حين أن الهرم يحتفظ أو يحسن أداء خط الأساس التنافسي هذا.
في الوقت نفسه، يكون نموذجنا أسرع بنسبة ثمانين بالمائة في التدريب وأكثر من أربعمائة وخمسين بالمائة في الاستدلال عند مقارنته بخط الأساس البلوكويز.
يحتوي كلا النموذجين على عدد أقل بكثير من المعلمات وتم تدريبهما من الصفر على المهام المختارة.
كان على الأساليب السابقة لتحقيق أداء مماثل استخدام المزيد من المعلمات والاستفادة من النماذج الأساسية المدربة مسبقًا وهدف التدريب اللغوي الإضافي لتحقيق أداء مماثل.
ندعوك لقراءة ورقتنا الكاملة واستخدام رمز GitHub الخاص بنا.
شكراً على المشاهدة
مرحبا، هذا هو جياوي تشو من جامعة هارفارد.
يسعدني جدًا أن أقدم عملنا حول التحليل الدلالي عبر الإنترنت للحد من الكمون في الحوار الموجه نحو المهام.
هذا عمل مشترك مع جيسون ومايكل وأنتوني وسام من شركة مايكروسوفت سيمانتيك ماشينز.
في الحوار الموجه نحو المهام، يتفاعل المستخدم مع النظام الذي يتعامل مع الطلبات من كلمات المستخدم عادة في التحدث.
من نهاية كلام المستخدم إلى استجابة النظام، غالبًا ما يكون هناك تأخير ملحوظ.
تحت غطاء محرك السيارة، يتم ترجمة نطق المستخدم إلى برنامج قابل للتنفيذ.
التي يتم تنفيذها بعد ذلك حتى يتمكن النظام من الاستجابة بشكل صحيح.
لأن البرنامج يتم تمثيله كرسم بياني دلالي يحدد الحساب، حيث تمثل العقدة استدعاء الدالة وأطفالها هم الحجج.
العقد الكبيرة علامة العمليات الفورية، ولكن الآخرين بطيئة في التنفيذ.
المثال البسيط هنا الذي نعرضه، يمكن أن تكون هذه البرامج في كثير من الأحيان رسومات بيانية أكثر تعقيدًا خارج هياكل الشجرة.
في هذا الحديث، نطرح السؤال، هل يمكننا البدء في إنشاء البرنامج وتنفيذه قبل أن ينهي المستخدم الكلام حتى يتمكن النظام من تحقيق استجابة أسرع ؟
هذه هي مشكلة التنبؤ والقرار عبر الإنترنت.
هناك الكثير من الآخرين في هذا المجال.
ومن الأمثلة على ذلك الترجمة الفورية حيث يقوم مترجم فوري مباشر بترجمة لغة إلى أخرى في الوقت الفعلي، والإكمال التلقائي للنص الذكي لتخمين نية المستخدم، ومجموعة أوبر حيث يتم إرسال السائقين إلى المكان الذي قد تكون هناك حاجة إليه بناءً على الطلب المتوقع.
كل هذه السيناريوهات لديها شيء واحد مشترك.
أي أنه من المفيد اتخاذ القرارات قبل رؤية كل المدخلات.
في حالتنا، سنتعامل مع التحليل الدلالي عبر الإنترنت، والذي من المتوقع أن يكون تحديًا حيث يتعين علينا تخمين ما قد يقوله المستخدم.
كما أنها غير مستكشفة بشكل كافٍ مع عدم وجود مقياس تقييم رسمي.
أولا، دعونا نلقي نظرة على كيفية عمل النظام العادي.
يتم تشغيله دون اتصال عن طريق تحليل البرنامج فقط في نهاية كلام المستخدم.
هنا، يتم التنبؤ بالرسم البياني للحرف بعد رؤية جميع المعلومات.
في المقابل، نقترح نظامًا عبر الإنترنت يقارن في كل بادئة نطق.
على سبيل المثال، في كل مرة نرى فيها رمزًا مميزًا جديدًا، نتوقع رسمًا بيانيًا جديدًا.
لاحظ أنه يمكن أن يكون هناك أخطاء.
في موقف في حزب بركة مع باراك أوباما، حصلنا على الرسم البياني مع العقد الصحيحة على الشخص وموضوع الحدث، ولكن تخمين معلومات توقيت خاطئة.
تستمر هذه العملية حتى نتلقى كلام المستخدم الكامل.
كيف سيؤثر ذلك على الجدول الزمني للتنفيذ في النظام غير المتصل بالإنترنت ؟
سنحصل على الرسم البياني للبرنامج في النهاية حتى يتمكن النظام من بدء التنفيذ في هذه المرحلة.
تذكر أن العقد العظيمة هي عمليات سريعة، لذلك نحن نعتبر فقط الجدول الزمني لتنفيذ الوظائف البطيئة الملونة.
أولاً، يمكن تنفيذ هاتين الوظيفتين بالتوازي، وتمييزهما باللون الأبيض من المربع الوردي حيث لا يعتمدان على وظائف أخرى.
بعد ذلك، يمكن بعد ذلك تنفيذ حدث إنشاء العقدة بعد الحصول على نتائج من العقد ذات المستوى الأدنى ثم إنتاج الوظيفة العليا بحيث يتم الانتهاء من البرنامج بأكمله.
عملية التنفيذ صارمة، تقتصر على هيكل تبعية البرنامج حيث لا يمكن موازاة بعض العمليات مما يؤدي إلى تأخير ملحوظ.
في نظامنا على الانترنت، حيث نتوقع ونحن نذهب، وتنفيذ البرنامج يمكن أن تبدأ في وقت سابق.
هنا، في البادئة بعد أوباما، نتوقع بثقة أن وظيفة العثور على الشخص يجب أن تكون في البرنامج، ولكن الباقي قد يحتوي على أخطاء لأنها رمادية.
يمكن بدء تنفيذ العقدة على الفور كخطوة.
ثم، مع المزيد من الرموز المميزة، نتوقع رسمًا بيانيًا جديدًا تمامًا، ولكن تم تنفيذ جزء منه بالفعل.
لذلك، نحتاج فقط إلى النظر في بقية العقد التي نثق بها أيضًا.
هنا، يمكن إعدام شخص آخر بالتوازي.
مرة أخرى، قد يكون لدينا تنبؤات خاطئة.
مع المزيد من النص، لدينا المزيد من القدرة على جعلها صحيحة.
مثل وقت الحدث هنا حيث من المتوقع أيضًا أن يكون AM صحيحًا.
بعد ذلك، يمكننا البدء في تنفيذ الباقي باتباع هيكل تبعية البرنامج.
من خلال تداخل الجدول الزمني للتنفيذ مع الجدول الزمني للكلام، فإننا نوفر قدرًا كبيرًا من الوقت.
لذلك اقترحنا مهمة التحليل الدلالي عبر الإنترنت.
أحد الافتراضات الأساسية هو أن وقت التنفيذ يهيمن على وقت التنبؤ بالنموذج.
لذلك يمكننا فقط كسب الوقت من خلال التنبؤ في وقت سابق.
افتراض آخر هو أنه عندما يحدث التنبؤ والتنفيذ في الخلفية، فإنه غير مرئي للمستخدمين.
ليس من الضروري الحفاظ على تاريخ تحليل ثابت.
لذلك، نحن نعيد من الصفر بعد كل رمز.
وعلى وجه الخصوص، نقترح نهجا من خطوتين.
خطوة مقترحة تتنبأ برسم بياني بهيكل كامل وخطوة اختيار تحدد العقد التي تستحق التنفيذ في هذا الوقت.
كان لدينا نوعان مختلفان من الطريقة المقترحة.
النهج الأول يجمع بين إكمال نموذج اللغة مع الكلام الكامل لتحليل الرسم البياني.
على وجه الخصوص، يتم الانتهاء من البادئة بعد أوباما لأول مرة من خلال نموذج لغة بارت موالفة ومن ثم ترجمتها إلى برنامج مع محلل كامل حاليا.
يتنبأ النهج الثاني مباشرة بالبرنامج من بادئات نطق المستخدم.
ويتحقق ذلك من خلال تدريب محلل واحد على الانترنت لترجمة إلى الرسم البياني الهدف من كل بادئة.
هذا يسهل النموذج لتعلم التوقع الصحيح.
بمزيد من التفصيل، كيف نولد هذه الرسوم البيانية ؟
نقوم بصياغة المشكلة عن طريق إنشاء نسخة متسلسلة من الرسم البياني.
يتم تمثيل كل عقدة أو حافة من خلال إجراء.
هنا، نبدأ من العقدة الأولى.
يسجل الرقم أدناه المؤشر المطلق في سجل الإجراءات.
ثم، حصلنا على العقدة الثانية.
بعد ذلك، الحافة بينهما.
أنه يحتوي على مؤشر إلى فهرس العقدة السابقة والتسمية الحافة.
الصفر هنا يعني توصيل العقدة الأحدث بالعقدة التي تم إنشاؤها بواسطة إجراء zeroth والحافة التالية للعقدة.
تستمر هذه العملية حتى ننتج الرسم البياني الكامل.
يعتمد النموذج الأساسي على محول مع آلية توجيه ذاتي مماثلة لمحلل انتقالي سابق.
بعد إنشاء رسم بياني كامل، حصلنا على احتمالات مستوى العمل التي تتوافق مع أجزاء مختلفة من الرسم البياني.
نختار الرسوم البيانية الفرعية للثقة بناءً على العتبة الإرشادية التي سيتم تنفيذها.
في وقت لاحق، سنقوم بتغيير العتبة لتحقيق مقايضات مختلفة بين تخفيض الكمون وتكلفة التنفيذ.
للتقييم الرسمي للطرق عبر الإنترنت، نقترح الحد من الكمون النهائي أو مقياس FLR.
فيما يلي ملخص لكيفية إنهاء نظام غير متصل للجدول الزمني للتنفيذ.
في الأنظمة عبر الإنترنت، يتداخل التنفيذ مع الجدول الزمني للكلام، لذلك ينتهي في وقت سابق.
يتم تعريف FLR على أنه وقت التخفيض مقارنة بالنظام غير المتصل بالإنترنت، ويتم تمييزه بنهاية التنفيذ.
نقوم بإجراء تجارب على مجموعتين كبيرتين من بيانات التحليل الدلالي للمحادثة، SMCalFlow و TreeDST.
لدينا محلل الرسم البياني القائم عند التشغيل حاليا، ويحقق للدولة من بين الفن الأداء على تحليل على كل من مجموعات البيانات.
يحقق نموذج LM الكامل أيضًا مكاسب BLEU غير تافهة مقارنةً بخط الأساس البسيط لإكمال العقدة.
الآن، دعونا ننظر إلى دقة التنبؤ لدينا بادئة لمحلل الرسم البياني.
نختبر درجة F1 المطابقة لمجموعات الرسوم البيانية بين الجيل والرسم البياني go في بيانات التحقق من الصحة في المحور y لكل طول بادئة في المحور x ممثلة بالنسب المئوية.
يمثل كل من هذه المنحنيات نموذجًا مختلفًا مع الاختلاف الوحيد في بيانات التدريب.
المنحنى السفلي هو محلل غير متصل بالإنترنت، ونحن نخلط بيانات البادئة بأطوال مختلفة لنقل النموذج إلى محلل عبر الإنترنت.
على سبيل المثال، تعني بادئة وسيلة الإيضاح 80 بالمائة زائد أنه تم تدريب النموذج على بيانات البادئة بطول بادئة أكبر من ثمانين بالمائة من طول الكلام الكامل.
الزاوية العلوية اليسرى هي المنطقة المرغوبة.
كما نرى، فإن المحلل غير المتصل بالإنترنت في المنحنى الأسود لا يعمل بشكل جيد على بيانات البادئة.
نظرًا لأننا نخلط المزيد من البادئات في التدريب، فإن المنحنى يرفع العلوي واليسار، ويؤدي أداءً أفضل على جميع أطوال البادئات.
ومع ذلك، لا يتأثر أداء تحليل الكلام الكامل في النقطة اليمنى العليا.
بناءً على هذه النتائج القوية، ما مقدار الكمون الذي نخفضه ؟
نحن نقيس الوقت من خلال عدد الرموز المصدر ونحاكي أوقات تنفيذ الوظائف المختلفة.
توضح المنحنيات المفاضلة بين مقياس FLR وتكلفة التنفيذ، المقاسة بعدد تكاليف الوظيفة الزائدة غير الصحيحة.
ويتحقق ذلك عن طريق تغيير عتبة اختيار الرسم البياني الفرعي.
عتبة أعلى يختار عدد أقل من وظائف الخطأ، ولكن يحصل على أصغر فلر، في حين أن عتبة أقل يختار بقوة وتنفيذ البرامج.
نقارن بين النهجين اللذين نقترحهما وخط الأساس الذي لا يفعل شيئًا سوى تطبيق المحلل غير المتصل بالإنترنت مباشرةً للاستخدام عبر الإنترنت.
المنطقة اليسرى العليا لديها أفضل FLR وتكلفة المفاضلة.
نرى كل من أساليبنا تغلب على خط الأساس بهامش كبير، وأنها تؤدي بشكل أكثر مماثلة على تريست.
في حين أن تنفيذ الوظيفة الفردية أسرع، إلا أنه يميل إلى أن يكون هناك المزيد من عمليات التنفيذ قيد التشغيل وغرفة تقليل الكمون المنخفضة.
عندما يكون تنفيذ الوظيفة الفردية أبطأ، يكون هناك مجال أكبر لتحسين FLR.
يحقق نهجانا أداءً أفضل في مناطق التكلفة المختلفة.
بشكل عام، نحقق تخفيضًا نسبيًا بنسبة تتراوح من ثلاثين إلى ثلاثة وستين بالمائة اعتمادًا على وقت التنفيذ والتكلفة المسموح بها.
أخيرًا، لدينا تفصيل لمتوسط تقليل وقت الاستجابة في الرموز المميزة لكل نوع من أنواع عقدة الدالة عندما تكون التكلفة المسموح بها ثلاث عمليات إعدام.
كما نرى، هناك مكاسب في جميع أنحاء المجلس.
هناك أيضًا بعض الوظائف التي نحصل عليها لتقليل زمن الوصول المثير للإعجاب حيث يكون الشريط الأحمر أطول بكثير، مثل العثور على المدير والمستلم.
هذه وظائف منخفضة المستوى لا تعتمد كثيرًا على الآخرين.
في الختام، اقترحنا التحليل الدلالي عبر الإنترنت كمهمة جديدة لاستكشافها باستخدام مقياس الحد من الكمون الصارم.
باستخدام محلل دلالي قوي قائم على الرسم البياني، نحقق تخفيضًا جيدًا نسبيًا في زمن الاستجابة إما من خلال نهج خط الأنابيب الخاص بنا مع إكمال LM ومحلل كامل أو مباشرة من خلال محلل متعلم على البادئات.
علاوة على ذلك، يمكن أن يكون نهجنا إطارًا عامًا ويمكن تطبيقه على تمثيلات دلالية أخرى قابلة للتنفيذ في مجالات مختلفة.
يمكن أن تستكشف الأعمال المستقبلية طريقة تكامل أكثر ذكاءً للتنبؤ والتنفيذ.
شكراً لإصغائكم
-مرحباً. -مرحباً
أنا ذاهب لمناقشة عملنا على توليد الاسترجاع المعزز المضاد لمهام الإجابة على الأسئلة.
هذا هو العمل المنجز خلال فترة تدريبي في Google Research، حيث تم إرشادي من قبل ماثيو لام وإيان تيني.
لتحفيز المهمة، اسمحوا لي أن أبدأ بتعريف واقع معاكس.
في هذا العمل، نعرّف الواقع المضاد على أنه اضطراب في نص الإدخال الذي يختلف بطريقة ما ذات معنى عن النص الأصلي.
ويسمح لنا بالتفكير في التغييرات في النتيجة أو تسمية المهمة.
على سبيل المثال، تغيير الكلمات رائعة لآسر أو من المتوقع أن العقل مخدر يغير المشاعر لهذا الاستعراض الفيلم.
وبالمثل، فإن إضافة النساء المؤهلات إلى السؤال يغير الإجابة على السؤال في المثال أدناه.
عادة ما يكون البشر أقوياء لمثل هذه الاضطرابات مقارنة بنماذج البرمجة اللغوية العصبية المدربة على المهمة.
لماذا ؟
يمكن أخذ عينات من مجموعة البيانات مع التحيزات المنهجية التي تؤدي إلى حدود قرار بسيطة يتم انتهاكها من قبل الواقع المضاد.
كما هو موضح في مشكلة التصنيف ثنائي الأبعاد هذه.
لقد وجد عملي أن إضافة أمثلة غير واقعية إلى بيانات التدريب يمكن أن يجعل النموذج قويًا لمثل هذه الاضطرابات.
لذا، إذا كانت الحقائق المضادة ذات قيمة، فكيف يمكننا توليدها ؟
هذه المهمة صعبة بشكل خاص على البرمجة اللغوية العصبية لأن هنا ثلاثة أمثلة من ثلاث مهام مختلفة للبرمجة اللغوية العصبية.
كما ترون، يجب صياغة الأمثلة التي تنتهك حدود القرار بين النتائج بعناية فائقة عن طريق إزعاج بعض سمات النص التي يتم التأكيد عليها هنا.
يمكن القيام بذلك عن طريق التعليق التوضيحي البشري، لكن هذا مكلف ومتحيز.
ركزت بعض الأعمال السابقة على استخدام أشجار بناء الجملة أو تصنيف الأدوار الدلالية.
لكن مجموعة الاضطرابات الناتجة عن هذه التقنيات محدودة بالإطار الدلالي.
استخدمت الأعمال الحديثة نماذج لغة مقنعة لملء أجزاء مقنعة من النص لتغيير التسميات.
لكن العثور على أجزاء النص التي تزعجها يمكن أن يكون تحديًا.
هناك المزيد من التحديات لتوليد حقائق مضادة للإجابة على الأسئلة على وجه التحديد.
تتطلب هذه المهمة معرفة أساسية.
على سبيل المثال، لإزعاج السؤال الأصلي هو إنديانا جونز معبد الموت بادرة ؟
يجب أن نكون على دراية بالأفلام الأخرى في السلسلة للوصول إلى سؤال مثل هل Indiana Jones Raiders of the Lost Ark مقدمة ؟
علاوة على ذلك، يمكن أن تؤدي الاضطرابات العشوائية إلى أسئلة لا يمكن الإجابة عليها بالأدلة المتاحة أو تحتوي على افتراضات خاطئة.
علاوة على ذلك، يمكن أن تؤدي بعض اضطرابات الأسئلة إلى انحراف دلالي كبير عن المدخلات الأصلية.
على سبيل المثال، هل تمارس إنديانا جونز عبودية الأطفال في معبد الموت ؟
نقترح تقنية بسيطة للغاية ولكنها فعالة تسمى استرداد مرشح التوليد أو RGF، لمعالجة الاضطرابات المضادة للأسئلة، وتهدف أيضًا إلى معالجة جميع التحديات الأخرى المذكورة أعلاه.
الحدس الأساسي وراء RGF هو أن المعلومات الأساسية اللازمة لتوليد الاضطرابات قد تكون موجودة في الأخطاء الوشيكة التي أدلى بها نموذج الإجابة على الأسئلة.
على سبيل المثال، ينتج عالم الطراز الحديث الإجابات التالية على السؤال من هو قائد نادي ريتشموند لكرة القدم ؟
في حين أنه يستعيد المقطع المرجعي الأصلي والإجابة على ترينت كوتشين كأفضل خيار.
كما أنه يسترجع مقاطع وإجابات إضافية يمكن استخدامها لتوجيه اضطراب السؤال.
على سبيل المثال، يستعيد إجابتين أخريين تتوافقان مع قادة الفريق الاحتياطي والفريق النسائي في نفس النادي، وهذا يمكن أن يؤدي إلى تعديلات مثيرة للاهتمام.
للتلخيص، يسترد RGF أولاً أهم الإجابات والسياقات ذات الصلة التي لا تتطابق مع الإجابة المرجعية في السياق.
بعد هذه الخطوة، يفرض نموذج توليد الأسئلة شروطًا على هذه الإجابات البديلة لتوليد سؤال يتوافق معها.
وأخيرًا، يمكننا تصفية الأسئلة التي تم إنشاؤها استنادًا إلى الحد الأدنى أو استنادًا إلى نوع الاضطراب الدلالي الذي نهتم بإدخاله.
بالانتقال إلى كل خطوة بمزيد من التفصيل لاسترجاعها، نستخدم استردادًا ثم قراءة نموذج مثل المجال الذي يأخذ كمدخل للسؤال الأصلي، ومجموعة كبيرة مثل ويكيبيديا.
وهو يتألف من وحدتين.
تقوم الوحدة النمطية المستردة بالبحث عن التشابه عبر فهرس كثيف للممرات لاسترداد المقاطع الأكثر صلة بالسؤال.
ثم تقوم وحدة القارئ باستخراج امتداد من كل مقطع كإجابة محتملة.
عالم يسترد مرور الذهب والإجابة في معظم الحالات.
ومع ذلك، في هذا العمل، نحن مهتمون أكثر بالإجابات والسياق الذي يسترده بشكل أكبر.
في الخطوة التالية، توليد الأسئلة، نستخدم هذه الإجابات والسياقات البديلة لتجديد الأسئلة الجديدة التي تتوافق مع هذه البدائل.
نموذج إنشاء الأسئلة هو محول نص إلى نص مدرب مسبقًا يتم ضبطه بدقة على بيانات NQ لتوليد سؤال لإجابة محددة في السياق.
أثناء الاستدلال، نوفر نموذج توليد الأسئلة، والإجابة البديلة والسياق الذي استرجعناه في الخطوة السابقة.
على سبيل المثال، بالنسبة للسؤال من هو قائد نادي ريتشموند لكرة القدم ؟ يسترجع REALM مقاطع حول فريق النادي للسيدات، بقيادة جيس كينيدي، ونموذج جيل الأسئلة يولد السؤال الذي قاد أول فريق للسيدات في نادي ريتشموند لكرة القدم ؟
الذي لديه اضطراب دلالي معين.
بطريقة مماثلة، نحصل أيضًا على استفسارات مثل من قاد فريق ريتشموند للاحتياطي ؟
أو من الذي نفاه غراهام في النهائي الكبير العام الماضي ؟
أخيرًا، نقوم بتصفية مجموعة فرعية من الاستعلامات التي تم إنشاؤها استنادًا إلى بعض الخصائص المطلوبة.
وكما كان الدافع في وقت سابق، نود أن نضمن أن المسألة الجديدة لا تزال قريبة من الأصل من الناحية الدلالية.
بالنسبة لتقنيات التصفية التي لا تتطلب إشرافًا إضافيًا، فإننا نحتفظ ببساطة بأسئلة جديدة تحتوي على مسافة تحرير رمزية صغيرة من السؤال الأصلي.
على سبيل المثال، نحذف السؤال الذي ألغاه غراهام في النهائي الكبير العام الماضي ؟
لأنه يحتوي على مسافة تحرير أطول من السؤال الأصلي.
في تجاربنا، نثبت أن هذا الاستدلال البسيط يمكن استخدامه لزيادة بيانات التدريب وقائمة الانتظار.
نقوم أيضًا بتجربة استراتيجية تصفية تستند إلى نوع الاضطراب الدلالي.
ولتحقيق هذه الغاية، نستخدم إطار تحلل استعلام للأغراض العامة يسمى QED.
يحدد QED جزأين للسؤال، مسند ومرجع.
المراجع هي عبارات اسمية في السؤال تتوافق مع الكيانات في السياق.
المسند هو في الأساس الجزء المتبقي من السؤال.
على سبيل المثال، نحن قادرون على تحليل السؤال الذي قاد فريق ريتشموند الأول للسيدات إلى مرجعين: فريق ريتشموند لكرة القدم للسيدات والمسند الذي قاد X.
نموذج تدرب على التعليقات التوضيحية المرجعية المرجعية لـ NQ يعطينا هذا التحلل السؤال.
يتيح لنا تحليل كل من السؤال الأصلي والسؤال الذي تم إنشاؤه استنادًا إلى QED تصنيف الحقائق المضادة التي تم إنشاؤها للتقييم.
على وجه التحديد، نحصل على مجموعتين من الأسئلة.
تلك التي تخضع لتغيير مرجعي مع الاحتفاظ بالمسندات، وتلك التي تخضع لتغيير متوقع وتضيف مراجع اختيارية.
على سبيل المثال، من الذي قاد فريق ريتشموند الاحتياطي VFL هو تغيير مرجعي ؟
بينما، الذي يرتدي رقم تسعة للنادي هو تغيير جذري.
نقوم الآن بتقييم فعالية اضطرابات RGF عند زيادتها إلى بيانات التدريب.
لذلك، لتقييم فعالية التعزيز المضاد بشكل فعال على وجه الخصوص، نقوم بتجربة خطي أساس قويين لزيادة البيانات.
يضيف خط الأساس الأول، المسمى بالإجابة العشوائية وتوليد الأسئلة، بيانات لا علاقة لها بالسؤال الأصلي.
أي أن المقاطع والإجابات يتم أخذ عينات منها عشوائيًا من ويكيبيديا.
يضيف خط الأساس هذا بشكل أساسي المزيد من البيانات التي تبدو مثل NQ.
مع الإجابة الذهبية الأساسية الثانية وتوليد الأسئلة، نقوم على وجه التحديد بتحديث جزء الاسترجاع من طريقتنا.
هنا، يتم اختيار الإجابات البديلة فقط من نفس المقطع الذي يحتوي على الإجابة الذهبية.
كيف تستند خطوط الأساس وزيادة RGF آه أداء على فهم القراءة حيث يمكن للنموذج الوصول إلى السؤال والسياق ؟
نقوم بتجربة ستة مجموعات بيانات خارج النطاق ونقدم النتائج هنا، حيث تكون البيانات هي مضاعفة بيانات التدريب في التعزيز.
نجد أن كلا خطي الأساس لزيادة البيانات غير قادرين على تحسين تعميم نطاقنا.
في الواقع، يبدو أن مجموعة من ستة نماذج مدربة على البيانات الأصلية هي خط الأساس الأكثر تنافسية.
بالمقارنة مع خط الأساس هذا، نجد أن الحقائق المضادة لـ RGF قادرة على تحسين أداء المجال مع الحفاظ على أداء المجال.
وهذا يشير إلى أن سد الثغرات المنطقية للنموذج عن طريق زيادة غير واقعية هو أكثر فعالية من إضافة المزيد من البيانات من توزيع التدريب.
علاوة على ذلك، نجد أن استخدام الاسترجاع لأخذ عينات من النتائج أو الإجابات البديلة أمر مهم لفعالية CDA.
نقوم أيضًا بتجربة إعداد ضمان الجودة للمجال المفتوح حيث يرى النموذج السؤال فقط ونقوم مرة أخرى بتقييم أربع مجموعات بيانات خارج النطاق.
نجد أن النماذج الأساسية ليست فعالة للتعميم خارج النطاق.
ومع ذلك، فإن زيادة البيانات مع RGF تظهر تحسينات أكثر أهمية.
حتى أننا نتحسن في مجموعة بيانات NQ في المجال.
افترضنا أن تكبير البيانات المضاد يساعد النموذج في تعلم ترميزات استعلام أفضل لاستعلامات مشابهة جدًا.
وأخيرًا، نقوم أيضًا بتقييم قدرة النموذج على تحسين الاتساق في الحي المحلي للسؤال الأصلي.
يقيس الاتساق نسبة الأسئلة التي تمت الإجابة عليها بشكل صحيح بواسطة النموذج حيث تتم الإجابة على كل من الاستعلام الأصلي والاستعلام المضاد بشكل صحيح.
هذا يساعدنا صراحة على قياس قوة النموذج للاضطرابات الصغيرة في حي المدخلات الأصلية.
نقوم بتجربة خمس مجموعات بيانات تحتوي على أزواج من الأسئلة القريبة من بعضها البعض.
بصرف النظر عن مجموعات البيانات الثلاث AQA و AmbigQA و QUOREF - مجموعة التباين المتوفرة بالفعل، فإننا نقوم أيضًا بتقييم الحقائق المضادة لـ RGF المقترنة بأسئلة NQ الأصلية بناءً على ما إذا كانت قد خضعت لتغيير متوقع أو تغيير مرجعي.
تم شرح هذه المجموعات الفرعية داخليًا للقضاء على الضوضاء ويتم توفيرها كمورد.
جميع خطوط الأساس غير قادرة على تحسين الاتساق بشكل كبير مع نموذج المجموعة الذي يحسن الاتساق بهامش صغير.
ومع ذلك، فإن زيادة RGF المضادة لها مكاسب مثيرة للإعجاب في الاتساق على كل من مجموعات البيانات السابقة والمجموعتين الفرعيتين اللتين قمنا بتنظيمهما للرجوع إليها والاضطرابات الأصلية.
لاحظ أن بيانات RGF المعززة ليست متحيزة حسب نوع الاضطراب، فقط مجموعات التقييم هي.
في الواقع، يُظهر الفحص النوعي لأنواع الحقائق المضادة التي تم إنشاؤها أن الأسئلة التي تم إنشاؤها تحتوي على العديد من الاضطرابات المتنوعة.
على سبيل المثال، هذا السؤال الأصلي حول عدد سكان Walnut Grove، Minnesota مضطرب على طول أبعاد مختلفة مثل المدينة والولاية والبلد، وعلى طول مسارات مختلفة مثل الموقع والفقر وعدد المدارس.
صوت الاضطرابات محدد السياق.
على سبيل المثال، بالنسبة لهذا السؤال الآخر حول بطولة ويمبلدون للفرد، فإن الاضطراب يكون على طول نوع اللعبة أو نوع البطولة أو نتيجة اللعبة.
الوجبات الجاهزة النهائية ؛ نتناول مهمة زيادة البيانات غير الواقعية واضطرابات استعلامات البحث عن المعلومات ومعالجة تحدياتها الفريدة من خلال عكس نهج التوليد، والإفراط في التوليد باستخدام الأخطاء الوشيكة للنموذج والفلتر بناءً على نوع الاضطراب أو الحد الأدنى.
نجد أن هذه التقنية لا تتطلب إشرافًا إضافيًا وأن الأمثلة مصنفة للتكبير.
يتحسن التكبير من تعميم المجال واتساق الحي.
ونجد أن الحقائق المضادة لـ RGF متنوعة دلاليًا دون إدخال التحيز أثناء التكبير.
شكرًا لك.
