مرحبًا، أنا إيلينا وسأقدم عملنا المتمثل في كشف الاقتراضات غير المستوعبة في اللغة الإسبانية: مجموعة مشروحة ونهج النمذجة.
إذًا سنقوم بتغطية معنى الاقتراض المعجمي، والمهمة التي اقترحناها، ومجموعة البيانات التي أصدرناها وبعض النماذج التي استكشفناها.
ولكن في البداية، ما هو الاقتراض المعجمي وما أهميته باعتباره مهمة من مهام معالجة اللغة الطبيعية؟
حسنًا، الاقتراض المعجمي هو في الأساس إدخال كلمات من لغة إلى لغة أخرى.
على سبيل المثال، في اللغة الإسبانية نستخدم كلمات مستمدة من الإنجليزية.
وإليك بعض الأمثلة، الكلمات مثل podcast وapp وonline crowdfunding جميعها كلمات إنجليزية نستخدمها أحيانًا في اللغة الإسبانية.
الاقتراض المعجمي هو نوع من الاقتراض اللغوي الذي يستنسخ بشكل أساسي في لغة ما أنماط لغات أخرى.
وأحيانًا ما يتم مقارنة الاقتراض والتبديل اللغوي ووصفهما بأنها عبارة عن سلسلة متصلة، حيث إن التبديل اللغوي هو الأمر الذي يفعله ثنائيو اللغة حين يمزجون بين لغتين في نفس الوقت.
إلا أنه توجد بعض الاختلافات بين الاقتراض المعجمي والتبديل اللغوي.
وسنركز هنا على الاقتراض المعجمي.
التبديل اللغوي هو أمر يقوم به ثنائيو اللغة وبحكم التعريف لا يتم دمج التبديلات اللغوية في أي من اللغات المستخدمة، في حين أن الاقتراض المعجمي هو أمر يقوم به أحاديو اللغة أيضًا.
وستتوافق الاقتراضات مع قواعد اللغة المستقبلة.
ويمكن في نهاية المطاف دمج الاقتراضات في اللغة المستقبلة.
فلماذا يعد الاقتراض ظاهرة مثيرة للاهتمام؟
حسنًا، من وجهة نظر اللغويات، الاقتراض هو مظهر من مظاهر كيفية تغير اللغات وكيفية تفاعلها.
والاقتراضات المعجمية هي أيضًا مصدر كلمات جديدة.
وإليك بعض الأمثلة على الاقتراضات المعجمية التي تم دمجها في اللغة الإسبانية ككلمات جديدة.
من حيث معالجة اللغة الطبيعية تعد الاقتراضات مصدر شائع للكلمات غير المستمدة من المفردات.
وفي الواقع، أثبت الكشف التلقائي عن الاقتراضات المعجمية أنه مفيد ل مهام البيانات المنخفضة لمعالجة اللغة الطبيعية مثل التحليل أو تحويل النص إلى كلام أو الترجمة الآلية.
كان هناك اهتمام متزايد بتأثير الإنجليزية على اللغات الأخرى يتعلق بشكل خاص بالاقتراضات المعجمية الانجليزية، وهي الاقتراضات التي كانت تسمى أحيانًا الأنجليكية.
وإليك بعض الأمثلة على العمل على الكشف التلقائي عن الاقتراضات في بعض هذه اللغات.
إذًا المهمة التي نقترحها هي الكشف عن الاقتراضات المعجمية غير المستوعبة في اللغة الإسبانية الإخبارية.
مما يعني أننا مهتمون بـ استخراج كلمات مستعارة من لغات أخرى يتم استخدامها في الصحف الإسبانية ولكن لم يتم دمجها أو استيعابها في اللغة المستقبلة.
أي لم يتم دمجها في اللغة الإسبانية بعد.
إليك مثال على ذلك.
هذه جملة باللغة الإسبانية:Las prendas bestsellers se estampan con motivos florales, animal print o retales tipo patchwork.
وكما ترى، هناك ثلاثة امتدادات من النصوص هي في الواقع كلمات إنجليزية مثل bestseller وanimal print وpatchwork.
وهذه هي أنواع الامتدادات التي نهتم باستخراجها وكشفها.
كان هناك كلمة سابقة تخص الكشف عن الأنجليكية تكونت من نموذج CRF ل الكشف عن الأنجليكية في الإسبانية الإخبارية.
وقد حقق هذا النموذج درجة F1 من ستة وثمانين.
ولكن كانت هناك بعض القيود في مجموعة البيانات و نهج النمذجة على حد سواء.
لذلك ركزت مجموعة البيانات على مصدر واحد من الأخبار بصورة حصرية، وتألفت فقط من العناوين الرئيسية.
وكان هناك أيضًا تداخل في الاقتراضات التي تظهر في مجموعة التدريب ومجموعة الاختبار.
وقد حال ذلك دون تقييم ما إذا كان نهج النمذجة يمكن تعميمه على الاقتراضات غير المرئية من قبل.
ولذا فإن ما نهدف إليه هو معالجة بعض هذه القيود في المهمة.
لذلك في البداية، أنشأنا مجموعة بيانات جديدة.
وكان الهدف من مجموعة البيانات الجديدة المشروحة باستخدام اقتراضات معجمية هو إنشاء مجموعة اختبار صعبة قدر الإمكان.
بحيث يكون هناك أقل حد من التداخل في الكلمات والموضوعات بين مجموعة التدريب ومجموعة الاختبار.
ونتيجة لذلك، تأتي مجموعة الاختبار من مصادر وتواريخ لا نراها في مجموعة التدريب.
ويمكنك أن ترى أنه لا يوجد تداخل في الوقت.
كما أن مجموعة الاختبار كثيفة الاقتراضات للغاية.
لموافاتك ببعض الأرقام، إذا كانت مجموعة التدريب تحتوي على ستة اقتراضات لكل ألف رمز، فإن مجموعة الاختبار تحتوي على عشرين اقتراضًا لكل ألف رمز.
احتوت مجموعة الاختبار على أكبر عدد ممكن من الكلمات المستمدة من المفردات.
وفي الواقع، اثنان وتسعون في المئة من الاقتراضات في مجموعة الاختبار هي OOV.
وبالتالي، فهي لم تُرى خلال التدريب.
وتألفت المجموعة أساسا من مجموعة من النصوص التي جاءت من مصادر مختلفة من الصحف الإسبانية.
وقد تم شرحها يدويًا باستخدام علامتين.
واحدة ل الاقتراضات الإنجليزية المعجمية التي هي غالبية الاقتراضات المعجمية في اللغة الإسبانية، والعلامة الأخرى ل الاقتراضات من لغات أخرى.
نستخدم تنسيقات CONLL واستخدمنا ترميز BIO حتى نتمكن من ترميز الاقتراضات أحادية الرمز مثل app أو الاقتراضات متعددة الرموز مثل machine learning.
هذه هي أرقام المجموعة.
كما ترى، فإنها تصل إلى ما يقرب من ثلاثمائة وسبعين ألف رمز.
وهنا لديك عدد الامتدادات التي تم تصنيفها على أنها إنجليزية و الامتدادات التي تم تصنيفها على أنها اقتراضات أخرى وكم منها كانت فريدة من نوعها.
وإليك بعض الأمثلة على مجموعة مجموعة البيانات.
كما ترى هنا على سبيل المثال، لدينا في المثال الأول الاقتراض batch cooking وهو عبارة عن اقتراض متعدد الكلمات.
وقد شرحناه باستخدام تشفير BIO.
إذًا فقد تم استخدام BIO ل الكلمات باللغة الإسبانية وليس ل الكلمات غير المقترضة.
وهنا في هذا المثال الثاني، لديك benching وcrash والتي تم تصنيفها كذلك باعتبارها اقتراضات من الإنجليزية.
لذلك، بمجرد حصولنا على مجموعة البيانات، استكشفنا العديد من النماذج ل مهمة استخراج والكشف عن هذه الاقتراضات المعجمية.
وأول ما جربناه هو نموذج الحقل العشوائي المشروط.
وهذا هو النموذج الذي تم استخدامه في العمل السابق.
واستخدمنا نفس الميزات المستمدة من ذلك العمل.
فكما ترى، هذه هي الميزات.
هل هذه ميزات تصنيف ثنائي مثل الكلمة أو الرمز المكتوب بأحرف كبيرة؟
هل هي نسق عنوان؟
هل هي علامة اقتباس؟
أشياء من هذا القبيل، وهي نوع الميزات التي يتوقعها المرء في مهمة named entity recognition.
هذه هي النتائج التي حصلنا عليها.
نحصل على خمسة وخمسين درجة F1 باستخدام نموذج CRF مع ميزات يدوية.
وهو فرق كبير مقارنة بدرجة F1 المبلغ عنها البالغة ستة وثمانين، والتي كانت النتيجة التي تم الحصول عليها من خلال نفس نموذج CRF ونفس الميزات ولكن على مجموعة بيانات مختلفة أيضا ل الكشف عن الاقتراض المعجمي للغة الإسبانية.
لذلك، هذا يثبت أن مجموعة البيانات التي أنشأناها أكثر صعوبة وأننا بحاجة إلى استكشاف نماذج أكثر تطوراً ل هذه المهام.
لذلك، اختبرنا نموذجين يستندان إلى محول.
لقد استخدمنا BETO وهو نموذج بيرت أحادي اللغة تم تدريبه للغة الإسبانية وأيضًا بيرت متعدد اللغات.
ونستخدم كلا النموذجين من خلال مكتبة المحولات بواسطة HuggingFace.
هذه هي النتائج التي حصلنا عليها.
كما ترى، أداء بيرت متعدد اللغات أفضل من BETO في مجموعة التطوير وفي مجموعة الاختبار وعبر جميع المقاييس.
ولذلك لدينا فكرة للمقارنة، حصل نموذج CRF على اثنين وثمانين.
وحصل نموذج CRF على خمسة وخمسين درجة F1، في حين أن بيرت متعدد اللغات حصل على اثنين وثمانين، وهو فرق كبير.
لذلك، بمجرد أن حصلنا على هذه النتائج، سألنا أنفسنا سؤال آخر وهو، هل يمكننا العثور على نموذج BiLSTM-CRF، وتغذيته بأنواع مختلفة من التضمينات التي تشفر أنواع مختلفة من المعلومات اللغوية وتتسم بأداء يفوق النتائج التي تم الحصول عليها من النماذج القائمة على المحولات؟
ومن أجل القيام بذلك، أجرينا بعض التجارب الأولية، إذا قمنا بإدارة هذا الأمر بواسطة نموذج BiLSTM-CRF باستخدام مكتبة flare.
وأجرينا تجارب باستخدام أنواع مختلفة من التضمينات مثل التضمينات التي تستند إلى محول ولكنها تستند إلى النص السريع كذلك، والتي تستند إلى الحروف، وما إلى ذلك.
ما اكتشفناه هو أن التضميناتالتي تستند إلى محول أظهرت أداءً أفضل من التضمينات غير السياقية، وأن الجمع بين تضمينات بيرت الإنجليزية وBETO الإسبانية تتفوق على تضمينات بيرت متعدد اللغات.
وأن تضمينات BPE أنتجت F1 أفضل وتضمينات الحروف تنتج استدعاء أفضل.
ومع أخذ ذلك في الاعتبار، كانت هذه هي أفضل النتائج التي حصلنا عليها.
وكان كلا النموذجين من نماذج BiLSTM-CRF باستخدام flare.
تم تغذية أحدهما بـ تضمينات BETO وبيرت وBPE، وتم تغذية الآخر بـ تضمينات BETO وبيرت وBPE وبـ تضمينات الحروف كذلك.
وكان هذا الأخير هو الذي حقق أعلى درجة F1 في مجموعة الاختبار، على الرغم من أن أعلى درجة في مجموعة التطوير تم الحصول عليها من قبل النموذج الذي لا ينطوي على تضمينات حروف.
يجب أن نضع في اعتبارنا أن أفضل نتيجة حصلنا عليها مع بيرت متعدد اللغات كانت ستة وسبعين درجة F1 في مجموعة التطوير واثنين وثمانين في مجموعة الاختبار.
لذلك يعد هذا تحسنًا مقارنة بتلك النتائج.
أخيرًا، سألنا أنفسنا سؤالًا آخر وهو هل يمكن تأطير الكشف عن الاقتراض المعجمي على أنه نقل للتعلم من تحديد اللغة في التبديل اللغوي؟
لذلك، نقوم بإجرء نفس نموذج BiLSTM-CRF الذي أجريناه باستخدام flare، ولكن بدلاً من استخدام تضمينات BETO وبيرتغير المتكيفة التي تستند إلى محول، استخدمنا تضمينات التبديل اللغوي.
ما هي تضمينات التبديل اللغوي؟
حسنًا، هذه هي التضمينات التي تم ضبطها بدقة باعتبارها تضمينات مستندة إلى محول تم تدريبها مسبقًا ل تحديد اللغة في قسم الإنجليزية الإسبانية من مجموعة بيانات التبديل اللغوي LinCE.
LinCE هو عبارة عن مجموعة بيانات للتبديل اللغوي بها قسم عن التبديل اللغوي الإسباني الإنجليزي.
لذلك قمنا بتغذية BiLSTM-CRF بـ تضمينات التبديل اللغوي واختياريًا بـ تضمينات الحروف وتضمينات BPE وما إلى ذلك.
وكانت أفضل نتيجة حصلنا عليها هي أربعة وثمانين فاصلة اثنين وعشرين، وهي أعلى نتيجة في جميع النماذج التي جربناها في مجموعة الاختبار.
على الرغم من أن أفضل نتيجة F1 حصلنا عليها في مجموعة التطوير، والتي بلغت تسعة وسبعين، كانت أقل من أفضل نتيجة حصل عليها نموذج BiLSTM-CRF المغذى بـ التضمينات غير المتكيفة.
وإليك بعض الاستنتاجات من عملنا.
لقد أنتجنا مجموعة بيانات جديدة من الإسبانية الإخبارية المشروحة باقتراضات معجمية غير مستوعبة.
وتعد مجموعة البيانات هذه أكثر كثافة من حيث الاقتراض وغنية بـ OOV من الموارد السابقة.
لقد استكشفنا أربعة أنواع من النماذج للكشف عن الاقتراض المعجمي.
ممم. من حيث تحليل الخطأ؛ حسنًا، كان الاستدعاء نقطة ضعف لكل النماذج.
آه، كما ترى هنا، بعض السلبيات الكاذبة المتكررة تشمل الاقتراضات الكبيرة، الكلمات الموجودة في كل من الإنجليزية والإسبانية، على سبيل المثال.
ومن المثير للاهتمام أيضًا أن تضمينات BPE يبدو أنها تحسن نتيجة F1.
ويبدو أن تضمين الحروف يحسن الاستدعاء.
وهو اكتشاف مثير للاهتمام ربما يمكننا استكشافه في العمل المستقبلي.
ممم. حسنًا، هذا كل ما لدي.
شكراً جزيلًا على الإصغاء.
اسمى أنطوان.
أنا طالب دكتوراه في جامعة ماساتشوستس أمهرست.
أقدم ورقة KinyaBERT الخاصة بنا: نموذج اللغة الكينيرواندية الذي يراعي المورفولوجيا.
سأتحدث اليوم عن الدافع لهذا البحث.
ثم سأقدم أسلوب بناء نموذج KinyaBERT بالتفصيل.
وسأتحدث بعد ذلك عن نتائجنا التجريبية، ثم أنهي ببعض الاستنتاجات.
نعلم جميعًا أن تطورات معالجة اللغة الطبيعية الحديثة أصبحت ممكنة باستخدام نماذج لغة مدربة مسبقًا مثل بيرت.
ومع ذلك، لا يزال هناك عدد من القيود.
بسبب المورفولوجيا المعقدة التي تعبر عنها معظم اللغات الغنية بالمورفولوجيا، فإن خوارزمية ترميز byte pair encoding المنتشر التي استخدمتها لا يمكنها استخراج الوحدات المعجمية للكلمات الفرعية بالضبط، بمعنى المورفيمات، والتي هي بحاجة للتمثيل الفعال.
على سبيل المثال لدينا هنا ثلاث كلمات كينيرواندية تحتوي على العديد من المورفيمات، لكن خوارزميات BPE لا يمكنها استخراجها.
وذلك لأن بعض القواعد المورفولوجية تنتج أشكالًا سطحية مختلفة تخفي المعلومات المعجمية الدقيقة، و لا يمكن لـ BPE، الذي يعتمد على الأشكال السطحية فقط، الوصول إلى هذا النموذج المعجمي.
التحدي الثاني هو أنه حتى لو كان لدى المرء إمكانية الوصول إلى المحلل المورفولوجي لدى أوراكل، فإن استبدال رموز BPE بـ المورفيمات لا يكفي للتعبير عن نمذجة التركيبة المورفولوجية.
وتتمثل الفجوة الثالثة في البحث في أن نماذج اللغة المدربة مسبقًا الجديدة غالبًا ما يتم تقييمها على لغات عالية الموارد.
ونحن بحاجة إلى تقييم قابليتها للتطبيق على اللغات منخفضة الموارد والمتنوعة كذلك.
لذلك، نقدم KinyaBERT، وهو تكيف بسيط ولكنه فعال لبنية BERT التي تهدف إلى التعامل بشكل أكثر فعالية مع اللغات الغنية مورفولوجيًا.
نقوم بتقييم KinyaBERT على اللغة الكينيرواندية، وهي لغة منخفضة الموارد غنية مورفولوجيًا، ويتحدث بها أكثر من اثني عشر مليون شخص في جميع أنحاء شرق ووسط أفريقيا.
الإدخال في النموذج إما جملة أو مستند.
على سبيل المثال، لدينا هنا عبارة John twarahamubonye biradutangaza، والتي تعني أننا فوجئنا بالعثور على جون هناك.
كما ترون، تحتوي كلمات اللغة الكينيرواندية على العديد من المورفيمات التي تحتوي على معلومات مختلفة فيها.
لذلك، في نموذجنا، نمرر هذه الجملة أو المستند إلى محلل مورفولوجي.
والذي يقوم بعد ذلك بتوليد المورفيمات الموجودة في كل كلمة من الكلمات.
وعادة ما تكون المورفيمات مستمدة من الكلمة الجذعية ودون لواحق أو ببعض اللواحق.
قد تشير اللواحق إلى زمن، وجانب، وفاعل أو مفعول في الأفعال، وغالبًا ما تتعلق بفئة اسم البانتو للفاعل والمفعول.
ينتج morphological analyzer أيضًا جزءًا من علامة الكلام لكل من الكلمات.
بعد هذه الخطوة، نقوم بعمل تضمينات ل spee- لجزء من علامات الكلام.
التضمينات للّواحق.
والتضمينات للكلمة الجذعية.
هذا هو المستوى المورفولوجي، وهذه هي تضمينات المستوى المورفولوجي.
نمرر بعد ذلك هذه التضمينات من خلال مشفر مورفولوجيا، وهو مشفر محول صغير يتم تطبيقه على كل كلمة بشكل مستقل.
ويكون الإخراج عبارة عن متجهات سياقية مع المعلومات المورفولوجية الموجودة في كل كلمة.
والآن، نقوم بالتركيب حيث يتم تسلسل التضمينات المورفولوجية المطابقة لجزء من الكلام والكلمة الجذعية معًا.
كما نجمعهم مع تضمين آخر لكلمة جذعية على مستوى الجملة.
ثم نشكل إدخال إلى الجملة الرئيسية أو مشفر المستند.
ويكون الإخراج النهائي هو التضمينات السياقية التي يمكن استخدامها لمهام معالجة اللغة الطبيعية للبيانات المنخفضة.
بالنسبة إلى أي محلل مورفولوجي، نستخدم مبادئ مورفولوجيا ذات مستويين محدودين مع تنفيذ مخصص مصمم خصيصًا للّغة الكينيرواندية.
نقوم بنمذجة مورفولوجيا جميع الكلمات الكينيرواندية، بما في ذلك الشفهيات، والأسماء، والضمائر التوضيحية وضمائر الملكية، والأرقام، وغيرها.
نحن نستخدم جزءًا غير خاضع للإشراف من خوارزمية وضع علامات الكلام.
يتم استخدام نموذج عامل من الترتيب الأول لحساب احتمالية المورفولوجيا، وهي في الأساس الاحتمالية التي يتم تعيينها من قبل المحلل المورفولوجي.
ونأخذ في الاعتبار أيضًا جزء أسبقية علامة الكلام بالإضافة إلى الاتفاقيات النحوية الموجودة في كلمات الإدخال.
يستخدم جزء علامة الكلام استدلال ثنائي الاتجاه والذي يحسن من خوارزمية Viterbi الأكثر استخدامًا ل فك التشفير.
وترد بعض الملاحظات هنا للتشفير الموضعي.
أولًا، مشفر المورفولوجيا لا يستخدم أي تشفير موضعي.
وذلك لأن كل من المورفيمات تحتل خانة معروفة في النموذج المورفولوجي.
لذلك، تكون المعلومات الموضعية متأصلة عندما يتم إعطاء المورفيمات.
ثانيًا، يستخدم مشفر الجملة ما يسمى بـ التضمينات الموضعية النسبية غير المقيدة، والتي تم نشرها مؤخرًا في مؤتمر ICLR.
وتفصل هذه التضمينات الموضعية بشكل أساسي الارتباطات الموضعية من حساب انتباه رمز إلى رمز.
ومماثلة لـ بيرت، نستخدم هدف قبل التدريب لmasked language model.
وفي الأساس علينا أن نتنبأ بكل من الكلمة الجذعية واللواحق التي ترتبط بـ الكلمات.
وخلال مرحلة ما قبل التدريب، تعتبر خمسة عشر في المئة من جميع الكلمات للتنبؤ، منها ثمانين في المئة مقنعة، ويتم تبديل عشرة في المئة بكلمات عشوائية، وترك عشرة في المئة دون تغيير.
للتنبؤ باللواحق، نواجه بعض مشكلات التسمية متعددة التصنيف.
لهذا، نقوم إما بجمع اللواحق معًا في عدد ثابت من المجموعات ونتنبأ بالمجموعة كتصنيف فئة.
والخيار الآخر هو التنبؤ باحتمالية اللاحقة المتجه.
ونقوم بتقييم كل من هذين النهجين في تجاربنا.
نقوم بتدريب KinyaBERT مسبقًا على حوالي اثنين ونصف غيغابايت من النصوص الكينيرواندية، ومقارنتها مع ثلاثة نماذج أساسية.
أحدها هو نموذج متعدد اللغات يسمى XLM-R، يتم تدريبه على مجاميع ذات نص كبير معدة من لغات متعددة.
ويتم تدريب النموذجين الأساسيين الآخرين مسبقًا على نفس النصوص الكينيرواندية باستخدام إما خوارزمية تشفير زوج البايت أو باستخدام التحليل المورفولوجي دون استخدام بنية مشفر المحول ذات المستويين.
يتم تكوين جميع النماذج في البنية الأساسية، والتي تتراوح بين مائة ومائة وعشرة ملايين من المعلمات، مع استخدام الكينيرواندية مع KinyaBERT باستخدام أقل عدد من المعلمات.
جميع النماذج باستثناء النموذج متعدد اللغات مدربة مسبقًا على اثنين وثلاثين ألف تحديث تدرج مع حجم دفعة مكون من ألفين وخمسمائة وستين تسلسل في كل دفعة.
نقيم النماذج المدربة مسبقًا على ثلاث مجموعات من المهام.
أحدها هو معيار GLUE الذي غالبًا ما يستخدم لتقييم فعالية نماذج اللغة المدربة مسبقًا.
نحصل على بيانات معيار GLUE الخاصة بنا عن طريق ترجمة بيانات المعيار الأصلي إلى اللغة الكينيرواندية باستخدام ترجمة جوجل.
المهمة الثانية هي معيار named entity recognition في اللغة الكينيرواندية، وهو عبارة عن مجموعة بيانات ذات جودة عالية تم شرحها من قبل متحدثين أصليين مدربين.
والثالثة هي مهمة تصنيف أخبار حيث نسحب مقالات أخبار من عدة مواقع إلكترونية ونجمع علامات التصنيف الخاصة بها التي تم تعيينها من قبل المؤلفين ثم نحاول بشكل أساسي التنبؤ بنفس الفئات.
والآن ننتقل إلى النتائج.
بالنسبة لمعيار GLUE، نجد أن KinyaBERT يتفوق باستمرار على النماذج الأساسية.
ونعرض هنا متوسط الأداء لعشرة إجراءات للضبط الدقيق.
ونقوم أيضًا بإجراء تقييم مستخدم لـ الترجمات التي تنتجها ترجمة جوجل.
في الأساس، صنف المستخدمون حوالي ستة آلاف مثال، مع تعيين الدرجات على مقياس من واحد إلى أربعة، وتقييم جودة الترجمات.
والنتيجة هي أن العديد من الترجمات كانت مزعجة.
ولكن، كان على جميع النماذج التعامل مع نفس إزعاج الترجمة ولا يزال من المهم ملاحظة الأداء النسبي بين النماذج.
بالنسبة لمهمة named entity recognition، نجد أيضًا أن KinyaBERT يعطي أفضل أداء مع أداء متغير تراجع توزيع اللواحق بشكل أفضل.
وهذه النتائج هي أيضًا متوسطات عشرة إجراءت للضبط الدقيق.
بالنسبة لمهمة تصنيف الأخبار، نجد نتائج مختلطة.
إذ وجد العمل السابق على تصنيف النص للّغة الكينيرواندية أن الكشف عن كلمة رئيسية بسيطة هو أمر كافٍ في الغالب لحل هذه المهمة المحددة.
لذلك، هناك استفادة أقل من استخدام نماذج لغة مدربة مسبقًا.
وفي هذه المهمة الخاصة بتصنيف الأخبار.
أجرينا أيضًا دراسة استئصال لمعرفة ما إذا كانت هناك هياكل بديلة تعمل على تحسين الأداء.
بالنسبة لمعيار GLUE، نجد أن استخدام مجموعات اللواحق تعطي أداءً أفضل باستمرار، بينما يعطي هدف تراجع احتمالية اللواحق أفضل أداء في named entity recognition.
أيضًا من خلال النظر في الدرجات المنخفضة للضبط الدقيق، نجد أن KinyaBERT لديه تقارب أفضل في معظم الحالات.
إذًا في الختام، أظهر هذا العمل فعالية الاستخدام الصريح للمعلومات المورفولوجية في نماذج اللغة المدربة مسبقًا.
تمكن بنية مشفر المحول المقترحة من مستويين من التقاط التعقيد المورفولوجي ونمذجة التركيبة المورفولوجية، وهو جانب مهم من اللغات الغنية مورفولوجيًا.
يجب أن تحفز هذه النتائج المزيد من البحث في نماذج اللغة المدربة مسبقًا للغة التي تراعي المورفولوجيا.
مرحبًا، اسمي ميشال بيتروسكا ويسرني أن أقدم لكم الورقة التي تحمل العنوان نماذج المحول المتناثرة مع تجميع التمثيل القابل للتدريب.
وهو عمل تم إنجازه في Applica AI بالتعاون مع لوكاس بورخمان ولوكاس جارنكيرك.
واسمحوا لي أن أبدأ بالمشاكل التي يستهدفها عملنا.
تعمل طريقتنا بشكل جيد في الحالات التي يتم فيها النظر في المدخلات الطويلة.
وبمعنى تقريبي، هي مخصصة لأوامر المهمة و إدخال أكثر من ألفي رمز وتكون الأهداف أقصر من المدخلات المقدمة.
ولذلك بعض التطبيقات المحددة في معالجة اللغة الطبيعية.
على سبيل المثال، يمكن للمرء أن يتخيل أنه عند وجود مستند طويل، تكون هناك حاجة لتلخيصه، وتصنيفه، والإجابة على السؤال حوله، واستخراج المعلومات أو بعض العبارات الرئيسية.
اسمحوا لي أن أذكر محول الفانيليا ومسألة تعقيد الانتباه الذي يعتمد على مربع خط الإدخال.
في محول الفانيليا، مع اتصال الانتباه الكامل، يجب حساب علاقات كل رمز مع كل رمز آخر.
يعتمد التعقيد الحسابي للانتباه على عدد الطبقات وطول التسلسل وطول تسلسل آخر وأبعاد التمثيلات.
وبالمثل، في الانتباه المتقاطع لوحدة فك الترميز، إلى هذه الصورة الموجودة على الجانب الأيمن، يكون الاختلاف الوحيد هنا هو أن الرموز المستهدفة تحضر رموز الإدخال في هذه الحالة.
وهو ما يمكن رؤيته أيضًا في هذه الصيغة.
تمثل درجة BLEU العلاقات التي يجب حسابها.
في حالة الانتباه الكامل، نحتاج إلى حساب جميع العلاقات ضمن تسلسل الإدخال.
الآن، نرى ما يحدث عندما يكون لدينا مشفر كتلة يعمل عن طريق الحد من اتصال الرموز بحيث يمكنهم فقط رؤية الرموز القريبة الأخرى.
تتم قراءة النص في أجزاء والتي يمكن أن تقلل بشكل كبير من عدد العمليات الحسابية على جانب المشفر، ولكنها لا تحسن الانتباه المتبادل لوحدة فك الترميز حيث يتم تمرير كل رمز إدخال إلى وحدة فك الترميز على أي حال.
وغالبًا ما يشار إلى هذه الطريقة باسم الانصهار في وحدة فك الترميز.
يمكن تفسير التحسن هنا على أنه تغيير إحدى تبعيات n إلى ثابت آخر m يمثل حجم الكتلة.
وملاحظتنا الرئيسية هي أن معظم الرموز ليست ذات صلة لمجموعة متنوعة من المهام ويمكن تجاهلها تمامًا تقريبًا. ويتم توضيح ذلك على الشريحة.
الأجزاء الوحيدة من المدخلات ذات صلة بالمخرجات المرغوبة.
على سبيل المثال،
يمكن للمرء أن يقرأ مقالًا مرة واحدة ويضع علامة على الأجزاء الأكثر أهمية باستخدام أداة تمييز، ثم ينتج ملخصًا بناءً على هذا الجزء من المرحلة المتوسطة فقط.
وبالتالي فإن تكلفة تسليط الضوء وتحديد ما إذا كان الرمز الحالي ضروريًا لإنتاج الملخص هي تكلفة رخيصة وتعتمد فقط على تمثيل الرمز.
ويمكن تجميع الرموز المميزة.
وذلك بفضل أفضل مشغل k لدينا وتكلفته لا تذكر.
كما أن تكلفة إنتاج ملخص من الإدخال المختصر تكون أقل بكثير مما هي عليه في نموذج الفانيليا عندما يتم أخذ الإدخال بالكامل في الاعتبار.
لكن السؤال هنا هو
كيف يمكن تحديد الرموز المهمة وإعادة نشر التدرجات لهذا التحديد؟
والمشكلة الأساسية التي نحلها هي اقتراح آلية الاختيار القابلة للتدريب.
آلية يمكن أن تسمح بإعادة نشر التدرج أثناء التدريب بحيث يمكن للشبكة أن تتعلم كيفية اختيار الرموز الأكثر أهمية.
وبصورة أكثر تحديدًا
بالنظر إلى أن بعض التضمينات السفلية تم الحصول عليها من طبقة خطية بسيطة، تكون المهمة هي إرجاع التضمينات المسجلة لأعلى الدرجات. أولًا، يتم تبديل التسلسل ويتم تحضير الأزواج بحيث يتم أخذ المتجه المسجل لأعلى الدرجات مع المتجه المسجل لأقل الدرجات.
بعد ذلك، يتم حساب الأوزان باستخدام softmax معزز على الدرجات.
بعد كل جولة من الدورة، تتكون المتجهات والنتائج الجديدة كمزيج خطي من تلك الأزواج مع الأوزان التي تم الحصول عليها.
لذلك باختصار، نجمعها خطيًا عن طريق إجراء softmax على درجاتهم.
وعند الجميع بين رمزين، يمكن أن تنتج بعض الضوضاء.
لكنه يسمح أيضًا بنشر التدرجات إلى جميع تضمينات الإدخال.
وباختصار، تعتمد القمة k القابلة للتدريب التي نقترحها على أداء دورة مثل الاختيار السلس في كل خطوة.
ومن منظور مختلف، يتبع تجميع التمثيل طبقة المشفر.
أولاً، يتم تسجيل كل تمثيل ثم يتم تمرير التمثيلات التي حصلت على أعلى الدرجات فقط إلى الطبقة التالية.
يمكن إجراء التشفير كما هو الحال في بنية المحول القياسية على إدخال الطول الكامل.
ومع ذلك، من الممكن معالجة النص في كتل ذات طول ثابت واختيار أفضل تمثيل بشكل عام.
فيما يلي مثال على تجميع التمثيل الذي تم تقديمه بعد المشفر.
وقد أثر هذا بشكل مباشر على سبب الانتباه المتقاطع، والذي لا يعتمد على طول الإدخال N، ولكن على K الثابت، والذي يمثل الطول المجمع.
ويوضح هذا الثابت عدد التمثيلات التي يتم اختيارها وتمريرها إلى وحدة فك الترميز.
يعد إنتاج ملخص من نص أقصر أرخص بكثير من الحل السابق.
حيث يمكن تقصير طول التسلسل بعامل كبير.
على سبيل المثال، استخدمنا بنجاح ستة عشر أو حتى ستين k لأربعة أو حتى أربع وستين مرة أصغر من قيمة n في تجاربنا.
يرجى ملاحظة أن التأثير المفيد لتشفير الكتلة والانتباه الذاتي مستمر.
تذكر أن التكلفة الحسابية لـ الانتباه تعتمد على مربع طول الإدخال.
يمكن أن يؤدي تقليل الإدخال في وقت مبكر أثناء عملية التشفير إلى خفض التكاليف بشكل كبير.
بالنسبة إلى نموذج الهرم، قمنا بتضييق حجم التمثيل على إخراج كل طبقة مختارة، مما أدى إلى الانخفاض الأسي للتكلفة الحسابية مع استمرار التشفير.
كما ترى، فإن التكلفة الإجمالية الحسابية لـ المشفر الكامل هنا أقل من ضعف تكلفة الطبقة الأولى كاملة الحجم.
وعندما يتم إدخال التجميع في وقت سابق، فإن مجموع جميع المربعات الأرجوانية يكون محددًا بثابت، لا يعتمد على عدد الطبقات l.
ولكن على c الثابت، والذي يمكن أن يتأثر بوضع طبقات التجميع داخل الشبكة.
تم قياس تحسيناتنا على مدخلات طولها ثمانية آلاف رمز.
ويوضح الشكل أنه عند المشاركة في التجميع، يتم تحقيق أفضل قابلية للتوسع لعمق الشبكة.
هنا يمكن للمرء أن يلاحظ أن تدريب هرم مكون من أربع وعشرين طبقة يمكن أن يكون أرخص من تدريب محول فانيليا من طبقتين على مثل هذه المدخلات الطويلة.
ناهيك عن مدى سهولة خروج محول الفانيليا من الذاكرة ل مثل هذا الإدخال الطويل.
يتم إجراء مقارنة الجودة النوعية لهرم الاتجاه لدينا مع خط الأساس الآخر على مهمة تلخيص المستند الطويل، أو بالنظر إلى نص مقالة من arXiv أو PubMed، تكون المهمة هي إنشاء ملخصه.
وبالتالي، يمكن للمرء أن يرى أداء الكتلة، وهي خط الأساس لدينا، على مستوى الإعادة أحدث النماذج، في حين أن الهرم يحتفظ أو يحسن أداء هذا الأساس التنافسي.
في الوقت نفسه، يكون نموذجنا أسرع بنسبة ثمانين بالمائة في التدريب وأكثر من أربعمائة وخمسين بالمائة في الاستدلال عند المقارنة بخط أساس الكتلة.
كلا النموذجين لهما عدد أقل بكثير من المعلمات وتم تدريبهما من الصفر على المهام المختارة.
كان على النهج السابقة لتحقيق أداء مماثل استخدام المزيد من المعلمات والاستفادة من النماذج التأسيسية المدربة مسبقًا وهدف التدريب المسبق للّغة الإضافي لتحقيق أداء مماثل.
ندعوك لقراءة الورقة الكاملة واستخدام رمز GitHub الخاص بنا.
شكرًا لكم على المشاهدة.
مرحبًا، أنا جياوي تشو من جامعة هارفارد.
يسعدني جدًا أن أقدم عملنا على التحليل الدلالي عبر الإنترنت لتقليل وقت الاستجابة في الحوار الموجه نحو المهام.
هذا عمل مشترك مع جيسون ومايكل وأنتوني وسام من ماكينات ميكروسوفت الدلالية.
في الحوار الموجه نحو المهام، يتفاعل المستخدم مع النظام الذي يتعامل مع الطلبات الناتجة عن أقوال المستخدم عادةً في التحدث.
من نهاية نطق المستخدم إلى استجابة النظام، غالبًا ما يكون هناك تأخير ملحوظ.
تحت الغطاء، يتم ترجمة نطق المستخدم إلى برنامج قابل للتنفيذ.
والذي يتم تنفيذه بعد ذلك حتى يتمكن النظام من الاستجابة بشكل صحيح.
ولأن البرنامج يتم تمثيله كرسم بياني دلالي يحدد الحساب، حيث تمثل العقدة استدعاء دالة وأبنائها هم الوسيطات.
وتشير العقد الكبيرة إلى العمليات الآنية، لكن تنفيذ العقد الأخرى يكون بطيئًا.
وفي المثال البسيط الذي نعرضه هنا، يمكن أن تكون هذه البرامج غالبًا رسومًا بيانية أكثر تعقيدًا خارج الهياكل الشجرية.
وفي هذا الحديث نطرح السؤال، هل يمكننا البدء في توليد البرنامج وتنفيذه قبل أن ينتهي المستخدم من النطق حتى يتمكن النظام من تحقيق استجابة أسرع؟
هذه هي مشكلة القرار والتنبؤ عبر الإنترنت.
وتوجد أمور كثيرة أخرى في هذا المجال.
تتضمن الأمثلة الترجمة الفورية حيث يترجم المترجم الفوري من لغة إلى أخرى في الوقت الفعلي، والإكمال التلقائي للنص الذكي لتخمين نية المستخدم، وكذلك أوبر حيث يتم إرسال السائقين إلى حيث قد تكون هناك حاجة إليهم بناءً على الطلب المتوقع.
كل هذه السيناريوهات لديها شيء واحد مشترك.
وهو أنه من المفيد اتخاذ القرارات قبل رؤية كل المدخلات.
وفي حالتنا، سنتعامل مع التحليل الدلالي عبر الإنترنت، والذي من المتوقع أن يكون تحديًا حيث يتعين علينا تخمين ما قد يقوله المستخدم.
كما أنه غير مستكشف بشكل كافٍ مع عدم وجود مقياس رسمي للتقييم.
أولًا، دعنا نلقي نظرة على كيفية عمل النظام العادي.
يعمل دون اتصال بالإنترنت عن طريق التحليل إلى البرنامج فقط في نهاية نطق المستخدم.
وهنا، يتم التنبؤ بالرسم البياني للحروف بعد رؤية جميع المعلومات.
وفي المقابل، نقترح نظامًا عبر الإنترنت يقارن بكل بادئة نطق.
على سبيل المثال، في كل مرة نرى فيها رمزًا جديدًا، نتوقع رسمًا بيانيًا جديدًا.
لاحظ أنه يمكن أن يكون هناك أخطاء.
في موقف حفلة السباحة مع باراك أوباما، حصلنا على رسم بياني بعقد صحيحة على الشخص وموضوع الحدث، ولكن تخمين خاطئ لمعلومات التوقيت.
وتستمر هذه العملية حتى نتلقى نطق المستخدم بالكامل.
كيف سيؤثر ذلك على الجدول الزمني للتنفيذ في النظام غير المتصل بالإنترنت؟
سنحصل على الرسم البياني للبرنامج في النهاية حتى يتمكن النظام من بدء التنفيذ في هذه المرحلة.
وتذكر أن العقد الكبيرة هي عبارة عن عمليات سريعة، لذلك نحن ننظر فقط في المخطط الزمني لتنفيذ الوظائف البطيئة الملونة.
أولًا، يمكن تنفيذ وظيفتي العثور على الشخص بالتوازي، وتمييزهما باللون الأبيض من المربع الوردي بحيث لا يكون لهما تبعية لوظائف أخرى.
وبعد ذلك، يمكن تنفيذ حدث إنشاء العقدة بعد الحصول على النتائج من العقد ذات المستوى الأدنى ثم إنتاج الوظيفة العليا حتى ينتهي البرنامج بأكمله.
وتعد عملية التنفيذ صارمة ومقيدة ببنية تبعية البرنامج حيث لا يمكن موازاة بعض العمليات مما يؤدي إلى تأخير ملحوظ.
في نظامنا عبر الإنترنت، حيث نتنبأ مع تقدمنا، يمكن أن يبدأ تنفيذ البرنامج في وقت مبكر.
وهنا، في البادئة الواردة بعد أوباما، نتنبأ بثقة أن وظيفة العثور على الشخص يجب أن تكون في البرنامج، ولكن الباقي قد يحتوي على أخطاء لأنه يظهر باللون الرمادي.
يمكن بدء تنفيذ العقدة على الفور باعتبارها خطوة.
ثم، مع وجود المزيد من الرموز، نتوقع رسمًا بيانيًا جديدًا تمامًا، ولكن تم تنفيذ جزء منه بالفعل.
ولذلك، نحتاج فقط إلى النظر في بقية العقد التي نثق بها أيضًا.
وهنا، يمكن تنفيذ وظيفة أخرى للعثور على شخص بالتوازي.
مرة أخرى، قد يكون لدينا تنبؤات خاطئة.
ومع وجود المزيد من النصوص، تكون لدينا المزيد من القدرة على تصحيحها.
مثل وقت الحدث هنا حيث تم التنبؤ بأن الوقت صباحًا بصورة صحيحة أيضًا.
وبعد ذلك، يمكننا البدء في تنفيذ الباقي باتباع بنية تبعية البرنامج.
ومن خلال تداخل الجدول الزمني للتنفيذ مع الجدول الزمني للنطق، فإننا نوفر قدرًا كبيرًا من الوقت.
لذلك اقترحنا مهمة التحليل الدلالي عبر الإنترنت.
ويتمثل أحد الافتراضات الأساسية في أن وقت التنفيذ يهيمن على وقت التنبؤ بالنموذج.
لذلك يمكننا فقط كسب الوقت من خلال التنبؤ مبكرًا.
ويتمثل الافتراض الآخر في أنه عندما يحدث التنبؤ والتنفيذ في الخلفية، فإنه يكون غير مرئي للمستخدمين.
ليس من الضروري الحفاظ على تاريخ تحليل ثابت.
ولذلك، نحن نعيد التوزيع من البداية بعد كل رمز.
وعلى وجه الخصوص، نقترح نهجًا من خطوتين.
خطوة مقترحة تتنبأ بـ رسم بياني مع بنية كاملة وخطوة مختارة تحدد العقد التي تستحق التنفيذ في هذا الوقت.
كان لدينا نوعان مختلفان من الطريقة المقترحة.
يضم النهج الأول إكمال نموذج اللغة مع النطق الكامل إلى تحليل الرسم البياني.
وعلى وجه الخصوص، يتم إكمال البادئة بعد أوباما لأول مرة من خلال نموذج لغةBART محدد بدقة ثم ترجمتها إلى برنامج به محلل غير متصل بالإنترنت.
يتنبأ النهج الثاني مباشرة بالبرنامج من بادئات نطق المستخدم.
ويتحقق ذلك من خلال تدريب محلل واحد عبر الانترنت للترجمة إلى الرسم البياني للهدف من كل بادئة.
وهذا يسهل على النموذج تعلم التنبؤ الصحيح.
بمزيد من التفصيل، كيف نولد هذه الرسوم البيانية؟
نصيغ المشكلة عن طريق توليد نسخة تسلسلية من الرسم البياني.
يتم تمثيل كل عقدة أو حافة من خلال إجراء.
هنا، نبدأ من العقدة الأولى.
يسجل العدد أدناه الفهرس المطلق في سجل الإجراءات.
ثم، حصلنا على العقدة الثانية.
وبعد ذلك، الحافة بينهما.
وتحتوي على المؤشر إلى فهرس العقدة السابقة وملصق الحافة.
الصفر هنا يعني ربط العقدة الأحدث بالعقدة الناشئة بواسطة إجراء zeroth والحافة التالية للعقدة.
تستمر هذه العملية حتى نولد الرسم البياني الكامل.
يعتمد النموذج الأساسي على محول بآلية تأشير ذاتية مماثلة لمحلل سابق قائم على الانتقال.
بعد توليد رسم بياني كامل، حصلنا على احتمالات مستوى الإجراء التي تتوافق مع أجزاء مختلفة من الرسم البياني.
نختار الرسوم البيانية الفرعية للثقة بناءً على العتبة الاستدلالية التي سيتم تنفيذها.
وفي وقت لاحق، سنقوم بتغيير العتبة لتحقيق مقايضات مختلفة بين تخفيض وقت الاستجابة وتكلفة التنفيذ.
للتقييم الرسمي للأساليب عبر الإنترنت، نقترح تقليل وقت الاستجابة النهائي أو مقياس FLR.
فيما يلي ملخص لكيفية إنهاء النظام غير المتصل بالإنترنت للجدول الزمني للتنفيذ.
في الأنظمة عبر الإنترنت، يتداخل التنفيذ مع الجدول الزمني للكلام، لذلك ينتهي في وقت مبكر.
يتم تعريف FLR على أنه وقت التخفيض مقارنة بـ النظام غير المتصل بالإنترنت، والذي يتم تمييزه بنهاية التنفيذ.
نجري تجارب على مجموعتين كبيرتين من مجموعات بيانات التحليل الدلالي الحواري وهما SMCalFlow وTreeDST.
يحقق المحلل القائم على الرسم البياني الخاص بنا عند العمل دون اتصال بالإنترنت أداءً متطورًا في التحليل على مجموعتي البيانات.
يحقق نموذج LM الكامل أيضًا مكاسب BLEU غير بديهية مقارنة بخط الأساس البسيط لإكمال العقدة.
والآن، دعنا نلقي نظرة على دقة التنبؤ لبادئة محلل الرسم البياني.
نختبر درجة مطابقة F1 لمجموعات الرسم البياني بين الرسم البياني للتوليد والانطلاق في بيانات التحقق من الصحة في المحور y ل كل طول بادئة في المحور x ممثلة بالنسب المئوية.
ويمثل كل منحنى من هذه المنحنيات نموذجًا مختلفًا ويكون الاختلاف الوحيد في بيانات التدريب.
المنحنى السفلي هو المحلل غير المتصل بالإنترنت، ونقوم بخلط بيانات البادئة بأطوال مختلفة لنقل النموذج إلى محلل عبر الإنترنت.
على سبيل المثال، بادئة وسيلة الإيضاح ثمانين بالمائة زائد تعني أن النموذج مدرب ببيانات بادئة بطول بادئة أكبر من ثمانين بالمائة من طول النطق الكامل.
الزاوية العلوية اليسرى هي المنطقة المرغوبة.
كما نرى، لا يعمل المحلل غير المتصل بالإنترنت في المنحنى الأسود بشكل جيد على بيانات البادئة.
ونظرًا لأننا نخلط المزيد من البادئات في التدريب، فإن المنحنى يرفع الجزء العلوي والأيسر، ويعطي أداءً أفضل في جميع أطوال البادئات.
ومع ذلك، لا يتأثر أداء تحليل النطق الكامل في النقطة اليمنى العلوية.
وبناءً على هذه النتائج القوية، ما مقدار وقت الاستجابة الذي نخفضه؟
نقيس الوقت بعدد رموز المصدر ونحاكي أوقات تنفيذ الوظائف المختلفة.
توضح المنحنيات المقايضة بين مقياس FLR وتكلفة التنفيذ، مقاسة بعدد تكاليف الوظيفة الزائدة غير الصحيحة.
ويتحقق ذلك عن طريق تغيير عتبة اختيار الرسم البياني الفرعي.
تحدد العتبة الأعلى عددًا أقل من وظائف الخطأ، ولكنها تحصل على FLR أصغر، في حين أن العتبة الأقل تختار البرامج وتنفذها بصورة أكثر قوة.
نقارن النهجين اللذين نقترحهما وخط الأساس الذي لا يفعل شيئًا سوى تطبيق المحلل غير المتصل بالإنترنت للاستخدام عبر الإنترنت.
المنطقة العلوية اليسرى هي الأفضل من حيث FLR ومقايضة التكلفة.
نرى أن كلا الطريقتين تتفوقان على خط الأساس بهامش كبير، وتؤديان بشكل أكثر تشابهًا على TreeDST.
في حين أن تنفيذ الوظيفة الفردية أسرع، إلا أنه يميل إلى أن يكون هناك المزيد من عمليات التنفيذ قيد التشغيل وتقليل مساحة وقت الاستجابة.
عندما يكون تنفيذ الوظيفة الفردية أبطأ، تكون هناك مساحة أكبر لتحسين FLR.
يحقق نهجانا أداءً أفضل في مناطق التكلفة المختلفة.
بشكل عام، نحقق تخفيضًا نسبيًا بنسبة تتراوح من ثلاثين إلى ثلاثة وستين بالمائة اعتمادًا على وقت التنفيذ والتكلفة المسموح بها.
أخيرًا، لدينا تفصيل لمتوسط تقليل زمن الوصول في الرموز لكل نوع من عقدة الوظيفة عندما تكون التكلفة المسموح بها هي ثلاثة عمليات تنفيذ تشغيل.
كما نرى، هناك مكاسب في جميع الأنحاء.
وهناك أيضًا بعض الوظائف التي نحصل عليها لتقليل زمن الوصول المثير للإعجاب حيث يكون الشريط الأحمر أطول بكثير، مثل العثور على المدير والمستلم.
هذه وظائف منخفضة المستوى لا تعتمد كثيرًا على الآخرين.
في الختام، اقترحنا التحليل الدلالي عبر الإنترنت كمهمة جديدة للاستكشاف باستخدام مقياس تقليل زمن الوصول الصارم.
من خلال المحلل الدلالي القوي المستند إلى الرسم البياني، نحقق تقليلًا جيدًا نسبيًا لوقت الاستجابة إما من خلال نهج خط الأنابيب الخاص بنا مع إكمال LM ومحلل كامل أو مباشرة من خلال محلل مكتوب على البادئات.
وفضلًا عن ذلك، يمكن أن يكون نهجنا إطارًا عامًا ويمكن تطبيقه على التمثيلات الدلالية القابلة للتنفيذ في المجالات المختلفة.
يمكن للأعمال المستقبلية استكشاف طريقة أكثر ذكاءً للتنبؤ والتنفيذ.
شكراً لاستماعكم.
مرحبًا.
سأناقش عملنا على توليد استرجاع معزز للواقع المضاد لمهام الإجابة على الأسئلة.
تم إنجاز هذا العمل خلال فترة تدريبي في Research Google، حيث تم إرشادي من قبل ماثيو لام وإيان تيني.
لتحفيز المهمة، اسمحوا لي أن أبدأ بتعريف counterfactual.
في هذا العمل، نعرّف counterfactual على أنه اضطراب في نص الإدخال يختلف بطريقة خاضعة للتحكم ذات مغزى عن النص الأصلي.
ويسمح لنا بالتفكير في التغييرات في النتيجة أو تسمية المهمة.
على سبيل المثال، تغيير الكلمات الرائعة إلى آسرة أو من المتوقع أن تخدر العقل يغير الشعور تجاه مراجعة الفيلم.
وبالمثل، فإن إضافة النعت "السيدات" إلى السؤال يغير الإجابة على السؤال في المثال أدناه.
عادة ما يكون البشر أقوياء في مواجهة مثل هذه الاضطرابات مقارنة بنماذج معالجة اللغة الطبيعية المدربة على المهمة.
لماذا هذا؟
يمكن أخذ عينات من مجموعة البيانات باستخدام biases منهجية تؤدي إلى حد قرار بسيط ينتهكه counterfactual.
كما هو موضح في مشكلة التصنيف ثنائي الأبعاد هذه.
لقد وجد عملي أن إضافة أمثلة counterfactual إلى بيانات التدريب يمكن أن يجعل النموذج قويًا في مواجهة هذه الاضطرابات.
لذا، إذا كانت counterfactuals ذات قيمة، فكيف يمكننا توليدها؟
هذه المهمة صعبة بشكل خاص بالنسبة إلى معالجة اللغة الطبيعية لأن هنا ثلاثة أمثلة من ثلاث مهام مختلفة لمعالجة اللغة الطبيعية.
كما ترى، يجب صياغة الأمثلة التي تنتهك حدود القرار بين النتائج بعناية شديدة عن طريق تشويش بعض سمات النص الموضحة هنا.
يمكن القيام بذلك عن طريق التعليق التوضيحي البشري، ولكن هذا مكلف ومنحاز.
ركزت بعض الأعمال السابقة على استخدام أشجار بناء الجملة أو تصنيف الأدوار الدلالية.
لكن مجموعة الاضطرابات الناشئة عن هذه التقنيات محدودة بالإطار الدلالي.
استخدمت الأعمال الحديثة نماذج اللغة المقنّعة لملء الأجزاء المقنّعة من النص لتغيير التسميات.
لكن العثور على أجزاء النص التي تسبب الاضطراب قد يكون أمرًا صعبًا.
هناك المزيد من التحديات التي تواجه توليد counterfactuals ل لإجابة على الأسئلة على وجه التحديد.
وهذه المهمة تتطلب معرفة بالخلفية.
على سبيل المثال، لتشويش السؤال الأصلي هل معبد الموت لإنديانا جونز رواية تمهيدية؟
يجب أن نكون على دراية بالأفلام الأخرى في السلسلة للوصول إلى سؤال مثل هل إنديانا جونز غزاة السفينة المفقودة رواية تمهيدية؟
علاوة على ذلك، يمكن أن تؤدي الاضطرابات العشوائية إلى أسئلة لا يمكن الإجابة عليها بالأدلة المتاحة أو تحتوي على مقدمات خاطئة.
وفضلًا عن ذلك، يمكن أن تؤدي بعض اضطرابات السؤال إلى انحراف دلالي كبير عن الإدخال الأصلي.
على سبيل المثال هذا السؤال هل يمارس إنديانا جونز عبودية الأطفال في معبد الموت؟
نحن نقترح تقنية بسيطة للغاية ولكنها فعالة تسمى استرداد توليد مرشح أو RGF، لمعالجة اضطرابات counterfactual من الأسئلة، وتهدف أيضًا إلى معالجة جميع التحديات الأخرى المذكورة أعلاه.
والحدس الأساسي وراء RGF هو أن معلومات الخلفية الضرورية اللازمة لتوليد الاضطرابات قد تكون موجودة في الأخطاء الوشيكة التي يحدثها نموذج الإجابة على الأسئلة.
على سبيل المثال، ينتج نموذج REALM الأكثر حداثة أفضل إجابات k التالية على سؤال من هو قائد نادي ريتشموند لكرة القدم؟
في حين أنه يستعيد المقطع المرجعي الأصلي ويجيب ترينت كوتشين كأفضل خيار.
كما أنه يسترجع مقاطع وإجابات إضافية يمكن استخدامها لتوجيه تشويش السؤال.
على سبيل المثال، فإنه يستعيد اثنين من أكثر الإجابات المطابقة لقادة الفريق الاحتياطي وفريق السيدات من نفس النادي، وهذا يمكن أن يؤدي إلى تعديلات مثيرة للاهتمام.
والخلاصة، يسترد RGF أولاً أهم الإجابات K والسياقات التي لا تتطابق مع الإجابة المرجعية في السياق.
باتباع هذه الخطوة، فإن شروط نموذج إنشاء الأسئلة على هذه الإجابات البديلة لتوليد سؤال يتوافق معها.
وأخيرًا، يمكننا تصفية الأسئلة الناشئة بناءً على الحد الأدنى أو بناءً على نوع الاضطراب الدلالي الذي نهتم بتقديمه.
بالانتقال إلى كل خطوة بمزيد من التفصيل للاسترجاع، نستخدم نموذج استرداد ثم قراءة مثل REALM الذي يأخذ السؤال الأصلي كإدخال، ومجموعة كبيرة مثل ويكيبيديا.
وهو يتألف من وحدتين.
تقوم الوحدة النمطية المستردة بإجراء بحث التشابه على فهرس كثيف من الممرات لاسترداد المقاطع الأكثر صلة بـ السؤال.
ثم تقوم وحدة القارئ باستخراج امتداد من كل مقطع كإجابة محتملة.
يسترد REALM المقطع الذهبي والإجابة في معظم الحالات.
ومع ذلك، في هذا العمل، نحن مهتمون أكثر بالإجابات و السياق الذي يسترده بشكل أكبر.
في الخطوة التالية، إنشاء الأسئلة، نستخدم هذه الإجابات البديلة و السياقات لإعادة توليد الأسئلة الجديدة التي تتوافق مع هذه البدائل.
نموذج إنشاء الأسئلة عبارة عن محول نص إلى نص مدرب مسبقًا تم ضبطه بدقة على بيانات NQ لإنشاء سؤال لإجابة محددة في السياق.
أثناء الاستدلال نوفر نموذج إنشاء الأسئلة، والإجابة البديلة والسياق الذي استرجعناه في الخطوة السابقة.
على سبيل المثال، فيما يخص استفسار من هو قائد نادي ريتشموند لكرة القدم؟ يسترجع REALM مقاطع حول فريق النادي للسيدات، بقيادة جيس كينيدي، ويولد نموذج إنشاء الأسئلة الاستفسار من قادت أول فريق نسائي لنادي ريتشموند لكرة القدم؟
الأمر الذي له اضطراب دلالي محدد.
بطريقة مماثلة، نحصل أيضًا على استفسارات مثل من قاد فريق ريتشموند الاحتياطي VFL؟
أو من الذي أقصاه غراهام في المباراة النهائية الكبرى العام الماضي؟
أخيرًا، نقوم بتصفية مجموعة فرعية من الاستفسارات الناشئة بناءً على بعض الخصائص المرغوبة.
كما أوضحنا الدافع في وقت سابق، نود أن نضمن أن السؤال الجديد لا يزال قريبًا لغويًا من الأصل.
بالنسبة لتقنيات التصفية التي لا تتطلب إشرافًا إضافيًا، فإننا ببساطة نحتفظ بالأسئلة الجديدة التي لها مسافة تحرير تسمية رمز صغيرة عن السؤال الأصلي.
على سبيل المثال، نزيل سؤال من الذي أقصاه غراهام في المباراة النهائية الكبرى العام الماضي؟
لأنه يحتوي على مسافة تحرير أطول من السؤال الأصلي.
في تجاربنا، نثبت أن هذا الاسترشاد البسيط يمكن استخدامه لزيادة وترتيب بيانات التدريب.
نقوم أيضًا بتجربة استراتيجية تصفية تستند إلى نوع الاضطراب الدلالي.
ولتحقيق هذه الغاية، نستخدم إطار تحلل استفسار للأغراض العامة يسمى QED.
QED يحدد جزأين في السؤال، الفرضية والمرجع.
المراجع هي عبارات اسمية في السؤال تتوافق مع الكيانات الموجودة في context.
المسند هو في الأساس الجزء المتبقي من السؤال.
على سبيل المثال، نحن قادرون على تحليل استفسار من الذي قاد فريق ريتشموند الأول للسيدات إلى مرجعين: فريق ريتشموند لكرة القدم للسيدات و المسند الذي قاد X.
يعطينا نموذج تم تدريبه على التعليقات التوضيحية المرجعية للمسند الخاص بـ NQ تحليل السؤال هذا.
يسمح لنا تحليل كل من السؤال الأصلي والمُنشأ بناءً على QED بتصنيف counterfactuals الناشئة عن التقييم.
وعلى وجه التحديد، نحصل على مجموعتين من الأسئلة.
تلك التي تخضع لتغيير مرجعي مع الاحتفاظ بالمسندات، وتلك التي تخضع لتغيير مسند وتضيف مراجع اختيارية.
على سبيل المثال هل الذي قاد فريق ريتشموند الاحتياطي VFL هو تغيير مرجعي؟
في حين أن من يرتدي رقم تسعة ل النادي هو تغيير أصلي.
نقوم الآن بتقييم فعالية اضطرابات RGF عند زيادتها إلى بيانات التدريب.
لذلك، من أجل التقييم الفعال لفعالية تعزيز counterfactual على وجه الخصوص، نقوم بتجربة اثنين من خطوط أساس زيادة البيانات القوية.
يضيف خط الأساس الأول، المسمى بـ إجابة عشوائية و توليد الأسئلة، بيانات لا علاقة لها بـ السؤال الأصلي.
أي أن المقاطع والإجابات يتم أخذ عينات منها بشكل عشوائي ببساطة من ويكيبيديا.
يضيف خط الأساس هذا بشكل أساسي المزيد من البيانات التي تبدو مثل NQ.
مع إجابة الذهب الأساسية الثانية وتوليد الأسئلة، نقوم على وجه التحديد بتحديث جزء الاسترجاع من الطريقة.
هنا، يتم اختيار الإجابات البديلة فقط من نفس المقطع الذي يحتوي على الإجابة الذهبية.
كيف تؤدي خطوط الأساس و RGF زيادة الأداء على فهم القراءة حيث يمكن لـ النموذج الوصول إلى السؤال و السياق؟
نجرب ستة من مجالات مجموعات البيانات ونقدم النتائج هنا، حيث تتضاعف البيانات وهي بيانات التدريب في زيادة.
نجد أن كلا زيادة البيانات خطوط الأساس غير قادرين على تحسين المجال التعميم.
في الواقع، يبدو أن مجموعة من ستة نماذج مدربة على البيانات الأصلية هي خط الأساس الأكثر تنافسية.
وبالمقارنة مع هذا الخط الأساسي، نجد أن الحقائق المضادة لـ RGF قادرة على تحسين الأداء خارج المجال مع الحفاظ على أداء المجال.
وهذا يشير إلى أن سد الثغرات المنطقية في النموذج عن طريق زيادةcounterfactual أكثر فعالية من إضافة المزيد من البيانات من توزيع التدريب.
علاوة على ذلك، نجد أن استخدام استرجاع لأخذ عينات من النتائج أو الإجابات البديلة أمر مهم ل CDA فعال.
نجرب أيضًا إعداد المجال QA المفتوح حيث يرى النموذج فقط السؤال ومرة أخرى نقوم بالتقييم على أربعة من مجموعات بيانات المجال.
نجد أن نماذج خط الأساس ليست فعالة ل خارج مجال التعميم.
ومع ذلك، زيادة البيانات مع RGF يظهر تحسينات أكثر أهمية.
بل إننا نتحسن في مجموعة بيانات مجال NQ.
افترضنا أن زيادة بيانات counterfactual يساعد النموذج في تعلم ترميزات استفسار أفضل ل استعلامات متشابهة للغاية.
أخيرًا، نقوم أيضًا بتقييم قدرة النموذج على تحسين الاتساق في الحي المحلي لـ السؤال الأصلي.
يقيس الاتساق نسبة الأسئلة التي أجاب عليها النموذج بشكل صحيح حيث تمت الإجابة على كل من أصل الاستعلام و counterfactual بشكل صحيح.
يساعدنا هذا بشكل واضح على قياس متانة النموذج للاضطرابات الصغيرة في حي الإدخال الأصلي.
لقد جربنا خمس مجموعات بيانات تحتوي على أزواج من الأسئلة القريبة دلاليًا من بعضها البعض.
بصرف النظر عن مجموعات البيانات الثلاث AQA و AmbigQA و QUOREF- مجموعة التباين المتوفرة بالفعل، نقوم أيضًا بتقييم RGF من الحقائق المضادة المقترنة بـ أسئلة NQ الأصلية بناءً على ما إذا كانت قد خضعت لتغيير أصلي أو تغيير مرجعي.
تم شرح هذه المجموعات الفرعية داخليًا للقضاء على الضوضاء ويتم توفيرها كمورد.
جميع خطوط الأساس غير قادرة على تحسين الاتساق بشكل كبير مع نموذج المجموعة الذي يحسن الاتساق بهامش صغير.
ومع ذلك، فإن زيادة counterfactual RGF لديها مكاسب مثيرة للإعجاب في الاتساق على حد سواء على مجموعات البيانات السابقة والمجموعتين الفرعيتين التي قمنا بتنظيمها ل اضطرابات المرجع و المسند.
لاحظ أن زيادة بيانات RGF ليست متحيزة حسب نوع الاضطراب، فقط مجموعات التقييم هي التي تعاني من ذلك.
في الواقع، يُظهر الفحص النوعي لأنواع الوقائع المضادة التي تم إنشاؤها أن الأسئلة المتولدة تحتوي على العديد من الاضطرابات المتنوعة.
على سبيل المثال، هذا السؤال الأصلي حول سكان وولنات جروف بولاية مينيسوتا مضطرب على طول أبعاد مختلفة مثل المدينة والولاية والبلد، وعلى طول المسندات المختلفة مثل الموقع والفقر وعدد المدارس.
الصوت من الاضطرابات محددة السياق.
على سبيل المثال، بالنسبة لهذا السؤال الآخر حول بطولة ويمبلدون الفردي، فإن الاضطراب هو نوع اللعبة أو نوع البطولة أو نتيجة المباراة.
الدروس المستفادة النهائية؛ نحن نتعامل مع مهمة زيادة ببيانات counterfactual والاضطرابات للحصول على استفسارات البحث عن المعلومات ومعالجة تحدياتها الفريدة من خلال عكس نهج التوليد، والإفراط في التوليد باستخدام الأخطاء الوشيكة للنموذج والمرشح بناءً على نوع الاضطراب أو الحد الأدنى.
نجد أن هذه التقنية لا تتطلب إشرافًا إضافيًا وأن الأمثلة مُصنَّفة للزيادة.
الزيادة تحسن من تعميم المجال واتساق الجوار.
ونجد أن الحقائق المضادة RGF متنوعة دلالياً دون إدخال التحيز أثناء الزيادة.
شكرًا لكم.
