سلام، من النا هستم و قرار است مقاله‌مان را ارائه کنم، عنوان مقاله: تشخیص وام‌گیری غیر همسان در زبان اسپانیایی: یک متن مفصل و رویکردهایی برای مدل‌سازی.
بنابراین، قصد داریم به این موضوع بپردازیم که وام‌گیری واژگانی چیست، وظیفه‌ای که پیشنهاد کردیم، مجموعه داده‌ای که منتشر کرده‌ایم و مدل‌هایی که بررسی کردیم.
اما برای شروع، وام‌گیری واژگانی چیست و چرا به عنوان یک کار در NLP اهمیت دارد؟
بسیار خوب، وام‌گیری واژگانی اساساً به معنای ورود کلمات از یک زبان به زبان دیگر و ادغام آن با زبان مقصد است.
به عنوان مثال، در اسپانیایی ما از کلماتی استفاده می‌کنیم که از انگلیسی آمده است.
در اینجا چند مثال ارائه می‌کنیم، کلماتی مانند podcast، app، و crowdfunding آنلاین، همه اینها کلمات انگلیسی هستند که ما گاهی اوقات در اسپانیایی از آنها استفاده می‌کنیم.
وام‌گیری واژگانی نوعی استقراض زبانی است که اساساً در یک الگوی زبانی از سایر زبان‌ها بازتولید می‌شود.
وام‌گیری و کدگزینی، گاهی اوقات به عنوان یک زنجیره مقایسه شده و توصیف شده است، کدگزینی همان کاری است که افراد مسلط به دوزبان در جایی که دو زبان را همزمان با هم ترکیب می‌کنند، انجام می‌دهند.
با این حال، تفاوت‌هایی بین وام‌گیری واژگانی و کدگزینی وجود دارد.
ما بر روی وام‌گیری واژگانی تمرکز خواهیم کرد.
کدگزینی کاری است که توسط افراد دوزبانه انجام می‌شود و طبق تعریف، واژگان کدگزینی شده در هیچ یک از زبان‌های در حال استفاده وارد نشده و با آنها ادغام نمی‌شوند، در حالی که وام‌گیری واژگانی کاری است که توسط افراد تک زبانه نیز انجام می‌شود.
وام‌‌گیری با دستور زبان زبان گیرنده مطابقت دارد.
و در نهایت می‌توان لغت وام‌گیری شده را در زبان گیرنده ادغام کرد.
حال، چرا وام‌گیری پدیده جالبی است؟
خب، از منظر زبان شناسی، وام‌گیری جلوه‌ای از چگونگی تغییر زبان‌ها و نحوه تعامل آنها با یکدیگر است.
و همچنین کلمات وام‌گیری شده واژگانی منبع کلمات جدید هستند.
در اینجا چند نمونه از وام‌گیری‌های واژگانی را مثال می‌زنیم که به عنوان واژه‌های جدید در زبان اسپانیایی گنجانده شده‌اند.
از نظر NLP، لغات وام‌گیری شده یک منبع رایج برای کلمات خارج از دایره لغات هستند.
و در واقع، تشخیص خودکار واژگان وام‌گیری شده برای کارهای مرتبط با NLP پایین‌دستی مانند تجزیه، ترکیب متن-به-گفتار یا ترجمه ماشینی مفید هستند.
توجه فزاینده‌ای به تأثیر زبان انگلیسی بر سایر زبان‌ها می‌شود، به‌ویژه فرآیند مربوط به وام‌گیری‌ واژگان انگلیسی، این وام‌گیری واژگانی گاهی اوقات آنگلیسیسم (Anglicisms) نامیده می‌شود.
و در اینجا، چند نمونه از مقالات مطرح شده در تشخیص خودکار وام‌گیری‌ها در برخی زبان‌ها ارائه شده است.
بنابراین کاری که پیشنهاد می‌کنیم این است که وام‌گیری‌‌های واژگانی غیر همسان در newswire اسپانیا را شناسایی کنیم.
این امر بدان معنی است که ما علاقمند به استخراج کلمات وام گرفته شده از زبان‌های دیگری هستیم که در روزنامه‌های اسپانیایی استفاده می‌شوند، اما در زبان گیرنده ادغام یا جذب نشده‌اند.
یعنی هنوز در زبان اسپانیایی ادغام نشده‌اند.
در اینجا یک مثال داریم.
این یک جمله به زبان اسپانیایی است: Las prendas bestsellers se estampan con motivos florales, animal print o retales tipo patchwork.
همانطور که می بینید، سه بخش از متن وجود دارد که در واقع از کلمات انگلیسی مانند bestseller، animal print و patchwork در آن استفاده شده است.
اینها بخش‌هایی هستند که ما به استخراج و تشخیص آنها علاقه‌مند هستیم.
مقاله قبلی در مورد تشخیص انگلیسیسم بود که شامل یک مدل CRF برای تشخیص انگلیسیسم در Newswire اسپانیا است.
امتیاز F1 این مدل، هشتاد و شش شد.
اما محدودیت‌هایی هم در مجموعه داده و هم در رویکرد مدل‌سازی وجود داشت.
به اینصورت که مجموعه داده به طور انحصاری بر یک منبع که شامل اخبار بود متمرکز شده بود و فقط شامل تیتر مطالب می‌شد.
و همچنین در وام‌گیری‌هایی که در مجموعه آموزش و مجموعه آزمون استفاده شده بود همپوشانی وجود داشت.
این امر مانع از ارزیابی این موضوع شد که آیا رویکرد مدل سازی واقعاً می‌تواند به وام‌گیری‌های جدید تعمیم یابد یا خیر.
بنابراین هدف ما این است که برخی از این محدودیت‌ها را در این کار از بین ببریم.
بنابراین برای شروع، یک مجموعه داده جدید ایجاد کردیم.
هدف این بود که یک مجموعه داده جدید ایجاد شود که با وام‌گیری‌های واژگانی تفسیر شود و نیز مجموعه‌ای برای آزمون ایجاد شود که تا حد امکان دشوار باشد.
بنابراین حداقل همپوشانی در کلمات و موضوعات بین مجموعه آموزش و مجموعه آزمون وجود خواهد داشت.
و در نتیجه، مجموعه آزمون از منابع و داده‌هایی تولید می‌شود که ما در مجموعه آموزش آنها را نمی‌بینیم.
در اینجا می‌توانید ببینید که هیچ همپوشانی وجود ندارد.
همچنین، مجموعه آزمون از نظر واژگان وام‌گیری شده بسیار متراکم است.
از نظر عددی، اگر مجموعه آموزش شامل شش واژه وام‌گیری شده در هر هزار کلمه باشد، مجموعه آزمون شامل بیست واژه وام‌گیری شده در هر هزار کلمه خواهد بود.
مجموعه آزمون تا حد امکان حاوی واژگانی خواهد بود که جزء کلمات مجموعه آموزش نباشد.
در واقع، نود و دو درصد واژه‌های وام‌گیری شده موجود در مجموعه آزمون، OOV است (جزء کلمات مجموعه آموزش نیست).
یعنی مدل در حین فرآیند آموزش با این کلمات برخورد نکرده است.
و مجموعه متون اساساً شامل چند متن بود که از منابع مختلف در روزنامه‌های اسپانیایی استخراج شده بودند.
و بصورت دستی با استفاده از دو برچسب تفسیر شدند.
یکی از برچسب‌ها برای واژگان وام‌گیری شده انگلیسی بود که اکثر وام‌گیری‌های واژگانی در زبان اسپانیایی را تشکیل می‌دهد و برچسب دیگر برای واژگان وام‌گیری شده از دیگر زبان ها بود.
ما از قالب‌های CONLL و رمزگذاری BIO استفاده کردیم تا بتوانیم واژگان وام‌گیری شده تک کلمه‌ای مانند app یا واژگان وام‌گیری شده چند کلمه‌ای مانند machine learning را رمزگذاری کنیم.
چند مجموعه متون در دسترس بود.
همانطور که می‌بینید، تقریباً از سیصد و هفتاد هزار کلمه استفاده شد.
و در اینجا تعداد بخشهایی را که برچسب زبان انگلیسی دارند و بخشهایی را که برچسب سایر زبان‌ها را دارند، می‌بینید که تعداد آنها منحصر به فرد است.
و در اینجا چند نمونه از مجموعه داده‌ها نشان داده شده است.
به عنوان مثال همانطور که می‌بینید در نمونه اول، batch cooking را داریم که واژه وام‌گیری شده چند کلمه‌ای است.
و ما آن را با استفاده از رمزگذاری BIO تفسیر کردیم.
بنابراین از BIO برای کلمات اسپانیایی استفاده ‌شد، نه برای کلماتی که وام گرفته نشده بودند.
و در اینجا در مثال دوم، Benching و Crash را داریم که آنها نیز به عنوان کلمات وام گرفته شده از زبان انگلیسی برچسب زده شدند.
بنابراین، هنگامی که مجموعه داده را داشتیم، چندین مدل برای کار استخراج و تشخیص این واژگان وام‌گیری‌ شده مورد بررسی قرار دادیم.
اولین موردی که امتحان کردیم، مدل فیلد تصادفی شرطی بود.
این مدل در مقاله قبلی استفاده شده بود.
و ما از همان ویژگی‌های دست‌ساز مقاله استفاده کردیم.
همانطور که می‌بینید، اینها ویژگی‌ها هستند.
اینها ویژگی‌های دودویی (باینری) هستند که می‌گوید آیا کلمه یا لغت با حروف بزرگ است؟
آیا در عنوان است؟
آیا علامت نقل قول است؟
چیزهایی مانند آن، که از نوع ویژگی‌هایی است که در یک کار تشخیص نهاد نام‌گذاری شده انتظار می‌رود.
اینها نتایجی است که ما گرفتیم.
با استفاده از مدل CRF و با ویژگی‌های دست‌ساز، به امتیاز F1 پنجاه و پنج دست یافتیم.
که تفاوت بسیار زیادی با امتیاز F1 به دست آمده با همان مدل CRF دارد (هشتاد و شش)، که ویژگی‌های یکسانی دارد اما در مجموعه داده متفاوت برای تشخیص واژگان وام گرفته‌شده اسپانیایی بود.
بنابراین، ثابت می‌کند که مجموعه داده‌ای که ما ایجاد کردیم دشوارتر است و لازم است مدل‌های پیچیده‌تری برای این کار ایجاد شود.
بنابراین، ما دو مدل مبتنی بر مبدل را آزمایش کردیم.
ما از BETO که یک مدل BERT تک زبانه آموزش دیده برای زبان اسپانیایی است و نیز BERT چند زبانه استفاده کردیم.
هر دو مدل را از طریق کتابخانه مبدل‌ها توسط HuggingFace استفاده کردیم.
اینها نتایجی است که ما گرفتیم.
همانطور که می‌بینید، BERT چند زبانه هم در مجموعه توسعه‌ای و هم در مجموعه آزمون از نظر تمام معیار‌ها بهتر از BETO عمل می‌کند.
فقط برای اینکه ایده‌ای برای مقایسه داشته باشیم، مدل CRF امتیاز هشتاد و دو را به دست آورد.
مدل CRF امتیاز F1 پنجاه و پنج را به دست آورد، در حالی که BERT چند زبانه امتیاز هشتاد و دو را به دست آورد که تفاوت زیادی دارد.
بنابراین، هنگامی که نتایج را دیدیم، از خود سوال دیگری پرسیدیم که آیا می‌توانیم یک مدل BiLSTM-CRF پیدا کنیم و آن را با انواع مختلف جاسازی‌ها تغذیه کنیم، جاسازی‌هایی که کدگذاری متفاوتی بر روی انواع اطلاعات زبانی داشته و عملکرد بهتری نسبت به نتایج به دست آمده توسط مدل‌های مبتنی بر مبدل داشته باشند؟
بنابراین برای انجام این کار، چند آزمایش اولیه انجام دادیم، این کار را با مدل BiLSTM-CRF با استفاده از کتابخانه شراره اجرا کردیم.
سعی کردیم با انواع مختلفی از جاسازی‌ها مانند مبدل و همچنین متن سریع، جاسازی‌ کاراکتر و غیره آزمایش کنیم.
چیزی که متوجه شدیم این بود که جاسازی‌های مبتنی بر مبدل بهتر از جاسازی‌های غیر متنی عمل می‌کردند، و ترکیب جاسازی‌های BERT انگلیسی و BETO اسپانیایی عملکرد بهتری نسبت به جاسازی‌های BeRT چند زبانه داشتند.
و F1 مربوط به جاسازی‌ BPE بیشتر بوده و جاسازی‌ کاراکترها فراخوان بهتری ایجاد می‌کند.
با در نظر گرفتن این موضوع، اینها بهترین نتایجی بود که به دست آوردیم.
هر دو مدل از نوع BiLSTM-CRF بودند که از شراره استفاده می‌کردند.
یکی با BETO و جاسازی‌ BERT و BPE تغذیه می‌شد، و دیگری با BETO و جاسازی‌ BERT و BPE و همچنین جاسازی‌ کاراکتر تغذیه می‌شد.
مورد آخر بالاترین امتیاز F1 را در مجموعه آزمایشی ایجاد کرد، اگرچه بالاترین امتیاز در مجموعه توسعه توسط مدلی بود که بدون جاسازی‌ کاراکتر به دست آمد.
فقط باید به خاطر داشته باشید که بهترین نتیجه را با BERT چند زبانه به دست آوردیم، امتیاز F1 آن در مجموعه توسعه هفتاد و شش و در مجموعه آزمون هشتاد و دو بود.
بنابراین در مقایسه با آن نتایج، پیشرفت حاصل شده است.
در نهایت، از خود سوال دیگری پرسیدیم که آیا می‌توان تشخیص وام‌گیری واژگانی را به عنوان آموزش انتقال از شناسایی زبان در کدگزینی قرار داد؟
برای این کار همان مدل BiLSTM-CRF را اجرا می‌کنیم که با استفاده از شراره اجرا کرده بودیم، اما به جای استفاده از این BETO و جاسازی‌های BERT مبتنی بر مبدل ناسازگار، از جاسازی کدگزینی استفاده کردیم.
جاسازی کدگزینی چیست؟
باید گفت اینها جاسازی‌های مبتنی بر مبدل هستند که به‌خوبی تنظیم شده‌ و برای شناسایی زبان در بخش اسپانیایی انگلیسی مجموعه داده کدگزینی LinCE، از پیش آموزش‌دیده‌اند.
LinCE یک مجموعه داده در کدگزینی است که دارای بخشی در کدگزینی اسپانیایی انگلیسی، اسپانیایی انگلیسی است.
بنابراین ما BiLSTM-CRF خود را با جاسازی‌های کدگزینی و به صورت اختیاری با جاسازی‌های کاراکتر، جاسازی‌های BPE و غیره تغذیه کردیم.
بهترین نتیجه‌ای که به دست آوردیم هشتاد و چهار ممیز بیست و دو بود که بالاترین امتیاز در تمام مدل هایی است که در مجموعه آزمون امتحان کردیم.
بهترین نتیجه F1 که در مجموعه توسعه به دست آوردیم هفتاد و نه بود که کمتر از بهترین نتیجه به دست آمده توسط BiLSTM-CRF بود که با جاسازی‌های تطبیق‌نشده تغذیه می‌شد.
برخی از نتایج کار ما:
ما یک مجموعه داده جدید از newswire اسپانیایی تولید کرده‌ایم که با وام‌گیری‌های واژگانی غیرهمسان‌سازی شده تفسیر شده است.
این مجموعه داده نسبت به منابع قبلی، لغات وام‌گیری شده بیشتری داشته و کلمات خارج از مجموعه لغات غنی‌تری دارد.
ما چهار نوع مدل را برای تشخیص وام گیری واژگانی بررسی کردیم.
ام. از نظر تجزیه و تحلیلخطا خوب بود، اما نقطه ضعف همه مدل‌ها، فراخوانی بود.
همانطور که در اینجا می‌بینید، برخی از منفی‌های نادرست مکرر شامل واژگان وام‌گیری شده با حروف بزرگ و کلماتی است که به عنوان مثال هم در انگلیسی و هم در اسپانیایی وجود دارد.
همچنین به نظر می‌رسد جاسازی‌ BPE امتیاز F1 را بهبود می‌بخشد.
و به نظر می‌رسد که جاسازی کاراکتر، فراخوان را بهبود می‌بخشد.
که یک یافته جالب است و شاید بتوانیم در مقالات آینده آن را بررسی کنیم.
ام. خوب، این تمام مطالبی بود که داشتم.
خیلی ممنون که گوش دادید.
اسم من آنتوان است.
من دانشجوی دکترای دانشگاه ماساچوست آمهرست هستم.
قصد دارم مقاله KinyaBERT خود را ارائه دهم: یک مدل برای زبان رواندایی با توجه به مورفولوژی (تکواژشناسی یا علم صرف کلمات).
امروز، در مورد انگیزه این تحقیق صحبت خواهم کرد.
سپس معماری مدل KinyaBERT را با جزئیات ارائه خواهم کرد.
در ادامه در مورد نتایج تجربی خود صحبت می‌کنم، و در انتها با چند نتیجه‌گیری ارائه خود را به پایان می‌رسانم.
همه ما می‌دانیم که پیشرفت‌های اخیر در پردازش زبان طبیعی با استفاده از مدل‌های زبان از پیش آموزش دیده مانند BERT امکان‌پذیر شده است.
با این حال، هنوز محدودیت‌هایی در این زمینه وجود دارد.
با توجه به مورفولوژی پیچیده‌ای که توسط اکثر زبان‌های غنی از لحاظ مورفولوژی بیان می‌شود، الگوریتم پرکاربرد رمزگذاری جفت بایت کلمه‌سازکه من استفاده کردم نمی‌تواند واحدهای واژگانی زیرکلمه دقیق را استخراج کند که برای بازنمایی مؤثر مورد نیاز هستند.
به عنوان مثال، در اینجا ما سه کلمه رواندایی داریم که چندین واژک در آنها وجود دارد، اما الگوریتم‌های BPE نمی‌توانند آنها را استخراج کنند.
این امر به این دلیل است که برخی از قوانین مورفولوژیکی شکل‌های سطحی مختلفی تولید می‌کنند که اطلاعات واژگانی دقیق را پنهان کرده و BPE که صرفاً بر اساس فرم‌های سطحی است، به این مدل واژگانی دسترسی ندارد.
چالش دوم این است که حتی اگر کسی به آنالیزگر مورفولوژیکی اوراکل دسترسی داشته باشد، جایگزین کردن لغات BPE با واژک برای بیان مورفولوژی ترکیب کافی نیست.
سومین شکاف در تحقیق این است که مدل‌های جدید زبان از پیش آموزش دیده اغلب بر روی زبان‌هایی ارزیابی می‌شوند که منابع زیادی دارند.
و ما باید کاربرد آنها را در زبان‌های با منابع کم و متنوع نیز ارزیابی کنیم.
بنابراین، KinyaBERT را ارائه می‌دهیم، که اقتباسی ساده اما کارامد از معماری BERT بوده و به‌منظور مدیریت مؤثرتر زبان‌های غنی از نظر مورفولوژیکی است.
ما KinyaBERT را در زبان رواندایی ارزیابی می کنیم، که زبانی است با منابع کم اما از نظر مورفولوژی یک زبان غنی است، و زبان بیش از دوازده میلیون نفر در سراسر آفریقای شرقی و مرکزی است که به آن تکلم می‌کنند.
ورودی به مدل، یک جمله یا یک سند است.
به عنوان مثال در اینجا، ما «John twarahamubonye biradutangaza» را داریم، به معنی اینکه «از دیدن جان در آنجا شگفت‌زده شدیم».
همانطور که می‌بینید، کلمات رواندایی حاوی چندین واژک هستند که اطلاعات متفاوتی در آنهاست.
بنابراین، در مدل خود، این جمله یا یک سند را به تحلیل‌گر مورفولوژی منتقل می‌کنیم.
سپس تحلیل‌گر واژک‌های موجود در هر یک از کلمات را ایجاد می‌کند.
واژک‌ها معمولاً از یک ریشه تشکیل شده و ممکن است شامل پسوند یا بدون پسوند باشند.
پسوندها ممکن است زمان، نمود، فاعل یا مفعول بودن را در افعال نشان دهند، و برای فاعل و مفعول، اغلب به دسته اسم زبان بانتو مربوط می‌شوند.
تحلیل‌گر مورفولوژیکی همچنین بخشی از برچسب گفتار را برای هر یک از کلمات تولید می‌کند.
پس از این مرحله، جاسازی برای spee- به عنوان بخشی از برچسب گفتار را انجام می‌دهیم.
جاسازی برای پسوندها.
و جاسازی برای ریشه کلمه.
اینها سطوح مورفولوژی هستند، اینها جاسازی سطح مورفولوژی هستند.
سپس این جاسازی‌ها را از میان یک رمزگذار مورفولوژی عبور می‌دهیم، که یک رمزگذار مبدل کوچک است که برای هر کلمه به‌طور مستقل اعمال می‌شود.
خروجی شامل بردارهایی است که با اطلاعات مورفولوژیکی در هر کلمه، بافت آن مشخص می‌شود.
اکنون، ما ترکیب‌بندی را در جایی انجام می‌دهیم که جاسازی مورفولوژیکی مطابق با بخشی از گفتار و ریشه است که به هم پیوسته باشند.
در ادامه آنها را با یک جاسازی ریشه دیگر در سطح جمله الحاق می‌کنیم.
سپس یک ورودی برای رمزگذار جمله اصلی یا سند تشکیل می‌دهیم.
خروجی نهایی، جاسازی وابسته با بافت است که می‌تواند برای کارهای NLP در پایین‌دست استفاده شود.
برای یک تحلیل‌گر مورفولوژیکی، ما از اصول مورفولوژی دو سطحی با حالت محدود همراه با پیاده‌سازی سفارشی استفاده می‌کنیم که برای زبان رواندایی طراحی شده است.
مورفولوژی همه کلمات رواندایی، از جمله فعل، اسم، ضمیر اشاره و ضمایر مالکیت، اعداد و غیره را با کارایی خوب مدل‌سازی می‌کنیم.
ما از بخش الگوریتم برچسب گذاری گفتار که بدون نظارت است استفاده می‌کنیم.
یک مدل فاکتوری مرتبه اول برای محاسبه احتمال مورفولوژی استفاده می‌شود، که اساساً احتمالی است که توسط تحلیل‌گر مورفولوژیکی اختصاص داده می‌شود.
ما همچنین بخشی از اولویت برچسب گفتار و همچنین توافقات نحوی را که در ورودی کلمات وجود دارد، در نظر می‌گیریم.
بخشی از برچسب گفتار از یک bidi دو جهته استنتاج استفاده می‌کند که از طریق الگوریتم پرکاربرد Viterbi برای رمزگشایی، عملکرد آن بهتر می‌شود.
چند نکته برای رمزگذاری موقعیتی.
اول، رمزگذار مورفولوژی از هیچ رمزگذاری موقعیتی استفاده نمی‌کند.
این امر به این دلیل است که هر یک از واژک‌ها یک شکاف مشخص در مدل مورفولوژیکی را اشغال می‌کنند.
بنابراین، اطلاعات موقعیت، در زمانی که واژک‌ها داده شوند بصورت ذاتی هستند.
دوم، رمزگذار جمله از جاسازی‌های اصطلاحاً نسبی غیر متصل استفاده می‌کند که اخیراً در کنفرانس ICLR منتشر شده است.
این جاسازی‌های موقعیتی اساساً همبستگی موقعیتی را از محاسبات کلمه‌ای به محاسبات با توجه به کلمه جدا می‌کند.
مشابه با BERT، ما از یک هدف پیش‌آموزشی با مدل زبان نقاب‌دار استفاده می‌کنیم.
اساساً ما باید هم ریشه و هم پسوندهایی را که با واژه‌ها مرتبط هستند پیش‌بینی کنیم.
در طی زمان پیش‌آموزش، پانزده درصد از کل کلمات برای پیش‌بینی در نظر گرفته می‌شود، که هشتاد درصد آن پوشانده شده، ده درصد با کلمات تصادفی تعویض می‌شوند و ده درصد بدون تغییر باقی می‌مانند.
برای پیش‌بینی پسوند، با  مشکل طبقه‌بندی چند برچسبی روبرو هستیم.
برای حل این مشکل، یا پسوندها را در یک چند مجموعه مشخص گروه‌بندی می کنیم و مجموعه را به عنوان یک برچسب کلاس پیش‌بینی می‌کنیم.
یا به عنوان گزینه دیگر، بردار احتمال پسوند را پیش‌بینی می‌کنیم.
ما هر دوی این رویکردها را در آزمایش‌های خود ارزیابی می‌کنیم.
ما KinyaBERT را روی حدود دو و نیم گیگابایت متن رواندایی از قبل آموزش می‌دهیم و آن را با سه مدل پایه مقایسه می‌کنیم.
یکی از آنها مدل چند زبانه به نام XLM-R است که بر روی یک متن طولانی که از چندین زبان ساخته شده آموزش داده شده است.
دو مدل دیگر بر روی یک متن رواندایی با استفاده از الگوریتم رمزگذاری جفت بایت یا با استفاده از تحلیل مورفولوژیکی بدون استفاده از معماری دو ردیفه رمزگذار مبدل آموزش داده می‌شوند.
همه مدل‌ها در معماری پایه پیکربندی شده‌اند که بین صد تا صد و ده میلیون پارامتر است، و در زبان رواندایی با KinyaBERT از کمترین تعداد پارامترها استفاده می‌کند.
همه مدل‌ها به جز مدل چند زبانه برای سی و دو هزار به‌روزرسانی شیب‌دار با اندازه دسته‌ای دو هزار و پانصد و شصت توالی در هر دسته از پیش آموزش‌دیده شده‌اند.
ما مدل‌های از قبل آموزش‌دیده‌شده را در سه مجموعه از کارها ارزیابی می‌کنیم.
یکی معیار GLUE است که اغلب برای ارزیابی اثربخشی مدل‌های زبان از قبل آموزش داده شده استفاده می‌شود.
ما داده معیار GLUE خود را با ترجمه داده اصلی معیار به زبان رواندایی با استفاده از Google Translate به دست می‌آوریم.
دومین کار، معیار تشخیص نهاد نامگذاری شده رواندایی است، که یک مجموعه داده با کیفیت بالا است که توسط سخنرانان بومی آموزش دیده تفسیر شده است.
مورد سوم یک کار طبقه‌بندی اخبار است که در آن مقالات خبری را از چندین وب‌سایت استخراج کرده و برچسب‌های دسته‌بندی آنها را که توسط نویسندگان اختصاص داده شده جمع‌آوری می‌کنیم و سپس سعی می‌کنیم همان دسته‌ها را پیش‌بینی کنیم.
و حالا به سراغ نتایج می‌رویم.
برای معیار GLUE، متوجه می‌شویم که KinyaBERT از مدل‌های پایه بهتر عمل می‌کند.
در اینجا میانگین عملکرد برای ده اجرا با تنظیم دقیق را نشان می‌دهیم.
همچنین ترجمه‌های تولید شده توسط Google Translate را توسط کاربران ارزیابی می‌کنیم.
کاربران حدود شش هزار مثال را رتبه‌بندی کردند و امتیازهایی را در مقیاس یک تا چهار، برای ارزیابی کیفیت ترجمه‌ها اختصاص دادند.
نتیجه این است که بسیاری از ترجمه‌ها دارای نویز بودند.
اما، همه مدل‌ها مجبور بودند با همان نویز ترجمه کنار بیایند، و عملکرد نسبی بین مدل‌ها هنوز مهم است.
برای کار تشخیص موجودیت نامگذاری شده، دریافتیم که KinyaBERT بهترین عملکرد را دارد و از نظر متغیر رگرسیون توزیع پسوند بهترین عملکرد را دارد.
این نتایج شامل میانگین ده اجرا با تنظیم دقیق هستند.
برای کار طبقه‌بندی اخبار، نتایج متفاوتی را مشاهده کردیم.
مقاله قبلی روی طبقه بندی متن برای زبان رواندایی بود که دریافته بودند تشخیص کلمه کلیدی ساده اغلب برای انجام این کار خاص، کافی است.
بنابراین، استفاده از مدل‌های زبان از پیش آموزش داده شده مناسب نیست.
در مورد کار خاص طبقه‌بندی اخبار.
ما همچنین یک مطالعه عضوبرداری انجام دادیم تا ببینیم آیا ساختارهای جایگزینی وجود دارد که عملکرد را بهبود ببخشد یا خیر.
برای معیار GLUE، متوجه می‌شویم که استفاده از مجموعه‌های پسوند باعث می‌شود به طور مداوم عملکرد بهتر شود، در حالی که رگرسیون احتمال پسوند، بهترین عملکرد را در تشخیص نهاد نام‌گذاری شده دارد.
همچنین با توجه به امتیازات پایین برای تنظیم دقیق، متوجه می‌شویم که KinyaBERT در اکثر موارد همگرایی بهتری دارد.
بنابراین نتیجه می‌گیریم، این کار اثربخشی صریح استفاده از اطلاعات مورفولوژیکی در مدل‌های زبان از پیش آموزش داده شده را نشان می‌دهد.
معماری رمزگذار مبدل دو سطحی پیشنهادی، امکان در نظر گرفتن پیچیدگی مورفولوژیکی و ترکیب‌پذیری مورفولوژیکی را فراهم می‌کند، که یک جنبه مهم در زبان‌های غنی از نظر مورفولوژیکی است.
این یافته‌ها می‌تواند انگیزه تحقیقات بیشتر در زمینه مدل‌های زبان از پیش آموزش‌دیده با توجه به مورفولوژی باشد.
سلام، نام من Michał Pietruszka است و خوشحالم که مقاله‌ای با عنوان «تنک کردن مدل‌های مبدل با منبع معرف قابل آموزش» را به شما ارائه می‌کنم.
این مقاله در Applica AI با همکاری Lukasz Borchmann و Lukasz Garncarek انجام شده است.
اجازه دهید مسائلی را که در این مقاله به آنها پرداخته شده معرفی کنم.
روش ما برای مواردی که ورودی‌های طولانی دارند، به خوبی کار می‌کند.
این مدل به طور کلی، برای دستورات وظیفه و ورودی بیش از دو هزار کلمه در نظر گرفته شده است و اهداف، کوتاه‌تر از ورودی‌های ارائه‌شده هستند.
این روش در NLP کاربردهای خاصی دارد.
به عنوان مثال، این مدل را می‌توان برای یک سند طولانی بکار برد که نیاز به خلاصه کردن، طبقه بندی، پاسخ به سوال در مورد آن، استخراج اطلاعات یا برخی عبارات کلیدی دارد.
اجازه دهید مبدل وانیلی و مسئله پیچیدگی توجه آن را که به مربع خط ورودی بستگی دارد، یادآوری کنم.
در مبدل وانیلی، با اتصال کامل توجه، روابط هر کلمه با کلمه دیگر باید محاسبه شود.
پیچیدگی محاسباتی توجه، به تعداد لایه‌های l، طول دنباله n، طول دنباله دیگر، و ابعاد معرف‌ها بستگی دارد.
به طور مشابه، در توجه متقاطع رمزگشا، در این تصویر در سمت راست، تنها تفاوت در اینجا این است که کلمات هدف در این مورد به کلمات ورودی توجه می‌کنند.
که در این فرمول نیز قابل مشاهده است.
امتیاز BLEU نشان دهنده روابط است که باید محاسبه شود.
در حالت توجه کامل، باید همه روابط را درتوالی ورودی محاسبه کنیم.
اکنون، می‌بینیم که وقتی یک رمزگذار بلوکی داریم که با محدود کردن اتصال کلمات کار می‌کند تا آنها فقط بتوانند سایر کلمات نزدیک را ببینند چه اتفاقی می‌افتد.
متن به صورت تکه‌هایی خوانده می‌شود که می‌تواند تعداد محاسبات را در سمت رمزگذار به شدت کاهش دهد، اما توجه متقاطع رمزگشا را بهبود نمی‌بخشد زیرا هر کلمه ورودی به رمزگشا ارسال می‌شود.
این روش اغلب با عنوان ادغام در رمزگشا شناخته می‌شود.
بهبود در اینجا را می‌توان به عنوان تغییر یکی از وابستگی‌های n به m ثابت دیگر تفسیر کرد که نشان‌دهنده اندازه بلوک است.
مشاهدات کلیدی ما این است که بیشتر کلمات برای تعداد زیادی از کارها نامربوط هستند و تقریباً می‌توان آنها را کاملاً نادیده گرفت. این موضوع در اسلاید با مثال نشان داده شده است.
تنها بخش‌های ورودی به خروجی مورد نظر مربوط می‌شود.
برای مثال
یک نفر می‌تواند یک‌بار مقاله‌ای را بخواند که مهم‌ترین قسمت‌ها را با هایلایت مشخص می‌کند، و سپس خلاصه‌ای از مقاله را بر اساس این بخش از مرحله میانی تهیه می‌کند.
هزینه هایلایت و تصمیم‌گیری در مورد اینکه آیا کلمه فعلی برای تولید خلاصه ضروری است یا نه، زیاد نیست و فقط به معرف کلمه بستگی دارد.
ادغام کلمات هایلایت شده امکان‌پذیر است.
به لطف اپراتور k برتر ما این کار قابل انجام و هزینه آن ناچیز است.
هزینه تولید خلاصه از یک ورودی کوتاه شده نیز بسیار کمتر از مدل وانیلی است که کل ورودی را در نظر می‌گیرد.
اما اینجا یک سوال مطرح می‌شود.
چگونه می‌توان کلمات مهم را انتخاب و شیب‌های پس‌انتشار را به کلمات انتخاب  شده مربوط کرد؟
مسأله اساسی که ما حل می‌کنیم، پیشنهاد مکانیسم انتخاب قابل آموزش است.
می‌توان اجازه داد برای شیب در طول آموزش پس‌انتشار انجام شود تا شبکه بتواند مهمترین کلمات را انتخاب کند.
بصورت دقیق‌تر
با توجه به برخی از زیرخط‌های جاسازی‌ که از یک لایه ساده خطی به دست می‌آیند، کار ما این است که بالاترین امتیاز جاسازی‌ها را در خروجی داشته باشیم. ابتدا دنباله جايگزين می‌شود و جفت‌ها تهيه می‌شوند تا بردار با امتياز بالاتر با بردار كمتر گرفته شود.
در مرحله بعد، وزن‌ها با استفاده از softmax تقویت شده نسبت به نمرات محاسبه می‌شوند.
پس از هر دور، بردارها و امتیازات جدید به عنوان ترکیبی خطی از جفت‌ها با وزن به دست آمده تشکیل می‌شود.
بنابراین به طور خلاصه، ما بردارها را به صورت خطی با انجام یک softmax روی امتیاز آنها ترکیب می‌کنیم.
در حین ترکیب دو کلمه، مقداری نویز تولید می‌شود.
اما باز هم اجازه می‌دهد تا گرادیان‌ها به همه جاسازی‌های ورودی منتشر شوند.
به طور خلاصه، یک k قابل آموزش پیشنهاد می‌کنیم که مبتنی بر اجرای مسابقاتی مانند انتخاب نرم در هر مرحله است.
و از دیدگاهی متفاوت، ادغام بازنمایی از لایه رمزگذار پیروی می‌کند.
ابتدا به هر معرف امتیازی داده می‌شود و سپس تنها فقط مواردی که بالاترین امتیاز را دارند به لایه بعدی منتقل می‌شوند.
رمزگذاری را می‌توان مانند معماری استاندارد مبدل در ورودی با طول کامل انجام داد.
با این حال، پردازش متن در بلوک‌هایی با طول ثابت و انتخاب سراسری بهترین نمایش ممکن است.
در اینجا نمونه‌ای از ترکیب معرف وارد شده پس از رمزگذار ارائه شده است.
این کار به طور مستقیم بر علت توجه متقاطع تأثیر می‌گذارد، که نه تنها به طول ورودی N، بلکه به ثابت K که نشان دهنده طول ترکیب است، بستگی دارد.
این ثابت نشان می‌دهد که چند معرف انتخاب شده و به رمزگشا ارسال می‌شود.
تولید خلاصه از یک متن کوتاهتر به طور قابل توجهی کم هزینه‌تر از راه‌حل قبلی است.
همانطور که طول دنباله را می‌توان با یک فاکتور بزرگ کوتاه کرد.
برای مثال، ما با موفقیت از k در آزمایشات خود استفاده کردیم که شانزده یا حتی شصت یا حتی شصت و چهار برابر کوچکتر از مقدار n است.
لطفاً توجه داشته باشید که تأثیر مفید رمزگذاری بلوکی و توجه پایدار است.
به یاد داشته باشید که هزینه محاسبات توجه به مجذور طول ورودی بستگی دارد.
کاهش زودتر ورودی در طول فرآیند رمزگذاری می‌تواند هزینه‌ها را به میزان قابل توجهی کاهش دهد.
برای مدل هرم، اندازه معرف در خروجی هر یک از لایه‌های انتخابی را کاهش دادیم، که منجر به کاهش نمایی هزینه محاسبات در زمان رمزگذاری شد.
همانطور که می بینید، کل هزینه محاسبات یک رمزگذار کامل در اینجا کمتر از دو برابر هزینه لایه اول با اندازه کامل است.
هنگامی که ادغام زودتر وارد می‌شود، مجموع تمام مربع‌های بنفش به یک عدد ثابت محدود می‌شود و به تعداد لایه‌های l وابسته نیست.
اما به ثابت c بستگی دارد که می‌تواند تحت تاثیر لایه‌های ادغام در شبکه قرار گیرد.
بهبود‌های صورت گرفته توسط ما در مدل بر اساس ورودی‌های طولانی شامل هشت هزار کلمه محک زده شد.
و شکل نشان می‌دهد که وقتی از ادغام استفاده می‌شود، بهترین مقیاس‌پذیری برای عمق شبکه به دست می‌آید.
در اینجا می توان توجه داشت که برای ورودی‌های طولانی، آموزش هرم بیست و چهار لایه می‌تواند کم هزینه‌تر از آموزش یک مبدل وانیلی دو لایه باشد.
ناگفته نماند که مبدل وانیلی می‌تواند برای چنین ورودی طولانی منجر به سرریز حافظه شود.
مقایسه کیفی هرم روند ما با سایر مدل‌های پایه در کار خلاصه نمودن سند طولانی انجام گرفت، یا با توجه به متن مقاله از arXiv یا PubMed، کار تولید چکیده انجام شد.
بنابراین، می‌توان مشاهده کرد که مدل بلوکی که مدل پایه ما است، در رده‌ی مدل‌های پیشرفته اخیر کارآیی دارد، در حالی که هرم عملکرد این مدل پایه رقابتی را حفظ یا بهبود می‌بخشد.
در عین حال، مدل ما از نظر آموزش هشتاد درصد سریعتر و در مقایسه با مدل پایه بلوکی، از نظر استنتاج  بیش از چهارصد و پنجاه درصد سریعتر است.
هر دو مدل تعداد پارامتر بسیار کمتری دارند و از ابتدا در وظایف انتخاب شده آموزش دیده‌اند.
رویکردهای قبلی برای دستیابی به عملکرد مشابه باید از پارامترهای بیشتر و مدل‌های پایه پیش‌آموزش دیده‌ استفاده کنند و هدف پیش‌آموزش زبانی اضافی برای دستیابی به عملکرد مشابه نیاز دارند.
از شما دعوت می‌کنیم مقاله ما را کامل بخوانید و از کد GitHub ما استفاده کنید.
ممنون که تماشا کردید.
سلام، من Jiawei Zhou از دانشگاه هاروارد هستم.
بسیار خوشحالم که مقاله خود را در مورد تجزیه معنایی آنلاین برای کاهش تأخیر در گفتگوی وظیفه محور ارائه کنم.
این مقاله بصورت مشترک با جیسون، مایکل، آنتونی و سم از Microsoft Semantic Machines تهیه شده است.
در گفتگوی وظیفهمحور، یک کاربر با یک سیستم تعامل دارد که درخواست‌های کاربر را که معمولاً بصورت گفتار است مورد رسیدگی قرار می‌دهد.
از زمان پایان سخن کاربر تا پاسخ سیستم، اغلب تأخیر قابل توجهی وجود دارد.
در داخل سیستم، گفته کاربر به یک برنامه اجرایی ترجمه می‌شود.
سپس برنامه اجرا می‌شود تا سیستم بتواند به درستی پاسخ دهد.
از آنجا که برنامه به عنوان یک گراف معنایی نشان داده می‌شود که محاسبات را مشخص می‌کند، لذا گره، یک فراخوانی تابع را نشان می‌دهد و آرگومان‌ها، فرزندان آن هستند.
گره‌های بزرگ، عملیات‌های آنی را مشخص می‌کنند، اما بقیه به کندی اجرا می‌شوند.
مثال ساده‌ای که در اینجا نشان می‌دهیم، این برنامه‌ها اغلب می‌توانند فراتر از ساختارهای درختی بصورت یک نمودار پیچیده باشند.
در این مقاله این سوال را می‌پرسیم، آیا می‌توانیم قبل از اینکه کاربر حتی سخن خود را تمام کند، تولید برنامه و اجرای آن را شروع کنیم تا پاسخ سریع‌تری توسط سیستم حاصل شود؟
این موضوع، پیش‌بینی آنلاین و تصمیم‌گیری در خصوص مسأله است.
در این حوزه مشکلات زیاد دیگری وجود دارد.
به عنوان مثال در ترجمه هم‌زمان که در آن یک مترجم زنده یک زبان را بلادرنگ به زبان دیگر ترجمه می‌کند، تکمیل خودکار متن بصورت هوشمند برای حدس زدن قصد کاربر، و Uber pool که بر اساس تقاضای پیش‌بینی شده، رانندگان به جایی فرستاده می‌شوند که ممکن است مورد نیاز باشد.
همه این سناریوها یک مورد مشترک دارند.
یعنی تصمیم‌گیری قبل از مشاهده کل ورودی که می‌تواند بسیار مفید باشد.
در مورد این مقاله، ما با تجزیه معنایی آنلاین سروکار داریم، که می‌توان انتظار داشت موضوعی چالش برانگیز باشد زیرا باید حدس بزنیم که کاربر ممکن است چه ‌بگوید.
و همچنین بدون هیچ معیار ارزیابی رسمی، مورد بررسی قرار بگیرد.
ابتدا، بیایید به نحوه عملکرد یک سیستم معمولی نگاه کنیم.
در اینجا، برنامه به صورت آفلاین فقط در انتهای گفتار کاربر، با تجزیه و تحلیل گفتار او، آن را به برنامه تبدیل می‌کند.
در اینجا گراف کاراکتر پس از دیدن کل اطلاعات پیش‌بینی می‌شود.
در مقابل، ما یک سیستم آنلاین را پیشنهاد می‌کنیم که در پیشوند هر گفتار به مقایسه می‌پردازد.
به عنوان مثال، هر بار که یک کلمه جدید می‌بینیم، یک گراف جدید را پیش‌بینی می‌کنیم.
توجه داشته باشید که ممکن است خطاهایی وجود داشته باشد.
در موقعیت مهمانی استخر با باراک اوباما، ما یک گراف با گره‌های درست روی شخص و موضوع رویداد دریافت کردیم، اما زمان‌بندی اطلاعات اشتباه حدس زده شد.
این روند تا زمانی ادامه می‌یابد که سخن کامل کاربر را دریافت کنیم.
این روش چگونه بر جدول زمانی اجرا در سیستم آفلاین تأثیر می‌گذارد؟
ما گراف برنامه را در پایان دریافت می‌کنیم تا سیستم بتواند در این مرحله اجرا را آغاز کند.
به یاد داشته باشید که گره‌های بزرگ عملیات سریعی هستند، بنابراین ما فقط جدول زمانی اجرای توابع کند رنگی را در نظر می‌گیریم.
ابتدا، این دو تابع پیدا کردن شخص را می‌توان به صورت موازی اجرا کرد، که در کادر صورتی با رنگ سفید مشخص شده است، زیرا آنها وابستگی به سایر توابع ندارند.
در مرحله بعد، رویداد ایجاد گره می‌تواند پس از به دست آوردن نتایج از گره‌های سطح پایین‌تر و سپس تابع بالا اجرا شود تا کل برنامه به پایان برسد.
فرآیند اجرا سخت است، به ساختار وابستگی برنامه محدود است که در آن بخشی از عملیات را نمی‌توان موازی کرد که باعث تأخیر قابل توجهی می‌شود.
در سیستم آنلاین ما، که پیش‌بینی در آنجا رخ می‌دهد، اجرای برنامه می‌تواند زودتر شروع شود.
در اینجا، در پیشوند پس از اوباما، با اطمینان پیش‌بینی می‌کنیم که تابع Find person باید در برنامه باشد، اما بقیه ممکن است حاوی خطاهایی باشند زیرا خاکستری هستند.
اجرای گره را می توان بلافاصله به عنوان یک مرحله شروع کرد.
سپس، با دریافت کلمات بیشتر، یک گراف کاملاً جدید را پیش‌بینی می‌کنیم، اما بخشی از آن قبلاً اجرا شده است.
بنابراین، باید بقیه گره‌ها را که به آنها اطمینان داریم نیز در نظر بگیریم.
در اینجا، می‌توان یافتن شخص دیگری را به صورت موازی اجرا کرد.
باز هم ممکن است پیش‌بینی اشتباهی داشته باشیم.
با دریافت متن بیشتر، توانایی بیشتری برای اجرای درست آن داریم.
مانند زمان رویداد در اینجا که AM نیز به درستی پیش‌بینی شده است.
سپس، می‌توانیم اجرای بقیه را از طریق ساختار وابستگی برنامه شروع کنیم.
با همپوشانی جدول زمانی اجرا با خط زمانی گفتار، به میزان زیادی در زمان صرفه‌جویی می‌کنیم.
در اینجا کار تجزیه معنایی آنلاین را پیشنهاد کردیم.
یک فرض اساسی این است که زمان اجرا بر زمان پیش‌بینی مدل ارجحیت دارد.
بنابراین با پیش‌بینی زودتر از موعد، می‌توانیم زمان را کوتاهتر کنیم.
فرض دیگر این است همانطور که پیش‌بینی و اجرا در پس‌زمینه اتفاق می‌افتد، لذا برای کاربران قابل مشاهده نیست.
نیازی به حفظ تاریخچه تجزیه ثابت نیست.
بنابراین، ما بعد از هر کلمه  از ابتدا بازنگری می‌کنیم.
به طور خاص، ما یک رویکرد دو مرحله‌ای پیشنهاد می‌کنیم.
در یک مرحله پیشنهادی، یک گراف را با ساختار کامل پیش‌بینی می‌کنیم و یک مرحله انتخابی داریم که گره‌ها را انتخاب می‌کند که در این زمان ارزش اجرا دارند.
ما دو نوع روش پیشنهادی داشتیم.
در رویکرد اول، تکمیل مدل زبان را با گفتار کامل تا تجزیه گراف ترکیب می‌کنیم.
به ویژه، پیشوند پس از اوباما ابتدا از طریق یک مدل زبان BART که بدقت تنظیم شده تکمیل می‌شود و سپس به یک برنامه با تجزیه کننده کامل آفلاین ترجمه می‌شود.
رویکرد دوم به طور مستقیم برنامه را از پیشوندهای گفتار کاربر پیش‌بینی می‌کند.
این کار با آموزش یک تجزیه کننده آنلاین برای ترجمه به گراف هدف از هر پیشوند به دست می‌آید.
این کار ساخت مدل را برای یادگیری پیش‌بینی درست تسهیل می‌کند.
اما چگونه این گراف‌ها را تولید کنیم؟
ما مسأله را با تولید نسخه سری گراف فرمول‌بندی می‌کنیم.
هر گره یا لبه با یک عمل نمایش داده می‌شود.
در اینجا، از اولین گره شروع می‌کنیم.
شماره زیر، شاخص مطلق را در تاریخچه اقدامات ثبت می‌کند.
سپس، گره دوم را داریم.
بعد، لبه بین آنها است.
این لبه شامل اشاره‌گر به شاخص گره قبلی و برچسب لبه است.
صفر در اینجا به معنای اتصال آخرین گره با گره تولید شده توسط صفر‌امین عمل و گره بعدی لبه بعدی است.
این فرآیند تا زمانی ادامه می‌یابد که گراف کامل را تولید کنیم.
مدل زیربنایی بر اساس مبدل است که همراه با مکانیزم خود اشاره‌گر مشابه با تجزیه کننده مبتنی بر انتقال قبلی است.
پس از تولید یک گراف کامل، احتمالات سطح عمل را به دست آوردیم که مربوط به بخش‌های مختلف گراف است.
ما زیرگراف‌های اطمینان را بر اساس آستانه اکتشافی برای اجرا انتخاب می‌کنیم.
بعداً، آستانه را برای دستیابی به توازن مناسب بین کاهش تأخیر و هزینه اجرا تغییر خواهیم داد.
برای ارزیابی رسمی روش‌های آنلاین، ما کاهش تأخیر نهایی یا معیار FLR را پیشنهاد می‌کنیم.
در اینجا خلاصه‌ای از نحوه تکمیل یک سیستم آفلاین که جدول زمانی را تکمیل می‌کند، مشاهده می‌کنید.
در سیستم‌های آنلاین، اجرا با خط زمانی گفتار همپوشانی دارد، بنابراین زودتر به پایان می‌رسد.
FLR به عنوان زمان کاهش در مقایسه با سیستم آفلاین تعریف می‌شود که با پایان اجرا مشخص می‌شود.
ما آزمایش‌هایی را روی دو مجموعه داده تجزیه معنایی مکالمه‌ای بزرگ یعنی SMCalFlow و TreeDST انجام دادیم.
تجزیه کننده مبتنی بر گراف ما هنگام کار آفلاین، عملکرد خوبی در تجزیه هر دو مجموعه داده دارد.
مدل کامل LM نیز در مقایسه با خط پایه ساده تکمیل گره، به بهره غیر بدیهی BLEU می رسد.
حال، بیایید دقت پیش‌بینی پیشوند در تجزیه‌گر گراف را بررسی کنیم.
ما امتیاز تطابق F1 چندتایی گراف بین ایجاد و گراف go را در اعتبارسنجی داده‌ها در محور y و طول پیشوند را در محور x که با درصد نشان داده شده است، آزمایش می‌کنیم.
هر یک از این منحنی‌ها نشان دهنده یک مدل متفاوت است که تنها تفاوت آنها در داده‌های آموزشی است.
منحنی پایینی تجزیه‌کننده آفلاین است، و ما پیشوند داده را در طول‌های مختلف مخلوط می‌کنیم تا مدل را به تجزیه‌گر آنلاین تبدیل کنیم.
به عنوان مثال، پیشوند اختصاری مثبت هشتاد درصد به این معنی است که مدل با داده پیشوند با طول پیشوند بزرگتر از هشتاد درصد طول کامل گفتار آموزش داده شده است.
گوشه سمت چپ بالا ناحیه مورد نظر است.
همانطور که می‌بینیم، تجزیه کننده آفلاین در منحنی سیاه در خصوص داده پیشوند به خوبی کار نمی‌کند.
همانطور که پیشوندهای بیشتری را در آموزش مخلوط می‌کنیم، منحنی به بالا و چپ حرکت می‌کند و در تمام طول‌های پیشوند بهتر عمل می‌کند.
با این حال، عملکرد تجزیه گفتار کامل در نقطه بالا سمت راست تحت تأثیر قرار نمی‌گیرد.
بر اساس این نتایج قوی، چقدر تاخیر را کاهش دادیم؟
ما زمان را با تعداد کلمات منبع اندازه‌گیری می‌کنیم و زمان‌های مختلف اجرای تابع را شبیه‌سازی می‌کنیم.
منحنی‌ها، توازن بین معیار FLR و هزینه اجرا را نشان می‌دهند که با تعداد هزینه‌های تابع بیش از حد که صحیح نیستند، اندازه گیری می‌شود.
این کار با تغییر آستانه انتخاب زیرگراف انجام می‌شود.
اگر آستانه بالاتر باشد، توابع با اشتباه کمتری را انتخاب می‌کند، اما FLR کوچک‌تری به‌دست می‌آید، در حالی که آستانه پایین‌تر، برنامه‌ها را با شدت بیشتری انتخاب و اجرا می‌کند.
ما دو رویکردی را که پیشنهاد کردیم با مدل پایه‌ای مقایسه می‌کنیم که هیچ کاری جز اعمال مستقیم تجزیه‌کننده آفلاین برای استفاده آنلاین ندارد.
منطقه سمت چپ بالا بهترین منطقه از نظر توازن بین FLR و هزینه است.
می‌بینیم که هر دو روش ما با حاشیه بزرگی مدل پایه را شکست می‌دهند، و در TreeDST عملکرد مشابهی دارند.
در حالی که اجرای عملکرد بصورت منفرد سریعتر است، در عین حال اجرای بیشتر و کاهش تاخیر نیز وجود دارد.
هنگامی که اجرای عملکرد بصورت منفرد کندتر است، فضای بیشتری برای بهبود FLR وجود دارد.
دو رویکرد ما عملکرد بهتری را در مناطق مختلف از نظر هزینه دارند.
به طور کلی، بسته به زمان اجرا و هزینه مجاز، سی تا شصت و سه درصد کاهش تاخیر نسبی حاصل می‌شود.
در نهایت، زمانی که هزینه مجاز، معادل سه اجرا باشد، تفکیک کاهش تأخیر متوسط در کلمات را برای هر نوع گره تابع داریم.
همانطور که می‌بینیم، دستاوردهایی در کل سیستم حاصل می‌شود.
همچنین توابعی وجود دارند که در آنها کاهش تأخیر چشمگیر است، جایی که نوار قرمز بسیار طولانی‌تر است، مانند یافتن مدیر و گیرنده.
اینها توابع سطح پایینی هستند که وابستگی زیادی به بقیه ندارند.
در نتیجه، تجزیه معنایی آنلاین را به عنوان کار جدیدی برای بررسی معیار دقیق کاهش تأخیر پیشنهاد کردیم.
با یک تجزیه‌کننده معنایی قوی مبتنی بر گراف، به کاهش تأخیر نسبتاً خوبی می‌رسیم که این کار از طریق رویکرد خط لوله با تکمیل LM و یک تجزیه‌گر کامل یا مستقیماً از طریق یک تجزیه‌گر آموزش داده شده روی پیشوندها عمل می‌کند.
به‌علاوه، رویکرد ما می‌تواند یک چارچوب کلی باشد و می‌تواند برای دیگر معرف‌های معنایی اجرایی در حوزه‌های مختلف اعمال شود.
در مقالات بعدی می‌توان روش پیش‌بینی هوشمندانه‌تر و یکپارچه‌سازی اجرا را بررسی کرد.
ممنون از اینکه گوش دادید.
سلام.
من قصد دارم در مورد مقاله خود در مورد تولید ضدواقعیت برای کار پاسخ به سؤال صحبت کنم.
این کاری است که در طول دوره کارآموزی‌ام در  Google Research انجام دادم که در آنجا Matthew Lamm و Ian Tenney راهنمای من بودند.
برای ایجاد انگیزه در مورد موضوع، اجازه دهید بحث را با تعریف ضدواقعیت شروع کنم.
در این مقاله، ما ضدواقعیت را به‌عنوان به هم زدن متن ورودی تعریف می‌کنیم که بر اساس روش‌های کنترل‌شده معناداری با متن اصلی متفاوت است.
و به ما اجازه می‌دهد تا در مورد تغییرات در نتیجه یا برچسب وظیفه استدلال کنیم.
به عنوان مثال، تغییر کلمات جذاب برای فریبنده یا مورد انتظار برای کسل کننده، احساس برای نقد فیلم را تغییر می‌دهد.
به همین ترتیب، افزودن تعیین واجد شرایط بودن زنان برای سوال، پاسخ را به سوال در مثال زیر تغییر می‌دهد.
انسان‌ها در مقایسه با مدل‌های NLP آموزش دیده در وظیفه معمولاً در برابر چنین به هم زدن‌هایی مقاوم هستند.
چرا اینطور است؟
مجموعه داده ممکن است با سوگیری‌های سیستماتیک که منجر به یک مرز تصمیم‌گیری ساده می‌شود و توسط ضدحقیقت نقض می‌شود، نمونه‌برداری شود.
همانطور که در این مسأله طبقه بندی 2 بعدی نشان داده شده است.
در این مقاله نشان داده شده که افزودن مثال‌های ضدحقیقت به داده‌های آموزشی می‌تواند مدل را در برابر چنین به هم زدن‌هایی قوی کند.
بنابراین، اگر ضدحقیقت‌ها ارزشمند هستند، چگونه می‌توانیم آنها را تولید کنیم؟
این وظیفه مخصوصاً برای NLP سخت است زیرا در اینجا سه نمونه از سه وظیفه مختلف NLP آورده شده است.
همانطور که می‌بینید، نمونه هایی که مرز تصمیم‌گیری بین نتایج را نقض می‌کنند، باید با برهم زدن برخی ویژگی‌های متن که در اینجا زیر آنها خط کشیده شده است، با دقت بسیار ساخته شوند.
این کار می‌تواند توسط تفسیر انسانی انجام شود، اما این کار پرهزینه است و موجب سوگیری می‌شود.
برخی از کارهای قبلی بر استفاده از درخت‌های  نحوی یا برچسب‌گذاری نقش معنایی متمرکز شدند.
اما مجموعه به هم زدن‌های تولید شده توسط این تکنیک‌ها توسط چارچوب معانی محدود می‌شود.
در مقالات جدیدتر از مدل‌های زبان ماسک‌دار برای پر کردن بخش‌های پوشانده شده از متن و تغییر برچسب‌ها استفاده شده است.
اما یافتن قسمت‌هایی از متن برای به هم زدن‌ ممکن است کار سختی باشد.
چالش‌های دیگری هم برای تولید ضدواقعیت به طور خاص برای پاسخ به سؤال وجود دارد.
برای انجام این کار به پیشینه دانش نیاز داریم.
به عنوان مثال، برای برهم زدن سوال اصلی، آیا معبد عذاب ایندیانا جونز یک پیش درآمد است؟
برای رسیدن به سوالی مانند اینکه آیا ایندیانا جونز سوار کشتی گمشده یک پیش‌درآمد است؟، باید از دیگر فیلم‌های فرنچایز آگاه باشیم.
علاوه بر این بر هم زدن‌های تصادفی می توانند به سوالاتی منجر شوند که با شواهد موجود پاسخ داده نمی‌شوند یا فرضیه‌های نادرستی دارند.
علاوه بر این، برخی بر هم زدن‌های سوال می‌تواند منجر به انحراف معانی قابل توجهی نسبت به ورودی اصلی شود.
به عنوان مثال، این سوال آیا ایندیانا جونز در حال تمرین بردگی کودکان در معبد عذاب است؟
ما یک تکنیک بسیار ساده و در عین حال مؤثر به نام فیلتر تولید بازیابی یا RGF را برای مقابله با بر هم زدن سوالات پیش‌خط و همچنین مقابله با سایر چالش‌های فوق‌الذکر پیشنهاد می‌کنیم.
فراست اصلی در پشت RGF این است که اطلاعات پس‌زمینه لازم که برای ایجاد بر هم زدن‌ها مورد نیاز است، ممکن است در اشتباهات نزدیک ایجاد شده توسط مدل پاسخ‌گویی به سؤال وجود داشته باشد.
به عنوان مثال، مدل پیشرفته REALM پاسخ های برتر زیر را به این سوال می‌دهد: کاپیتان باشگاه فوتبال ریچموند کیست؟
در حالی که مدل، متن مرجع اصلی را بازیابی می‌کند و پاسخ Trent Cotchin به عنوان بهترین انتخاب معرفی می‌شود.
همچنین بخش‌ها و پاسخ‌های اضافی را بازیابی می‌کند که می‌توان از آنها برای راهنمایی بر هم زدن سوال استفاده کرد.
به عنوان مثال، دو پاسخ دیگر مرتبط است با کاپیتان‌های تیم ذخیره و تیم زنان همان باشگاه که می‌تواند منجر به ویرایش‌های جالبی شود.
به طور خلاصه، RGF ابتدا مرتبط‌ترین پاسخ‌ها با k بزرگ و زمینه‌هایی را که با مرجع پاسخ در متن مطابقت ندارند، بازیابی می‌کند.
پس از این مرحله، مدل تولید سوال در این پاسخ‌های متناوب برای ایجاد یک سوال که با آنها مطابقت دارد، شرطی می‌شود.
و در نهایت، می‌توانیم سوالات تولید شده را بر اساس حداقل بودن یا بر اساس نوع بر هم زدن معانی که مایل به معرفی آن هستیم فیلتر کنیم.
با مرور هر مرحله جهت مشاهده جزئیات بیشتر برای بازیابی، از یک بازیابی استفاده می‌کنیم و سپس مدلی مانند REALM را می‌خوانیم که یک نوشتار بزرگ مانند ویکی پدیا را به عنوان ورودی سوال می‌گیرد.
این بخش شامل دو ماژول اصلی است:
ماژول بازیاب، جستجوی شباهت را روی یک فهرست متراکم از قسمت‌ها انجام می‌دهد تا مرتبط‌ترین k قسمت‌های بالای پرسش را بازیابی کند.
و سپس یک ماژول خواننده، یک بازه از هر قسمت را به عنوان پاسخ بالقوه استخراج می‌کند.
REALM گذرگاه طلا و پاسخ را در بیشتر موارد بازیابی می‌کند.
با این حال، در این مقاله، ما بیشتر به پاسخ‌ها و زمینه‌ای علاقه‌مندیم که در پایین‌تر آن را بازیابی می‌کند.
در مرحله بعدی، یعنی تولید سوال، از این پاسخ‌ها و زمینه‌های متناوب برای ایجاد مجدد سوالات جدید که با این جایگزین‌ها مطابقت دارند استفاده می‌کنیم.
مدل تولید سوال یک مبدل متن-به-متن از پیش آموزش دیده است که بر روی NQ داده تنظیم شده است تا یک سوال برای یک جواب ایجاد شود که در متن نوشته مشخص شده است.
در طی زمان استنتاج، مدل تولید پاسخ، پاسخ جایگزین و زمینه را که در مرحله قبلی بازیابی کردیم ارائه می‌کنیم.
به عنوان مثال، برای پرسش کاپیتان باشگاه فوتبال ریچموند کیست؟ REALM بخش‌هایی را در مورد تیم زنان باشگاه، کاپیتان جس کندی بازیابی می‌کند، و مدل تولید سوال این پرسش را ایجاد می‌کند که چه کسی کاپیتان اولین تیم زنان باشگاه فوتبال ریچموند بود؟
که دارای بر هم زنی معنی خاصی است.
به روشی مشابه، ما همچنین جستارهایی دریافت می‌کنیم مانند اینکه چه کسی کاپیتان تیم ذخیره VFL ریچموند بوده است؟
یا گراهام چه کسی را در فینال بزرگ سال گذشته شکست داد؟
در نهایت، ما زیرمجموعه‌ای از جستارهای تولید شده را بر اساس برخی ویژگی‌های دلخواه فیلتر می‌کنیم.
همانطور که قبلاً گفته شد، مایلیم اطمینان حاصل کنیم که سوال جدید همچنان از نظر معنایی به اصل نزدیک است.
برای تکنیک‌های فیلتر که نیازی به نظارت اضافی ندارند، ما به سادگی سوالات جدید را که فاصله کمی با سوال اصلی دارند حفظ می‌کنیم.
به عنوان مثال، سوال گراهام چه کسی را در فینال بزرگ سال گذشته مغلوب کرد را حذف می‌کنیم.
زیرا فاصله ویرایش با سوال اصلی بیشتر است.
در آزمایش‌های خود، نشان می‌دهیم که این ابتکار ساده می‌تواند برای تقویت و صف‌بندی داده‌های آموزشی استفاده شود.
همچنین با یک استراتژی فیلتر که بر اساس نوع بر هم زنی معانی است آزمایش می‌کنیم.
برای این منظور، ما از چارچوب تجزیه جستار با هدف کلی به نام QED استفاده می‌کنیم.
QED دو بخش سؤال را مشخص می‌کند، یک گزاره و یک مرجع.
مراجع عبارات اسم در سوال هستند که با نهادها در زمینه مطابقت دارند.
گزاره اساساً بخش باقی مانده سوال است.
به عنوان مثال، ما می‌توانیم جستار چه کسی کاپیتان اولین تیم زنان ریچموند بود را به دو مرجع تجزیه کنیم: تیم زنان باشگاه فوتبال ریچموند و گزاره چه کسی کاپیتان X بود.
یک مدل آموزش دیده بر روی مرجع، گزاره حاشیه برای NQ، تجزیه سوال را به ما می‌دهد.
تجزیه هر دو سوال اصلی و تولید شده بر اساس QED به ما این امکان را می دهد که ضدواقعیت تولید شده خود را برای ارزیابی دسته‌بندی کنیم.
به طور خاص، ما دو گروه سوال را به دست می‌آوریم.
سوالاتی که تحت یک تغییر مرجع قرار می‌گیرند در حالی که گزاره‌ها را حفظ می‌کنند، و سوالاتی که تحت یک گزاره قرار گرفته و تغییر می‌کنند و به صورت اختیاری مراجع اضافه می‌کنند.
به عنوان مثال، چه کسی کاپیتان تیم ذخیره ریچموند VFL بود، یک تغییر مرجع است.
در حالی که، چه کسی شماره نه باشگاه را می‌پوشد، یک تغییر گزاره‌ای است.
ما اکنون اثربخشی بر هم زدن RGF را هنگام افزایش به داده‌های آموزشی ارزیابی می‌کنیم.
بنابراین، برای ارزیابی اثربخشی افزایش ضدحقیقت، ما با دو خط مبنای افزایش داده قوی آزمایش انجام می‌دهیم.
اولین مدل مبنا، به نام پاسخ تصادفی و تولید سؤال، داده‌هایی را اضافه می‌کند که هیچ ارتباطی با سوال اصلی ندارد.
یعنی، متن‌ها و پاسخ‌ها به‌طور تصادفی از ویکی‌پدیا نمونه‌برداری می‌شوند.
این مدل مبنا اساساً داده بیشتری را اضافه می‌کند که شبیه NQ است.
در مدل مبنای دوم، یعنی پاسخ طلایی و تولید سؤال، به طور ویژه بخش بازیابی روش خود را به روز می‌کنیم.
در اینجا، پاسخ‌های جایگزین فقط از همان قسمتی که حاوی پاسخ طلایی بود، انتخاب می‌شوند.
مدل مبنا و افزایش RGF چگونه بر روی درک مطلب عمل می‌کنند جایی که مدل به سوال و زمینه دسترسی دارد؟
ما با شش مورد از مجموعه داده دامنه آزمایش می‌کنیم و نتایج را در اینجا ارائه می‌دهیم، جایی که داده معادل داده‌های آموزشی بوده و در زمان تقویت دو برابر می‌شود.
متوجه شدیم که هر دو مدل مبنای تقویت داده قادر به بهبود تعمیم دامنه ما نیستند.
در واقع، به نظر می‌رسد گروهی متشکل از شش مدل آموزش‌دیده بر روی داده‌های اصلی رقابتی‌ترین مدل مبنا باشد.
با مقایسه با مدل مبنا، متوجه می‌شویم که ضدواقعیت‌های RGF می‌توانند عملکرد خارج از دامنه را بهبود ببخشند در حالی که عملکرد دامنه را حفظ می‌کنند.
این موضوع نشان می‌دهد که پر کردن شکاف‌های استدلالی مدل از طریق تقویت ضدواقعیت مؤثرتر از افزودن داده از محل توزیع آموزش است.
به‌علاوه، متوجه شدیم که استفاده از بازیابی برای نمونه‌برداری از نتایج یا پاسخ‌های جایگزین برای داشتن یک CDA کارآمد مهم است.
همچنین آزمایشی با تنظیمات باز دامنه QA انجام دادیم که در آن مدل فقط سوال را می‌بیند و یک بار دیگر آن را روی چهار مورد از مجموعه داده دامنه ارزیابی می‌کنیم.
متوجه شدیم که مدل‌های پایه برای خارج از تعمیم دامنه اثربخش نیستند.
با این حال، تقویت داده‌ها با RGF پیشرفت‌های قابل توجهی را نشان می‌دهد.
ما حتی در مجموعه داده  NQ دامنه بهبود را شاهد بودیم.
فرض کردیم که تقویت داده‌های ضدحقیقت، به مدل در یادگیری رمزگذاری‌های جستار کمک می‌کند تا برای پرسش‌های مشابه عملکرد بهتری داشته باشد.
در نهایت، توانایی مدل را برای بهبود سازگاری در همسایگی سوال اصلی ارزیابی می‌کنیم.
سازگاری، نسبت سوالات به درستی پاسخ داده شده توسط مدل را اندازه می‌گیرد که در آن پرسش اصلی و پرسش ضدحقیقت به درستی پاسخ داده شده‌اند.
این موضوع به صراحت کمک می‌کند تا مقاومت مدل را نسبت به بر هم زنی کوچک در همسایگی ورودی اصلی اندازه‌گیری کنیم.
ما با پنج مجموعه داده آزمایش کردیم که شامل جفت سوالاتی است که از نظر معنایی به یکدیگر نزدیک هستند.
جدا از سه مجموعه داده AQA، AmbigQA و QUOREF-Contrast که از قبل در دسترس هستند، بر روی RGF ضدحقیقت که با سوالات NQ اصلی جفت شده‌اند، مدل را ارزیابی می‌کنیم که آیا آنها تحت یک تغییر گزاره یا تغییر مرجع هستند یا خیر.
این زیرمجموعه‌ها برای حذف نویز در داخل تفسیر شدند و به عنوان منبع ارائه می‌شوند.
مدل‌های مبنا همگی قادر به بهبود سازگاری با مجموعه مدل نیستند و پایداری را با یک حاشیه کوچک بهبود می‌بخشند.
با این حال، تقویت RGF با ضدحقیقت  هم در مجموعه داده‌های قبلی و هم در دو زیرمجموعه‌ای که برای ارجاع و بر هم زنی مقدمه انتخاب کردیم، دستاوردهای چشمگیری از نظر سازگاری دارد.
توجه داشته باشید که داده RGF تقویت شده با نوع بر هم زنی دچار سوگیری نمی‌شود، بلکه فقط با مجموعه‌های ارزیابی این اتفاق می‌افتد.
در واقع، یک بازرسی کیفی از انواع ضدواقعیت تولید شده نشان می‌دهد که سؤالات تولید شده حاوی چندین بر هم زنی متنوع است.
به عنوان مثال، در مورد این سوال اصلی در خصوص جمعیت Walnut Grove، مینه‌سوتا در ابعاد مختلف مانند شهر، ایالت، کشور، و در امتداد گزاره‌های مختلف مانند مکان، فقر، تعداد مدارس دچار بر هم زنی می‌شود.
صدای بر هم زنی به زمینه بستگی دارد.
به عنوان مثال، برای این سوال در مورد تورنمنت انفرادی ویمبلدون، بر هم زنی در نوع بازی، نوع تورنمنت، یا نتیجه بازی است.
نتیجه نهایی؛ ما با پروسه تقویت داده‌های ضدحقیقت و بر هم زنی‌ها برای جستجوی اطلاعات سروکار داریم و با چالش‌های منحصربه‌فرد آن از طریق معکوس کردن رویکرد تولید، بیش تولید با استفاده از اشتباهات نزدیک مدل و فیلتر بر اساس نوع برهم زنی یا حداقل مقابله نمودیم.
متوجه شدیم که این تکنیک نیازی به نظارت اضافی ندارد و نمونه‌ها برای تقویت برچسب خوردند.
تقویت موجب بهبود تعمیم خارج از دامنه و سازگاری همسایگی می‌شود.
و متوجه می‌شویم که ضدحقیقت RGF از لحاظ معنایی متنوع هستند، بدون اینکه سوگیری در طی تقویت ایجاد کنند.
متشکرم.
