سلام، این النا است و من می خواهم به ارائه کار ما، تشخیص وام های غیر قابل جذب به زبان اسپانیایی: Corpus annotated و رویکرد به مدل سازی.
بنابراین ما می خواهیم پوشش بدهیم که استقراض واژگانی چه چیزی است، وظیفه ای که ما پیشنهاد کردیم، مجموعه داده هایی که منتشر کرده اند و برخی مدل هایی که کاوش کرده بودیم.
اما برای شروع، استقراض واژگانی چگونه است و چرا به عنوان یک کار NLP اهمیت دارد؟
خب، استقراض واژگانی اساساً ترکیب کلمات از یک زبان به زبان دیگر است.
به عنوان مثال، به زبان اسپانیایی از کلماتی استفاده می کنیم که از زبان انگلیسی می آیند.
و در اینجا شما چند مثال، کلماتی مانند پادکست، برنامه، و بودجه جمعیت آنلاین، همه اینها کلمات انگلیسی هستند که ما گاهی به زبان اسپانیایی از آنها استفاده می کنیم.
استقراض واژگانی نوعی وام گرفتن زبانی ام است که اساساً در یک الگوی زبانی زبان های دیگر تکثیر می شود.
و استقراض و تعویض کد گاهی اوقات به عنوان یک پیوستار مقایسه و توصیف شده است، کد تعویض آه چیزی است که دو زبانه انجام می دهند که در آن آنها مخلوط دو زبان در همان زمان.
با این حال تفاوت هایی بین استقراض واژگانی و تعویض کد وجود دارد.
ما روي استقراض واژگاني تمرکز ميکنيم .
سوئیچینگ کد چیزی است که توسط دو زبانه ها انجام می شود و با تعریف سوئیچ های کد در هیچ یک از زبان های در حال استفاده یکپارچه نمی شوند، در حالی که استقراض واژگانی چیزی است که توسط تک زبانه ها نیز انجام می شود.
استقراض ها از دستور زبان گیرنده تبعیت خواهند کرد.
و استقراض ها در نهایت می توانند در زبان گیرنده ادغام شوند.
پس چرا قرض گرفتن پدیده جالبی است؟
خب، از دیدگاه زبان شناسی، قرض گرفتن تجلی چگونگی تغییر زبان ها و چگونگی تعامل آن ها است.
و همچنین استقراض های واژگانی منبع کلمات جدید است.
در اینجا شما چند نمونه از استقراض های واژگانی که به زبان اسپانیایی به عنوان کلمات جدید گنجانیده شده است.
از نظر استقراض های NLP ah منبع مشترکی از کلمات خارج از واژگان هستند.
و در واقع، تشخیص خودکار استقراض های واژگانی ah ثابت کرده است که برای کارهای پایین دست NLP مانند تجزیه، سنتز متن به گفتار یا ترجمه ماشین مفید است.
علاقه فزاینده ای به تأثیر انگلیسی بر زبان های دیگر آه به ویژه آه مربوط به استقراض های واژگانی انگلیسی، استقراض هایی که گاهی آنگلیسم نامیده شده اند، وجود داشته است.
و در اینجا، شما چند نمونه از آه کار بر روی تشخیص خودکار استقراض در آه برخی از این زبان ها.
بنابراین وظیفه ای که ما پیشنهاد می کنیم تشخیص استقراض های واژگانی غیر قابل جذب در نیوزوایر اسپانیایی است.
که به این معنی است که ما علاقه مند به استخراج کلمات ah قرض گرفته شده از زبان های دیگر است که در روزنامه های اسپانیایی استفاده می شود اما که به زبان گیرنده یکپارچه و یا جذب نشده است.
بنابراین هنوز به اسپانیایی یکپارچه نشده است.
در اینجا شما یک مثال.
This is a sentence in Spanish: Las prendas bestsellers se estampan con motivos floweres, animal print o retales tipo patchwork.
ام، و همانطور که می بینید، سه دهانه متن وجود دارد که در واقع کلمات انگلیسی مانند پرفروش ترین، چاپ حیوانات و وصله کاری هستند.
این ها نوع دهانه هایی هستند که ما به استخراج و تشخیص آن ها علاقه مند هستیم.
کلمه قبلی در تشخیص آنگلیسم ah وجود داشته است که متشکل از یک مدل CRF برای تشخیص آنگلیسم در Newswire اسپانیایی است.
این مدل نمره F1 هشتاد و شش را به دست آورد.
اما برخی محدودیت ها هم در مجموعه داده ها و هم در رویکرد مدل سازی وجود داشت.
بنابراین مجموعه داده ها منحصراً بر روی یک منبع خبری متمرکز بود، تنها شامل تیترها بود.
و همچنین همپوشانی در استقراض هایی وجود داشت که در مجموعه آموزش و مجموعه آزمون ظاهر می شود.
این امر مانع از ارزیابی این شد که آیا رویکرد مدل سازی در واقع می تواند به استقراض های قبلاً نشده عمومیت دهد یا نه.
بنابراین هدف ما مقابله با برخی از این محدودیت ها در وظیفه است.
بنابراین برای شروع ما، برای شروع، ما یک مجموعه داده جدید ایجاد کردیم.
آه هدف در مجموعه داده های جدید است که با استقراض های واژگانی annotated شد و هدف این بود که ایجاد یک مجموعه آزمون است که تا حد امکان دشوار بود.
بنابراین حداقل همپوشانی در کلمات و موضوعات بین مجموعه آموزش و مجموعه آزمون وجود خواهد داشت.
و در نتیجه، خوب، مجموعه آزمون از منابع و تاریخ هایی می آید که ما در مجموعه آموزشی نمی بینیم.
در اینجا می بینید که در آن زمان هیچ همپوشانی وجود ندارد.
همچنین، مجموعه آزمون نیز بسیار استقراض متراکم است.
فقط برای دادن برخی از اعداد به شما، اگر مجموعه آموزش شامل شش استقراض در هر هزار نشانه، مجموعه آزمون شامل بیست استقراض در هر هزار نشانه بود.
مجموعه آزمون شامل بسیاری از کلمات واژگان که ممکن است.
در واقع نود و دو درصد استقراض های مجموعه آزمون OOV هستند.
بنابراین، آنها در طول آموزش دیده نمی شدند.
و کورپوس اساساً شامل مجموعه ای از متون بود که از منابع مختلف روزنامه های اسپانیایی می آمدند.
و آه آن را با دست آه با استفاده از دو برچسب annotated شد.
یکی برای استقراض های واژگانی انگلیسی که اکثریت استقراض های واژگانی به زبان اسپانیایی است، و سپس برچسب دیگر برای استقراض از زبان های دیگر.
ما از فرمت های CONLL استفاده می کنیم و از کدگذاری BIO استفاده می کنیم تا بتونیم وام های تک توکن ah مانند استقراض های برنامه یا چند توکن مانند یادگیری ماشین را کدگذاری کنیم.
اینها تعداد کورپوس است.
همانطور که می بینید، تقریباً به سیصد و هفتاد هزار نشانه می رسد.
و در اینجا شما تعداد دهانه هایی را خواهید داشت که به عنوان انگلیسی برچسب گذاری شده بودند و دهانه هایی که به عنوان استقراض های دیگر برچسب گذاری شده بودند و چند تا از آنها منحصر به فرد بودند.
و در اینجا شما چند نمونه از مجموعه مجموعه داده ها را خواهید داشت.
همانطور که شما می توانید به عنوان مثال در اینجا ببینید، ما آه در مثال اول، ما پخت و پز دسته ای قرض است که وام گرفتن چند کلمه است.
و ما آن را با استفاده از کد BIO um annotated کرده اند.
بنابراین BIO برای کلمات در زبان اسپانیایی استفاده می شد بنابراین نه برای کلماتی که قرض گرفته نشده بودند.
و در اینجا در این مثال دوم، شما نیمکت و تصادف که به عنوان استقراض از انگلیسی نیز برچسب گذاری شده است.
بنابراین، هنگامی که ما مجموعه داده ها را داشتیم، مدل های متعددی را برای وظیفه استخراج و تشخیص این استقراض های واژگانی کاوش کردیم.
اولین چیزی که سعی کردیم مدل میدان تصادفی مشروط بود.
آه، این مدلی بود که روی کار قبلی استفاده شده بود.
و ما از همان ویژگی های دستی از آن از ویژگی های آن اثر استفاده کردیم.
همانطور که می بینید، این ها ویژگی ها هستند.
اینها ویژگی های دودویی مانند کلمه یا توکن در حالت بالایی هستند؟
آیا این عنوان مورد عنوان است؟
آیا این یک علامت نقل قول است؟
چیزهایی از این دست، که نوع ویژگی هایی هستند که فرد در یک وظیفه تشخیص نهاد به نام انتظار دارد.
اینها نتایجی است که ما به دست آوردیم.
ما پنجاه و پنج نمره F1 با استفاده از مدل CRF با ویژگی های دستی به دست می آوریم.
که تفاوت بسیار زیادی متفاوت ام در مقایسه با نمره F1 گزارش شده از هشتاد و شش است، که نتیجه به دست آمده با همان مدل CRF، ویژگی های مشابه اما در مجموعه داده های مختلف نیز برای تشخیص استقراض واژگانی اسپانیایی بود.
بنابراین، این ثابت می کند که مجموعه داده هایی که ما ایجاد کردیم سخت تر است و ما نیاز داشتیم که مدل های پیچیده تری را برای این کارها کاوش کنیم.
بنابراین، ما دو مدل مبتنی بر ترانسفورماتور را آزمایش کردیم.
ما از BETO استفاده می کنیم که یک مدل تک زبانه BERT آموزش دیده برای اسپانیایی و همچنین چند زبانه BERT است.
هر دو مدل ما آنها را از طریق کتابخانه ترانسفورماتور توسط HuggingFace استفاده کنید.
اینها نتایجی است که ما به دست آوردیم.
همانطور که می بینید، BERT چند زبانه انجام بهتر از BETO هر دو در مجموعه توسعه و در مجموعه آزمون و در سراسر تمام متریک.
فقط به طوری که ما آه یک ایده برای مقایسه، مدل CRF به دست آمده هشتاد و دو.
مدل CRF پنجاه و پنج نمره F1 را به دست آورده است، در حالی که BERT چند زبانه هشتاد و دو را به دست آورده است که تفاوت بزرگی است.
بنابراین، هنگامی که ما آن نتایج را داشتیم، سوال دیگری از خودمان پرسیدیم که آیا می توانیم یک مدل BiLSTM-CRF پیدا کنیم، آن را با انواع مختلف جاسازی تغذیه کنیم، جاسازی هایی که انواع مختلف اطلاعات زبانی را کدگذاری می کنند و از نتایج به دست آمده توسط مدل های مبتنی بر ترانسفورماتور پیشی می گیریم؟
بنابراین برای این کار، ما برخی آزمایش های اولیه را اجرا کردیم، ما این را توسط مدل BiLSTM-CRF با استفاده از کتابخانه شعله ور اجرا می کنیم.
و ما سعی کردیم با نوع مختلفی از جاسازی ها مانند ترانسفورماتور مبتنی بر بلکه متن سریع، جاسازی کاراکتر، و مانند آن آزمایش کنیم.
چیزی که ما متوجه شدیم این بود که جاسازی های مبتنی بر ترانسفورماتور بهتر از جاسازی های غیر زمینه ای انجام می شدند، که ترکیب تعبیه های انگلیسی BERT و BETO اسپانیایی از تعبیه های چند زبانه BERT پیشی می گیرد.
و این که جاسازی BPE تولید بهتر F1 و جاسازی شخصیت تولید فراخوان بهتر است.
با در نظر گرفتن آن، این ها بهترین نتایج نمایشی بودند که ما به دست آوردیم.
هر دو مدل مدل BiLSTM-CRF با استفاده از شراره بودند.
یکی با تعبیه BETO و BERT و BPE تغذیه شد، و دیگری تعبیه BETO و BERT و BPE و همچنین جاسازی شخصیت.
این آخرین نمره ای بود که بیشترین امتیاز F1 را بر روی مجموعه آزمون تولید کرد، اگرچه بالاترین امتیاز در مجموعه توسعه توسط نمره بدون جاسازی کاراکتر به دست آمده بود.
فقط آه به خاطر داشته باشید که بهترین نتیجه ای که ما با BERT چند زبانه به دست آمده F1 از هفتاد و شش در مجموعه توسعه و هشتاد و دو در مجموعه آزمون.
بنابراین این یک بهبود در مقایسه با آن نتایج است.
در نهایت، ما از خودمان سوال دیگری پرسیدیم که آیا می توان تشخیص استقراض واژگانی را به عنوان یادگیری انتقال از شناسایی زبان در تعویض کد قاب کرد؟
بنابراین، ما همان مدل BiLSTM-CRF را اجرا می کنیم که با استفاده از شراره اجرا کرده بودیم، اما به جای استفاده از این تعبیه های BETO و BERT مبتنی بر ترانسفورماتورهای غیر قابل توافق، از تعبیه های سوئیچ کد استفاده می کنیم.
تعبیه های سوئیچ کد چه هستند؟
خوب این تعبیه ام است که خوب کوک شده اند ترانسفورماتور مبتنی بر تعبیه شده است که برای شناسایی زبان در بخش انگلیسی اسپانیایی از LinCE کد سوئیچینگ مجموعه داده ها آموزش داده شده است.
LinCE یک مجموعه داده در سوئیچینگ کد است که دارای یک بخش در انگلیسی اسپانیایی، اسپانیایی سوئیچینگ کد انگلیسی است.
بنابراین ما BiLSTM -CRF ما را با تعبیه سوئیچ کد و جاسازی شخصیت اختیاری، تعبیه BPE و مانند آن تغذیه.
بهترین نتیجه ای که گرفتیم هشتاد و چهار امتیاز بیست و دو بود که بالاترین نتیجه در تمام مدل هایی است که در مجموعه آزمون امتحان کردیم.
اگر چه بهترین نتیجه F1 نمره است که ما در مجموعه توسعه کردم، که هفتاد و نه بود، پایین تر از بهترین نتیجه به دست آمده توسط BiLSTM- CRF تغذیه شده با جاسازی unadapted بود.
بنابراین ، برخی از نتیجه گیری از کار ما است.
ما آه ما یک مجموعه داده جدید از newswire اسپانیایی است که با استقراض واژگانی unassimilated annotated annotated تولید شده است.
این مجموعه داده ها متراکم تر و غنی از OOV نسبت به منابع قبلی است.
ما چهار نوع مدل را برای تشخیص استقراض واژگانی کاوش کرده اند.
Um. از نظر تحلیل خطا، خوب، فراخوان نقطه ضعیفی برای همه مدل ها بود.
آه، همانطور که در اینجا می بینید، برخی از منفی های کاذب مکرر شامل استقراض های بزرگ، کلماتی که در هر دو زبان انگلیسی و اسپانیایی وجود دارد، به عنوان مثال.
همچنین جالب توجه است، جاسازی BPE به نظر می رسد برای بهبود نمره F1.
و جاسازی شخصیت به نظر می رسد به بهبود فراخوان.
که آه این یک یافته جالب است که شاید ما می توانیم در کار آینده کاوش.
Um. خب، اين همه چيزيه که من دارم.
خيلي ممنون که گوش دادي .
اسم من آنتوانه
من دانشجوی دکترا در دانشگاه ماساچوست امهرست هستم.
من ارائه مقاله ما KinyaBERT: Morphology آگاه Kinyarwanda مدل زبان.
امروز در مورد انگیزه این تحقیق صحبت می کنم.
سپس من معماری مدل کینیابرت را به طور مفصل ارائه می کنم.
سپس در مورد نتایج تجربی مان صحبت می کنم، سپس با برخی نتیجه گیری ها تمام می کنم.
همه ما می دانیم که پیشرفت های اخیر پردازش زبان طبیعی با استفاده از مدل های زبان از پیش آموزش دیده مانند BERT امکان پذیر شده است.
با این حال هنوز تعدادی محدودیت وجود دارد.
با توجه به مورفولوژی پیچیده ای که توسط اکثر زبان های غنی مورفولوژیک بیان می شود، الگوریتم توکن بندی جفت بایت همه جا که من استفاده کردم نمی تواند واحدهای واژگانی زیرکلشه دقیق را استخراج کند، به معنی مورفم ها، که برای بازنمایی مؤثر مورد نیاز است.
به عنوان مثال، در اینجا سه کلمه Kinyarwanda داریم که چندین مورفم در آن ها وجود دارد، اما الگوریتم های BPE نمی توانند آن ها را استخراج کنند.
این به این دلیل است که برخی از قوانین مورفولوژیک اشکال سطحی مختلفی تولید می کنند که اطلاعات دقیق واژگانی را پنهان می کنند و BPE که تنها بر اساس فرم های سطحی است به این مدل واژگانی دسترسی ندارد.
چالش دوم این است که حتی اگر کسی به یک تحلیلگر مورفولوژیک اوراکل دسترسی داشته باشد، جایگزینی توکن های BPE با مورفم ها برای بیان ترکیب مورفولوژیک کافی نیست.
شکاف سوم در تحقیقات این است که مدل های زبان از پیش آموزش داده شده جدید اغلب بر روی زبان های منابع بالا ارزیابی می شوند.
و ما باید قابلیت درخواست آنها را در مورد منابع پایین و زبان های متنوع نیز ارزیابی کنیم.
بنابراین، ما کینیابرت را ارائه می کنیم که اقتباسی ساده اما موثر از معماری BERT است که به معنای رسیدگی موثرتر به زبان های غنی ریولوژی است.
ما کینیابرت را در مورد کینیارواندا ارزیابی می کنیم، یک زبان غنی از منابع پایین، که توسط بیش از دوازده میلیون نفر در سراسر شرق و آفریقای مرکزی صحبت می شود.
ورودی به مدل یا یک جمله است یا سند.
به عنوان مثال در اینجا جان twarahamubonye biradutangaza را داریم که به این معنی است که از پیدا کردن جان در آنجا شگفت زده شدیم.
همان طور که می بینید، کلمات کینیارواندا حاوی چند مورفم است که حاوی اطلاعات متفاوتی در آن ها است.
بنابراین در مدل ما این جمله یا سند را به یک تحلیلگر مورفولوژیک منتقل می کنیم.
که پس از آن مورفم های موجود در هر یک از کلمات را تولید می کند.
مورفم ها معمولاً از ساقه و صفر یا بیشتر افیکسی ساخته می شوند.
affixes ممکن است نشان دهنده تنش، جنبه، موضوع یا شی در فعل ها، و بیشتر مربوط به کلاس اسم بانتو برای موضوعات و اشیاء است.
تحلیلگر مورفولوژیک نیز بخشی از تگ گفتار را برای هر یک از کلمات تولید می کند.
پس از این مرحله، ما تعبیه هایی برای spee- برای بخشی از تگ های گفتار میسازیم.
جاسازی برای affixes.
و جاسازی برای ساقه.
اینها سطح ریفولوژی هستند، اینها تعبیه های سطح ریفولوژی هستند.
سپس این تعبیه ها را از یک کدکن ریولوژی عبور می کنیم که یک کدساز ترانسفورماتور کوچک است که به طور مستقل به هر کلمه اعمال می شود.
خروجی بردارها هستند که با اطلاعات مورفولوژیک در هر کلمه زمینه سازی می شوند.
در حال حاضر، ما انجام ترکیب که در آن جاسازی مورفولوژیک مربوط به بخشی از گفتار و ساقه با هم دسته بندی شده است.
ما بیشتر concat ما بیشتر آنها را با ساقه دیگری تعبیه شده در سطح جمله concatenate.
سپس یک ورودی به جمله اصلی یا سند انکودر تشکیل میدهیم.
خروجی نهایی تعبیه های زمینه ای هستند که می توانند برای کارهای پایین دست NLP مورد استفاده قرار گیرند.
برای یک تحلیلگر مورفولوژیک، ما از اصول مورفولوژی دو سطح حالت محدود با پیاده سازی سفارشی استفاده می کنیم که متناسب با زبان کینیارواندا است.
ما به طور موثر ریولوژی تمام کلمات Kinyarwanda مدل, از جمله کلامی, اسم, ضمیر نشان دهنده و تملیکی, عددی, و دیگران.
ما از یک بخش بدون نظارت از الگوریتم برچسب گذاری گفتار استفاده می کنیم.
یک مدل فاکتوره شده درجه اول برای حساب کردن احتمال مورفولوژی استفاده می شود، اساساً احتمال اختصاص داده شده توسط تحلیلگر مورفولوژیک.
ما همچنین بخشی از تگ تگ گفتار و همچنین توافقات سنتزی که در کلمات ورودی وجود دارد را مورد توجه قرار می دهیم.
بخشی از برچسب گفتار با استفاده از استنباط دو جهتی بیدی است که بر الگوریتم Viterbi اغلب استفاده می شود برای رمزگشایی بهبود می یابد.
چند تا اظهار نظر اينجا براي پاک کردن موقعيتي .
یکی، انکودر ریفولوژی از هیچ گونه انکدینگ موقعیتی استفاده نمی کند.
این به این دلیل است که هر یک از مورفم ها یک شکاف شناخته شده در مدل مورفولوژیک را اشغال می کنند.
بنابراین اطلاعات موقعیتی زمانی ذاتی است که مورفم ها داده شوند.
دوم، کدکن جمله از جاسازی های موقعیتی نسبی به اصطلاح باز نشده استفاده می کند که به تازگی در کنفرانس ICLR منتشر شده اند.
این جاسازی های موقعیتی اساساً همبستگی های موقعیتی را از توکن تا محاسبات توجه توکن دیستانگل می کند.
مشابه BERT، ما از یک هدف پیش آموزش مدل زبان نقاب دار استفاده می کنیم.
اساسا ً باید هم ساقه و هم افیکسی ها را پیش بینی کنیم که با کلمات همراه هستند.
در طول پیش آموزش، پانزده درصد از کل کلمات برای پیش بینی در نظر گرفته می شوند که هشتاد درصد آن ها نقاب دار، ده درصد با کلمات تصادفی معاوضه می شوند و ده درصد بدون تغییر باقی می مانند.
برای پیش بینی affix، ما با برخی از مشکل طبقه بندی برچسب چند روبرو هستیم.
برای این کار، ما هر دو با هم affixes را به تعداد ثابتی از مجموعه ها گروه بندی می کنیم و مجموعه را به عنوان برچسب کلاس پیش بینی می کنیم.
گزینه دیگر پیش بینی بردار احتمال affix است.
ما هر دوی این رویکردها را در آزمایش هایمان ارزیابی می کنیم.
ما قبل از آموزش KinyaBERT در حدود دو و نیم گیگابایت از متن Kinyarwanda، و مقایسه آن را به سه مدل پایه.
یکی یک مدل چند زبانه به نام XLM-R است که بر روی یک کورپورای متنی بزرگ آموزش دیده است که از زبان های متعدد ساخته شده است.
دو پایه دیگر بر روی یک متن Kinyarwanda با استفاده از هر دو الگوریتم کد گذاری جفت بایت و یا با استفاده از تجزیه و تحلیل مورفولوژیک بدون استفاده از معماری کدگر ترانسفورماتور دو ردیف از پیش تمرین شده است.
تمام مدل ها در معماری پایه پیکربندی شده اند که حدوداً بین صد تا صد و ده میلیون پارامتر است، با کینیارواندا با کینیابرت با استفاده از کمترین تعداد پارامترها.
تمام مدل ها به جز چند زبانه برای سی و دو هزار به روز رسانی گرادیان با اندازه دسته ای دو هزار و پنجصد و شصت دنباله در هر دسته از پیش مطالعه شده اند.
ما مدل های از پیش آموزش داده شده را بر روی سه مجموعه وظایف ارزیابی می کنیم.
یکی معیار GLUE است که اغلب برای ارزیابی اثربخشی مدل های زبان از پیش آموزش داده شده استفاده شده است.
ما داده های معیار چسب ما را با ترجمه داده های معیار اصلی به Kinyarwanda با استفاده از ترجمه گوگل به دست آوریم.
وظیفه دوم Kinyarwanda به نام معیار تشخیص نهاد است، که یک مجموعه داده با کیفیت بالا است که توسط سخنرانان بومی آموزش دیده مورد توجه قرار گرفت.
سومی یک وظیفه دسته بندی خبری است که در آن مقالات خبری را از چندین وب سایت می کشیدیم و تگ های دسته بندی آن ها را جمع آوری می کنیم که توسط نویسندگان اختصاص داده شده بود و سپس اساساً تلاش می کنیم همین را پیش بینی کنیم، همان دسته بندی ها.
و حالا به نتایج می رویم.
برای معیار چسب، ما در می آوریم که KinyaBERT به طور مداوم از مدل های پایه پیشی می گیرد.
در اینجا ما نشان می دهد عملکرد به طور متوسط برای ده اجرا می شود finetuning.
ما همچنین یک ارزیابی کاربر از ترجمه هایی که توسط Google Translate تولید می شوند را اجرا می کنیم.
اساساً کاربران کاربر حدود شش هزار نمونه امتیاز دادند و نمراتی را در مقیاس از یک تا چهار اختصاص دادند و کیفیت ترجمه ها را ارزیابی کردند.
نتیجه این است که ترجمه های زیادی پر سر و صدا بودند.
اما همه مدل ها مجبور بودند با همان سر و صدای ترجمه کنار بیایند و عملکرد نسبی بین مدل ها هنوز مهم است که متوجه شود.
برای وظیفه تشخیص نهاد به نام، ما همچنین در می آوریم که KinyaBERT می دهد بهترین عملکرد با نوع رگرسیون توزیع affix انجام بهترین.
این نتایج نیز به طور متوسط از ده اجرا می شود finetuning.
برای وظیفه دسته بندی اخبار نتایج مختلطی پیدا می کنیم.
کار قبلی بر روی طبقه بندی متن برای Kinyarwanda دریافته بود که تشخیص کلمه کلیدی ساده بیشتر برای حل این وظیفه خاص کافی است.
بنابراین سود کمتری از استفاده از مدل های زبان از پیش آموزش داده شده وجود دارد.
بر این وظیفه خاص دسته بندی اخبار.
ما همچنین یک مطالعه ابلاسیون انجام دادیم تا ببینیم آیا ساختارهای جایگزین وجود دارند که عملکرد را بهبود می بخشند یا نه.
برای معیار چسب, ما در می آوریم که با استفاده از مجموعه affix به طور مداوم انجام بهتر, در حالی که affix احتمال رگرسیون هدف بازده بهترین عملکرد در تشخیص نهاد به نام.
همچنین با نگاه کردن به نمرات پایین برای ریز کردن، در می آوریم که کینیابرت در بیشتر موارد همگرایی بهتری دارد.
بنابراین برای نتیجه گیری، این اثر اثربخشی استفاده صریح از اطلاعات مورفولوژیک در مدل های زبان از پیش آموزش یافته را نشان داده است.
پیشنهاد دو ردیف ترانسفورماتور معماری encoder را قادر می سازد گرفتن پیچیدگی مورفولوژیک ترکیب مورفولوژیک، که جنبه مهمی از زبان های غنی از نظر مورفولوژیک است.
این یافته ها باید انگیزه تحقیقات بیشتر در مورد ریفولوژی آگاه زبان مدل های زبان از پیش آموزش داده شده است.
سلام، نام من Michał Pietruszka است و آن لذت من به شما ارائه مقاله با عنوان Sparsifying ترانسفورماتور مدل با قابل آموزش نمایندگی Pooling است.
کاری که در Applica AI با همکاری لوکاس بورچمن و لوکاس گارنکرک انجام شد.
بذار با مشکلاتي که هدف هاي کاري مون هستن شروع کنم
روش ما برای مواردی که ورودی های طولانی در نظر گرفته می شوند به خوبی کار می کند.
تقریبا صحبت کردن، آن را برای دستورات وظیفه و ورودی بیش از دو هزار نشانه به معنای و اهداف کوتاه تر از ورودی های ارائه شده است.
این دارای برخی از برنامه های کاربردی خاص در NLP.
به عنوان مثال، می توان تصور کرد که با توجه به یک سند طولانی، نیاز به خلاصه کردن آن، طبقه بندی، پاسخ به سوال در مورد آن، استخراج اطلاعات یا برخی عبارات کلیدی وجود دارد.
اجازه بدهید ترانسفورماتور وانیل و مسئله ما و مسئله آن از پیچیدگی توجه آن را که بستگی به مربع خط ورودی دارد به یاد بیاورد.
در ترانسفورماتور وانیل، با اتصال توجه کامل، روابط هر نشانه به هر نشانه دیگر باید محاسبه شود.
پیچیدگی محاسباتی توجه، این بستگی به تعداد لایه های l، طول دنباله n، طول دنباله دیگر، و ابعادی بودن بازنمایی ها دارد.
به همین ترتیب، در توجه متقابل رمزگشایی، به این تصویر در سمت راست، تنها تفاوت در اینجا این است که نشانه های هدف در این مورد به نشانه های ورودی حضور دارند.
که در این فرمول نیز دیده می شود.
نمره BLEU نشان دهنده روابطی است که باید محاسبه شوند.
در صورت توجه کامل، باید هر روابط درون دنباله ورودی را محاسبه کنیم.
در حال حاضر، ما می بینیم چه اتفاقی می افتد زمانی که ما یک رمزگشايي مسدود کننده است که با محدود کردن اتصال نشانه ها کار می کند به طوری که آنها فقط می توانند نشانه های دیگر در نزدیکی را ببینید.
متن در تکه هایی خوانده می شود که می تواند تعداد محاسبات سمت رمزگشایی را به شدت کاهش دهد، اما توجه متقابل رمزگشایی را بهبود نمی بخشد چرا که هر نشانه ورودی به هر حال به رمزگشایی منتقل می شود.
این روش اغلب به همجوشی در رمزگشایی گفته می شود.
بهبود در اینجا را می توان به تغییر یکی از وابستگی های n به m ثابت دیگر نشان دهنده اندازه بلوک تفسیر کرد.
مشاهده کلیدی ما این است که اکثر نشانه ها برای طیف گسترده ای از وظایف بی ربط هستند و می تواند تقریبا به طور کامل بی اعتنایی. این نمونه بر روی اسلاید است.
تنها قسمت های ورودی ها مربوط به خروجی مورد نظر است.
مثلا .
یک بار می توان مقاله ای را خواند که مهم ترین قسمت ها را با برجسته کننده علامت گذاری می کرد، و سپس خلاصه ای بر اساس این بخش از مرحله میانی تنها تولید می کرد.
هزینه برجسته کردن و تصمیم گیری در مورد اینکه آیا نشانه فعلی برای تولید خلاصه ضروری است به این ترتیب ارزان است و تنها به نمایندگی توکن بستگی دارد.
جمع آوری نشانه های برجسته امکان پذیر است.
با تشکر از اپراتور k بالا ما و هزینه های آن ناچیز است.
هزینه تولید یک خلاصه از یک ورودی کوتاه شده نیز بسیار کمتر از مدل وانیل زمانی است که کل ورودی در نظر گرفته می شود.
اما در اینجا یک سوال است.
چگونه نشانه های مهم و گرادیان های backpropagate را به آن انتخاب انتخاب کنیم؟
مشکل اساسی ضروری که ما حل می کنیم این است که مکانیسم انتخاب قابل آموزش را پیشنهاد کنیم.
یکی که می تواند اجازه می دهد برای گرادیان به انتشار در طول آموزش به طوری که شبکه می تواند یاد بگیرند برای انتخاب نشانه های مهم ترین.
به طور دقیق تر
با توجه به اینکه برخی جاسازی ها از یک لایه خطی ساده به دست آمده اند، وظیفه این است که بالاترین تعبیه های امتیازدهی را برگردانیم. ابتدا دنباله پرموده می شود و جفت ها آماده می شوند به طوری که بردار امتیازدهی بالاتر با نمره پایین تر گرفته می شود.
بعد، وزن ها با استفاده از softmax افزایش بیش از نمرات محاسبه می شود.
پس از هر دور مسابقات، بردارها و نمرات جدیدی به عنوان ترکیبی خطی از آن جفت ها با وزن های به دست آمده تشکیل می شوند.
بنابراین به طور خلاصه، ما آنها را به صورت خطی با انجام یک سافت ماکس بر روی نمرات آنها ترکیب می کنیم.
و در حالی که دو نشانه را ترکیب می کند، می توان مقداری نویز تولید کرد.
اما همچنین اجازه می دهد تا گرادیان ها به تمام تعبیه های ورودی تبلیغ شوند.
به طور خلاصه، k بالا قابل آموزش ما پیشنهاد بر اساس انجام یک تورنمنت مانند انتخاب نرم در هر مرحله است.
و از دیدگاهی متفاوت، جمع آوری نمایندگی از لایه انکودر پیروی می کند.
ابتدا هر بازنمایی به ثمر می رسد و سپس تنها کسانی که بیشترین نمرات را دارند به لایه بعدی منتقل می شوند.
Encoding را می توان به عنوان در معماری ترانسفورماتور استاندارد بر روی ورودی تمام طول انجام می شود.
با این حال می توان متن را در بلوک هایی با طول ثابت طول ثابت پردازش کرد و در سطح جهانی بهترین نمایندگی را انتخاب کرد.
در اینجا نمونه ای از جمع کردن نمایندگی معرفی شده پس از encoder است.
این به طور مستقیم بر علت توجه متقابل تأثیر می گذارد، که نه به طول ورودی N، بلکه K ثابت بستگی دارد که نشان دهنده طول استخری است.
این ثابت به اطلاع می رساند که چه تعداد نمایندگی انتخاب می شوند و به رمزگشایی منتقل می شوند.
تولید خلاصه ای از یک متن کوتاه تر به طور قابل توجهی ارزان تر از راه حل قبلی است.
همانطور که طول دنباله می تواند توسط یک عامل بزرگ کوتاه شود.
به عنوان مثال، ما با موفقیت از k شانزده یا حتی شصت برابر چهار یا حتی شصت و چهار برابر کوچکتر از مقدار n در آزمایش هایمان استفاده کردیم.
لطفا توجه داشته باشید که تاثیر مفید از encoding مسدود کننده و توجه به خود پایدار است.
به یاد داشته باشید که هزینه محاسباتی توجه به مربع طول ورودی بستگی دارد.
کاهش آن ورودی زودتر در طول فرایند encoding می تواند هزینه ها را به طور قابل توجهی کاهش دهد.
برای مدل هرمی، ما اندازه نمایندگی بر روی خروجی هر یک از لایه های انتخاب شده را باریک کردیم که منجر به کاهش نمایی هزینه محاسباتی به عنوان درآمد کدگذاری شد.
همانطور که می بینید، کل هزینه محاسباتی یک انکودر کامل در اینجا کمتر از دو برابر هزینه لایه اول تمام اندازه است.
هنگامی که استخر زودتر معرفی می شود، مجموع تمام مربع های بنفش به این ترتیب به یک ثابت محدود می شود، نه وابسته به تعداد لایه های l.
اما بر روی c ثابت که می تواند تحت تأثیر قرار دادن لایه های جمع کننده در داخل شبکه قرار گیرد.
پیشرفت های ما بر روی هشت هزار نشانه ورودی طولانی محک زنی شد.
و شکل نشان می دهد که وقتی جمع آوری درگیر می شود، بهترین مقیاس پذیری برای عمق شبکه به دست می آورد.
در اینجا می توان توجه داشت که آموزش هرم بیست و چهار لایه می تواند ارزان تر از آموزش یک ترانسفورماتور وانیل دو لایه بر روی چنین ورودی های طولانی باشد.
هنوز به ذکر است که چگونه به راحتی ترانسفورماتور وانیل می تواند از حافظه برای چنین ورودی طولانی بروید.
کیفیت کوال مقایسه کیفی هرم روند ما به پایه های دیگر در وظیفه خلاصه سازی سند طولانی انجام می شود، و یا با توجه به بدن یک مقاله از arXiv یا PubMed، وظیفه این است که تولید انتزاعی آن است.
بنابراین، می توان بلوکی را دید، که پایه ما است، در سطح مدل های اخیر دولت از هنر انجام می دهد، در حالی که هرم عملکرد این پایه رقابتی را حفظ یا بهبود می بخشد.
در عین حال، مدل ما هشتاد درصد سریع تر برای آموزش و بیش از چهارصد و پنجاه درصد سریع تر در استنباط زمانی که در مقایسه با پایه مسدود کننده است.
هر دو مدل شمارش پارامتر بسیار پایین تر و از ابتدا در وظایف انتخاب شده آموزش دیده بودند.
رویکردهای قبلی برای رسیدن به یک عملکرد مشابه مجبور به استفاده از پارامترهای بیشتر و اهرم مدل های پایه و اساس از پیش آموزش داده شده و هدف آموزش زبان اضافی برای رسیدن به عملکرد مشابه بود.
ما شما را دعوت به خواندن مقاله کامل ما و استفاده از کد GitHub ما.
ممنون که نگاه کردي
سلام، این جیاوی ژو از دانشگاه هاروارد است.
من بسیار خوشحالم که به ارائه کار ما در تجزیه معنایی آنلاین برای کاهش نهفتگی در گفتگوی وظیفه گرا.
این کار مشترک با جیسون، مایکل، آنتونی و سام از ماشین های معنایی مایکروسافت است.
در گفتگوی وظیفه محور، یک کاربر با سیستمی که درخواست های گفته های کاربر را معمولاً در صحبت کردن رسیدگی می کند، تعامل می کند.
از پایان گفته کاربر به پاسخ سیستم اغلب تاخیر قابل توجهی وجود دارد.
در زیر هود، گفته کاربر به یک برنامه اجرایی ترجمه می شود.
که پس از آن اجرا می شود تا سیستم بتواند پاسخ درستی دهد.
زیرا برنامه به صورت یک گراف معنایی نشان داده می شود که محاسبات را رئوس می کند، جایی که گره نشان دهنده یک تحریک تابع است و فرزندانش آرگیل هستند.
گره های بزرگ عملیات لحظه ای را علامت گذاری می کنند، اما بقیه آهسته اجرا می شوند.
مثال ساده ای که در اینجا نشان می دهیم، این برنامه ها اغلب می توانند گراف های پیچیده تری فراتر از ساختارهای درخت باشند.
در این صحبت، این سوال را مطرح می کنیم، آیا می توانیم قبل از اینکه کاربر حتی گفته را به پایان برساند، شروع به تولید برنامه و اجرای آن کنیم تا پاسخ سریع تر توسط سیستم محقق شود؟
این پیش بینی آنلاین و مشکل تصمیم گیری است.
بسیاری دیگر در این قلمرو وجود دارد.
مثال ها شامل ترجمه همزمان که در آن یک مترجم زنده ترجمه یک زبان به زبان دیگر در زمان واقعی، تکمیل خودکار متن هوشمند برای حدس زدن قصد کاربر، و استخر Uber که در آن رانندگان به جایی که آنها ممکن است بر اساس تقاضای پیش بینی شده مورد نیاز فرستاده می شود.
همه این سناریوها یک چیز مشترک دارند.
است که تصمیم گیری قبل از دیدن تمام ورودی مفید است.
در مورد ما، ما در حال رفتن به مقابله با تجزیه معنایی آنلاین، که می تواند انتظار می رود به چالش کشیدن به عنوان ما باید حدس بزنید آنچه که کاربر ممکن است بگوید.
و همچنین بدون متریک ارزیابی رسمی کشف نشده است.
ابتدا نگاه کنیم که یک سیستم معمولی چگونه کار می کند.
این است که عامل آفلاین با تجزیه به برنامه تنها در پایان گفته کاربر.
در اینجا گراف کاراکتر پس از دیدن تمام اطلاعات پیش بینی می شود.
در مقابل، ما در حال پیشنهاد یک سیستم آنلاین هستیم که در هر پیش فرض گفته ای مقایسه می شود.
به عنوان مثال، هر بار که یک توکن جدید را می بینیم، یک گراف جدید را پیش بینی می کنیم.
توجه کنید که ممکن است اشتباهاتی وجود داشته باشد.
در موقعیت در حزب استخر با باراک اوباما، ما یک گراف با گره های مناسب بر روی فرد و موضوع رویداد، اما حدس بزنید اطلاعات زمان بندی اشتباه است.
این فرایند تا زمانی ادامه دارد که ما گفته کاربر کامل را دریافت کنیم.
چگونه این کار بر جدول زمانی اجرا در سیستم آفلاین تاثیر می گذارد؟
ما گراف برنامه را در پایان به طوری که سیستم می تواند شروع به اجرا در این نقطه دریافت کنید.
به یاد داشته باشید که گره های بزرگ عملیات سریع هستند، بنابراین ما فقط در نظر گرفتن جدول زمانی اجرای توابع آهسته رنگی.
اول ، این دو پیدا کردن توابع فرد را می توان به موازات اجرا ، برجسته به رنگ سفید از جعبه صورتی به عنوان آنها هیچ وابستگی به توابع دیگر.
بعد، گره ایجاد رویداد پس از آن می تواند اجرا پس از به دست آوردن نتایج از گره های سطح پایین تر و سپس عملکرد تابع بالا به طوری که کل برنامه به پایان رسید.
فرایند اجرا سخت گیرانه است، محدود به ساختار وابستگی برنامه که در آن برخی از عملیات را نمی توان موازی که باعث تاخیر قابل توجه است.
در سیستم آنلاین ما، جایی که ما پیش بینی می کنیم به عنوان ما بروید، اجرای برنامه می تواند زودتر شروع شود.
در اینجا، در پیش فرض پس از اوباما با اطمینان پیش بینی می کنیم که عملکرد فرد پیدا کردن باید در برنامه باشد، اما بقیه ممکن است حاوی اشتباهاتی باشند که خاکستری می شوند.
اجرای گره را می توان بلافاصله به صورت یک گام آغاز کرد.
سپس با نشانه های بیشتر، یک گراف کاملاً جدید را پیش بینی می کنیم، اما بخشی از آن در حال حاضر در حال اجرا بوده است.
بنابراین، ما فقط باید بقیه گره هایی را که به آنها اطمینان داریم نیز در نظر بفهمیم.
در اینجا فرد پیدا دیگری را می توان به موازات آن اجرا کرد.
باز هم ممکن است پیش بینی های اشتباهی داشته باشد.
با متن بیشتر توانایی بیشتری برای درست کردن آن داریم.
مانند زمان رویداد در اینجا که در آن AM نیز به درستی پیش بینی شده است.
سپس می توانیم اجرای بقیه را به دنبال ساختار وابستگی برنامه شروع کنیم.
با همپوشانی جدول زمانی اعدام با جدول زمانی گفته، ما مقدار زیادی از زمان را نجات می دهد.
بنابراین ما وظیفه تجزیه معنایی آنلاین را پیشنهاد کردیم.
یک فرض اساسی این است که زمان اجرا بر زمان پیش بینی مدل مسلط است.
بنابراین ما فقط می توانستیم با پیش بینی زودتر زمان به دست آوریم.
فرض دیگر این است که همان طور که پیش بینی و اجرا در پس زمینه اتفاق می افتد، برای کاربران قابل مشاهده نیست.
لازم نیست که یک تاریخ تجزیه سازگار حفظ شود.
بنابراین، ما از ابتدا پس از هر نشانه جبران می کنیم.
به طور خاص، ما یک رویکرد دو مرحله ای را پیشنهاد می کنیم.
یک گام پیشنهادی که یک گراف با ساختار کامل و یک گام انتخابی را پیش بینی می کند که گره هایی را انتخاب می کند که ارزش اجرا در این زمان را دارند.
ما دو گونه از روش پیشنهادی داشتیم.
رویکرد اول ترکیبی از تکمیل مدل زبان با گفته کامل به تجزیه گراف است.
به طور خاص، پیش فرض پس از اوباما برای اولین بار از طریق یک مدل زبان BART ریز تکمیل شده و سپس به یک برنامه با تجزیه کننده آفلاین کامل ترجمه شده است.
رویکرد دوم به طور مستقیم برنامه را از پیش فرض های گفته کاربر پیش بینی می کند.
این امر با آموزش یک تجزیه کننده آنلاین واحد برای ترجمه به گراف هدف از هر پیش نویس به دست می آید.
این امر مدل را برای یادگیری پیش بینی درست تسهیل می کند.
با کمی جزئیات بیشتر، چگونه این گراف ها را تولید کنیم؟
ما مسئله را با تولید یک نسخه سریال از گراف فرموله می کنیم.
هر گره یا لبه توسط یک عمل نشان داده می شود.
در اینجا از گره اول شروع می کنیم.
عدد زیر شاخص مطلق را در تاریخچه عمل ثبت می کند.
بعدش، گره دوم رو گرفتيم.
بعد، لبه بین آنهاست.
شامل اشاره گر به شاخص گره قبلی و برچسب لبه است.
صفر در اینجا به معنی اتصال جدیدترین گره با گره تولید شده توسط عمل صفر و گره بعدی لبه بعدی است.
این فرایند تا زمانی ادامه دارد که گراف کامل را تولید کنیم.
مدل زمینه ای بر اساس ترانسفورماتور با مکانیسم خود اشاره شبیه به یک تجزیه کننده مبتنی بر گذار قبلی است.
پس از تولید یک گراف کامل، احتمالات سطح عمل را به دست آوردیم که با بخش های مختلف گراف مطابقت دارد.
ما زیرگراف های اعتماد به نفس را بر اساس heuristic آستانه ای برای اجرا انتخاب می کنیم.
بعدها، ما آستانه رسیدن به معاملات مختلف بین کاهش نهفتگی و هزینه اعدام را متفاوت خواهیم کرد.
برای ارزیابی رسمی روش های آنلاین، کاهش نهايي نهايي يا متریک FLR را پيشنهاد می کنيم.
در اینجا روکش چگونه یک سیستم آفلاین به پایان می رسد جدول زمانی اعدام است.
در سیستم های آنلاین، اعدام با جدول زمانی گفته همپوشانی دارد، بنابراین زودتر به پایان می رسد.
FLR به عنوان زمان کاهش در مقایسه با سیستم آفلاین، مشخص شده توسط پایان اجرا تعریف شده است.
ما آزمایش هایی را بر روی دو مجموعه داده تجزیه معنایی مکالمه ای بزرگ به نام های SMCalFlow و TreeDST انجام می دهند.
تجزیه کننده مبتنی بر گراف ما در هنگام فعالیت آفلاین، به عملکرد حالت از هنر در تجزیه بر روی هر دو مجموعه داده دست می یابد.
مدل کامل LM همچنین به سود BLEU غیر بی اهمیت در مقایسه با پایه ساده تکمیل گره دست می یابد.
حال، بیایید به دقت پیش بینی پیش نویس ما به تجزیه کننده گراف نگاه کنیم.
ما برای هر طول پیشوند در محور x که با درصدها نشان داده می شود، نمره F1 توپل های گراف بین نسل و گراف go را در داده های اعتبارسنجی در محور y آزمایش می کنیم.
هر یک از این منحنی ها نشان دهنده یک مدل متفاوت با تنها تفاوت در داده های آموزشی است.
منحنی پایین تجزیه کننده آفلاین است، و ما در داده های پیش فرض در طول های مختلف مخلوط می کنیم تا مدل را به یک تجزیه کننده آنلاین انتقال دهد.
به عنوان مثال، پیش فرض افسانه هشتاد درصد به علاوه به این معنی است که مدل با داده های پیش فرض با طول پیش فرض بزرگتر از هشتاد درصد طول کامل گفته آموزش دیده است.
گوشه بالا سمت چپ منطقه مورد نظر است.
همان طور که می بینیم، تجزیه کننده آفلاین در منحنی سیاه روی داده های پیش فرض خوب عمل نمی کند.
همانطور که ما در حال مخلوط کردن پیش درآمدهای بیشتر در آموزش, منحنی در حال بلند کردن بالا و چپ, انجام بهتر در تمام طول پیش فرض.
با این حال، عملکرد تجزیه کامل گفته در نقطه راست بالایی تحت تأثیر قرار نمی گیرد.
بر اساس این نتایج قوی، چقدر نهان را کاهش می دهیم؟
زمان را با تعداد نشانه های منبع اندازه گیری می کنیم و زمان اجرای تابع های مختلف را شبیه سازی می کنیم.
منحنی نشان می دهد tradeoff بین متریک FLR و هزینه اجرا، اندازه گیری شده توسط تعداد هزینه های عملکرد بیش از حد است که درست نیست.
این امر با تغییر آستانه انتخاب زیرگراف به دست می آورد.
آستانه بالاتر توابع اشتباه کمتری را انتخاب می کند، اما FLR کوچکتری را به دست می آورد، در حالی که آستانه پایین تر پرخاشگرانه تر برنامه ها را انتخاب و اجرا می کند.
ما مقایسه دو رویکرد ما پیشنهاد و پایه است که هیچ چیز جز به طور مستقیم استفاده از تجزیه کننده آفلاین برای استفاده آنلاین.
منطقه بالا سمت چپ است که بهترین FLR و هزینه tradeoff.
ما می بینیم که هر دو روش ما ضرب و شتم پایه توسط حاشیه بزرگ، و آنها انجام بیشتر به طور مشابه در TreeDST.
در حالی که اجرای عملکرد فردی سریع تر است، تمایل به اجرای بیشتر اجرا و اتاق کاهش نهان پایین تر وجود دارد.
هنگامی که اجرای عملکرد فردی کندتر است، اتاق بیشتری برای بهبود FLR وجود دارد.
دو رویکرد ما به عملکرد بهتری در مناطق مختلف هزینه دست می یابند.
در مجموع بسته به زمان اجرا و هزینه مجاز به کاهش نهان نسبی سی تا شصت و سه درصد دست می یابیم.
در نهایت، ما یک شکست از کاهش نهان متوسط در نشانه برای هر نوع گره تابع زمانی که هزینه مجاز سه اجرا اجرا است.
همانطور که می بینیم، دستاوردهایی در سراسر هیئت مدیره وجود دارد.
همچنین برخی از توابع که در آن ما به دست آوردن کاهش نهان چشمگیر که در آن نوار قرمز بسیار طولانی تر وجود دارد, مانند پیدا کردن مدیر و گیرنده.
این ها توابع سطح پایینی هستند که وابستگی چندانی به دیگران ندارد.
در پایان، تجزیه معنایی آنلاین را به عنوان وظیفه ای جدید برای کشف با متریک کاهش نهفتگی سخت پیشنهاد کرد.
با یک تجزیه کننده معنایی مبتنی بر گراف قوی، ما به کاهش نهفتگی نسبتاً خوبی یا از طریق رویکرد خط لوله خود با تکمیل LM و یک تجزیه کننده کامل یا به طور مستقیم از طریق یک تجزیه کننده آموخته شده بر روی پیشوندها دست می یابیم.
همچنین رویکرد ما می تواند یک چارچوب کلی باشد و می تواند در سایر بازنمایی های معنایی اجرایی در حوزه های مختلف به کار گرفته شود.
آثار آینده می تواند پیش بینی هوشمندانه تر و روش ادغام اعدام کشف.
ممنون بابت گوش دادنت
سلام.
من می خواهم به بحث در مورد کار ما در تولید بازیابی تقویت counterfactuals برای پاسخ به سوالات وظایف.
این کار در طول کارآموزی من در تحقیقات گوگل انجام می شود، جایی که من توسط متیو لم و ایان تنی مربی شد.
برای ایجاد انگیزه در وظیفه، اجازه دهید من با تعریف یک ضد واقعی آغاز می شود.
در این اثر یک ضد واقعی را به عنوان یک آشفتگی متن ورودی تعریف می کنیم که به نوعی کنترل شده معنی دار با متن اصلی متفاوت است.
و اجازه می دهد تا ما را به دلیل در مورد تغییرات در نتیجه و یا برچسب وظیفه.
به عنوان مثال، تغییر کلمات جذاب به فریبنده و یا انتظار می رود به ذهن بی حس احساسات برای این بررسی فیلم را تغییر می دهد.
به طور مشابه، اضافه کردن زنان مقدماتی به سوال پاسخ به سوال را در مثال زیر تغییر می دهد.
انسان ها به طور معمول قوی به چنین perturbations در مقایسه با مدل های NLP آموزش دیده در وظیفه.
چرا این طور است؟
مجموعه داده ها ممکن است با سوگیری های سیستماتیک نمونه برداری شوند که منجر به یک مرز تصمیم گیری ساده می شود که توسط ضد واقعی نقض می شود.
همانطور که در این مسئله طبقه بندی دوD نشان داده شده است.
کار من نشان داده است که اضافه کردن نمونه های ضد واقعی به داده های آموزشی می تواند مدل قوی به چنین perturbations.
بنابراین، اگر ضد واقعی با ارزش هستند، چگونه می توانیم آنها را تولید کنیم؟
این وظیفه به خصوص برای NLP سخت است چرا که در اینجا سه مثال از سه کار مختلف NLP.
همانطور که می بینید، نمونه هایی که مرز تصمیم گیری بین نتایج را نقض می کنند، باید با آشفتگی برخی ویژگی های متن که در اینجا زیر خط قرار گرفته اند، بسیار با دقت گردد.
این کار می تواند با نویسی انسان انجام شود، اما این کار گران قیمت و مغرضانه است.
برخی از کار های قبلی بر استفاده از درختان نحو یا برچسب گذاری نقش معنایی متمرکز شده اند.
اما مجموعه اغتشاش های تولید شده توسط این تکنیک ها توسط چارچوب معنایی محدود می شوند.
کار اخیر تر از مدل های زبان نقاب دار برای پر کردن بخش های نقاب دار متن برای تغییر برچسب ها استفاده کرده است.
اما پیدا کردن این که چه بخش هایی از متن برای آشغال زدن می تواند چالش برانگیز باشد.
چالش های بیشتری برای تولید counterfactuals برای پاسخ به سوال به طور خاص وجود دارد.
این وظیفه نیاز به دانش پس زمینه دارد.
به عنوان مثال، برای آشفتگی سوال اصلی ایندیانا جونز معبد رستاخیز یک پیش دبستانی است؟
ما باید از فیلم های دیگر در حق رای دادن آگاه باشید برای رسیدن به یک سوال مانند ایندیانا جونز Raiders از کشتی از دست رفته prequel؟
علاوه بر این، آشغال های تصادفی می توانند منجر به پرسش هایی شوند که با شواهد موجود پاسخگو نیستند یا محل کاذب دارند.
همچنین برخی اغتشاشات سؤالی می تواند منجر به رانش معنایی قابل توجهی از ورودی اصلی شود.
به عنوان مثال، این سوال ایندیانا جونز تمرین برده داری کودکان در معبد رستاخیز است؟
ما پیشنهاد یک تکنیک بسیار ساده و در عین حال موثر به نام بازیابی تولید فیلتر یا RGF، برای مقابله با perturbations ضد واقعی از سوالات، و همچنین با هدف مقابله با تمام چالش های فوق دیگر.
شهود هسته پشت RGF این است که اطلاعات پس زمینه لازم است که مورد نیاز برای تولید perturbations ممکن است در دوشیزه نزدیک ساخته شده توسط یک مدل پاسخ به سوال وجود دارد.
به عنوان مثال، مدل دولت از هنر REALM تولید پاسخ k بالا زیر را به این سوال که کاپیتان باشگاه فوتبال ریچموند کیست؟
در حالی که آن را بازیابی عبور مرجع اصلی و پاسخ ترنت کوتچین به عنوان انتخاب بالا ترین.
همچنین معابر و پاسخ های اضافی را بازیابی می کند که می تواند برای هدایت آشغال سوال مورد استفاده قرار گیرد.
به عنوان مثال، دو پاسخ دیگر مربوط به کاپیتان های تیم ذخیره و تیم زنان همان باشگاه را بازیابی می کند و این می تواند منجر به ویرایش های جالبی شود.
برای خلاصه کردن، RGF ابتدا k بالا ترین پاسخ ها و زمینه های مربوطه را بازیابی می کند که با پاسخ مرجع در زمینه مطابقت ندارد.
پس از این مرحله، شرایط مدل تولید سوال بر روی این پاسخ های جایگزین برای تولید یک سوال است که با آنها مطابقت دارد.
و در نهایت می توانیم سوالات تولید شده را بر اساس حداقلی یا بر اساس نوع اغتشاش معنایی که به معرفی آن علاقه مند هستیم فیلتر کنیم.
رفتن بیش از هر مرحله در جزئیات بیشتر برای بازیابی، ما با استفاده از بازیابی و سپس خواندن مدل مانند REALM است که طول می کشد به عنوان ورودی سوال اصلی، و یک corpus بزرگ مانند ویکی پدیا.
از دو ماژول تشکیل شده است.
ماژول بازیابی کننده انجام جستجوی شباهت بیش از یک شاخص متراکم از معابر برای بازیابی k بالا ترین معابر مربوطه به سوال.
و یک ماژول خواننده سپس یک دهانه از هر گذرگاه به عنوان یک پاسخ بالقوه استخراج می کند.
REALM بازیابی عبور طلا و پاسخ در اکثر موارد.
با این حال، در این اثر، ما بیشتر به پاسخ ها و زمینه ای که آن را بازیابی بیشتر پایین خط علاقه مند است.
در مرحله بعد، تولید سوال، ما از این پاسخ ها و زمینه های جایگزین برای بازسازی پرسش های جدیدی استفاده می کنیم که با این جایگزین ها مطابقت دارد.
مدل تولید سوال یک ترانسفورماتور متن به متن از پیش آموزش دیده است که بر روی داده های NQ تنظیم شده است تا سوالی برای پاسخی که در زمینه مشخص شده است تولید کند.
در طول استنباط ما عرضه مدل تولید سوال، پاسخ جایگزین و زمینه ای که ما در گام قبلی بازیابی شده است.
به عنوان مثال برای پرس و جو کاپیتان باشگاه فوتبال ریچموند کیست؟ REALM بازیابی معابر در مورد تیم زنان باشگاه، کاپیتان جس کندی، و مدل نسل سوال تولید پرس و جو که کاپیتان اولین تیم زنان باشگاه فوتبال ریچموند تا کنون؟
که اغتشاش معنایی خاصی دارد.
در یک مد مشابه، ما همچنین پرس و جو مانند چه کسی کاپیتان تیم VFL رزرو ریچموند دریافت کنید؟
یا سال گذشته گراهام در فینال بزرگ چه کسی را نفی کرد؟
در نهایت، ما فیلتر کردن زیر مجموعه ای از پرس و جو تولید شده بر اساس برخی از ویژگی های مورد نظر است.
همان طور که پیش از این انگیزه داشتیم، می خواهیم اطمینان حاصل کنیم که سوال جدید هنوز از نظر معنایی به اصل نزدیک است.
برای تکنیک های فیلترینگ که نیاز به نظارت اضافی ندارد، ما به سادگی سوالات جدیدی را حفظ می کنیم که یک برچسب توکن کوچک فاصله ویرایش از سوال اصلی را دارند.
به عنوان مثال این سوال را حذف می کنیم که گراهام سال گذشته در فینال بزرگ چه کسی نفی کرد؟
چون فاصله ویرایش طولانی تری با سوال اصلی دارد.
در آزمایش های ما نشان می دهیم که می توان از این heuristic ساده برای تقویت و صف داده های آموزشی استفاده کرد.
ما همچنین با یک استراتژی فیلترینگ آزمایش می کنیم که بر اساس نوع اغتشاش معنایی است.
برای این منظور از یک چارچوب تجزیه پرس و جو با هدف کلی به نام QED استفاده می کنیم.
QED دو بخش را به سوال، یک پیشدست و یک مرجع شناسایی می کند.
منابع عبارت های اسمی در این سوال هستند که با نهادهای موجود در زمینه مطابقت دارند.
یک پیش درآمد اساساً بخش باقی مانده از سوال است.
به عنوان مثال، ما قادر به تجزیه پرس و جو که کاپیتان اولین تیم زنان ریچموند تا کنون به دو مرجع: تیم زنان باشگاه فوتبال ریچموند و اختصاص که کاپیتان ایکس.
یک مدل آموزش دیده بر روی اشاره های اختصاص داده شده برای NQ این تجزیه سوال را به ما می دهد.
تجزیه هر دو سوال اصلی و تولید شده بر اساس QED اجازه می دهد تا ما را به دسته بندی counterfactuals تولید شده ما برای ارزیابی.
به طور خاص دو گروه سوال به دست می آوردیم.
کسانی که تحت تغییر مرجع در حالی که حفظ predicates، و کسانی که تحت یک تغییر predicate و اختیاری اضافه کردن منابع.
به عنوان مثال، چه کسی کاپیتان تیم ذخیره VFL ریچموند یک تغییر مرجع است؟
در حالی که کسی که شماره نه را برای باشگاه می پوشد یک تغییر پیشدستی است.
ما در حال حاضر ارزیابی اثربخشی perturbations RGF زمانی که به آموزش داده ها تقویت شده است.
بنابراین، برای ارزیابی موثر اثربخشی تقویت ضد واقعی به طور خاص، ما با دو پایه تقویت داده های قوی آزمایش می کنیم.
پایه اول که پاسخ تصادفی و تولید پرسش نامیده می شود، داده هایی را اضافه می کند که هیچ ارتباطی با سوال اصلی ندارند.
است که معابر و پاسخ ها به سادگی به طور تصادفی از ویکی پدیا نمونه برداری می شوند.
این پایه اساساً داده های بیشتری اضافه می کند که شبیه NQ هستند.
با پاسخ طلا پایه دوم و تولید سوال، ما به طور خاص به روز رسانی بخش بازیابی از روش ما.
در اینجا، پاسخ های جایگزین فقط از همان گذرگاه که حاوی پاسخ طلا انتخاب شده است.
چگونه پایه و تقویت RGF ah در درک خواندن که در آن مدل دسترسی به سوال و زمینه انجام دهد؟
ما با شش تا از مجموعه داده های دامنه آزمایش می کنیم و نتایج را در اینجا ارائه می کنیم، جایی که داده ها داده های آموزشی در تقویت دو برابر شده است.
ما در میابیم که هر دو پایه تقویت داده ها قادر به بهبود عمومی دامنه ما نیست.
در واقع به نظر می رسد یک گروه از شش مدل آموزش دیده بر روی داده های اصلی رقابتی ترین پایه باشد.
در مقایسه با آن پایه، ما در می آوریم که RGF counterfactuals قادر به بهبود از عملکرد دامنه در حالی که حفظ در عملکرد دامنه.
این نشان می دهد که پر کردن شکاف های استدلالی مدل از طریق تقویت ضد واقعی موثرتر از اضافه کردن داده های بیشتر از توزیع آموزش است.
علاوه بر این، ما در میابیم که استفاده از بازیابی برای نمونه برداری از نتایج یا پاسخ های جایگزین برای CDA موثر مهم است.
ما همچنین با تنظیم دامنه باز QA که در آن مدل تنها سوال را می بیند آزمایش و یک بار دیگر ما در چهار از مجموعه داده های دامنه ارزیابی.
ما در میابیم که مدل های پایه به عنوان موثر برای خارج از عمومیت دامنه نیست.
با این حال، تقویت داده ها با RGF پیشرفت های قابل توجهی را نشان می دهد.
ما حتی در مجموعه داده های NQ دامنه بهبود می یابند.
ما فرض کرد که تقویت داده های ضد واقعی کمک مدل در یادگیری encodings پرس و جو بهتر برای نمایش داده شد بسیار مشابه است.
در نهایت، ما همچنین بر روی توانایی مدل در بهبود قوام در محله محلی سوال اصلی ارزیابی می کنیم.
قوام اندازه گیری نسبت سوالات به درستی توسط مدل که در آن هر دو اصلی و پرس و جو ضد واقعی به درستی پاسخ داده شده است.
این به صراحت به ما کمک می کند تا استحکام مدل را به آشغال های کوچک در محله ورودی اصلی اندازه گیری کنیم.
ما با پنج مجموعه داده آزمایش می کنیم که حاوی جفت سوال هایی هستند که از نظر معنایی به یکدیگر نزدیک هستند.
به غیر از سه مجموعه داده AQA، AmbigQA و QUOREF-Contrast مجموعه ای که در حال حاضر در دسترس هستند، ما همچنین بر روی counterfactuals RGF که با سوالات NQ اصلی بر اساس اینکه آیا آنها تحت یک تغییر پیش زمینه و یا تغییر مرجع جفت ارزیابی.
این زیرمجموعه ها برای از بین بردن سر و صدا در خانه نویسی شده بودند و به عنوان یک منبع ارائه می شوند.
تمام پایه ها قادر به بهبود قابل توجهی قوام با مدل گروه بهبود قوام توسط یک حاشیه کوچک نیست.
با این حال ، تقویت ضد واقعی RGF تا به دستاوردهای چشمگیر در قوام هر دو در مجموعه داده های قبلی و دو زیر مجموعه ما برای مرجع و perturbations predicate curated.
توجه داشته باشید که داده های تقویت شده RGF توسط نوع آشفتگی جانبدارانه نیست، تنها مجموعه های ارزیابی هستند.
در واقع، بازرسی کیفی از انواع ضد واقعی تولید شده نشان می دهد که سوالات تولید شده حاوی چندین آشفتگی متنوع است.
به عنوان مثال، این سوال اصلی در مورد جمعیت گردو گروو، مینه سوتا در امتداد ابعاد مختلف مانند شهر، ایالت، کشور، و در امتداد مصادیق مختلف مانند مکان، فقر، تعداد مدارس منحرف شده است.
صوتی از perturbations زمینه خاص هستند.
به عنوان مثال، برای این سوال دیگر در مورد مسابقات تک آهنگ ویمبلدون آه، آشغال در امتداد نوع بازی، نوع مسابقات، یا نتیجه بازی است.
نهایی takeaways; ما مقابله با وظیفه تقویت داده های ضد واقعی و perturbations برای اطلاعات به دنبال پرس و جو و مقابله با چالش های منحصر به فرد خود را از طریق معکوس از رویکرد نسل، بیش از تولید با استفاده از دوشیزه نزدیک از مدل و فیلتر بر اساس نوع آشفتگی و یا حداقل.
در می یایم که این تکنیک نیاز به نظارت اضافی ندارد و نمونه ها برای تقویت برچسب گذاری شده اند.
تقویت از عمومیت دامنه و قوام محله بهبود می یابد.
و ما در می آوریم که ضد واقعی RGF از نظر معنایی متنوع هستند بدون اینکه سوگیری را در طول تقویت معرفی کنند.
سپاسگزارم.
