こんにちは、エレナです。これから私たちの研究、スペイン語における同化されていない借用の[検出]： [注釈付きコーパス] と[モデリング]へのアプローチについて発表します。
[語彙的]借用とは何か、ご提案する[タスク]、リリースした[データセット]、探索した[モデル]についてお話します。
しかしまず初めに、[語彙的]借用とは何か、そしてなぜこれが[自然言語処理タスク]で重要なのかについてお話しします。
[語彙的]借用は基本的に[単語]を1つの[言語]から別の[言語]に組み込むことです。
たとえば、スペイン語では[英語]からの[単語]を使います。
ここで例をあげると、ポッドキャスト、アプリ、そして[オンライン]クラウドファンディングなどの[単語]はすべて、スペイン語で時々使われる[英語]の[単語]です。
[語彙的]借用は、基本的に他の[言語]をある[言語]パターンで再生する一種の[言語的]借用です。
そして、バイリンガルの人が2つの[言語]を同時に混合することのように、借用とコードの切り替えは、時として連続したコードの切り替えと比較され、説明されます。
ただし、[語彙的]借用とコードの切り替えにはある違いがあります。
ここでは[語彙的]借用に焦点を当てていきます。
コードの切り替えはバイリンガルが行うもので、その定義からすると、コードの切り替えは使われたどの[言語]にも統合されていません。一方、[語彙的]借用はモノリンガルも行います。
借用は、受け入れ[言語]の[文法]に準拠します。
そして借用は、やがて受け入れ側の[言語]に組み込まれていきます。
では、なぜ借用は興味深い現象なのでしょうか？
[言語学]の観点から言えば、借用は[言語]がどのように変化し、どのように相互作用しているかの表れです。
そして、[語彙的]借用は、新しい[単語]の源でもあります。
ここで、スペイン語に新しい[単語]として組み込まれた[語彙的]借用の例をいくつか見てみましょう。
[自然言語処理]の面で借用は、[語彙]にない[単語]の一般的な源です。
実際、[自動的に] [語彙的]借用を[検出]することは、[構文解析]、[テキスト]-トゥ-[スピーチ]合成、または[機械翻訳]など、[自然言語処理]の[下流][タスク][の為]に有用です。
[英語]の他の[言語]に対する影響、特に[英語]の[語彙的]借用についてについて関心が高まっており、この借用はアングリシズムと呼ばれます。
そしてこちらでは、これらの[言語]における借用の[自動][検出]に関する研究例を幾つかご紹介します。
私たちが[提案]する[タスク]は、スペイン語の[ニュースワイヤー]における同化されていない[語彙]借用を検出することです。
ここでの目的は、スペイン語の新聞で使用されている他の[言語]から借用した[単語]で、受け入れ側の[言語]に統合または同化していない単語を[抽出]することです。
つまりスペイン語にはまだ組み込まれていません。
ここに例があります。
このスペイン語の[文章]：Las prendas bestsellers se estampan con motivos florales, animal print o retales tipo patchwork.
ご覧の通り、3つの[スパン]の [テキスト]、つまりベストセラー、アニマルプリント、パッチワークといった[英語]の[単語]があります。
これらは、[抽出]と[検出]が興味深い[スパン]のタイプです。
アングリシズム[検出]で[以前]に[単語]があり、それらは スペイン語[ニュースワイヤー]におけるアングリシズム[検出][の為]の[CRF][モデル]で構成されています。
この[モデル]は86のF1スコアを達成しました。
しかし、[データセット]と[モデリング][アプローチ]の両方には限界があります。
[データセット]は特に、[ニュース]の[ソース]の一つ、ヘッドラインだけを含んでいます。
そして、[訓練]セットとテストセットに出現する借用語には重複もあります。
これにより、[モデリング][アプローチ]が以前の[見えない]借用語を実際に[一般化する]かどうかの評価ができません。
ですから、この[タスク]におけるこれらの制限に取り組むことが目標です。
まずは、新しい[データセット]を作成します。
[語彙的]借用で[注釈付き]新しい[データセット]を目指し、できるだけ難しいテストセットを作成することを目指しました。
したがって、[訓練]セットとテストセットの間の[単語]とトピックスの重複が最小限になります。
その結果、テストセットは[訓練]セットでみられないソースと日付からきています。
ここでは、時間内に重複がないことがわかります。
また、テストセットも非常に借用語が多いです。
数値をあげると、もし[訓練]セットに、各1,000[トークン]につき6つの借用が含まれていると、テストセットには各1,000[トークン]につき20の借用が含まれています。
テストセットには、できるだけ多くの[語彙][単語]が含まれていました。
実際、テストセットの借入語の92%は[OOV]です。
そのため、[訓練]中には見られませんでした。
そして、[コーパス]は基本的にスペインの新聞のさまざまなソースから来た[テキスト]のコレクションで構成されていました。
それは二つのタグを使って手作業で[注釈付き]にされました。
一つ[は]、[英語]の[語彙的]借用語[の為]、スペイン語では大多数を占める[語彙的]借用語で、もう一つのラベルはその他の[言語]からの借用語[の為]です。
[CONLL]形式で、[BIO][エンコーディング]を使ったので、アプリなどの単一[トークン]借用語や、[機械学習]などのマルチ[トークン]借用語を[エンコード]しました。
これらは[コーパス]の数です。
ご覧のとおり、それは約37万[トークン]に相当します。
ここに、[英語]としてラベル付けされた[スパン]の[数]と、他の借り入れとしてラベル付けされた[スパン]と、そのうちでユニークであった数があります。
ここでは、[データセット]のセットの例をいくつか示します。
インスタンス[の為]にここで確認できることに、最初の例では、マルチ[単語]借用語、batch cooking（バッチクッキング）があります。
そして、[BIO][エンコード]で[注釈付き]を行いました。
[BIO]はスペイン語の[単語][の為]に使ったので、借用されていない[単語]ではありません。
2つ目の例では、[英語]からの借用語として[ラベル付き]になっている、benchingとcrashがあります。
そこで[データセット]が手に入った後、これらの[語彙的]借用を[抽出]して[検出]するタスク[の為]の[モデル]をいくつか検討しました。
最初に試したのは、条件付きランダムフィールド[モデル]でした。
これは[以前の]作業で使用されていた[モデル]でした。
そしてその研究からの同じ手作りの[機能]を使用しました。
これらが[機能]です。
大文字の[単語]や[トークン]などの[バイナリ]の[機能]ですか？
見出しのために大文字になっているのでしょうか？
引用符ですか？
[名前付きエンティティ認識][タスク]で期待される[機能]の種類です。
これらが得られた結果です。
手作りの[機能]による[CRF][モデル]を使って、F1スコア、55を得ました。
これは、スペイン語の[語彙的]借用[検出][の為]に、同じ[CRF][モデル]、同じ[機能]で、異なる[データセット]を用いたのF1スコア、86と比較すると、大きな違いがあります。
これにより、作成した[データセット]はより難しく、これらの[タスク][の為]に、より洗練された[モデル]を探索する必要があることがわかりました。
そこで、2つの[トランスフォーマー]ベースの[モデル]をテストしました。
私たちは、スペイン語[の為]に訓練された[単一言語][BERTモデル]と[多言語BERT]を使いました。
両方の[モデル]は、HuggingFaceの[トランスフォーマー]ライブラリを介して使用しました。
これらが得られた結果です。
ご覧のとおり、[多言語BERT]は、開発セットとテストセットの両方、およびすべての[メトリックス]で[BETO]よりも優れています。
比較するアイデアがあったので、[CRF][モデル]では82を得ました。
[CRF][モデル]のF1スコアは55です。[多言語BERT]の82とは大きな差があります。
これらの結果を得た後、もう一つの[質問]に直面しました。[BiLSTM-CRF][モデル]を見つけ、異なる種類の[埋め込み]を行い、これらの[埋め込み]にさまざまな種類の[言語的][情報]を[エンコーディング]すると、[トランスフォーマー]ベースの[モデル]で得られた結果より優れたパフォーマンスを発揮できるでしょうか？
そのために、フレアライブラリを使った[BiLSTM-CRF][モデル]で予備的な実験を行いました。
[トランスフォーマー]ベース、ファースト[テキスト]、文字[埋込み]など、さまざまな種類の[埋込み]で実験を試みました。
[トランスフォーマー]ベースの[埋込み]は[文脈で理解できる][埋込み]よりも優れており、[英語] [BERT]とスペイン語[BETO][埋込み]の組み合わせは[多言語 BERT] [埋込み]よりも優れていることがわかりました。
[BPE][埋込み]はF1の結果が優れていました。文字[埋込み]はリコールで優れていました。
それを念頭に置いて、これらは私たちが得た最高のパフォーマンスの結果です。
どちらの[モデル]も、フレアを使用した[BiLSTM-CRF][モデル]でした。
1つは[BETO]と[BERT][埋込み]と[BPE]がフィードされ、もう1つは[BETO]と[BERT] [埋込み]と[BPE]と文字[埋込み]もフィードされました。
この最後のものが、テストセットで最高のF1スコアを生成したものでした。しかし開発セットでの最高のスコアは文字[埋込み]のないものによって得られました。
[多言語BERT]での最高のF1スコアは、開発セットで76、テストセットで81であったことにご留意ください。
これはその結果に[比較して]改善されています。
最後に、コード切り替えにおける[言語識別]から[語彙]借用[検出]を[転移学習]として捉えることができるかという、別の[質問]を考えました。
そこで、フレアを使用して実行したのと同じ[BiLSTM-CRF][モデル]を実行しますが、これらの非適応の[トランスフォーマー]ベースの[BETO]と[BERT][埋込み]の代わりに、コード切り換え[埋込み]を使用しました。
コード切り換え[埋込み]とは何か？
これらは[トラーンスフォーマー]ベースで丁寧にチューニングされた[埋込み]です。[LinCE]コード切り換え[データセット]のスペイン語、[英語]セクションで[言語識別][の為][事前訓練された]ものです。
[LinCE]は、コード切り替えに関する[データセット]で、スペイン語[英語]、スペイン語[英語]のコード切り替えに関するセクションがあります。
そこで、[BiLSTM-CRF]にコード切り替え[埋込み]と任意の文字[埋込み]、[BPE][埋込み]などをフィードしました。
得られた最高の結果は84.22でした。これはテストセットで試したすべての[モデル]の中で最高の結果です。
開発セットで得られた最良のF1スコアは79でしたが、順応されていない[埋込み]がフィードされた[BiLSTM-CRF]で得られた最良の結果よりも低いものでした。
私たちの研究からのいくつかの結論となります。
同化されていない[語彙的]借用を伴う[注釈付き]スペイン語[ニュースワイヤー]の新しい[データセット]を作成しました。
この[データセット]は、[以前の][リソース]よりも借用が多く、[OOV]が豊富です。
[語彙的]借用の[検出][の為]の4種類の[モデル]で調査しました。
ええ。誤差[分析]で、リコールはすべての[モデル][において]弱点でした。
こちらで確認できるように、大文字の借用[単語]で、[英語]と[スペイン語]の両方に存在するものが、頻繁に検知漏れになっています。
また興味深いことに、[BPE][埋込み]はF1スコアを向上させるようです。
そして、文字[埋込み]はリコールを改善しているようです。
これは興味深い発見であり、今後の研究でさらに調査することができるかもしれません。
ええ。これで発表は終わりです。
ご清聴いただき[、]本当にありがとうございました。
アントワーヌと申します。
マサチューセッツ大学アマースト校の博士課程の学生です。
[KinyaBERT]: 「[語形論]-キニアルワンダ語の[言語モデル]を認識する」という[論文]をご紹介します。
本日は、この[研究][の為]の動機についてお話しします。
その後、[KinyaBERT][モデル]のアーキテクチャの詳細を紹介します。
そして、実験結果について話し、結論をいくつかお伝えします。
最近の[自然言語処理]の進歩は、[BERT]のような[事前訓練された言語][モデル]の使用によって可能になったことは誰もが知っています。
しかし、制限はまだ[いくつも]あります。
ほとんどの[形態的に]豊富な[言語]によって表現される複雑な[形態素]のために、私が使用したユビキタスな[バイトペア符号化]され[トークン化]された[アルゴリズム]は、効果的な[表現]の[ために]必要な正確な[サブ単語]の[語彙的]な単位、[つまり] [形態素]を抽出することができません。
たとえば[、]こちらのキニアルワンダ語の3つの[単語]には[形態素]がいくつかありますが、[BPE][アルゴリズム]はそれらを抽出できません。
これは、[形態的]な規則が正確な[語彙][情報]を隠すさまざまな表面形態を生成し、表面形態のみに基づいた[BPE]がこの[語彙][モデル]にアクセスできないためです。
2つ目の課題は、[Oracle][形態素アナライザー]にアクセスできたとしても、[BPE][トークン]を[形態素]に置き換えるだけでは、[形態的][構成の可能性]を表現するのに十分ではないということです。
[研究]における3番目のギャップは、新しい[事前訓練された言語]の[モデル]がリソースが豊富な[言語]で最も頻繁に評価されることです。
また、[リソース]があまりない、多様な[言語]への適用性も評価する必要があります。
[したがって]、[形態素]が豊富な[言語]をより効果的に扱うために、[BERT]アーキテクチャをシンプルかつ効果的に適応させた[KinyaBERT]を発表します。
[低リソース]で[形態素]が豊富な[言語]のキニアルワンダ語で、[KinyaBERT]を評価します。キニアルワンダ語は東部および中央アフリカで1,200万人以上の方々が話す言語です。
[モデル]への[入力]は、[文]または[文章]のいずれかです。
[たとえば]こちらには、「John twarahamubonye biradutangaza」という文章があります。「私たちはそこでジョンを見つけてびっくりした」という意味です。
ご覧のとおり、キニアルワンダ語の[単語]には、異なる[情報]を含む[形態素]がいくつか含まれています。
[したがって]、私たちの[モデル]では、この[文]または[文章]を[形態素アナライザー]に渡します。
それからそれぞれの[単語]に含まれる[形態素]を生成します。
[形態素]は通常、語幹とゼロ以上の接尾辞で構成されます。
接尾辞は、時制、[アスペクト]、[動詞]の主語または目的語を示すことができ、主語および目的語のためのバントゥー語の[名詞]クラスに関連することが多いです。
[形態素アナライザー]は、各[単語][の為]の[スピーチ]タグの一部も生成します。
このステップの後、[スピーチ]タグの一部[の為]に[埋込み]を用意します。
接尾辞[の為]の[埋込み]です。
そして語幹[の為]の[埋込み]です。
これらは、[語形論]レベルであり、[語形論]レベルの[埋込み]です。
次に、これらの[埋込み]を[語形][エンコーダ]に渡します。これは、各[単語]に独立して適用される小さな[トランスフォーマーエンコーダ]です。
そして、各[単語]で[形態的][情報]がついている、[文脈で理解できる][ベクトル]が出力されます。
それでは、[スピーチ]と語幹に[対応する][形態的][埋込み]が連結される合成を行います。
さらに、[文章]レベルで他の語幹の[埋込み]を合成します。
次に、メインの[文]または[文章][エンコーダ]への[入力]を形成します。
最終的な出力は、[下流][自然言語処理][タスク]に使用できる[文脈で理解できる][埋込み]です。
[形態素アナライザー][では]、キニアルワンダ[語]に合わせてカスタム実装された有限状態2レベル[語形論]原則を使用します。
口語、[名詞]、指示代名詞、所有[代名詞]、数字などを含むすべてのキニアルワンダ[語]の[語形]を効果的に[モデリング]します。
[スピーチ][タグ付け][アルゴリズム]の[監視なし]の部分を使用します。
一次因子[モデル]を使用して、[語形]の確率、つまり[形態素アナライザー]によって割り当てられた確率[を]説明します。
また、[スピーチ]タグの優先と、[入力][単語]に存在する[構文]合意も考慮します。
[スピーチ]の[タグ付け部]は、[双方向][推論]を使っており、より頻繁に使われる[デコーディング][の為]のビタビ[アルゴリズム]よりも優れています。
ここで、[位置的エンコーディング][の為]の注意事項を少し紹介します。
1つ目は、[形態素][エンコーダ]は[位置的エンコーダ]を使用しないことです。
これは、各[形態素]が[形態的][モデル]内の既知のスロットを占有しているためです。
[したがって]、位置[情報]は、[形態素]が与えられたときに内在します。
第二に、[文][エンコーダ]は、最近[ICLR]カンファレンスで公開されたいわゆる不拘束の相対位置の[埋込み]を使用します。
この位置的[埋込み]は、[トークン]から[トークン] [アテンション][計算]へ、位置[相関]を本質的に分離します。
[BERT]と[同様]に、[マスク言語モデル][事前訓練]の目的を使用します。
本質的には、[単語]に関連付けられている語幹と接尾辞の両方を予測する必要があります。
[事前訓練]では、すべての[単語]の15%が[予測][と]見なされ、そのうち80%がマスクされ、10%がランダムな[単語]と交換され、10%は変更されません。
接辞の[予測][では]、複数のラベルの[分類]に関する[問題]に直面します。
こ[の為]には、接辞を固定した[数]でセットグループ化し、クラスラベルとしてセットを予測するか、
もしくは、接辞の確率[ベクトル]を予測することです。
この2つのアプローチを実験で計測しています。
[KinyaBERT]を約2.5ギガバイトのキニアルワンダの[テキスト]で事前訓練し、3つのベースライン[モデル]と比較します。
一つは[多言語][モデル]で、[XLM]-Rと呼ばれ、複数の[言語]で作られた[大規模な][テキスト][コーパス]で訓練されています。
他の2つの[ベースライン]は、同じキニアルワンダ語の[テキスト]上で[事前訓練された]ものです。[バイトペアエンコーディング][アルゴリズム]を使用するか、2層[トランスフォーマーエンコーダ]アーキテクチャを使用せずに[形態分析]を使用して、事前訓練されます。
すべての[モデル]は1億から1億1千万のパラメータからなる基本のアーキテクチャで構成され、最小の[数]のパラメータを使用した[KinyaBERT]を持つキニアルワンダ語を使用します。
[多言語]を除くすべての[モデル]は、32,000の[傾度]の更新[で][事前訓練された]ものです。各更新のバッチサイズは2,560の[シーケンス]です。
[事前訓練された][モデル]は、3つの[タスク]セットで評価されます。
1つは、[事前訓練された][言語][モデル]の有効性を評価するためにしばしば使用されてきた[GLUE]ベンチマークです。
[GLUE]ベンチマーク[データ]は、元のベンチマーク[データ]をGoogle翻訳でキニアルワンダ語に翻訳して取得します。
2つ目の[タスク]はキニアルワンダ語の[名前付きエンティティ認識]ベンチマークで、訓練を受けたネイティブスピーカーによる[注釈付き]の、高品質の[データセット]です。
3つ目は[ニュース]分類[タスク]です。複数のウェブサイトから[ニュース]記事を取得し、著者によって割り当てられた分類タグを収集し、基本的に同じカテゴリを予測します。
それでは、結果に移ります。
[GLUE]ベンチマーク[では]、[KinyaBERT]がベースライン[モデル]を一貫して上回っていることがわかりました。
ここでは、10件の[微調整]の実行結果[の]平均値を示します。
また、Google翻訳によって生成された[翻訳]の[ユーザー][評価]も実行します。
基本的に、[ユーザー]は約6,000の例を評価し、1から4のスケールでスコアを割り当て、[翻訳]の[品質]を[評価]しました。
その結果、多くの[翻訳]はノイズが多くなりました。
しかし、すべての[モデル]は同じ[翻訳]ノイズに対処しなければならず、[モデル]間の相対的なパフォーマンスは依然として注目に値します。
[名前付きエンティティ認識][タスク][では]、[KinyaBERT]が、最高のパフォーマンスを示し、接辞分布[回帰]バリアントが最高のパフォーマンスを示すことがわかりました。
これらの結果は、10回の[微調整]の実行結果の平均でもあります。
[ニュース]分類[タスク]に[ついては]、さまざまな結果が確認できます。
[以前の]キニアルワンダ語[の][テキスト分類]の研究では、単純なキーワード[検出]がこの特定の[タスク]を解決するのに十分であることがわかりました。
[したがって]、[事前訓練された言語]の[モデル]を使用することで得られる利益は少なくなります。
この[ニュース]分類の特定の[タスク]について。
また、パフォーマンスを向上させる代替構造があるかどうかを調べるために[アブレーション]研究を実施しました。
[GLUE]ベンチマーク[では]、接辞セットを使用すると一貫してパフォーマンスが向上し、[名前付きエンティティ認識]で接辞確率[回帰]目標では、最高のパフォーマンスが得られることがわかりました。
また、[微調整]の低スコアを見る[と]、[KinyaBERT]はほとんどの場合、収束性が優れていることがわかります。
結論として、この研究は、[事前訓練された言語][モデル]で[形態的][情報]を明示的に使用することの有効性を実証しています。
提案された2層の[トランスフォーマーエンコーダ]アーキテクチャは、[形態的]に豊かな[言語]の重要な[アスペクト]である[形態的]複雑性、[形態的][構成の可能性]を捉えることを可能にします。
これらの知見は、[語形論]を認識した[言語][事前訓練された言語][モデル]のさらなる[研究]を動機づけるはずです。
こんにちは。Michał Pietruszkaと申します。『訓練可能な[表現]プーリングによる[トランスフォーマー][モデル]の分散』と題した[論文]をご紹介します。
これは、Lukasz BorchmannとLukasz Garncarekとの協力で、Applica [AI]で行われた研究です。
まずは、私たちの研究の目標についてお話しします。
私たちの[方法]は、長いインプットが考慮される[場合に]うまく機能します。
大まかに言えば、それは2,000[トークン]以上の[タスク]オーダーと[入力][を]意味し、ターゲットは提供された入力よりも短いです。
これは[自然言語処理]での特定のアプリケーションがいくつかあります。
たとえば、長い[文章]があれば、それを要約し、分類し、[質問]に[応答]し、[情報]またはいくつかの重要なフレーズを抽出する必要があると想像できます。
バニラ[トランスフォーマー]と[入力]ラインの2乗に依存する、[アテンション]の複雑さの問題を思い出してください。
バニラ[トランスフォーマー]では、完全な[アテンション]接続で、各[トークン]と他の[トークン]との[relations]を計算する必要があります。
[アテンション]の[計算]の複雑さは、レイヤーlの[数]、[シーケンス]の長さ、別の[シーケンス]の長さ、および[表現]の次元に依存します。
同様に右側のこの画像に、[デコーダ]のクロス[アテンション]があります。ここでの唯一の違いは、[ターゲット][トークン]がこの場合[入力][トークン]に参加していることです。
これはこの公式にも見て取れます。
[BLEUスコア]は、計算する必要がある[relations]を表します。
完全な[アテンション]の場合、[入力][シーケンス]内のすべての[relations]を計算する必要があります。
これで、[トークン]の接続性を制限して、近くの他の[トークン]のみを見ることができるようにするブロックワイズ[エンコーダ]がある場合、何が起こるかがわかります。
[テキスト]はチャンクで読み取られ、[エンコーダ]側の計算の[数]を大幅に減らすことができますが、すべての[入力][トークン]が[デコーダ]に渡されるため、[デコーダ]のクロス[アテンション]は改善されません。
この[方法]は、[デコーダ]での融合と呼ばれることが多くあります。
ここでの改善は、nの[依存関係]の1つを、ブロックサイズを表す別の定数mに変更するものと解釈することができます。
観察できた重要な点は、ほとんどの[トークン]は多様な[タスク][には]無関係であり、ほぼ完全に無視することができるということです。これはスライドに例示されています。
入力のうち、目的の出力に関係する部分だけです。
例え[ば]。
記事を一度読んで、最も重要な部分を蛍光ペンでマークして、中間段階のこの部分に基づいて要約を作成します。
ハイライトと現在の[トークン]が要約の作成に不可欠であるかを判断するコストは安価であり、[トークン]の[表現]のみに依存します。
ハイライトされた[トークン]のプールが可能です。
トップkオペレーターのおかげで、そのコストは無視できます。
短縮された[入力]から要約を作成するコストも、全体[入力]を考慮した場合のバニラ[モデル]よりもはるかに低くなります。
しかし[質問]があります。
重要な[トークン]を選択するには、そして、その選択に傾度を逆伝播するにはどうすればよいでしょうか？
解決すべき根本的な[問題]は、訓練可能な選択メカニズムを[提案]することです。
ネットワークが最も重要な[トークン]を選択することを学習できるように、[訓練]中に[傾度]を逆伝播できるものです。
より正確には
シンプルな[線形]レイヤーから得た[埋込み]アンダースコアをいくつか与えると、[タスク]は最高のスコアの[埋込み]を返します。まず、[シーケンス]の順序を変え、より高いスコアの[ベクトル]とより低いスコアのものを組み合わせるようにペアを準備します。
次に、スコアに対してブーストされた[softmax]を使用して[荷重]を計算します。
各トーナメントラウンドの後、新しい[ベクトル]とスコアは、取得した[荷重]とペアになった[線形]の組み合わせになります。
要するに、スコアに対して[softmax]を実行することによって、それらを線形に結合します。
2つの[トークン]を組み合わせると、いくつかのノイズが生成されることがあります。
また、勾配をすべての[入力][埋込み]に伝播させることもできます。
つまり、[提案]した訓練可能なトップkは、各ステップでトーナメントのような柔軟な選択を行うことに基づいています。
別の観点から見ると、[表現]プーリングは[エンコーダ]レイヤーに従います。
まず、各[表現]がスコア付けされます。その後、最も高いスコアを持つものだけが次のレイヤーに渡されます。
[エンコーディング]は、標準の[トランスフォーマー]アーキテクチャの全長の[入力]として実行できます。
ただし、[テキスト]を固定長ブロックで処理し、最適な[表現]をグローバルに選択することは可能です。
以下は、[エンコーダ]の後に導入された[表現]プーリングの例です。
これはクロス[アテンション]の原因に直接影響を与えました。クロスアテンションは[入力]長Nではなく、プールされた長さを表す定数Kに依存します。
この定数は、いくつの[表現]が選択され、[デコーダ]に渡されるかを知らせるものです。
より短い[テキスト]から要約を作成することは、[以前の]ソリューションよりも大幅に安価です。
[シーケンス]の長さが[大きな]要因によって短くなる可能性があるからです。
たとえば実験では、nの値より16倍、あるいは64倍も小さなkを使うことができました。
ブロックワイズの[エンコーディング]とセルフ[アテンション]の有益な影響は維持されることに注意してください。
[アテンション]の[計算]コストは、[入力]の長さの2乗に依存することを忘れないでください。
[エンコーディング]プロセスの早い段階で[入力]を減らすことで、大幅にコストを削減できます。
ピラミディオン[モデル][では]、選択した各レイヤーの出力への[表現]サイズを絞り込むことで、[エンコーディング]プロセスが進むにつれ、[計算]コストが大幅に削減しました。
ご覧の通り、フルの[エンコーダ]の計算コストの合計は、フルサイズの最初のレイヤーのコストの1/2未満です。
プーリングがこれより前に導入された場合、すべての紫の正方形の合計は、レイヤーIの[数]に依存せず、定数に制限されます。
しかし定数cでは、ネットワーク内でのプーリングレイヤーの配置に影響を受ける可能性があります。
改善により、8,000トークン長の入力が基準となりました。
この図は、プーリングが行われると、ネットワークの深さ[に]最適なスケーラビリティが達成されることを示しています。
ここで注意すべきは、そのような長い入力では、24層のプラミディオンを[訓練]するほうが、2層のバニラ[トランスフォーマー]の訓練よりも安価であり得ることです。
そのような長い[入力][では]、バニラ[トランスフォーマー]がどれだけ簡単にメモリ不足になるかは言うまでもありません。
トレンドピラミディオンと他のベースラインとの[質的]比較は、長い[文章]の[要約][タスク]、またはarXivまたは[PubMed]の記事の本文から、摘要を生成する[タスク]で実行されます。
このように、私達のベースラインであるブロックワイズは、最近の最新技術[モデル]である[RE]と同レベルの性能を示し、ピラミディオンはこの競合のベースラインの性能を維持または向上させていることがわかります。
同時に、私たちの[モデル]は、ブロックワイズベースラインと[比較して]、80%早く訓練することができ、450%以上早く[推論]できます。
これらの[モデル]は両方とも、[パラメータ]カウントがより低く、選択したタスクではじめから訓練されました。
[同様の]パフォーマンスを達成した[以前の]アプローチは、[同様の]パフォーマンスを達成するために、より多くのパラメータを使用し、[事前訓練された]基盤[モデル]と、加えて[言語][事前訓練]の目標を活用する必要がありました。
ぜひ、[論文]を全てお読みいただき、GitHubのコードもご利用ください。
ご覧頂き[、]ありがとうございました。
こんにちは。ハーバード大学のJiawei Zhouです。
タスク指向の[ダイアログ]における[オンライン][意味論的構文解析]のレイテンシ削減に関する研究を発表できることを嬉しく思います。
これは、Microsoftの[意味論的]マシンのジェイソン、マイケル、アンソニー、サムとの共同研究です。
[タスク]指向の[ダイアログ]で[ユーザー]が対話する[システム]は、通常、話すことで発せられる[ユーザー]の[発話]からの要求を処理します。
[ユーザー][発話]の終了から、[システム]の応答まで、しばしば目立った遅延があります。
内部では、[ユーザー]の[発話]が実行可能なプログラムへ翻訳されます。
そして、[システム]が適切に応答できるように実行されます。
そのプログラムは、[計算]を概要する[意味論][グラフ]として表現され、ここでノードは関数の呼び出しと示し、その子は引数を表します。
大きな[ノード]は、瞬時に動作しますが、その他は実行が遅いです。
ここで示された簡単な例のように、これらのプログラムはしばしばツリー構造を超えてより複雑な[グラフ]になることがあります。
ここでは、[システム]がより早い応答が達成できるよう、[ユーザー]が[発話]を終わる前にプログラムの[生成]を開始し、実行できるか？という[質問]について追求していきます。
これは、[オンライン][予測]と決定の[問題]です。
この領域には他にもたくさんのものがあります。
例としては、通訳者が、一つの[言語]から他の言語にリアルタイムで翻訳をする[同時][翻訳]、[ユーザー]の意図を推測するスマート[テキスト]の自動補完、需要予測に基づいて必要とされる可能性のある場所にドライバーを送るUberプールなどがあります。
これらのシナリオのすべてには共通点があります。
すべての[入力]を見る前に意思決定を下すのは有益であるということです。
ここでは、[オンライン][意味論的構文解析]を扱います。これは[ユーザー]が言うかもしれないことを推測しなければならないので、困難となる可能性があります。
そして、公式な[評価]メトリックがない、十分に調査されていない領域でもあります。
まず、通常の[システム]の仕組みを見ていきましょう。
[ユーザー][発話]の最後のみにプログラムに[構文解析]をすることで、オフラインで動作します。
ここでは、文字[グラフ]は、すべての[情報]を見た後に予測されます。
対照的に、私たちはすべての[発話]の接頭辞で比較する[オンライン][システム]を提案しています。
[たとえば]、新しい[トークン]を見るたびに、新しい[グラフ]を予測します。
エラーがある可能性に注意してください。
バラク・オバマとのプールサイドパーティーでの位置では、人物と[イベント]主題についての右[ノード]の[グラフ]がありますが、タイミング[情報]が間違っていると思われます。
このプロセスは、完全に[ユーザー][発話]を受け取るまで続きます。
これがオフラインの[システム]では、どのように実行のタイムラインに影響を与えるでしょうか？
プログラム[グラフ]は最後に得るので、[システム]はこの時点で実行開始できます。
大きな[ノード]は操作が高速で、色付けした遅い関数の実行タイムラインのみを考慮することを覚えておいてください。
まず、二つのfind person関数は[並行して]実行できます。関数はそれぞれ[依存関係]がないので、ピンク色のボックスで白に強調されています
次に、より低いレベルの[ノード]から結果を得た後、ノード作成の[イベント]が実行され、そしてトップのyield関数が実行されてプログラム全体が終了します。
実行プロセスは厳密であり、プログラム[依存性][構造]に制限されています。一部の操作は並行実行できないため、顕著な遅延が起こることがあります。
私たちの[オンライン][システム]では、先に進むにつれて予測し、プログラム実行を早期に開始することができます。
ここでは、オバマのあとの接頭辞で、find person関数はプログラム内にあるべきと自信を持って予測していますが、残りはグレーアウトされるためエラーが含まれている可能性があります。
ノードの実行は、ステップごとにすぐ開始することができます。
その後、より多くの[トークン]で、私たちは、まったく新しい[グラフ]を予測しますが、その一部はすでに実行されています。
したがって、私たちは、私たちが自信を持っている残りの[ノード]も考慮する必要があります。
ここでは、もう一つのfind person関数を[並列]で実行できます。
再度、間違った予測をしているかもしれません。
[テキスト]が増えると、間違いを正す能力が増えます。
ここでは、AMが正しく予想される[イベント]時間などがあります。
その後、プログラムの[依存性][構造]に従って残りの部分を実行し始めることができます。
実行タイムラインと[発話]タイムラインを重ね合わせることで、大幅に時間を節約できます。
そこで、[オンライン][意味論的構文解析]の[タスク]を提案しました。
1つの基本的な仮定は、実行時間が[モデル][予測]時間に大きく影響を与えるということです。
そこで早期に予測することで時間を稼ぐことができます。
もう1つの仮定は、[予測]と実行がバックグラウンドで行われるため、ユーザーには表示されないということです。
一貫した[構文解析]履歴を維持する必要はありません。
そこで，それぞれの[トークン]後に、ゼロから再解析します。
特に、2つのステップによる[アプローチ]を[提案]します。
提案するステップでは、完全な[構成]を持つ[グラフ]と、現時点で実行する価値のある[ノード]を選択する選択ステップを予測します。
提案された[方法]には2つのバリエーションがありました。
最初の[アプローチ]は、[言語モデル]の完了と完全な[発話]から[グラフ][構文解析]を組み合わせたものです。
特に、オバマの後の接頭辞は、最初に細かく調整された[BART][言語モデル]を介して完成され、次に完全なオフライン[パーサー]を備えたプログラムに翻訳されます。
2番目の[アプローチ]は、[ユーザー][発話]接頭辞からプログラムを直接予測します。
これは、各接頭辞から目標[グラフ]に変換するために、単一の[オンライン][パーサー]を[訓練]することによって達成されます。
これで、[モデル]は正しい予測を容易に学ぶことができます。
もう少し詳しく説明すると、これらの[グラフ]はどのように生成されるのでしょうか？
[グラフ]のシリアルバージョンを[生成]することで[問題]を定式化します。
各ノードまたはエッジは、アクションによって表されます。
ここでは、最初のノードから開始します。
以下の[数字]は、アクション履歴の絶対指数を記録します。
そして、2番目のノードを取得しました。
次に、ノードの間のエッジです。
これには、[前の]ノードのインデックスとエッジラベルへのポインタが含まれています。
ここでゼロとは、直近のノードを、ゼロ番目のアクションと次のノードの次のエッジによって[生成された]ノードと接続することを意味します。
このプロセスは、完全な[グラフ]を生成するまで続きます。
基礎となる[モデル]は、[トランスフォーマー]に基づいており、[以前の]トランジションベースの[パーサー]に[類似]したセルフポインティングメカニズムを備えています。
完全な[グラフ]を[生成]した後、[グラフ]のさまざまな部分に対応するアクションレベルの確率を取得しました。
実行するしきい値[ヒューリスティック]に基づいて信頼度サブグラフを選択します。
後で、レイテンシ削減と実行コストの間で異なるトレードオフを達成するために、しきい値を変更します。
[オンライン][方法]の正式な[評価]に[ついて]は、最終的なレイテンシ削減または[FLR]メトリックを[提案]します。
以下は、オフラインの[システム]が実行タイムラインをどのように終了するかの要約です。
[オンライン][システム]では、実行は[発話]タイムラインと重複するため、より早く終了します。
[FLR]は、実行の終了によってマークされたオフライン[システム]と[比較した]短縮時間として定義されます。
2つの[大規模]な[会話型][意味論的構文解析][データセット]、[SMCalFlow]、[TreeDST]で実験を行います。
オフラインで動作するときの[グラフ]ベースの[パーサー]は、両方の[データセット]で[構文解析]の最先端のパフォーマンスを[達成]します。
LMコンプリート[モデル]も、ノードコンプリートのシンプルなベースラインと[比較して]、重要な[BLEU]ゲインを[達成]します。
では、[グラフ][パーサー]に対する接頭辞の[予測]の精度をみていきましょう。
y軸[を]各接頭辞の長さ、x軸をパーセンテージで表した評価[データ]における[生成]とgo[グラフ]の間の[グラフ]タプルの一致F1スコアをテストします。
これらの曲線はそれぞれ異なる[モデル]を表し、[訓練データ]だけに違いがあります。
下の曲線はオフラインの[パーサー]で、[モデル]を[オンライン][パーサー]に移行するために、さまざまな長さの接頭辞[データ]をミックスします。
たとえば、凡例の接頭辞80%プラスは、この[モデル]は完全な[発話]長の80%より長い接頭辞を持つ接頭辞[データ] を意味します。
左上隅が望ましいエリアです。
ご覧のとおり、黒い曲線のオフライン[パーサー]は、接頭辞[データ]でうまく機能していません。
[訓練]でより多くの接頭辞をミックスするにつれて、曲線は上部と左側を持ち上がり、すべての接頭辞の長さでより良いパフォーマンスを発揮します。
ただし、右上の完全な[発話][構文解析]パフォーマンスには影響しません。
これらの強力な結果に基づいて、どのくらいレイテンシを削減できるでしょうか？
[ソース][トークン]の[数]で時間を測定し、異なる関数の実行時間をシミュレートします。
曲線は、[FLR]メトリックと実行コストの間のトレードオフを示しています。これは、正しくない過剰な関数コストの[数値]で測定されます。
これは、サブグラフ選択のしきい値を変化させることによって達成されます。
しきい値が高いほどミスの関数は少なくなりますが、[FLR]は小さくなります。一方、しきい値が低いほど、プログラムをより積極的に選択して実行します。
[提案]する2つのアプローチと直接オフライン[パーサー][を][オンライン]使用に適用するだけのベースラインを比較します。
左上の領域では、最良の[FLR]とコストのトレードオフがあります。
私たちの[方法]は両方ともベースラインを[大きな]マージンで上回っており、[TreeDST]でも同様のパフォーマンスを発揮します。
個々の関数の実行はより速くなりますが、実行数が増え、レイテンシ削減の余地がある傾向があります。
個々の関数の実行が遅くなると、[FLR]改善[の]余地が広がります。
2つのアプローチは、異なるコスト領域でより良いパフォーマンスを実現します。
全体として、実行時間と許容コストに応じて、30〜63%の相対レイテンシ削減を達成します。
最後に、許可されたコストが3回の実行である場合の、関数ノードの各タイプ[の][トークン]における平均のレイテンシ削減の内訳を示します。
ご覧のとおり、まんべんなく利点があります。
find managerやrecipientなど、赤線がより長いところでは、大幅なレイテンシの削減が見られた関数もいくつか見られます。
これらは低レベルの関数であり、お互いにそれほど[依存性]がありません。
結論として、厳密なレイテンシ削減メトリックを使用して探索するための新しい[タスク]として[オンライン][意味論的構文解析]を提案しました。
強力な[グラフ]ベースの[意味論][パーサー]を使用して、LM補完ならびに完全な[パーサー]を備えた、または接頭辞で直接学習した[パーサー]を介したパイプライン[アプローチ]のいずれでも、比較的良好なレイテンシ削減を達成しました。
[また]、私たちの[アプローチ]は、一般的な枠組みになり得ます。他の実行可能な[ドメイン]の[意味論]の[表現]にも適用可能です。
今後の研究では、よりスマートな[予測]と実行統合[方法]を探求することができます。
ご静聴ありがとうございました。
こんにちは。
私たちの研究「[質問に回答する][タスク]に対する[取得][強化された]非現実節の[生成]」についてお話しします。
これは、Google [Research]でインターンをしていた時に行った研究です。その際、Matthew LammとIan Tenneyに指導を受けました。
この[タスク]を始めるにあたって、まず[非現実節]を定義します。
この研究では [非現実節]を、元の[テキスト]よりもある意味のある制御された方法で異なる[入力][テキスト]のゆるぎと定義します。
そして、出力や[タスク]ラベルでの変化について推論することができます。
たとえば、fascinatingをcaptivatingへ、または expectedをmind-numbingへと[単語]を変更することは、映画批評の[感情]を変えます。
同様に、[質問]にwomen's という修飾子を追加すると、以下の例の[質問]に対する[応答]が変わります。
人間は、[タスク]で訓練された[自然言語処理][モデル]と[比較]すると、そのようなゆらぎに対して堅牢です。
なぜでしょうか？
[データセット]には、体系的な[バイアス]をもって抽出されている可能性があり、[非現実節]によって違反となるシンプルな決定境界につながります。
この2Dの[分類][問題]に示されているように。
私の研究では、[訓練データ]に[非現実節]の例を追加すると、[モデル]がそのようなゆらぎに対して堅牢になることがわかりました。
それでは、非現実節が価値あるものであるならば、どのようにしてそれらを生成することができるのでしょうか？
このタスクは、3つの異なる[自然言語処理][タスク]からの3つの例があるため、[自然言語処理][タスク][にとって]特に難しいです。
ご覧の通り、出力間で決定境界に違反した例は、下線を引いた[テキスト]のいくつかの属性にゆらぎを与えることで、注意深く作る必要があります。
これは、[人間の][注釈]によって達成できますが、高価であり偏りがでます。
いくつかの過去の研究は、[構文]ツリーや[意味論的ロールラベリング]に焦点を当てていました。
しかし、これらのテクニックにより[生成]されたゆらぎのセットは、[意味論]の枠組みによって限界がありました。
最近の研究では、マスクした[言語モデル]を使用して、[テキスト]のマスクした部分を埋めて、ラベルを変更しました。
しかし、[テキスト]のどの部分がゆらぐかを見つけることは困難です。
特に、[質問への回答][の為]の非現実節の[生成]はより困難です。
この[タスク]には、背景となる[知識]が必要です。
たとえば、インディ・ジョーンズ/ 魔宮の伝説の前編ですか？という[質問]にゆらぎを与えるとします。
レイダース／失われたアークは前編ですかという[質問]に達するには、フランチャイズの他の映画を認識する必要があります。
[さらに]、ランダムなゆらぎは、利用可能な証拠を用いて回答ができないか、誤った前提の[質問]につながる可能性があります。
[また]、ある[質問]のゆらぎが、元の[入力]から大きく[意味論的]に離れる可能性があります。
たとえば、インディアナ・ジョーンズは魔宮で児童奴隷制を実践しているのか？などの[質問]です。
私たちは、[非現実節]的[質問]のゆらぎに対抗し、すべての他の前述の課題に取り組むことを目標として、取得生成フィルター[RGF]と呼ばれる、非常にシンプルかつ高価的なテクニックを[提案]します。
[RGF]の背後にあるコアの直感は、ゆらぎの生成に必要な背景[情報]は、[質問回答][モデル]によってニアミスで存在する可能性のあるということです。
たとえば、最先端の[モデル]である[REALM]は、リッチモンドフットボールクラブのキャプテンは誰ですか？」と言う[質問]に対して、次のトップk回答を「生成します。
これは元の参照する一説を回復し、トレント・コーチンを最も多い選択肢として[回答]します。
これはまた、[質問]のゆらぎを導くことのできる、追加の一説と回答を取得します。
たとえば、リザーブチームと同じクラブの女性チームのキャプテンに[対応する]2つの回答を回復し、これが興味深い編集となる可能性があります。
要約すると、[RGF]はまず、[文脈]内の参照[応答]と一致しないトップkの最も関連性の高い応答と[文脈]を取得します。
このステップに従って、[質問生成] [モデル]は、これらの代替え回答の条件として、それらに対応する[質問]を生成します。
そして最後に、最小性、または導入に興味のある[意味論]的なゆらぎのタイプに基づいて[生成された][質問]を絞り込むことができます。
[取得]についてより詳細に各ステップを検討すると、取得を使用した後、元の[質問]を[入力]とする[REALM] のような[モデル]や[Wikipedia]のような[大規模]な[コーパス]を読みます。
これは2つのモジュールで構成されています。
Retrieverモジュールは、[類似性][検索]を一節の高密度インデックス上で実行し、[質問]に最も関連性の高い上位k個の一説を取得します。
そして、readerモジュールは、潜在的な[応答]として各一節からスパンを抽出します。
ほとんどの場合、[REALM]は非常に優れた一節と[応答]を取得します。
しかしこの研究では、応答とその先で取得される[文脈]に、より興味があります。
次のステップの[質問生成]で私たちは、これらの代替回答と[文脈]を使用して、これらの代替えに対応する新しい[質問]を再生成します。
[質問生成][モデル]は、事前訓練された[テキスト]トゥ[テキスト][トランスフォーマー]です。これはNQ[データ]で微調整され、[文脈]にマークされた[応答][の為]の[質問]を生成します。
[推論]では、[質問生成][モデル]、[以前の]ステップで[回収された]代替[応答]、[文脈]をフィードしました。
たとえば、リッチモンド・フットボールクラブのキャプテンは誰ですか？という[疑問][には][REALM]は、ジェス・ケネディがキャプテンをつとめるクラブの女性チームについての一説を取得し、そして[質問生成][モデル]は、リッチモンド・フットボールクラブの最初の女性チームのキャプテンは誰ですか？という[疑問]を生成します。
これには、特定の[意味論]的なゆらぎがあります。
[同様]に、リッチモンドの[VFL]リザーブチームのキャプテンは誰ですか？
または、去年グラハムが決勝で勝った相手は誰ですか？といった[質問]も得られます。
最後に、ある望ましい特性に基づいて、[生成された][質問]のサブセットを絞り込みます。
前述で[動機づけられる]ように、新しい[質問]がまだ[意味論的に]オリジナルに近いことを確認したいと思います。
追加の監督を必要としない絞り込みのテクニックに[ついては]、単純に元の[質問]から[トークン]ラベル編集の距離が小さい、新しい[質問]を維持します。
たとえば、私たちは昨年決勝でグラハムが勝った相手は誰ですか？という[質問]を削除します。
これは元の[質問]からの[編集]距離が長いからです。
実験では、[訓練データ]を強化して、キューに入れるためにシンプルな[ヒューリスティック]を使用できることを実証しました。
[意味論]的なゆらぎの種類に基づいた絞り込み戦略も実験しています。
この目的のために、[QED]と呼ばれる汎用[質問]分解フレームワークを使用します。
[QED]は、[質問]の2つの部分、[述語]と参照を識別します。
参照は、[文脈]内の[エンティティ]に対応する[質問]内の[名詞]句です。
[述語]は基本的に[質問]の残りの部分です。
たとえば、リッチモンド初の女子チームのキャプテンを務めたのかという[疑問]を、リッチモンド・フットボールクラブの女子チームと誰がキャプテンを務めたかという[述語]の2つの参照に分解することができます。
NQ[の為]に参照[述語]の[注釈]で訓練した[モデル]により、この[質問]を分解できます。
[QED]に基づいた元の質問と生成された[質問]の両方を分解することにより、[評価][の為]に[生成]された[非現実節]を分類することができます。
具体的には、2つのグループの[質問]を取得します。
[述語]を保持しながら参照の変更を受けるもの、[述語]の変更を受けて任意に参照を追加するものです。
たとえば、「リッチモンドの[VFL]リザーブチームのキャプテンは誰ですか？」は参照の変更でしょうか？
「クラブ[で][背番号]9をつけているのは誰ですか？」というのは、[述語]の変更です。
[訓練データ]に[強化された]ときの[RGF]のゆらぎの有効性を評価します。
特に[非現実節]の[拡張]の有効性を効果的に評価するために、2つの強力な [データ拡張] [ベースライン]で実験しました。
最初のベースラインは、ランダム[応答]と[質問生成]と呼ばれ、元の[質問]に[リレーション]のない[データ]を追加します。
つまり、一説と応答は、単純に[Wikipedia]からランダムにサンプルを抽出します。
このベースラインは基本的に、NQのように見える[データ]を追加します。
2つ目のベースラインはゴールド[回答]と[質問生成]で、[方法]の[取得]部分をアップデートします。
ここでは、代替えの回答は、ゴールド[応答]を含む同じ一節からただ選択します。
[ベースライン]と [RGF][拡張]は、[モデル]に[質問]と[文脈]にアクセスできる[読解]でどのように機能するでしょうか？
私たちは、[ドメイン][データセット]中の6つで実験をし、ここで結果を提示します。[データ]は[訓練データ]で、[拡張]で2倍になります。
[データ拡張][ベースライン]の両方は、[ドメイン]の[一般化]を改善できないことがわかりました。
実際、元の[データ]で訓練された6つの[モデル]の組み合わせが、最も競争力のあるベースラインであるようです。
そのベースラインと比較して、[RGF]非現実節は、[ドメイン]パフォーマンスで維持しながら、[ドメイン]パフォーマンスを向上させることができることがわかりました。
これは、[非現実節]を[増大]させて[モデル]の[推論]ギャップを埋めることは、[訓練]分布からより多くの[データ]を追加するよりも、より効果的であることを示唆しています。
[さらに]、私たちは、代替え出力や回答をサンプル抽出するために[取得]を使用することは、効果的な[CDA][の為]に重要であることがわかりました。
[モデル]が[質問]だけを見て、再び[ドメイン][データセット]中4つで評価する、オープン[ドメイン][QA]設定でも実験を行いました。
ベースラインの[モデル]は [ドメイン]外の[一般化][では]効果的ではないことがわかりました。
しかし、[RGF]による[データ増大]は、より顕著な改善を示します。
[ドメイン]NQ[データセット]でも改善します。
[非現実節]の[データ増大]は、非常に[似た][疑問]のより良い[疑問]のエンコーディング[学習]で[モデル]を支援すると仮定しました。
最後に、[モデル]の元の[質問]のローカル周辺の一貫性を向上させる能力も評価しました。
一貫性は、元の疑問と[非現実節]の[疑問]を正しく回答した[モデル]が正しく回答した[質問]の割合を測定します。
これは、元の[入力]の周りの小さなゆらぎに対する[モデル]の[堅牢性]を測定するのに明示的に役立ちます。
[意味論的に]お互い近い[質問]のペアを含む5つの[データセット]で実験しました。
すでに利用できる[AQA]、[AmbigQA]、[QUOREF]コントラストセットの3つの[データセット]とは別に、[述語]変更または参照変更が起きたかどうかに基づき、元のNQ[質問]と組み合わされた[RGF] 非現実節を評価します。
これらのサブセットは、ノイズを除去するために内部で[注釈付け]され、リソースとして提供されます。
すべての[ベースライン]は大幅に一貫性を改善できず、アンサンブル[モデル]は小さなマージンで一貫性を改善しました。
しかし、[RGF][非現実節]の[増大]は、以前の[データセット]と、参照と[述語]のゆらぎ[の為]にキュレーションした2つのサブセットの両方で一貫性が大幅に向上しています。
なお、[強化された][RGF][データ]はゆらぎの種類によって偏るのではなく、[評価]セットによって偏ることに注意してください。
実際、[生成された]非現実節の[質的]検査では、[生成された][質問]には、多様なゆらぎがいくつか含まれていることを示しています。
たとえば、ミネソタ週のウォルナットグローブの人口に関する元の[質問]は、街、州、郡などの異なる次元や、場所、貧困、学校の[数]などの異なる[述語]でゆらいでいます。
ゆらぎの音声は[文脈]固有です。
たとえば、ウィンブルドンのシングルストーナメントに関するこの[質問]では、試合の種類、トーナメントの種類、試合結果に関してゆらいでいます。
最終的な教訓は次のとおりです。[非現実節]の[データ拡張]と[質問]を求める[情報]のゆらぎの[タスク]に取り組み、[モデル]のニアミスや、ゆらぎの種類や最小性に基づいた絞り込みを使用した、いくつかの[生成][アプローチ]を介してユニークな課題に取り組みます。
このテクニックは追加の監督を必要とせず、例は[拡張][の為]に[ラベル付け]されていることがわかります。
[拡張]は[ドメイン][一般化]と周辺の一貫性を改善します。
また、[RGF]非現実節は[拡張]中にバイアスをもたらすことなく[意味論的に]多様であることがわかります。
ご清聴ありがとうございました。