こんにちは、Elenaです。スペイン語での同化されていない借り入れの検出：注釈付きコーパスとモデリングへのアプローチ。
ここでは、語彙の借用とは何か、私たちが提案したタスク、私たちがリリースしたデータセット、そして私たちが探求したいくつかのモデルについて説明します。
しかし、そもそも、レキシカル・ボーリングとは何であり、なぜそれがNLPタスクとして重要なのでしょうか？
ある言語から別の言語に単語を組み込むことです
たとえば、スペイン語では、英語から来た単語を使用します。
ポッドキャスト、アプリ、オンラインクラウドファンディングなど、いくつかの例があります。これらはすべて、スペイン語で時々使用される英語の単語です。
語彙の借用は、基本的に他の言語の1つの言語パターンで再現されている言語的借用の一種です。
そして、借用とコードの切り替えは、時には連続体として比較され、説明されてきました。コードの切り替えは、バイリンガルが2つの言語を同時に混ぜ合わせるときに行うことです。
しかしながら、レキシカル・ボーリングとコード・スイッチングの間にはいくつかの違いがある。
ここでは、レキシカル・ローンに焦点を当てます。
コードの切り替えはバイリンガルによって行われるものであり、定義上、コードスイッチは使用されている言語のいずれにも統合されていませんが、語彙の借用もモノリンガルによって行われます。
借入は、受取人の言語の文法に準拠します。
そして、借り入れは最終的に受取人の言語に統合することができます。
なぜ、借りることが面白いのでしょうか。
言語学の観点から言えば、借用は言語がどのように変化し、どのように相互作用するかを示すものです。
また、語彙の借り入れは新しい言葉の源でもあります。
ここでは、新しい単語としてスペイン語に組み込まれた語彙の借用例をいくつか紹介します。
NLPの面では、ああ借用は語彙外の単語の一般的なソースです。
実際、自動的に語彙の借用を検出することは、解析、テキスト読み上げ合成、機械翻訳などのNLP下流のタスクに役立つことが証明されています。
他の言語への英語の影響への関心が高まっており、特に英語の語彙の借用、時には英語主義と呼ばれる借用に関連しています。
ああ、これらの言語のいくつかで借用の自動検出に関するいくつかの例があります。
そこで私たちが提案する仕事は、スペインのニュースワイヤーで同化されていない語彙の借用を検出することです。
つまり、スペイン語の新聞で使用されているが、受信者の言語に統合または同化されていない他の言語から借用した単語を抽出することに興味があることを意味します。
スペイン語にはまだ組み込まれていません。
ここに例があります。
Las prendas bestsellers se estampan con motivos florales, animal print o retales tipo patchwork.
ご覧のとおりベストセラー動物柄パッチワークのような英語の単語が３つあります
これらは、私たちが抽出して検出することに興味を持っているスパンのタイプです。
スペイン語ニュースワイヤでの英語検出のためのCRFモデルで構成されている英語検出のああに関する以前の単語がありました。
このモデルは86のF 1スコアを達成しました。
しかし、データセットとモデリングアプローチの両方にいくつかの制限がありました。
したがって、データセットはニュースの1つのソースのみに焦点を当てており、見出しだけで構成されていました。
また、トレーニングセットとテストセットに表示される借用には重複がありました。
これにより、モデリングアプローチが実際に以前には見られなかった借り入れに一般化できるかどうかの評価が妨げられました。
ですから、私たちが目指しているのは、この課題におけるこれらの限界のいくつかに取り組むことです。
まずは新しいデータセットを作成しました
ああ、レキシカルな借用で注釈付けされた新しいデータセットを目指し、できるだけ難しいテストセットを作成することを目指しました。
したがって、トレーニングセットとテストセットの間の単語とトピックの重複は最小限に抑えられます。
結果として、テストセットは、トレーニングセットでは見られないソースと日付から来ています。
ここでは、時間内に重複がないことがわかります。
また、テストセットも非常に借り入れ密度が高いです。
いくつかの数字を挙げると、トレーニングセットに1,000トークンごとに6つの借り入れが含まれている場合、テストセットには1,000トークンごとに20個の借り入れが含まれています。
テストセットには、できるだけ多くの語彙単語が含まれていました。
実際、テストセットの借入金の92 ％はOOVです。
訓練中は見かけませんでした。
そして、コーパスは基本的にスペインの新聞の異なるソースから来たテキストのコレクションで構成されていました。
そして、ああ、それは2つのタグを使用して手で注釈付けされました。
1つはスペイン語の語彙借用の大部分である英語の語彙借用であり、もう1つは他の言語からの借用のラベルです。
私たちはCONLLフォーマットを使用し、バイオエンコーディングを使用して、アプリなどの単一トークンの借用や機械学習などのマルチトークンの借用をエンコードできます。
これがコーパスの数字です。
ご覧のとおり、約37万トークンになります。
他の借り入れとしてラベル付けされているスパンの数と、そのうちのいくつがユニークであったかを示しています。
データセットの集合のいくつかの例があります。
例えば、ここで見られるように、最初の例では、マルチワードの借用である借用バッチ調理があります。
BIO umエンコードを使ってアノテーションしました
したがって、バイオはスペイン語の単語に使用され、借用されていない単語には使用されませんでした。
英語からの借り入れとラベル付けされています。これは、英語からの借り入れです。
そこで、データセットを入手したら、これらの語彙の借用を抽出して検出するタスクのためのいくつかのモデルを探索しました。
最初に試したのは、条件付きランダム場モデルでした。
ああ、これは以前の作品で使用されていたモデルです。
同じ手作りの機能を使いました
ご覧のとおり、これらが特徴です。
これらは、単語や大文字のトークンなどのバイナリ機能ですか？
TitleCaseなのでしょうか。
引用符ですか。
これは、名前付きエンティティ認識タスクで期待される機能のタイプです。
これらは私たちが得た結果です。
手作りの機能を備えたCRFモデルを使用して、55のF 1スコアを取得します。
これは、同じCRFモデルで得られた結果である86の報告されたF 1スコアとは大きく異なる違いですが、同じ機能ですが、スペイン語の語彙借用検出のための異なるデータセットでも得られました。
これは私たちが作成したデータセットがより難しく、これらのタスクのためにより洗練されたモデルを探索する必要があることを証明しています。
そこで、2つの変圧器ベースのモデルをテストしました。
私たちは、スペイン語と多言語のBERTのために訓練された単一言語のBERTモデルであるBETOを使用しました。
どちらのモデルも、HuggingFaceのtransformersライブラリを通じて使用しています。
これらは私たちが得た結果です。
ご覧のとおり、多言語BERTは、開発セットとテストセットの両方、およびすべてのメトリックでBETOよりも優れています。
比較するためのアイデアがあるので、CRFモデルは82を得ました。
CRFモデルは55点、F 1スコアは55点、多言語のBERTモデルは82点を獲得したが、これは大きな違いである。
そこで、これらの結果が得られたら、BiLSTM - CRFモデルを見つけて、異なる種類の言語情報をエンコードし、変圧器ベースのモデルによって得られた結果を上回る性能を発揮する埋め込みを、さまざまな種類の埋め込みで提供できるかどうかという別の質問を自問しました。
フレアライブラリを使用してBiLSTM - CRFモデルでこれを実行しました
変圧器ベースのような異なる種類の埋め込みを試しましたが高速テキストや文字埋め込みなども試しました
私たちが発見したのは、トランスベースの埋め込みは、コンテキスト化されていない埋め込みよりも優れており、英語のBERTとスペイン語のBETO埋め込みの組み合わせは、多言語のBERT埋め込みよりも優れているということでした。
そして、BPE埋め込みはより良いF 1を生み出し、キャラクター埋め込みはより良いリコールを生み出します。
それを念頭に置いて、これらは私たちが得た最高のパフォーマンスの結果でした。
どちらのモデルもフレアを用いたBiLSTM - CRFモデルであった。
1つはBETOとBERTの埋め込みとBPEを与えられ、もう1つはBETOとBERTの埋め込みとBPEと文字埋め込みを与えられた。
この最後のものは、テストセットで最高のF 1スコアを生成したものでしたが、開発セットで最高のスコアは文字埋め込みなしのものでした。
多言語を話すBERTで得られた最高の結果は、開発セットで76、テストセットで82のF 1を獲得したことを覚えておいてください。
これは、これらの結果と比較して改善されています。
最後に、私たちは自分自身に別の質問をしました。これは、コード切り替えにおける言語識別からの転移学習として、語彙借用検出をフレーム化できるかどうかということです。
フレアを使用して実行したのと同じBiLSTM - CRFモデルを実行しますが、これらの未適応のトランスベースのBETOおよびBERT埋め込みを使用する代わりに、コードスイッチ埋め込みを使用しました。
コードスイッチの埋め込みとは何ですか？
これらは微調整された変圧器ベースの埋め込みであり、LinCEコード交換データセットのスペイン語英語セクションで言語識別のために事前に訓練されています。
LinCEは、コード切り替えに関するデータセットで、スペイン語英語、スペイン語英語コード切り替えに関するセクションがあります。
そこで、BiLSTM - CRFにコードスイッチの埋め込みとオプションの文字埋め込み、BPE埋め込みなどを提供しました。
私たちが得た最高の結果は84点22で、これは私たちがテストセットで試したすべてのモデルの中で最高です。
開発セットで得られた最良の結果F 1スコアは79であったが、BiLSTM - CRFによって得られた最良の結果よりも低かった。
それでは、私たちの仕事からのいくつかの結論です。
ああ、私たちは、同化されていないレキシカル借用で注釈付けされたスペインのニュースワイヤの新しいデータセットを作成しました。
このデータセットは、以前のリソースよりも密度が高く、OOVが豊富です。
私たちは、4つのタイプのレキシカル借用検出モデルを探索しました。
エラー解析の点では、リコールはすべてのモデルの弱点でした。
ああ、ここで見ることができるように、いくつかの頻繁な偽ネガには大文字の借用、例えば英語とスペイン語の両方に存在する単語が含まれます。
また、興味深いことに、BPE埋め込みはF 1スコアを向上させるようです。
そして、キャラクターの埋め込みはリコールを改善するようです。
これは興味深い発見であり、将来の研究を探求することができるかもしれません。
これで全部だ
ご清聴ありがとうございました。
私の名前はアントワーヌです。
私はマサチューセッツ大学アマースト校の博士課程の学生です
KinyaBERT: A Morphology - Aware Kinyarwanda Language Modelを紹介します。
今日は、この研究の動機についてお話しします。
次に、KinyaBERTのモデルアーキテクチャについて詳しく説明します。
その後、実験結果について話し、いくつかの結論を出して終わります。
最近の自然言語処理の進歩は、BERTのような事前に訓練された言語モデルを使用することによって可能になったことは誰もが知っています。
しかし、まだいくつかの制限があります。
ほとんどの形態学的に豊富な言語によって表現される複雑な形態のために、私が使用したトークン化アルゴリズムを符号化するユビキタスバイトペアは、効果的な表現に必要な形態素を意味する正確なサブワードレキシカルユニットを抽出することはできません。
たとえば、ここでは、3つのキンヤルワンダ語の単語にいくつかの形態素が含まれていますが、BPEアルゴリズムでは抽出できません。
これは、いくつかの形態学的規則が正確な語彙情報を隠す異なる表面形態を生成し、表面形態のみに基づいているBPEがこの語彙モデルにアクセスできないためです。
2つ目の課題は、たとえOracleの形態学的アナライザにアクセスできたとしても、BPEトークンを形態素に置き換えるだけでは、形態学的組成性を表現するのに十分ではないということです。
この研究の3番目のギャップは、新しい事前訓練された言語モデルが最も頻繁に高リソース言語で評価されることです。
また、低リソースと多様な言語への適用性も評価する必要があります。
したがって、私たちはKinyaBERTを提示します。これは、BERTアーキテクチャのシンプルで効果的な適応であり、形態学的に豊富な言語をより効果的に処理することを目的としています。
KinyaBERTは、東アフリカと中央アフリカの1200万人以上の人々が話す低資源の形態学的に豊かな言語であるKinyarwandaで評価します。
モデルへの入力は、文章またはドキュメントのいずれかです。
たとえば、ここにはJohn twarahamubonye biradutangazaがあります。つまり、そこにJohnがいることに驚いたということです。
ご覧のとおり、キンヤルワンダ語の単語には、異なる情報を含むいくつかの形態素が含まれています。
したがって、私たちのモデルでは、この文または文書を形態学的分析器に渡します。
各単語に含まれる形態素を生成します。
形態素は通常、ステムとゼロ以上の接尾辞で構成されています。
接尾辞は、動詞の時制、態様、主語または目的語を示すことができ、より頻繁には、主語および目的語のバントゥー名詞クラスに関連する。
形態学的アナライザはまた、各単語の音声タグの一部を生成する。
このステップの後、スピーチタグの一部のためにspee -の埋め込みを行います。
貼り付けの埋め込み。
と茎のための埋め込み。
これらは形態レベルであり、これらは形態レベルの埋め込みです。
次に、これらの埋め込みを形態エンコーダを介して渡します。これは、各単語に独立して適用される小さなトランスエンコーダです。
の出力は、各単語の形態情報と文脈化されたベクトルである。
さて、スピーチとステムの一部に対応する形態学的埋め込みが一緒に連結された構成を行います。
さらに、それらを文レベルで別のステム埋め込みとさらに連結することを連結します。
次に、メインセンテンスまたはドキュメントエンコーダへの入力を形成します。
最終的な出力は、下流のNLPタスクに使用できるコンテキスト化された埋め込みです。
形態学的アナライザでは、キニャルワンダ語に合わせたカスタム実装で有限状態2段階の形態原理を使用します。
私たちは、動詞、名詞、表現代名詞および所有代名詞、数字などを含むすべてのキニャルワンダ語の単語の形態を効果的にモデル化します。
音声タグ付けアルゴリズムの無監督部分を使用しています。
一次因数分解モデルは、形態学的確率、基本的に形態分析器によって割り当てられる確率を説明するために使用される。
また、音声タグの優先順位の部分だけでなく、入力ワードに存在する構文合意も考慮に入れます。
Speech Taggerの部分は、より頻繁に使用されるデコードのためのViterbiアルゴリズムを改善するbidi双方向推論を使用します。
ここでは、位置符号化についていくつか説明します。
１つに、形態学エンコーダは、任意の位置符号化を使用しない。
これは、各形態素が形態学的モデル内の既知のスロットを占有するためである。
したがって、位置情報は、形態素が与えられたときに固有のものである。
第二に、文エンコーダは、最近ICLRカンファレンスで発表されたいわゆる非結合相対位置埋め込みを使用する。
この位置埋め込みは、本質的に、トークンからトークンへの注意計算への位置相関を分離する。
BERTと同様に、マスク言語モデルの事前トレーニング目標を使用します。
本質的には、単語に関連付けられているSTEMと接尾辞の両方を予測する必要があります。
事前トレーニング中に、すべての単語の15 ％が予測のために考慮され、そのうち80 ％がマスクされ、10 ％がランダムな単語と交換され、10 ％は変更されません。
接尾辞の予測では、いくつかのマルチラベル分類の問題に直面しています。
このために、グループ化して固定数の集合に固定し、その集合をクラスラベルとして予測します。
もう1つのオプションは、接着確率ベクトルを予測することです。
私たちはこの2つのアプローチを実験で評価しています。
KinyaBERTを約2.5ギガバイトのKinyarwandaテキストで事前トレーニングし、3つのベースラインモデルと比較します。
1つはXLM - Rと呼ばれる多言語モデルで、複数の言語で構成された大規模なテキストコーパスで訓練されています。
他の2つのベースラインは、バイトペアのエンコーディングアルゴリズムを使用するか、2層のトランスエンコーダアーキテクチャを使用せずに形態学的分析を使用して、同じキンヤルワンダテキストで事前トレーニングされます。
すべてのモデルは基本アーキテクチャで構成されており、約1億から1億から1千万のパラメータがあり、KinyaBERTでは最小数のパラメータを使用しています。
多言語を除くすべてのモデルは、各バッチで2560シーケンスのバッチサイズで3万2000のグラデーション更新のために事前トレーニングされます。
私たちは、3つのタスクセットで事前に訓練されたモデルを評価します。
1つは、事前に訓練された言語モデルの有効性を評価するためにしばしば使用されてきた接着剤ベンチマークです。
Google翻訳を使用して、元のベンチマークデータをKinyarwandaに翻訳することで、接着剤ベンチマークデータを取得します。
2つ目のタスクは、エンティティ認識ベンチマークという名前のKinyarwandaです。これは、訓練を受けたネイティブスピーカーによって注釈が付けられた高品質のデータセットです。
3つ目はニュース分類タスクです複数のウェブサイトからニュース記事を取り出して著者によって割り当てられた分類タグを収集してから本質的に同じカテゴリを予測しようとします
それでは、結果に移ります。
接着剤ベンチマークでは、KinyaBERTがベースラインモデルを一貫して上回っていることがわかりました。
ここでは、10回の微調整ランの平均パフォーマンスを示します。
また、Google翻訳によって作成された翻訳のユーザー評価も実行します。
基本的に、ユーザーは約6,000の例を評価し、1から4のスケールでスコアを割り当て、翻訳の品質を評価しました。
その結果、多くの翻訳がうるさかった。
しかし、すべてのモデルは同じ翻訳ノイズに対処する必要があり、モデル間の相対的なパフォーマンスは依然として重要です。
また、指定されたエンティティ認識タスクについては、KinyaBERTが最高のパフォーマンスを提供し、接尾辞分布回帰バリアントが最高のパフォーマンスを発揮することがわかりました。
これらの結果は、10回のファインチューニングランの平均でもあります。
ニュース分類タスクでは、さまざまな結果が得られます。
Kinyarwandaのテキスト分類に関する以前の研究では、この特定のタスクを解決するには単純なキーワード検出で十分であることがわかりました。
したがって、事前に訓練された言語モデルを使用することで得られる利益は少なくなります。
このニュースのカテゴリ分けの特別なタスクについて。
また、パフォーマンスを向上させる代替構造があるかどうかを調べるために、アブレーション研究も実施しました。
接着剤ベンチマークでは、接着剤セットを使用すると一貫してパフォーマンスが向上し、接着確率回帰目標は名前付きエンティティ認識で最高のパフォーマンスをもたらすことがわかりました。
また、ファインチューニングの低スコアを見ると、KinyaBERTはほとんどの場合収束性が優れていることがわかります。
結論として、この研究は、事前に訓練された言語モデルで形態学的情報を明示的に使用することの有効性を実証しています。
提案された2層トランスエンコーダアーキテクチャは、形態的に豊富な言語の重要な側面である形態的複雑性の形態的合成性をキャプチャすることを可能にする。
これらの知見は、形態認識言語の事前訓練された言語モデルのさらなる研究を動機付けるはずである。
こんにちは、私の名前はMichał Pietruszkaです。トレーニング可能な表現プーリングを備えたSparsifying Transformer Modelsというタイトルの論文をお届けできて光栄です。
Applica AIでLukasz BorchmannとLukasz Garncarekと協力して行われた作業。
まずは、私たちの仕事の目標についてお話しします。
私たちのメソッドは、長い入力が考慮されている場合にうまく機能します。
大まかに言えば、2,000以上のトークンのタスクオーダーと入力のためのものであり、ターゲットは提供された入力よりも短いです。
これはNLPでいくつかの具体的なアプリケーションを持っています。
たとえば、長い文書があれば、それを要約し、分類し、それに関する質問に答え、情報や重要なフレーズを抽出する必要があると想像することができます。
入力線の2乗に依存する注意の複雑さの問題を思い出してみましょう。
バニラトランスでは、十分な注意を払って接続し、各トークンと他のトークンとの関係を計算する必要があります。
注意の計算の複雑さは、レイヤーの数l、シーケンスの長さn、別のシーケンスの長さ、および表現の次元に依存します。
同様に、デコーダのクロスアテンションでは、右側のこの画像に、ここでの唯一の違いは、この場合、ターゲットトークンが入力トークンに参加していることです。
これはこの公式にも見て取れます。
BLEUスコアは、計算する必要がある関係を表します。
十分に注意を払う場合は、入力シーケンス内のすべての関係を計算する必要があります。
トークンの接続性を制限して他の近くのトークンのみを見ることができるようにするブロックワイズエンコーダーがあるとどうなりますか？
テキストはチャンクで読み取られ、エンコーダ側の計算回数を大幅に減らすことができるが、すべての入力トークンがとにかくデコーダに渡されるため、デコーダの交差注意を改善することはない。
この方法は、しばしばデコーダにおける融合と呼ばれる。
ここでの改善は、nの依存関係の1つをブロックサイズを表す別の定数mに変更するものと解釈することができる。
私たちの重要な観察は、ほとんどのトークンは多種多様なタスクには無関係であり、ほぼ完全に無視することができるということです。これはスライドに例示されています。
入力の唯一の部分は、所望の出力に関連しています。
たとえば、
最も重要な部分を蛍光ペンでマークした記事を一度読んでから、中間段階からのみこの部分に基づいて要約を作成することができます。
したがって、現在のトークンが要約を生成するために不可欠であるかどうかを強調表示して決定するコストは安価であり、トークンの表現にのみ依存します。
強調表示されたトークンのプールが可能です。
私たちのトップkオペレーターのおかげで、そのコストは無視できます。
短縮された入力から要約を生成するコストも、入力全体を考慮した場合のバニラモデルよりもはるかに低くなります。
しかし、ここに質問があります。
重要なトークンを選択し、その選択にグラデーションをバックプロパゲートするにはどうすればよいですか？
私たちが解決する根本的な問題は、訓練可能な選択メカニズムを提案することです。
ネットワークが最も重要なトークンを選択することを学ぶことができるように、トレーニング中にグラデーションを逆伝播させることができます。
より正確には
単純な線形レイヤーから得られるいくつかの埋め込みアンダースコアを考えると、タスクは最も高いスコアの埋め込みを返すことです。まず、配列を置換し、ペアを調製して、より高いスコアリングベクトルをより低いスコアリングベクトルで取得する。
次に、スコアに対するブーストされたsoftmaxを使用して重みを計算します。
各トーナメントラウンドの後、新しいベクトルとスコアが、それらのペアと得られた重みとの線形の組み合わせとして構成されます。
要するに、それらのスコアに対してソフトマックスを実行することによって、それらを線形に結合します。
2つのトークンを組み合わせると、いくつかのノイズが生成される可能性があります。
また、グラデーションをすべての入力埋め込みに伝播することもできます。
要するに、私たちが提案するトレーニング可能なトップkは、各ステップでソフトセレクションのようなトーナメントを実行することに基づいています。
別の観点から見ると、表現プーリングはエンコーダ層に従います。
最初に、各表現がスコア付けされ、次に最も高いスコアを持つものだけが次のレイヤーに渡されます。
符号化は、標準的な変圧器アーキテクチャの全長入力と同様に実行できます。
ただし、固定長の固定長ブロックでテキストを処理し、最適な表現をグローバルに選択することは可能です。
以下は、エンコーダの後に導入された表現プーリングの例です。
これは、入力長Nではなく、プールされた長さを表す定数Kに依存するクロスアテンションの原因に直接影響を与えました。
この定数は、選択され、デコーダに渡される表現の数を通知します。
短いテキストから要約を作成することは、以前のソリューションよりも大幅に安価です。
シーケンスの長さを大幅に短縮することができます。
たとえば、実験では、nの値よりも16倍、さらには60倍、さらには64倍小さいkを使用することに成功しました。
ブロックワイズエンコーディングと自己注意の有益な影響が持続していることに注意してください。
注意の計算コストは入力長の二乗に依存することを覚えておいてください。
エンコーディング処理の早い段階で入力を減らすことで、コストを大幅に削減できます。
ピラミディオンモデルでは、選択した各レイヤーの出力に対する表現のサイズを絞り込み、エンコーディングが進むにつれて計算コストを指数関数的に削減しました。
ご覧のとおり、フルサイズのエンコーダの合計計算コストは、フルサイズの第1層の2倍未満です。
プーリングが以前に導入されたとき、すべての紫色の正方形の合計は、したがって、レイヤーlの数に依存しない定数に制限される。
しかし、定数cでは、ネットワーク内のプーリングレイヤーの配置によって影響を受ける可能性があります。
私たちの改善は、8,000トークンの長い入力でベンチマークされました。
この図は、プーリングが行われると、ネットワークの深さに最適なスケーラビリティが達成されることを示しています。
ここで、24層のピラミディオンを訓練することは、そのような長い入力で2層のバニラ変圧器を訓練するよりも安価である可能性があることに注意することができます。
言うまでもなく、バニラトランスは、このような長い入力のためにメモリを使い果たす可能性があります。
私たちのトレンドピラミディオンと他のベースラインとの質の高い質の比較は、長い文書要約タスクで実行されるか、arXivまたはPubMedの記事の本文を考えると、そのタスクは抽象的なものを生成することです。
したがって、私たちのベースラインであるブロックワイズは、最新の最先端モデルのレベルで実行され、ピラミディオンはこの競争力のあるベースラインのパフォーマンスを維持または改善します。
同時に、私たちのモデルは、ブロックワイズベースラインと比較して、トレーニングが80 ％速く、推論が45 ％以上速くなります。
どちらのモデルもパラメータ数がはるかに少なく、選択したタスクについてゼロからトレーニングされました。
同様のパフォーマンスを達成するための以前のアプローチは、より多くのパラメータを使用し、同様のパフォーマンスを達成するために事前に訓練された基礎モデルと追加の言語事前訓練目標を活用する必要がありました。
私たちはあなたが私たちの論文を読んで、私たちのGitHubコードを使用することをお勧めします。
ご視聴ありがとうございました。
こんにちは、ハーバード大学のJiawei Zhouです。
タスク指向ダイアログにおけるレイテンシ低減のためのオンラインセマンティックパーシングに関する私たちの研究を発表することを非常に嬉しく思います。
これは、Microsoft Semantic MachinesのJason、Michael、Anthony、Samとの共同作業です。
タスク指向の対話では、ユーザーは通常話すときにユーザーの発話からの要求を処理するシステムと対話します。
ユーザの発話の終了からシステム応答まで、しばしば顕著な遅延がある。
フードの下で、ユーザの発話は実行可能プログラムに変換される。
これは、システムが適切に応答できるように実行されます。
プログラムは計算の概要を示す意味グラフとして表されるため、ノードは関数呼び出しを表し、その子が引数です。
偉大なノードは瞬時の操作をマークしますが、他のノードは実行が遅いです。
ここで示す簡単な例では、これらのプログラムはしばしばツリー構造を超えたより複雑なグラフになることがあります。
このトークでは、ユーザーが発話を終える前にプログラムの生成と実行を開始して、システムがより速い応答を達成できるようにすることはできますか？
これがオンライン予測と決定の問題です。
この領域には他にもたくさんの人がいます。
例としては、ライブ通訳者がリアルタイムである言語を別の言語に翻訳する同時通訳、ユーザーの意図を推測するためのスマートテキスト自動補完、予測された需要に基づいてドライバーが必要な場所に送られるUberプールなどがあります。
これらのシナリオには共通点があります。
つまり、すべての入力を見る前に決定を下すことは有益です。
私たちの場合、オンラインセマンティックパーシングを扱います。これは、ユーザーが何を言うかを推測する必要があるため、困難になる可能性があります。
そして、それはまた、正式な評価指標なしで過小評価されています。
まず、通常のシステムがどのように機能するかを見てみましょう。
これは、ユーザーの発話の最後にのみプログラムに解析することによってオフラインで動作します。
ここでは、すべての情報を見てから文字グラフを予測します。
対照的に、私たちはすべての発話プレフィックスで比較するオンラインシステムを提案しています。
たとえば、新しいトークンを見るたびに、新しいグラフを予測します。
エラーがある可能性があることに注意してください。
バラク・オバマとのプールパーティーの位置で、私たちは人とイベントの主題に正しいノードを持つグラフを得ましたが、間違ったタイミング情報を推測します。
このプロセスは、完全なユーザーの発話を受け取るまで続きます。
これは、オフラインシステムの実行タイムラインにどのように影響しますか？
システムがこの時点で実行を開始できるように、最後にプログラムグラフを取得します。
偉大なノードは高速な操作であることを覚えておいてください、だから私たちは色付きの遅い関数の実行タイムラインだけを考慮します。
まず、これらの2つのfind person関数は、他の関数に依存していないため、ピンクのボックスから白で強調表示され、並列に実行できます。
次に、ノード作成イベントは、下位レベルのノードから結果を取得した後に実行され、次にトップ関数が生成されてプログラム全体が終了します。
実行プロセスは厳密であり、いくつかの操作を並列化できないプログラムの依存構造に制限され、顕著な遅延を誘発する。
私たちのオンラインシステムでは、私たちが行くにつれて予測するところで、プログラムの実行を早く開始することができます。
ここでは、オバマの後の接頭辞で、私たちは、find person関数がプログラムに含まれるべきであると自信を持って予測していますが、残りの部分はグレーアウトされているため、エラーが含まれている可能性があります。
ノードの実行は、ステップとしてすぐに開始することができる。
その後、より多くのトークンを使用して、まったく新しいグラフを予測しますが、その一部はすでに実行されています。
したがって、私たちが自信を持っている残りのノードも考慮する必要があります。
ここでは、別の検索人物を並行して実行することができます。
また、間違った予測をしているかもしれません。
より多くのテキストを使用すると、それを正しくする能力が高まります。
ここでは、AMが正しく予想されるイベント時間などがあります。
次に、プログラムの依存関係構造に従って残りの部分を実行し始めることができます。
実行タイムラインと発話タイムラインを重ね合わせることで、時間を大幅に節約できます。
そこでオンラインセマンティックパーシングの課題を提案しました
１つの基礎となる仮定は、実行時間がモデル予測時間を支配するということである。
予測することで時間を稼ぐことができます。
もう1つの仮定は、予測と実行がバックグラウンドで行われると、ユーザーには表示されないということです。
一貫した解析履歴を維持する必要はありません。
したがって、各トークンの後にゼロから再解析します。
具体的には、2段階のアプローチを提案します。
完全な構造を持つグラフと、現時点で実行する価値のあるノードを選択する選択ステップを予測する提案されたステップ。
提案された方法には2つのバリエーションがありました。
最初のアプローチは、言語モデルの完成とグラフ解析への完全な発話を組み合わせたものです。
特に、オバマの後の接頭辞は、最初に細かく調整されたBART言語モデルを介して完成され、次に完全なオフラインパーサーを備えたプログラムに翻訳されます。
2番目のアプローチは、ユーザーの発話プレフィックスからプログラムを直接予測します。
これは、各プレフィックスから目標グラフに変換するために単一のオンラインパーサーを訓練することによって達成されます。
これにより、モデルが正しい予測を学ぶことが容易になります。
これらのグラフはどのように生成されるのでしょうか？
この問題は、グラフのシリアルバージョンを生成することによって定式化されます。
各ノードまたはエッジは、アクションによって表されます。
ここでは、最初のノードから開始します。
以下の数値は、アクション履歴の絶対インデックスを記録します。
そして、2番目のノードを取得しました。
次に、それらの間のエッジです。
これには、前のノードのインデックスとエッジラベルへのポインタが含まれています。
ここでゼロとは、最新のノードをゼロ番目のアクションと次のノードの次のエッジによって生成されたノードに接続することを意味します。
このプロセスは、完全なグラフを生成するまで続きます。
基礎となるモデルは、以前の遷移ベースのパーサーと同様の自己ポインティング機構を備えたトランスに基づいています。
完全なグラフを生成した後、グラフのさまざまな部分に対応するアクションレベルの確率を取得しました。
実行するしきい値ヒューリスティックに基づいて信頼度サブグラフを選択します。
後で、レイテンシ削減と実行コストの間で異なるトレードオフを達成するために、しきい値を変更します。
オンライン手法の正式な評価のために、我々は最終的な遅延低減またはFLRメトリックを提案する。
以下は、オフラインシステムが実行タイムラインをどのように終了するかの要約です。
オンラインシステムでは、実行は発話タイムラインと重複するため、より早く終了します。
FLRは、オフラインシステムと比較した短縮時間として定義され、実行の終了によってマークされます。
2つの大きな会話セマンティック解析データセットSMCalFlowとTreeDSTで実験を行います。
オフラインで動作するときのグラフベースのパーサーは、両方のデータセットの解析で最先端のパフォーマンスを実現します。
LM完全モデルはまた、ノード完了の単純なベースラインと比較して、非自明なBLEUゲインを達成する。
次に、グラフパーサーへのプレフィックスの予測精度を見てみましょう。
パーセンテージで表されるx軸の各プレフィックスの長さについて、y軸の検証データの生成と囲碁グラフの間のグラフタプルのマッチF 1スコアをテストします。
これらの曲線はそれぞれ異なるモデルを表し、訓練データに唯一の違いがあります。
下の曲線はオフラインパーサーで、異なる長さのプレフィックスデータをミックスしてモデルをオンラインパーサーに移行します。
たとえば、凡例プレフィックス80 ％プラスは、モデルが完全な発話長の80 ％を超えるプレフィックス長を持つプレフィックスデータで訓練されることを意味します。
左上隅が目的のエリアです。
ご覧のとおり、黒い曲線のオフラインパーサーは、プレフィックスデータでうまく機能していません。
トレーニングでより多くのプレフィックスをミックスするにつれて、曲線は上部と左側を持ち上げ、すべてのプレフィックスの長さでより良いパフォーマンスを発揮します。
ただし、完全な発話解析パフォーマンスは右上のドットには影響しません。
これらの強力な結果に基づいて、どのくらいの待ち時間を短縮できますか？
ソーストークンの数で時間を測定し、異なる機能の実行時間をシミュレートします。
曲線は、FLRメトリックと実行コストの間のトレードオフを示しています。これは、正しくない過剰な関数コストの数によって測定されます。
これは、サブグラフ選択閾値を変化させることによって達成される。
しきい値が高いほどミスの関数は少なくなりますが、FLRは小さくなりますが、しきい値が低いほどプログラムをより積極的に選択して実行します。
私たちが提案する2つのアプローチと、オンラインで使用するためにオフラインパーサーを直接適用する以外に何もしないベースラインを比較します。
左上の領域は、最良のFLRとコストのトレードオフを持っています。
私たちは、両方の方法がベースラインを大きく上回り、TreeDST上でより類似したパフォーマンスを発揮することを目の当たりにしています。
個々の関数の実行はより速くなりますが、実行数が増え、レイテンシ低減の余地がある傾向があります。
個々の機能の実行が遅い場合は、FLRの改善の余地があります。
私たちの2つのアプローチは、異なるコストコスト地域でより良いパフォーマンスを実現します。
全体として、実行時間と許容コストに応じて、30〜63 ％の相対レイテンシ削減を達成します。
最後に、許可されたコストが3回の実行実行である場合の、関数ノードの各タイプのトークンの平均レイテンシー削減の内訳を示します。
ご覧のとおり、ボード全体に利益があります。
また、検索マネージャや受信者など、赤いバーがはるかに長い印象的な待ち時間を短縮する機能もあります。
これらは低レベルの関数であり、他の関数にはあまり依存していません。
結論として、厳密なレイテンシ低減メトリックを使用して探索するための新しいタスクとして、オンラインセマンティックパーシングを提案しました。
強力なグラフベースのセマンティックパーサーを使用すると、LM補完と完全なパーサーを備えたパイプラインアプローチ、またはプレフィックスの学習済みパーサーを直接使用して、比較的優れたレイテンシー削減を達成できます。
さらに、私たちのアプローチは一般的なフレームワークであり、異なるドメインの他の実行可能なセマンティック表現に適用することができます。
将来の研究は、よりスマートな予測と実行の統合方法を模索する可能性があります。
ご清聴ありがとうございました。
こんにちは。
質問応答タスクのための検索拡張反事実の生成に関する私たちの研究について説明します。
これは私がGoogle Researchでインターンシップをしている間に行われた仕事で、Matthew LammとIan Tenneyによって指導されました。
タスクを動機づけるために、反事実を定義することから始めましょう。
この作品では、反事実を、元のテキストとは何らかの意味のある制御された方法で異なる入力テキストの摂動として定義します。
そして、結果やタスクラベルの変更について推論することができます。
たとえば、魅力的な言葉を魅惑的に変えたり、心が麻痺することを期待したりすると、この映画レビューの感情が変わります。
同様に、「women 's」という修飾子を質問に追加すると、以下の例の質問に対する答えが変わります。
人間は通常、タスクで訓練されたNLPモデルと比較して、そのような摂動に対して堅牢です。
それはなぜですか？
データセットは、反事実によって違反される単純な決定境界につながる体系的バイアスでサンプリングされ得る。
この2 D分類の問題に示されています。
私の研究では、トレーニングデータに反事実の例を追加することで、このような摂動に対してモデルを堅牢にすることができることがわかりました。
それでは、反事実が価値あるものであるならば、どのようにしてそれらを生み出すことができるのでしょうか。
このタスクは、3つの異なるNLPタスクの3つの例があるため、NLPにとって特に困難です。
ご覧のとおり、結果の間の決定境界に違反する例は、ここに下線が引かれているテキストのいくつかの属性を乱すことによって非常に慎重に作成する必要があります。
これは人間のアノテーションによって行うことができますが、これは高価で偏っています。
以前の研究では、構文木やセマンティックロールラベリングの使用に焦点を当てていました。
しかし、これらの技術によって生成される一連の摂動は、セマンティックフレームワークによって制限されています。
最近の研究では、ラベルを変更するためにテキストのマスクされた部分を埋めるためにマスクされた言語モデルを使用しています。
しかし、テキストのどの部分を混乱させるかを見つけることは困難です。
具体的に質問に答えるための反事実を生成することには、より多くの課題があります。
この作業には背景知識が必要です。
たとえば、最初の質問を邪魔するために、インディアナ・ジョーンズの破滅の神殿は前編ですか？
インディアナ・ジョーンズ・レイダース・オブ・ザ・ロスト・アークのような質問に達するためには、フランチャイズの他の映画に注意する必要がありますか？
さらに、ランダムな摂動は、利用可能な証拠で答えられない質問や、誤った前提を持つ質問につながる可能性があります。
さらに、いくつかの質問摂動は、元の入力からの重要な意味的ドリフトにつながる可能性があります。
たとえば、この質問は、インディアナ・ジョーンズが破滅の神殿で児童奴隷制を実践しているということですか？
私たちは、質問の反事実的な摂動に取り組むために、検索生成フィルタまたはRGFと呼ばれる非常に単純で効果的な手法を提案し、他のすべての前述の課題にも取り組むことを目指しています。
RGFの背後にあるコア直感は、摂動を生成するために必要な背景情報が、質問応答モデルによって行われたニアミスに存在する可能性があるということです。
たとえば、最先端のモデルレルムは、リッチモンド・フットボール・クラブのキャプテンが誰であるかという質問に対する以下のトップkの答えを生み出します。
それは元の参照通路を回復し、トレント・コッチンを一番の選択肢として答えます。
また、質問の摂動を導くために使用できる追加の通路と答えを取得します。
たとえば、リザーブチームのキャプテンと同じクラブの女子チームに対応する2つの回答を回復し、これが興味深い編集につながる可能性があります。
要約すると、RGFはまず、最も関連性の高いトップkの答えと、文脈上の参照答えと一致しない文脈を取得します。
このステップに続いて、質問生成モデルは、それらに対応する質問を生成するために、これらの代替回答を条件付けます。
そして最後に、生成された質問を最小値に基づいてフィルタリングしたり、導入したいセマンティック摂動の種類に基づいてフィルタリングしたりすることができます。
各ステップをより詳細に検討して、元の質問を入力として受け取るREALMのような検索して読み取るモデルと、Wikipediaのような大きなコーパスを使用します。
2つのモジュールで構成されています。
リトリーバーモジュールは、問題に最も関連性の高い上位k個の通路を検索するために、通路の高密度インデックスに対して類似性検索を実行します。
そして、読者モジュールは、潜在的な答えとして各通路からスパンを抽出します。
レルムは、ほとんどの場合、金の通路と答えを取得します。
しかし、この作業では、それがさらに下の行を取得する答えとコンテキストにより興味があります。
次のステップ、質問生成では、これらの代替回答とコンテキストを使用して、これらの代替に対応する新しい質問を再生成します。
質問生成モデルは、事前に訓練されたテキストからテキストへの変換器であり、NQデータを微調整して、コンテキストでマークされた回答の質問を生成します。
推論中に、前のステップで取得した質問生成モデル、代替回答、およびコンテキストを提供します。
例えば、リッチモンド・フットボール・クラブのキャプテンは誰ですか？レルムは、ジェス・ケネディーがキャプテンを務めるクラブの女子チームについての文章を取得し、質問生成モデルは、リッチモンド・フットボール・クラブの最初の女子チームをキャプテンしたのは誰かという質問を生成しますか？
特定のセマンティック摂動を持っています。
同様の方法で、リッチモンドのVFLリザーブチームのキャプテンは誰ですか？という質問もあります。
昨年のグランドファイナルでは誰が否定したのか？
最後に、いくつかの望ましい特性に基づいて生成されたクエリのサブセットをフィルタリングします。
前述のように、新しい質問がまだ元の質問に意味的に近いものであることを確認したいと思います。
追加の監督を必要としないフィルタリング技術については、元の質問からのトークンラベル編集距離が小さい新しい質問を保持するだけです。
たとえば、昨年のグランドファイナルでグラハムが否定したのは誰だったのかという質問を削除します。
元の質問からの編集距離が長いためです。
私たちの実験では、この単純なヒューリスティックを使用して、トレーニングデータを増強およびキューに入れることができることを実証しました。
また、セマンティック摂動の種類に基づいたフィルタリング戦略も実験しています。
この目的のために、QEDと呼ばれる汎用クエリ分解フレームワークを使用します。
QEDは、質問の2つの部分、すなわち述語と参照を識別します。
参照は、文脈内のエンティティに対応する質問の名詞句です。
前置詞は基本的に質問の残りの部分です。
たとえば、リッチモンド初の女子チームをキャプテンしたのは誰かというクエリを、リッチモンド・フットボール・クラブの女子チームとキャプテンXをキャプテンした述語の2つの文献に分解することができます。
NQの参照述語アノテーションで訓練されたモデルは、この質問を分解します。
QEDに基づいて元の質問と生成された質問の両方を分解することで、生成された反事実を分類して評価することができます。
具体的には、2つの質問グループがあります。
述語を保持している間に参照変更を受けるもの、および述語変更を受け、任意に参照を追加するもの。
例えば、リッチモンドのVFLリザーブチームのキャプテンは誰ですか？
一方、クラブのためにナンバー9を身に着けている人は、前提となる変化です。
RGF摂動がトレーニングデータに拡張されたときの有効性を評価します。
したがって、特に反事実的増強の有効性を効果的に評価するために、2つの強力なデータ増強ベースラインを実験します。
最初のベースラインはランダムな回答と質問生成と呼ばれ、元の質問とは関係のないデータを追加します。
つまり、段落と答えは単にウィキペディアからランダムにサンプリングされます。
このベースラインは、基本的にNQのように見えるより多くのデータを追加します。
2番目のベースラインゴールドアンサーと質問生成を使用して、メソッドの検索部分を具体的に更新します。
ここでは、代替の答えは、黄金の答えを含んでいたのと同じ一節から選ばれただけです。
モデルが質問とコンテキストにアクセスできる場合、ベースラインとRGF ah拡張は読解にどのように基づいて実行されますか？
私たちは6つのドメイン外のデータセットを実験し、ここで結果を提示します。ここでは、データはトレーニングデータが拡張で2倍になります。
両方のデータ増強ベースラインは、ドメインの一般化を改善することができないことがわかりました。
実際、元のデータで訓練された6つのモデルのアンサンブルは、最も競争力のあるベースラインであるようです。
そのベースラインと比較して、RGF反事実は、ドメインパフォーマンスを維持しながら、ドメイン外のパフォーマンスを向上させることができることがわかりました。
これは、反事実補完を介してモデルの推論ギャップを埋めることは、訓練分布からより多くのデータを追加するよりも効果的であることを示唆している。
さらに、検索を使用して代替的な結果または回答をサンプリングすることは、効果的なCDAにとって重要であることがわかりました。
また、オープンドメインのQA設定を試してみました。この設定では、モデルは質問のみを見て、ドメイン外の4つのデータセットを評価します。
我々は、ベースラインモデルが領域外の一般化にはそれほど効果的でないことを見出した。
しかしながら、RGFによるデータ増強は、より顕著な改善を示している。
ドメイン内のNQデータセットも改善しました。
我々は、反事実データ拡張が、非常に類似したクエリのより良いクエリエンコーディングを学習するモデルを支援すると仮定した。
最後に、元の質問のローカル近傍における一貫性を向上させるモデルの能力についても評価します。
一貫性は、元のクエリと反事実のクエリの両方が正しく回答されているモデルによって正しく回答された質問の割合を測定します。
これは、元の入力の近傍での小さな摂動に対するモデルの堅牢性を測定するのに明示的に役立ちます。
私たちは、互いに意味的に近い質問のペアを含む5つのデータセットを実験します。
既に利用可能な3つのデータセットAQA、AmbigQA、およびQUOREF - Contrastセットとは別に、元のNQ質問と組み合わせたRGF反事実についても、それらが述語変更または参照変更を受けたかどうかに基づいて評価します。
これらのサブセットは、ノイズを除去するために社内で注釈付けされ、リソースとして提供されます。
すべてのベースラインは、一貫性をわずかなマージンで改善するアンサンブルモデルとの一貫性を有意に改善することはできません。
しかし、RGF反事実増強は、以前のデータセットと、参照および述語摂動のためにキュレーションした2つのサブセットの両方で一貫性が印象的に向上しています。
なお、拡張されたRGFデータは摂動タイプによってバイアスされるのではなく、評価セットのみがバイアスされる。
実際、生成された反事実の種類を定性的に調べると、生成された質問にはいくつかの多様な摂動が含まれていることが示されています。
たとえば、ミネソタ州ウォルナットグローブの人口に関するこの最初の質問は、町、州、国などのさまざまな次元に沿って、そして場所、貧困、学校の数などの異なる述語に沿って動揺しています。
摂動の音声は文脈固有です。
例えば、ウィンブルドンシングルストーナメントに関するこの他の質問では、摂動はゲームの種類、トーナメントの種類、またはゲームの結果に沿っています。
最終的なテイクアウト。私たちは、クエリを求める情報のための反事実データの拡張と摂動のタスクに取り組み、生成アプローチの逆転、モデルのニアミスを使用したオーバー生成、および摂動タイプまたは最小値に基づいたフィルタリングを通じて、そのユニークな課題に取り組みます。
この技術は追加の監督を必要とせず、例は拡張のためにラベル付けされていることがわかりました。
拡張は、ドメインの一般化と近傍の一貫性を改善します。
そして、RGFの反事実は、拡張中にバイアスを導入することなく、意味的に多様であることがわかりました。
ありがとうございました。
