みなさん、こんにちは。今日は、私たちの研究論文Learning to Reason Deductively: Math Word Problem Solving as Complex Relation Extractionを紹介します。
私はByteDance AI LabのAllanです。これはテキサス大学オースティン校のJierui LiとSUTDのWei Luとの共同作業です。
まず、私たちの推論の動機についてお話ししたいと思います。
ここでは、多段階の推論が役立つ例を示します。
この図は、PaLMの論文から取られており、そこで彼らは数ショットの学習シナリオでネットワークの問題を解決するためにプロンプトを実行します。
質問と答えだけでいくつかの例を挙げると正しい答えが得られないかもしれません
しかし、もう少し推論的な説明を与えると、モデルは推論的な説明を予測し、ここで正しい予測を行うことができます。
したがって、出力として解釈可能なマルチステップ推論を持つことは良いことです。
また、数学の単語問題は、そのような推論能力を評価するための簡単なアプリケーションであると考えています。
この質問を解いて数値的な答えを得るために必要な質問を考えてみましょう
この特定の答えにつながる数学的な式も与えられています。このような答えにつながる数学的な式も与えられています。
したがって、ああ、いくつかの仮定は、以前の作業と同様に適用されます。
量の精度がわかっていると仮定します。
加算、減算、乗算、除算、指数関数などの基本演算子のみを考慮します。
さらに、複雑な演算子は実際にこれらの基本演算子に分解することができます。
したがって、数学の単語問題解きの以前の研究は、ああ実際にシーケンスへのシーケンスとシーケンスツリーモデルへのシーケンスに分類することができます。
従来のシーケンスツーシーケンスモデルは、発現を生成のための特定のシーケンスに変換します。
そして、それは実装するのは非常に簡単であり、多くの異なる複雑な問題に一般化することができます。
しかし、欠点は、パフォーマンスが実際には構造化モデルよりも優れておらず、予測のための解釈性が欠如していることです。
しかし、実際には、この方向は変圧器モデルのためにまだ非常に人気があります。
ツリーベースのモデルでは、これらの式をツリー形式で構造化し、ツリー世代の事前順序付けされたトラバーサルに従います。
ここでは、量である葉に到達するまで演算子を生成し続けます。
実は非常に直感に反しています。なぜなら、最初に演算子を生成し、最後に量を生成するからです。
2つ目は繰り返しの計算も含まれていることです
8かける3 ＋ 3は実際には2回生成されますが、実際には結果を再利用する必要があります。
ですから、私たちが提案したアプローチでは、これらの問題を一歩一歩、解釈可能な方法で解決したいと考えています。
これらの約数は２ ７です。これは、２ ７です。
また、元の質問に戻って関連するコンテンツを見つけることもできます。
これらのステップでは、除数が得られます。
そして、この3番目のステップでは、実際に商を得ることができます。
この3つのステップの後に、2番目のステップの結果を実際に再利用し、4番目のステップの結果を取得し、最終的に配当を得ることができます。
ここでは、単一の演算子や量を生成するのではなく、式全体を直接生成します。
これにより、プロセスがより正確になります。
だから、私たちの演繹システムでは、まず質問に提示された量の束から始めて、初期状態としていくつかの定数を含めます。
したがって、式はe i j o pで表される。
ここでは、q_iからq_jまでの演算子を実行し、そのような式は実際に指示されます。
逆の方向を表すために、ここでは単語を引くこともあります。
これは関係の抽出に非常によく似ています。
Q_iとq_jのペアの間に演算子を適用し、この新しい式を得ます。この式は、
新しい量になるように次の状態に追加します。
これらのスライドは現在の状態に式を追加し続ける状態の進化を可視化しています
BERTやロベルタスといった事前に訓練された言語モデルを使い文を符号化し量表現を得るのです
推論を始めることができます。そして、推論を始めることができます。
ここでは、q_1の例を示して、q_2の表現をq_2で割った後にq_3を掛けたものを取得します。
基本的にはq_1とq_2の連結です次に演算子によってパラメータ化されたフィードフォワードネットワークを適用します
そして最後に、q_1をq_2で割った式が得られます。
しかし、実際には、実際には、推論段階では、ああも間違った式を得ることができるかもしれません。
すべての可能な式は、演算子の数の3倍に等しいです。
この検索空間を制御するための制約を簡単に追加することができます。この検索空間を制御するための制約を追加することができます。
たとえば、この式が許可されていない場合は、検索空間でこの式を削除することができます。
2番目のステップでは、同じことをしますが、唯一の違いは、ああ、唯一の違いはもう1つの量です。
この量は、以前の計算式から来ています。
最後に、q_3掛けるq_4を得ることができます。
また、可能なすべてのah式の数が前のステップとは異なっていることもわかります。
したがって、ああ、このような違いは、これらの2つのステップ間の確率分布が不均衡であるため、ビーム探索を適用することを困難にします。
トレーニング手順は、各時間ステップで損失を最適化するシーケンスツーシーケンスモデルのトレーニングに似ています。
このタウを使っていつこの生成プロセスを終了すべきかを表します
ここで空間はシーケンスごとに異なります。なぜなら、空間は各時間ステップで異なりますが、従来のシーケンスからシーケンスモデルでは、これは語彙の数です。
また、先行知識から一定の制約を課すこともできます。
そこで、私たちは一般的に使用される数学単語の問題データセット、MAWPS、Math 23 K、MathQA、SVAMPについて実験を行います。
ここでは、以前の最良のアプローチと比較した結果を簡単に示します。
ロバータ・ダクティブ・リソーナーです。
実際には、ビームサーチを使用していませんが、これまでのアプローチはすべてビームサーチを使用しています。
ツリーベースのモデルがベストなアプローチです
したがって、全体的に私たちの推論家は、このツリーベースのモデルを大幅に上回るパフォーマンスを発揮することができます。
しかし、MathQAやSVAMPの絶対値は実際には高くないことがわかります。
そこで、SVAMPでの結果をさらに調査します。
そして、このデータセットは、著者が無関係な情報や余分な量を追加するようなNLPモデルを混乱させるような何かを手動で追加しようとしたため、挑戦的です。
中間値のいくつかは実際には負の値であることがわかります。
たとえば、この質問では、ジェイクはリンゴを何個持っていますか？と尋ねています。
しかし、我々は17枚少ない写真のようないくつかの余分な情報を持っており、スティーブンは8枚の写真を持っていますが、それはまったく関係ありません。
負の値を生成しています。負の値を生成しています。
この2つの表現は実は似たようなスコアを持っています
答えを正しくすることができるように、負の結果を削除することによって、この検索スペースを制限することができます。
このような制約は、実際にはいくつかのモデルでかなり改善されていることがわかります。
たとえば、BERTでは7ポイント改善し、ロベルタベースモデルでは2ポイント改善しました。
ロベルタの方が高くBERTの方が低くなりますロベルタの方が低くなります
またこれらのデータセットの背後にある難しさを分析しようとしています
ここでは、未使用の量の数は無関係な情報と見なすことができると仮定しています。
使用されていない量のサンプルの割合があり、SVAMPデータセットが最も大きな部分を占めています。
ここでは、全体のパフォーマンスも示します。
未使用量のないサンプルでは、全体的なパフォーマンスが実際にはよりも高いため、パフォーマンスは実際には全体的なパフォーマンスよりも高くなります。
しかし、これらのサンプルでは、未使用の量は実際には全体的なパフォーマンスよりも悪いです。
MAWPSでは、テストケースがあまり多くないので、この部分は無視します。
最後に、質問摂動の例を通して解釈可能性を示したいと思います。
このモデルは最初の段階で間違った予測をしています
この式をここの文と関連付けることができます
したがって、この文はモデルを誤った予測に誤解を招く可能性があると考えています。
モデルを加算演算子にすべきだと考えさせます。これは、加算演算子の値です。
梨の木の数がリンゴの木よりも35少ないように文を改訂しようとします。
モデルが予測を正確にすることができるように、より正確なセマンティクスを伝えるようにします。
この研究は解釈可能な予測がどのようにモデルの振る舞いを理解するのに役立つかを示しています
このモデルは実際にはかなり効率的なものです。では、このモデルを見てみましょう。
そして、解釈可能な解決手順を提供することができます。
また、事前の知識を制約として簡単に組み込むことができ、パフォーマンスを向上させるのに役立ちます。
最後に、基礎となるメカニズムは、ネットワークの問題解決タスクだけでなく、マルチステップ推論を含む他のタスクにも適用されます。
私たちにもいくつかの限界があります。
多くの演算子や定数がある場合、メモリ消費量はかなり高くなる可能性があります。
2つ目は、前述したように、確率分布が異なる時間ステップ間で不均衡であるため、ビーム検索戦略を適用することも非常に困難であることです。
これで講演は終わりです質問も大歓迎ですありがとうございました
こんにちは、私はマーストリヒト大学のアントワーヌです。
私はJerryとの共同作業を発表します。これは、法定記事検索のための新しいデータセットに関するものです。
法的問題は、多くの人々の生活の不可欠な部分です。
しかし、大多数の市民は、自分たちの権利や基本的な法的手続きについてほとんど知識を持っていません。
その結果、法律専門家の高価な援助を受けることができない多くの脆弱な市民は、保護されず、最悪の場合、搾取されています。
すべての仕事は、法定条項のための効果的な検索システムを開発することによって、人と法律の間のギャップを埋めることを目指しています。
このようなシステムは、未熟な人々に無料の専門的な法的支援サービスを提供することができます。
この研究の主な貢献に飛び込む前に、まずは法定記事検索の問題を説明しましょう。
たとえば、職務上の機密性を侵害した場合、どのようなリスクがありますか？など、法的な問題に関する簡単な質問がある場合、
モデルは、大規模な法律からすべての関連する法定条項を取得するために必要とされます。
この情報検索タスクには、独自の課題のセットが付属しています。
まず、2種類の言語を扱います。
質問のための共通の自然言語と法令のための複雑な法的言語。
言語分布のこの違いは、システムが関連する候補者を検索することをより困難にします。なぜなら、間接的に自然な質問を法令の用語に一致する法的質問に翻訳できる固有の解釈システムが必要だからです。
さらに、成文法は、ニュースやレシピとは異なり、それ自体で完全な情報源として扱うことができる独立した記事のスタックではありません。
代わりに、それは全体的な文脈で考慮された場合にのみ全体的な意味を持つ法的規定の構造化されたコレクションである、すなわち、隣接する記事からの補足情報、それらが属するフィールドおよびサブフィールド、および法律の構造におけるそれらの場所と一緒に。
最後に、法定条項は小さな段落ではありません。これは通常、ほとんどの検索作品で典型的な検索単位です。
ここには、6000語までの長い文書があります。
最近のNLPの進歩は、法的判断の予測や自動化された連絡先契約のレビューなど、多くの法的タスクに大きな関心を集めています。
しかし、法定記事の検索は、大規模で高品質のラベル付けされたデータセットの欠如のために、主に手つかずのまま残っています。
この研究では、新しいフランスのネイティブ市民中心のデータセットを提示して、検索モデルが法定記事検索のタスクのための法律専門家の効率と信頼性を近似できるかどうかを研究します。
私たちのベルギーの法定記事検索データセットBSARDは、ベルギー市民によって提起された1,000以上の法的質問で構成されています。
これらの質問は、家族、住宅、お金、仕事、社会保障など、幅広いトピックを網羅しています。
それらのそれぞれは、ベルギーの法典からの二万二千六百以上の法的記事のコーパスからの関連記事を参照して、経験豊富な法学者によってラベル付けされています。
それでは、このデータセットをどのように収集したかについてお話ししましょう。
まず、大量の法的記事をまとめることから始めました。
私たちは32の公開されているベルギーのコードを検討し、すべての記事と対応するセクションの見出しを抽出しました。
次に、関連する法令に言及した法的質問を集めました。
そのために、私たちはベルギーの法律事務所と提携しています。ベルギーの法律事務所は、個人的な法的問題について助言を求めるベルギー市民から毎年約4,000通の電子メールを受け取ります。
私たちは幸運にも彼らのウェブサイトにアクセスすることができました。彼らの経験豊富な法学者チームはベルギー人の最も一般的な法的問題に対処しています。
私たちは、カテゴリ、サブカテゴリ、関連する法令への法的参照でアノテーションされた何千もの質問を収集しました。
最後に、私たちは法的参照を渡し、私たちが検討した法典のいずれかの条項で参照されていない質問をフィルタリングしました。
残りの参照文献をマッチさせ、当社のコーパスから対応する記事IDに変換した。
最終的に私たちは118問の質問をし、それぞれに22000と6333の法定記事からなる私たちの大規模なコーパスの関連記事のIDが慎重にラベル付けされました。
さらに、各質問にはメインカテゴリとサブカテゴリの連結が付属しています。
そして、各記事には、法律の構造における部分的な見出しの連結が付属しています。
この余分な情報は現在の研究では使用されていませんが、法的情報の検索や法的テキストの分類に関する将来の研究には興味があるかもしれません。
私たちのデータセットのいくつかの特徴を見てみましょう。
質問の長さは5〜44語で、中央値は14語です。
記事ははるかに長く、中央値は77語で、そのうち142語は1000語を超えている。
一番長いのは5千7百90語までです。
前述したように、質問は幅広いトピックをカバーしており、そのうちの約85 ％は家族、住宅、お金、または正義に関するものです。
残りの15 ％は、社会保障、外国人、または仕事のいずれかに関係しています。
この記事は、多数の法的トピックをカバーする32の異なるベルギーのコードから来ているため、非常に多様です。
これらのベルギーのコードから収集された記事の総数は次のとおりです。
二万二千六百三十三件の論文のうち、データセット内の少なくとも1つの質問に関連すると言及されているのはわずか一千六百二十二件である。
また、引用された記事の約80 ％は、民法、司法法、刑事捜査法、刑法のいずれかに由来しています。
一方、32のコードのうち18のコードには、少なくとも1つの質問に関連する5つ未満の記事が記載されています。
これは、これらの規範が個人とその懸念にあまり焦点を当てていないという事実によって説明することができます。
全体として、これらの引用された論文の引用数の中央値は2件であり、そのうちの25 ％未満が5回以上引用されています。
すべてのデータセットを使用して、レキシカルアーキテクチャーと高密度アーキテクチャーを含むいくつかの検索アプローチをベンチマークしました。
クエリと記事が与えられた場合、レキシカルモデルは、クエリ記事の各用語の重みのクエリ用語の合計を計算することによって、クエリ記事のペアにスコアを割り当てます。
標準的なTF - IDFとBM 25のランキング機能を試してみました。
これらのアプローチの主な問題は、クエリに存在するキーワードを含む記事のみを取得できることです。
この制限を克服するために、クエリと記事の間のセマンティックな関係をキャプチャできるニューラルベースのアーキテクチャを実験します。
クエリと記事を高密度のベクトル表現にマッピングし、埋め込みの類似性によってクエリ記事ペア間の関連性スコアを計算するバイエンコーダモデルを使用します。
これらの埋め込みは、典型的には、単語埋め込みモデルの出力に対するプーリング演算から生じる。
まず、ゼロショット評価設定でのSiameseバイエンコーダーの有効性を研究します。つまり、事前にトレーニングされた単語埋め込みモデルは、追加の微調整なしにすぐに適用されます。
私たちは、コンテキストに依存しないテキストエンコーダ、すなわちword 2 vecとfastText、およびコンテキスト依存の埋め込みモデル、すなわちRoberta、より具体的にはフランスのRobertaモデルであるCamemBERTを実験します。
さらに、データセット上で独自のCamemBERTベースのモデルahバイエンコーダをトレーニングします。
トレーニングでは、バイエンコーダアーキテクチャの2つのフレーバーを試します。
Siameseは、クエリと記事を共有の高密度ベクトル空間にマッピングするユニークな単語埋め込みモデルを使用し、2つのタワーは、クエリと記事を別々の埋め込み空間に個別にエンコードする2つの独立した単語埋め込みモデルを使用します。
私たちは、類似性を計算するための平均、最大、およびCLSプーリング、ならびに積およびコサインを実験します。
テストセットのベースラインの結果は次のとおりです。
上記の語彙法を用いて、Siameseバイエンコーダは中央のゼロショット設定で評価され、以下の微調整されたバイエンコーダは評価された。
全体として、ファインチューニングされたバイエンコーダは、他のすべてのベースラインを大幅に上回ります。
2タワーモデルは、リコール時のSiameseバリアントを100で改善しますが、他のメトリックでも同様に実行されます。
BM 25は、訓練されたバイエンコーダを大幅に下回っていますが、そのパフォーマンスは、それがまだドメイン特異的検索のための強力なベースラインであることを示しました。
サイアムバイエンコーダのゼロショット評価については、情報検索タスクを最適化せずに事前に訓練されたCamemBERTモデルの埋め込みを直接使用すると悪い結果が得られ、これは以前の知見と一致しています。
さらに、word 2 vecベースのバイエンコーダはfastTextおよびBERTベースのモデルを大幅に上回り、事前にトレーニングされた単語レベルの埋め込みが、箱から出して使用される場合、文字レベルまたはサブワードレベルの埋め込みよりもタスクに適している可能性があることを示唆しています。
有望ですが、これらの結果は、最終的にすべての関連記事を任意の質問に取得し、したがって完全なスコアを得ることができる熟練した法律専門家と比較して、改善のための十分な機会を示唆しています。
最後に、データセットの2つの制限について説明します。
第一に、条項のコーパスは、ベルギーの法典を考慮した32の法典から収集されたものに限定されており、法令、指令、条例の条項が欠落しているため、ベルギーの法律全体をカバーしていません。
データセット構築中、これらの収集されていない記事へのすべての参照は無視され、いくつかの質問は最初の関連記事のほんの一部で終わる。
したがって、この情報は、残りの関連記事に含まれる回答が不完全である可能性があることを意味しますが、それでも完全に適切です。
第二に、すべての法的問題が法令だけで答えられるわけではないことに注意する必要があります。
たとえば、テナントがあまりにも多くの騒音を出した場合、テナントを退去させることはできますか？
立ち退きが許可される特定の騒音閾値を定量化する成文法内で詳細な答えが得られない可能性があります。
代わりに、家主はおそらく判例法にもっと依存し、現在の状況に似た先例を見つけるべきです。
たとえば、テナントは午前2時まで1週間に2つのパーティーを行います。
したがって、いくつかの質問は、他の質問よりも法定記事の検索タスクに適しており、あまり適していないもののドメインはまだ決定されていません。
私たちの研究が、実用的で信頼性の高い法定記事検索モデルの開発に関心を集めることを願っています。
これは、すべての人の司法へのアクセスを改善するのに役立ちます。
論文、データセット、コードは以下のリンクからご覧いただけます。よろしくお願いいたします。
こんにちは。特定の言語現象でビジョンと言語モデルをテストするためのタスクに依存しないベンチマークであるVALSEに関する作業を紹介します。
なぜ私たちはこのベンチマークを設定するのに苦労したのですか？
ここ数年で変圧器ベースのビジョンや言語モデルが爆発的に増えています大量の画像テキストペアで事前にトレーニングされています
これらのモデルのそれぞれは、視覚的な質問への回答、視覚的な常識の推論、画像検索、フレーズの接地など、視覚と言語のタスクで最先端を推進します。
そこで私たちはメッセージを受け取りましたこれらのタスクの精度と特定のベンチマークは着実に増加しています
しかし、モデルが実際に何を学んだか知っていますか？
この画像とこの文章を一致させるためにハイスコアを割り当てるときに、ビジョンと言語変換器が理解したことは何ですか？
この点数の低さは？
ビジョンと言語モデルは正しいものに焦点を当てていますか？
それとも、以前の研究で示されているように、バイアスに焦点を当てていますか？
この側面にもっと光を当てるために、私たちはよりタスクに依存しない方向を提案し、言語学的および視覚的モダリティの両方に影響を与える特定の言語現象に対する視覚および言語モデルの感度をテストするVALSEを紹介します。
私たちは、存在、複数、カウント、空間関係、行動、エンティティのコアリファレンスをターゲットにしています。
しかし、ビジョンと言語モデルがこの現象を捉えているかどうかをどのようにテストするのでしょうか？
以前にRavi Shekharと共同研究者による名詞フレーズのみに適用されたビジョンと言語モデルに適用された方法を失敗させ、以前の作品で私たちが数えた方法を失敗させることによって。
フォイルとは、基本的には画像のキャプションを取り、画像を説明しないようにキャプションを変更してフォイルを生成することを意味します。
これらのフレーズの変更は、存在、複数、カウント、空間関係、アクション、エンティティのコアリファレンスなどの6つの特定のピースに焦点を当てて行います。各ピースは、複数の興味深い方法でホイルインスタンスを作成する場合に備えて、1つまたは複数の楽器で構成できます。
たとえば、アクションピースの場合、2つの楽器があり、1つはアクション動詞が異なるアクションで変更され、もう1つはアクタントがスワップされます。
カウントとコアリファレンスは、複数の楽器を持つピースでもあります。
イメージを記述できないこと文法的で有効な文章であることを確認することでフォイルを作成します
フォイルドキャプションは元のキャプションよりも可能性が低い可能性があるため、これを行うのは簡単ではありません。
たとえば、不可能ではありませんが、統計的には、植物が人を切断する可能性は人が植物を切断するよりも低く、大きなビジョンと言語モデルがこれを拾うことができます。
したがって、有効な箔を得るためには、行動を起こさなければなりません。
まず、強力な言語モデルを使用してホイルを提案します。
第二に、私たちは自然言語推論または短いNLIを使用して、まだ画像を記述している可能性のあるフォイルをフィルタリングします。なぜなら、ホイルを構築するときには、それらが画像を記述していないことを確認する必要があるからです。
これを自動的にテストするには、次の理論的根拠を持つ自然言語推論を適用します。
私たちは、イメージを前提とし、そのキャプションを伴う仮説と考えています。
また、キャプションを前提とし、ホイルを仮説とする。
NLIモデルがキャプションに関してフォイルが矛盾するか中立であると予測した場合、これを有効なフォイルの指標とみなします。
NLIがキャプションに伴うホイルを予測した場合、それは良いホイルではありません。なぜなら、伝達性によって、それは画像の真実の説明を与え、これらのホイルをフィルタリングするからです。
しかし、この手順は完璧ではなく、有効なホイルの指標に過ぎません。
したがって、有効なフォイルを生成するための3番目の尺度として、VALSEで使用されているデータを検証するために人間の注釈者を採用しています。
したがって、フィルタリングと人間の評価の後、この表に記載されているようなテストインスタンスがあります。
VALSEはトレーニングデータを提供するのではなく、テストデータのみを提供することに注意してください。
これはゼロショットテストのベンチマークであるため、事前トレーニング後のビジョンと言語モデルの既存の機能を活用するように設計されています。
ファインチューニングは、モデルがデータ内のアーチファクトまたは統計的バイアスを悪用することを可能にするだけである。
そして、私たちは皆、これらのモデルがズルをして近道をするのが好きであることを知っています。
前述したように、私たちは事前トレーニング後にビジョンと言語モデルがどのような能力を持っているかを評価することに興味があります。
私たちは、CLIP、LXMert、ViLBERT、ViLBERT TWELVE IN ONE、VisualBERTという5つのビジョンと言語モデルをVALSEで実験します。
最も重要な評価指標の2つは、画像文のペアをキャプションとホイルに分類するモデルの精度です。
おそらくこのビデオに関連して、私たちはより寛容なメトリック、ペアワイズ精度を紹介します。ペアワイズ精度は、画像の文章の整列スコアが正しい画像のテキストのペアに対して、フォイルされたペアよりも大きいかどうかを測定します。
より多くの指標とその結果については、私たちの論文をチェックしてください。
ペアワイズ精度の結果がここに示されており、他の指標から得られた結果と一致しているのは、最高のゼロショット性能がViLBERT 12 in oneによって達成され、続いてViLBERT、LXMert、CLIP、そして最後にVisualBERTによって達成されるということです。
存在や名詞句のような個々のオブジェクトを中心とした楽器が、ViLBERTの12の1つによってほぼ解決されていることは注目に値し、モデルが名前付きオブジェクトと画像内のそれらの存在を識別することができることを強調しています。
しかし、残りのピースのいずれも、敵対的なフォイル設定で確実に解決することはできません。
複数の計数器具から、視覚モデルと言語モデルは、単一のオブジェクトと複数のオブジェクトの参照を区別したり、画像内でそれらを数えたりすることが困難であることがわかります。
関係ピースは、画像内のオブジェクト間の名前付き空間関係を正しく分類することが困難であることを示しています。
また、アクションピースに見られるように、妥当性バイアスによってサポートされていても、アクションを区別して参加者を特定するのに問題があります。
コアリファレンスから、代名詞を使用して画像内の同じオブジェクトへの複数の参照をトレースすることも、ビジョンおよび言語モデルにとって困難であることがわかりました。
正当性のチェックとして興味深い実験であることから、2つのテキストのみのモデル（ GPT 1とGPT 2 ）をベンチマークして、正しいキャプションとフォイルドキャプションの困惑度を計算し、ここに画像がなく、最も困惑度の低いエントリを予測することによって、VALSEがこれらの単峰モデルによって解決可能であるかどうかを評価します。
フォイルの困惑度が高い場合、フォイルドキャプションが妥当性バイアスまたは他の言語バイアスに悩まされる可能性があることを示します。
興味深いことに、GPTモデルだけのテキストは、ビジョンや言語モデルよりも世界の妥当性をよりよく捉えています。
要約すると、VALSEは言語構造のレンズを使用して、視覚的接地能力を困難にテストすることによってコミュニティがビジョンと言語モデルを改善するのを支援するベンチマークです。
私たちの実験では、視覚モデルと言語モデルは、存在の部分によって示されているように、命名されたオブジェクトと画像内のそれらの存在をうまく識別するが、言語的指標を尊重することを余儀なくされたときに、視覚的シーンでそれらの相互依存性と関係を根付かせるのに苦労していることが示されました。
私たちは、ビジョンと言語モデルで言語基盤への進歩を測定するためにVALSEを使用することをコミュニティに奨励したいと考えています。
さらに、VALSEはデータセットの間接評価として使用できます。モデルはトレーニングの前後に評価され、データセットがVALSEによってテストされたいずれかの側面を改善するのに役立つかどうかを確認するために微調整することができます。
興味がある場合は、GitHubのVALSEデータをチェックしてください。ご不明な点がございましたら、お気軽にお問い合わせください。
こんにちは、東京大学の亀沢です。
RNSum: A Large - Scale Dataset for Automatic Release Note Generation via Commit Logs Summarizationというタイトルの論文を発表します。
この順番で説明します。
まず、本研究で取り組んでいる自動リリースノート生成についてご紹介します。
リリースノートは、ソフトウェア製品のリリースごとに配布される変更を要約した技術文書です。
画像は、vuejsライブラリのバージョン2ポイント6ポイント4のリリースノートを示しています。
リリースノートはオープンソース開発において重要な役割を果たしますが、手動で準備するのに時間がかかります。
したがって、高品質のリリースノートを自動的に生成できることは非常に便利です。
ここでは、自動リリースノート生成に関する2つの以前の研究に従います。
1つ目は、214年にリリースされたアリーナと呼ばれるシステムです。
ルールベースのアプローチを採用しています。たとえば、Change Extractorを使用してすべての違いを抽出し、ライブラリの変更を行い、リリース間の違いから変更を文書化し、最終的にそれらを組み合わせます。
このシステムの最も顕著な機能は、右上隅にある問題抽出器です。
これは課題トラッカーシステムであるJIRAに任せる必要があり、JIRAを使用するプロジェクトにのみ適用できます。
言い換えれば、GitHub上の多くのプロジェクトで使用することはできません。
2つ目はグリフで、最近20で発表されました。
インターネットで利用でき、pip経由でインストールできます。
このシステムは、単純な学習ベースのテキスト分類モデルを持ち、入力コミットメッセージごとに機能やバグ修正などの5つのラベルのうちの1つを出力します。
この画像は、修正ラベルまたはバグ修正ラベルを返すサンプルの使用法です。
グリフの訓練データは非常に小さく、約5,000であり、以下に説明する実験で示されます。
テキスト分類モデルのパフォーマンスは高くありません。
私は2つの関連する研究を紹介しますが、それらの問題は、適用性が限られており、データ資源が乏しいことです。
私たちの論文はこれら2つの問題を解決し、高品質のリリースノートを自動的に生成します。
適用性の問題が限られているため、入力としてコミットメッセージのみを使用した高品質なクラス別要約方法を提案します。
この提案された方法は、すべての英語のリポジトリに使用できます。
希少なデータリソースの2番目の問題については、GitHub APIを使用してパブリックGitHubリポジトリからデータを収集することにより、約8万2000個のデータからなるRNSumデータセットを構築しました。
次に、データセットについて説明します。
以下はデータの例です。
左側はコミットメッセージ、右側はリリースノートです。
リリースノートには、改善や修正などと表示されます。
コミットメッセージを入力として受け取り、ラベル付きのリリースノートを出力するタスクを設定しました。
これはまとめ作業と見なすことができます。
機能、改善、バグ修正、廃止措置の削除、および変更の破棄の4つのラベルを事前に定義しました。
これらは、以前の研究および他の要因に基づいて設定されました。
右下のリリースノートは、左下のリリースノートから抽出されます。
このとき、事前に設定された4つのラベルを検出する必要があります。
しかし、ラベルは必ずしも各リポジトリと一貫しているわけではありません。
たとえば、改善ラベルには、改善、強化、最適化などが含まれます。
これらの表記法のバリエーションごとに約30のラベルの語彙リストを用意しました。
これは、リリースノートクラスを検出し、クラスのリリースノート文として次のリリースのテキストを収集します。
次はコミットメッセージです。
コミットメッセージは各リリースに結びついていません。
下の画像に示すように、現在のリリースがバージョン2のポイント5から19の場合、以前のリリースバージョン2のポイント5から18を識別して差分を取得する必要があります。
これは少し面倒で、リリースのリストを取得して前後を見るだけでは不十分です。
前のバージョンと次のバージョンを取得するために、ヒューリスティックマッチングルールを作成しました。
データセット分析。
最終的に7200のリポジトリと82000のデータが収集されました。
また、リリースノートトークンの平均数は63であり、要約タスクでは非常に高くなります。
また、ユニークトークンの数は8,830,000で非常に大きいです。
これは、リポジトリに一意のクラス名またはメソッド名が多数あるためです。
次に、提案された方法を説明します。
分類抽象的で抽象的な要約モデルは、2つのニューラルモジュールで構成されています。
BERTまたはCodeBERTを使用する分類子とBARTを使用するジェネレータ。
まず、CEASは、各コミットメッセージを5つのリリースノートクラスに分類するために分類子を使用します。これには、改善、バグ修正、廃止などが使用されます。
その他として分類されたコミットメッセージは破棄されます。
その後、CEASは、4つのラベル付けされた文書にジェネレータを独立して適用し、各クラスのリリースノートを生成します。
このタスクでは、コミットメッセージとリリースノートの間の直接的な対応は知られていません。
したがって、分類子を訓練するために、各コミットメッセージの最初の10文字を使用して、各入力コミットメッセージにアンケートを再割り当てしました。
我々は、2つの異なる方法によって分類抽象的要約アプローチをモデル化した。
CAS - Singleと呼ばれる最初のモデルは、単一の6から6のネットワークで構成され、単一のリリースノートテキストを生成し、入力コミットメッセージを連結します。
出力テキストは、特別なクラス固有のエンドポイントシンボルに基づいてクラスごとにセグメントに分割できます。
2つ目のメソッド、CAS - Multiと呼ばれるメソッドは、4つの異なるseq 2 seqネットワークで構成されており、それぞれが固定リリースノートクラスの1つに対応しています。
さて、実験の説明をしましょう。
５つの方法を比較した： ＣＥＡＳ、ＣＡＳ －シングル、ＣＡＳ －マルチ、クラスタリング、及び以前の研究、グリフ。
評価に関しては、場合によっては、リリースノートが複数の文で出力されることがあります。
文の数をそのまま計算することは難しいため、スペースと組み合わせて1つの長い文として扱われます。
BLEUは、システムが短い文を出力するとペナルティを受けます。
このペナルティにより、次に説明する実験結果でBLEU値が低下します。
最後に、リリースノートが空の場合、ROUGEとBLEUを計算できないため、特異性も計算します。
より高い特異性は、リリースノートが空であると仮定した場合に、モデルが空のテキストを正しく出力することを意味します。
結果は次のとおりです。
データセットには電子メールアドレス、ハッシュ値などが含まれているため、クリーンアップされたデータセットも評価しました。
CEASおよびCASは、ベースラインよりも10ポイント以上高いROUGE - Lスコアを達成しました。
特に、クリーン試験セットでは、提案された方法とベースラインとの間のスコアギャップが20ポイント以上に跳ね上がった。
これらの結果は、CEASおよびCASが著しく影響を受けることを示している。
CEASは、CASよりも優れたROUGE - Lスコアを得て、分類子とジェネレータを組み合わせることは、擬似ラベルを使用して分類子を訓練する上で効果的であることを示唆している。
CEASの高いカバレッジは、おそらく、分類子が各クラスに関連するコミットメッセージを選択することに焦点を当てることができるために達成することができます。
CAS - Multiは、CAS - Singleよりも高いROUGE - Lを生成する傾向があった。
各リリースノートクラスごとに異なる抽象的な要約モデルを個別に開発することも効果的であることを示唆しています。
これは誤差分析です。
CASメソッドは、人間の参照文よりも短い文を出力する傾向があります。
右の図では、参照文は3つまたは4つの文がありますが、CASには1つしかありません。
このモデルが消極的である理由は、訓練データでは、特徴ラベルには文章の33 ％しか存在せず、改良ラベルには40 ％しか存在しないからです。
さらに、CASメソッドは、追加情報なしに正確なリリースノートを生成することはできません。
右上の例は、非常に厄介なコミットメッセージの例であり、対応する進行状況や課題を参照せずに完全な文を生成することはできません。
以下の例は、入力内の2つのコミットメッセージが関連していることを示しており、1つの文に結合する必要がありますが、そうではありません。
最後に、結論です。
自動リリースノート生成のための新しいデータセットを構築しました。
また、コミットメッセージを入力して要約するタスクを策定し、英語で書かれたすべてのプロジェクトに適用できるようにしました。
私たちの実験は、提案された方法がベースラインよりも高いカバレッジでノイズの少ないリリースノートを生成することを示しています。
GitHubのデータセットをチェックしてください。
ありがとうございました。
こんにちは。アサフ・ハラリと申します。
Few - Shot Tabular Data Enrichment Using Fine - Tuned Transformers Architecturesという論文を発表します。
データサイエンティストはデータを分析し、主にデータの既存の機能を操作することに焦点を当てています。
しかし、時々、これらの特徴は限られています。
別のデータソースを使用して機能を生成すると、実質的な情報が追加される場合があります。
私たちの研究目標は、外部ソースのフリーテキストを使用した自動的な表形式データの強化です。
表形式のデータセットと知識ベースがあると仮定します。
ナレッジベースのフリーテキストから新しい機能を抽出するために、エンティティリンクとテキスト分析を含む自動プロセスが必要です。
私たちのフレームワークFeSTEはまさにこの自動プロセスです。
FeSTEにフィードされたデータセットの例を見てみましょう。
この例では、データセットは大学データセットです。
その目標が大学を低ランクの大学と高ランクの大学に分類することである場合。
ナレッジベースとして、Wikipediaを使用しています。
FeSTEの最初のフェーズはエンティティリンクです。
各エンティティ（この例では大学名）が知識ベース内のエンティティにリンクされている場合。
そして、知識ベースのエンティティのテキストが抽出され、データセットに追加されます。
この例では、テキストはウィキペディアのページの要約です。
次に、取得したテキストから特徴を生成または抽出する必要があります。
そこで、テキスト解析を含む特徴抽出フェーズをああする必要があります。
これがこの論文の主な目新しさであり、次のスライドでそれについて詳しく説明します。
特徴抽出フェーズの後、抽出された特徴を使用して少数の新しい特徴を生成する特徴生成フェーズがあります。
最初に、元のデータセットのクラス数でああ特徴を生成します。
この例では、元のデータセットには2つのクラスがあります。
したがって、FeSTEは2つの新しい機能を生成します。
しかし、データセットに5つのクラスがある場合、FeSTEは5つの新しい機能を生成します。
それぞれの特徴は、各クラスの可能性を表します。
テキストを分析するには、BERT、GPT、XLNetなどのトランスベースの言語モデルである最先端のテキスト分析を使用します。
しかし、入力データセットを使用して言語モデルを訓練できる可能性は低いです。
だから、ナイーブなアプローチは、ああターゲットタスクの微調整になります。
したがって、特徴抽出段階では、事前に訓練された言語モデルをダウンロードし、ターゲットデータセット上で言語モデルを微調整することができます。
この例では、言語モデルを微調整し、ああを分類してテキストをクラスに分類し、低または高のクラスに抽象化します。
各クラスの可能性である言語モデル出力を受け取り、新機能として使用します。
このアプローチの問題は、データセットがいくつかの異なるエンティティ/テキストを持つ可能性があることです。
私たちの実験では、ほぼ半分のデータセットには400未満のサンプルが含まれており、最小のデータセットには35のサンプルがトレーニングセットに含まれています。
したがって、ああの上に言語モデルを微調整するには、このデータセットは効果的ではありません。
しかし、事前に分析されたデータセットに関する事前の知識を使用することができます。
FeSTEは複数のデータセットに適用されるため、nマイナス1つのデータセットを使用してnマイナス1つのデータセットに関する情報を収集し、この情報を使用してn番目のデータセットを分析できます。
私たちが提案しているのは、もう一つの微調整フェーズを追加することです。
予備的なマルチタスク微調整フェーズ。
Nマイナス1つのデータセット上で言語モデルを微調整するとき。
そして、n番目のターゲットデータセット上で言語モデルを微調整したときに、ターゲットタスクの微調整である別の微調整フェーズを実行します。
MTDNNと呼ばれるマルチタスクの最先端のマルチタスクファインチューニング。
MTDNNでは、MTDNNはトレーニングセット内のタスクの数でahヘッドを維持します。
したがって、この例では、トレーニングセットに4つのタスクがあるため、MTDNNは画像で見られるように4つのヘッドを維持します。
トレーニングセットからランダムなバッチを抽出します
ランダムバッチが単一の文分類タスクに属している場合、最初のヘッドを介して前後のパスを実行します。
ランダムバッチがペア順位付けタスクに属している場合、最後のヘッドを通る前後のパスを実行します。
私たちのシナリオでは、ああ表形式のデータセットはクラスの数によって異なります。
そのため、多くの仕事があります。
MTDNNは、クラス、ヘッド、出力レイヤーの数を維持しました。
そして、追加のMTDNNは、新しいタスクで新しいデータセットの新しいヘッドを初期化する必要があります。
タスク再定式化微調整と呼ばれる私たちのアプローチは、私たちのアプローチでは、タスク再定式化微調整では、複数の頭を維持する代わりに、2つのクラスのタスクである分類問題ごとの文章に各データセットを再定式化します。
例を見てみましょう。
ここにエンティティ、フィーチャー、テキスト、クラスで構成される入力データセットがあります。
そして、テキストを低または高に分類して、テキスト、抽象、クラスを真または偽に分類するタスクを再定式化します。
言い換えれば、抽象とクラスのahを抽象とクラスのahに分類するように言語モデルを訓練しました。
この場合、ラベルベクトルは常にahのままで、常に2つのクラスで構成されます。
これが私たちの微細で再定式化された微調整アプローチのためのアルゴリズムです
それでは、全体の枠組みを見ていきましょう。
FeSTEにフィードされたデータセット。
そして、ああFeSTEはエンティティリンクフェーズを実行します。
知識ベースからテキストを抽出しますこの例ではウィキペディアのページの要約です
その後、タスクをペアライズセンテージ分類タスクに再定義しました。
新しいタスクに言語モデルを適用し、各クラスの出力可能性を計算しました。
言語モデルは、予備的なマルチタスクファインチューニングを使用して、すでにnマイナス1つのデータセットで微調整されています。
次に、言語モデルの出力ベクトルをクラス数の新しく生成された特徴として使用します。
私たちのフレームワークを評価するために、私たちはああ17の表形式の分類データセットを使用しています。これらのデータセットは、サイズ、特徴、バランス、ドメイン、および初期パフォーマンスが異なります。
ナレッジベースとして、Wikipediaを使用しています。
私たちの実験は、16のデータセットにわたってFeSTeを訓練し、17番目のデータセットに適用するように設計されています。
また、各データセットを4つの折りたたみに分割し、4つの折りたたみ交差検証を適用します。
次に、新機能を生成し、5つの評価分類子を使用して評価します。
実験ではBERTベースアーキテクチャを使用しています。
ここに私たちの実験の結果があります。
フレームワークをターゲットデータセットのファインチューニング、ターゲットタスクのファインチューニング、およびMTDNNの予備ファインチューニングと比較していることがわかります。
そして、私たちの再配合されたファインチューニングは最高の結果、最高のパフォーマンスを達成します。
一方、MTDNNは、ターゲットデータセットのファインチューニングに対して2 ％の改善を達成しました。
私たちのアプローチは6 ％の改善を達成しました。
小さなAHデータセットを見ると、MTDNNのパフォーマンスが低下し、プレリムの改善が見られ、予備のマルチタスクファインチューニングフェーズが1ポイント5パーセントに低下することがわかります。
しかし、私たちのパフォーマンスは、ターゲットタスクの微調整単独と比較して11パーセントに増加しました。
要約すると、FeSTEは私たちの実験で35のサンプルから少量のショット濃縮を可能にします。
すべてのタスクとデータセットに1つのアーキテクチャを使用します。
そして、それはモデルのああの頭を保持します。
しかし、それは再編成の段階を追加します。
それは列車セットを増強し、意味的な意味を持つ目標値を必要とするので、それを言語モデルにフィードして、文のペア分類問題で使用することができます。
ありがとうございました。
