Herkese merhaba. Bugün Tümdengelimli Gerekçelendirmeyi öğrenme: Matematik Sözcük Problemi Karmaşık Olarak Çözme Bağlantı Çıkarımı adlı araştırma çalışmamızı sunacağım.
Ben ByteDance yapay zeka Lab'dan Allan ve bu Austin'deki Texas Üniversitesi'nden Jierui Li ve SUTD'den Wei Lu ile ortak bir çalışma.
Öncelikle gerekçelendirme motivasyonumuz için konuşmak istiyorum.
Bu yüzden burada çok adımlı gerekçelendirme'nin yararlı olduğu bir örnek gösteriyoruz.
Dolayısıyla bu şekil, birkaç aşamalı öğrenme senaryosunda ağ sorun'unu çözmek için yönlendirme yaptıkları PaLM makale'sinden alınmıştır.
Yani sol tarafta, sadece soru ve cevaplarla bazı örnekler verirsek, doğru cevapları elde edemeyeceğimizi görebiliriz.
Ancak biraz daha gerekçelendirme açıklaması yaparsak, model gerekçelendirme açıklamasını tahmin edebilir ve burada doğru bir tahmin yapabilir.
Bu nedenle, yorumlanabilir çok adımlı gerekçelendirme çıktının alınması iyidir.
Ve ayrıca matematik sözcük problemi'nin bu tür gerekçelendirme yeteneklerini değerlendirmek için basit bir uygulama olduğunu düşünüyoruz.
Dolayısıyla, burada sorun yapımızda, sorular göz önüne alındığında, bu soru'yu çözmemiz ve sayısal cevapları elde etmemiz gerekir.
Dolayısıyla veri kümeleri'nde bize bu özel yanıt'a ah'a yol açan matematiksel ifade de verilmektedir.
Bu nedenle, bazı varsayımlar önceki çalışmalarda olduğu gibi geçerlidir.
Miktarların hassasiyetinin bilindiğini varsayıyoruz.
Ve sadece toplama, çıkarma, çarpma, bölme ve üs alma gibi temel işlemleri dikkate alıyoruz.
Ayrıca, karmaşık işlemler aslında bu temel işlemlere ayrıştırılabilir.
Yani, matematik sözcük problemi çözmedeki önceki çalışma ah aslında dizi dizi ve dizi ağaç model olarak kategorize edilebilir.
Dolayısıyla, geleneksel dizi'den dizi'ye model ifadeyi belirli bir oluşturma için dizi'ye dönüştürür.
Ve uygulanması oldukça kolaydır ve birçok farklı karmaşık sorun'a genelleştirmek mümkündür.
Ancak dezavantajları, performansın genellikle yapılandırılmış model'den daha iyi olmaması ve tahmin için yorumlanabilirlik eksikliğidir.
Ama aslında bu yön um dönüştürücü model nedeniyle hala oldukça popülerdir.
Dolayısıyla, ağaca dayalı modeller'de, aslında bu ifadeleri ağaç biçiminde yapı'landırırız ve ağaç nesillerinde önceden sıralanmış bir geçiş izleriz.
Yani burada, miktarlar olan yapraklara ulaşana kadar operatörleri oluşturma'ya devam ediyoruz.
Burada iyi olan şey, aslında bize bu ikili ağacı yapı vermesidir ve bu um ama bu aslında oldukça mantıksızdır çünkü önce operatörü üretiriz ve sonunda miktarları üretiriz.
Ve ikinci şey, aynı zamanda bazı tekrarlayan hesaplamalar içermesidir.
Yani burada bu ifadeye bakarsak, sekiz kere üç artı üç aslında iki kere üretilen'dir, ama aslında sonuçları tekrar kullanmamız gerekir.
Dolayısıyla, önerdiğimiz yaklaşım'da bu sorunları adım adım ve yorumlanabilir bir şekilde çözmek istiyoruz.
Bu örnek için, ikinci adımda, yirmi yedi olan bu bölenleri elde edebiliriz.
Ayrıca ilgili içeriği bulmak için orijinal sorular'a geri dönebiliriz.
Ve bu adımlarda bölenleri elde ederiz.
Yani, ah ve bu üçüncü adımda aslında bölümü elde ediyoruz.
Pekala. Ve bu üç adımdan sonra, aslında ikinci adımın sonuçlarını yeniden kullanabilir ve ardından dördüncü adımın ah sonuçlarını elde edebilir ve son olarak da payları elde edebiliriz.
Dolayısıyla, burada aslında tek bir operatör veya nicelik oluşturma yerine doğrudan tüm ifadeyi üretiyoruz.
Bu da süreci daha doğru hale getiriyor.
Dolayısıyla, tümdengelim sistem'imizde, ilk olarak sorular'da sunulan bir grup nicelikle başlıyoruz ve ayrıca başlangıç durumumuz olarak bazı sabit değerleri de dahil ediyoruz.
Yani, ifade e i j o p ile temsil edilir.
Burada q_i'den q_j'ye operatör gerçekleştiriyoruz ve bu ifade aslında yönlendiriliyor.
Yani, burada ters yönü temsil etmek için sözcükler ile çıkarma da var.
Bu bağlantı çıkarımı işlemine oldukça benzerdir.
Resmi bir tümdengelimde sistem, t zaman adımında, operatörü q_i ve q_j çifti arasında uygularız ve sonra bu yeni ifadeyi elde ederiz.
Yeni bir miktar olması için bir sonraki duruma ekliyoruz.
Dolayısıyla, bu slaytlar aslında mevcut duruma ifade eklemeye devam ettiğimiz durumun evrimini görselleştiriyor.
Dolayısıyla, model uygulamalarımızda, önce BERTs veya Robertas olabilen ön eğitimli bir dil model'i kullanıyoruz ve ardından cümle'yi şifrelemek işlemini gerçekleştiriyoruz ve ardından bu miktar temsiller'ini elde ediyoruz.
Yani, miktar temsiller'i elde ettikten sonra, çıkarım yapmaya başlayabiliriz.
Burada q_2 'nin q_2' ye bölünmesi ve ardından q_3 ile çarpılması için temsil için q_1 'in bir örneğini gösteriyoruz.
İlk önce ah çiftini temsil elde ederiz, bu temelde q_1 ve q_2 arasındaki ardışıklık'dır ve daha sonra operatör tarafından parametrelendirilen bir ileri besleme ağı uygularız.
Ve son olarak temsil q_1 bölü q_2 ifadesini elde ederiz.
Ama aslında, pratikte, çıkarım aşamasında, ah yanlış ifadeyi de elde edebiliriz.
Yani, burada mümkün olan tüm ifadeler sayı operatör sayısının üç katına eşittir.
Buradaki güzel şey, bu arama'ya bu arama alanını kontrol etmek için kolayca kısıtlamalar ekleyebilmemizdir.
Bu Örnek için, bu ifadeye izin verilmiyorsa, bu ifadeyi basitce arama alanımızdan kaldırabiliriz.
Yani ikinci adımda, aynı şeyi yapıyoruz, ama tek fark, ah tek farkımız bir miktar daha fazla olması.
Yani bu miktar önceki hesaplanan ifadeden geliyor.
Son olarak q_3 çarpı q_4 ifadesini elde edebiliriz.
Ayrıca tüm olası ah ifadelerinin sayı'sının önceki adımdan farklı olduğunu da görebiliriz.
Dolayısıyla, böyle bir fark ışın arama uygulamasını zorlaştırır, çünkü bu iki adım arasındaki olasılık dağılımı dengesizdir.
Dolayısıyla eğitim prosedürü, her zaman adımında kaybı optimize ettiğimiz bir dizi'den dizi'ye model eğitim'ine benzer.
Ve burada da bu tau'yu bu oluşturma sürecini ne zaman sonlandırmamız gerektiğini temsil etmek için kullanıyoruz.
Ve burada uzay dizi'den dizi'ye farklıdır çünkü geleneksel dizi'den dizi'ye model'de bu kelime haznesi sayı'sı iken uzay her zaman adımında farklıdır.
Ayrıca, önceki bilgi'den belirli kısıtlamalar getirmemize izin verir.
Bu yüzden yaygın olarak kullanılan matematik sözcük problemi veri kümeleri, MAWPS, Math23K, MathQA ve SVAMP üzerinde deneyler yapıyoruz.
Ve burada önceki en iyi yaklaşımlarla karşılaştırıldığında sonuçları kısaca gösteriyoruz.
Yani en iyi performans gösteren varyantımız Roberta - DeductiveReasoner.
Tüm önceki yaklaşımlar ışın arama kullanıyor olmasının aksine aslında biz ışın arama kullanmıyoruz.
Pekala. Bu nedenle, en iyi yaklaşımlar genellikle ağaç tabanlıdır model.
Dolayısıyla, genel olarak gerekçe oluşturucumuz bu ağaç tabanlı model'den önemli ölçüde daha iyi performans gösterebilmektedir.
Ancak MathQA veya SVAMP üzerindeki mutlak sayıların gerçekten yüksek olmadığını görebiliriz.
Bu yüzden SVAMP üzerindeki sonuçları daha da araştırıyoruz.
Ve bu veri kümesi zorludur çünkü yazar Doğal Dil İşleme model'ini karıştırmak için alakasız bilgi ve ekstra miktarlar eklemek gibi bir şeyler manuel olarak eklemeye çalışmıştır.
Yani, bizim tahmin'imizde ara değerlerin bazılarının aslında negatif olduğunu görüyoruz.
Örneğin, bu sorular'da Jake'in kaç tane elması olduğunu soruyoruz.
Ancak on yedi daha az resim var ve Steven'ın sekiz resmi var gibi bazı ekstra bilgi'lerimiz var ki bu tamamen alakasız.
Dolayısıyla, model'imiz bunun gibi negatif değerler üreten tahmin yapar.
Ve bu iki ifadenin aslında benzer puanlara sahip olduğunu gözlemliyoruz.
Bu nedenle, negatif olan sonuçları kaldırarak bu arama alanını gerçekten sınırlayabiliriz, böylece ah'ın yanıt'ı doğru vermesini sağlayabiliriz.
Bu nedenle, bu kısıtlama'nın bazı modeller için oldukça fazla şeyi geliştirdiğini görüyoruz.
Bu örnek için, BERT için yedi puan iyileştirme yaptık ve ardından Roberta temelli model'i için aslında iki puan iyileştirme yaptık.
Yani daha iyi dil modeli daha iyi dil anlama yeteneklerine sahiptir, böylece buradaki sayı Roberta için daha yüksek ve BERT için daha düşüktür.
Ayrıca tüm bunların ve bu veri kümeleri arkasındaki zorlukları da analiz etmeye çalışıyoruz.
Kullanılmayan miktarların sayı'sının burada alakasız bilgi olarak kabul edilebileceğini varsayıyoruz.
Burada, kullanılmayan miktarlardaki örneklerin yüzdesine sahip olduğumuzu ve SVAMP veri kümesi'nin en büyük paya sahip olduğunu görebiliriz.
Ve burada genel performansı da gösteriyoruz.
Kullanılmayan miktarları olmayan numuneler için performans aslında genel performanstan daha yüksektir.
Ancak kullanılmayan miktara sahip numuneler aslında genel performanstan çok daha kötüdür.
MAWPS için, gerçekten çok fazla test çalışmamız yok, bu yüzden bu kısmı görmezden geliyorum.
Son olarak, yorumlanabilirlik konusunu bir soru pertürbasyon örneği üzerinden göstermek istiyoruz.
İşte burada ilk adımda model aslında yanlış tahmin yapar.
Yani, aslında bu ifadeyi buradaki cümle ile ilişkilendirebiliriz. Pekala.
Dolayısıyla, bu cümle'nin model'i yanlış tahminlere yönlendiriyor olabileceğini düşünüyoruz.
Yani burada otuz beş tane daha dikmek, model 'i model'in bir toplama operatörü olması gerektiğini düşünmesini sağlar.
Bu yüzden cümle'yi armut ağaçlarının sayı'sı elma ağaçlarından otuz beş daha azdır gibi bir şey olacak şekilde revize etmeye çalışıyoruz.
Bu nedenle, model'in doğru tahmin yapabilmesi için daha doğru anlamsal iletmesini sağlıyoruz.
Bu nedenle, bu çalışma yorumlanabilir tahminlerin model davranışı anlamamıza nasıl yardımcı olduğunu göstermektedir.
Yani çalışmamızı sonuçlandırmak için, ilk önce model'imiz aslında oldukça verimlidir.
Ve biz yorumlanabilir çözüm prosedürünü sağlayabiliyoruz.
Ve performansı iyileştirmeye yardımcı olabilecek bazı önceki bilgi'leri kısıtlama olarak kolayca dahil edebiliriz.
Ve son olarak, altta yatan mekanizmanın yalnızca ağ sorun çözme görevler'i için değil, aynı zamanda çok adımlı gerekçelendirme içeren diğer görevler için de geçerli olmasıdır.
Bizim de bazı sınırlamalarımız var.
Ah, eğer büyük sayı operatörümüz veya sabitimiz varsa, bellek tüketimi oldukça yüksek olabilir.
Ve ikincisi, belirtildiği gibi, olasılık dağılımı farklı zaman adımları arasında dengesiz olduğu için, ışın arama stratejisini uygulamak da oldukça zordur.
İşte bu, konuşmanın sonudur ve sorular memnuniyetle karşılanır. Teşekkür ederim.
Merhaba, adım Antoine ve Maastricht Üniversitesi'ndenim.
Yeni veri kümesi için Yasal Makale alma ile ilgili olan Jerry ile ortak çalışmamı sunacağım.
Hukuki konular birçok insanın hayatının ayrılmaz bir parçasıdır.
Ancak vatandaşların çoğunluğu, hakları ve temel yasal süreçleri hakkında çok az bilgi'ye sahiptir.
Sonuç olarak, bir hukuk uzmanının masraflı yardımını karşılayamayan birçok savunmasız vatandaş korunmasızdır veya en kötüsü sömürülmektedir.
Tüm çalışma, etkili bir alma sistem için yasal makaleler geliştirerek insanlar ve hukuk arasındaki boşluğu kapatmayı amaçlamaktadır.
Böyle bir sistem, vasıfsız insanlar için ücretsiz bir profesyonel yasal yardım hizmeti sağlayabilir.
Bu çalışmanın ana katkısına dalmadan önce, önce yasal makalenin alma sorun'unu açıklayalım.
Yasal bir konuyla ilgili basit bir soru göz önüne aldığımızda; mesleki gizliliği ihlal edersem, ne risk alırım?
İlgili tüm yasal maddeleri geniş bir mevzuat organından almak için bir model gereklidir.
Bu bilgi erişim görevi kendi zorluklarıyla birlikte gelir.
İlk olarak, iki tür dil ile ilgilenir.
sorular için ortak doğal dil ve tüzükler için karmaşık yasal dil.
dil dağıtımlar'ındaki bu farklılık, dolaylı olarak bir doğal soru'yu tüzüklerin terminoloji'sine uyan yasal bir soru'ya çevirebilecek doğal bir yorumlama sistem'i gerektirdiğinden, bir sistem'in ilgili adayları bulmasını zorlaştırır.
Ayrıca, yasal hukuk, örneğin haberler veya tariflerden farklı olarak, kendi başlarına tam bir kaynak olarak ele alınabilecek bir bağımsız makale yığını değildir.
Bunun yerine, yalnızca genel bağlam'da düşünüldüğünde, yani komşu makalelerden, ait oldukları alanlardan ve alt alanlardan ve yasanın yapı'sındaki yerlerinden ek bilgi ile birlikte bir bütüne anlam sahip olan yasal hükümlerin yapı bir koleksiyonudur.
Son olarak, yasal makaleler genellikle çoğu alma çalışmasında tipik alma birimi olan küçük paragraflar değildir.
Burada altı bin sözcükler'e kadar uzun belgeler vardır.
Doğal Dil İşleme alanındaki son gelişmeler, hukuki karar tahmin'i veya otomatik iletişim sözleşmesi incelemesi gibi birçok hukuki görevler'e büyük ilgi uyandırmıştır.
Ancak yasal makale alma, geniş ve yüksek kalite'li etiketli veri kümeleri'nin eksikliği nedeniyle çoğunlukla dokunulmadan kalmıştır.
Bu çalışmada, alma modeller'inin yasal makale alma görev'i için bir hukuk uzmanının verimliliğine ve güvenilirliğine yaklaşıp yaklaşamayacağını incelemek için yeni bir Fransızca yerel vatandaş merkezli veri kümesi sunuyoruz.
Belçika yasal makalemiz alma veri kümesi BSARD, Belçika vatandaşları tarafından sorulan bin yüzden fazla yasal sorular oluşmaktadır.
Bu sorular aile, konut, para, iş ve sosyal güvenlik gibi geniş bir yelpazede'ki konuları kapsamaktadır.
Bunların her biri, deneyimli hukukçular tarafından, Belçika kanunlarında yer alan yirmi iki bin altı yüzden fazla kanun maddesinden oluşan bir derlem'de ilgili maddelere referanslar verilerek etiketli'dir.
Şimdi bu veri kümesi'ni nasıl topladığımız hakkında konuşalım.
İlk olarak, yasal makalelerin geniş derlem'ini derleyerek başladık.
Kamuya açık otuz iki Belçika kodunu dikkate aldık ve tüm makalelerin yanı sıra karşılık gelen bölüm başlıklarını da ayıklanan hale getirdik.
Daha sonra ilgili tüzüklere atıfta bulunarak yasal sorular topladık.
Bunu yapmak için, kişisel bir yasal konuda tavsiye isteyen Belçika vatandaşlarından her yıl yaklaşık dört bin e - posta alan Belçika hukuk firması ile ortaklık kuruyoruz.
Deneyimli hukukçu ekibinin Belçikalıların en yaygın yasal sorunlarına hitap ettiği web sitelerine erişebilecek kadar şanslıydık.
Kategoriler, alt kategoriler ve ilgili tüzüklere yasal referanslarla ek açıklama eklenmiş binlerce sorular topladık.
Son olarak, yasal referansları geçtik ve referansları düşündüğümüz hukuk kurallarından birinde makalesi olmayan sorular'ı filtreledik.
Kalan referanslar eşleştirildi ve derlem'imizdeki karşılık gelen makale kimliklerine dönüştürüldü.
Sonunda, her biri yirmi iki bin altı yüz otuz üç yasal makaleden oluşan geniş derlem'imizdeki ilgili makalelerin kimlikleriyle dikkatlice etiketli bin yüz sekiz sorular elde ettik.
Ek olarak, her soru ana kategori ve bir ardışıklık alt kategori ile birlikte gelir.
Ve her madde, yasanın yapı'sındaki sonraki başlığın bir ardışıklık ile birlikte gelir.
Bu ekstra bilgi mevcut çalışmada kullanılmamaktadır, ancak yasal bilgi erişim veya yasal metin sınıflandırması ile ilgili gelecekteki araştırma için ilgi çekici olabilir.
Şimdi veri kümesi'nin bazı özelliklerine bakalım.
Sorular beş ila kırk dört sözcükler uzunluğunda olup ortalaması on dört sözcükler'dir.
Makaleler, medyan uzunluğu yetmiş yedi sözcükler olan ve yüz kırk iki tanesi bin sözcükler'i aşarak çok daha uzundur.
En uzun olanı beş bin yedi yüz doksan sözcükler'e kadar çıkmaktadır.
Daha önce de belirtildiği gibi, sorular çok geniş bir yelpazede konuları kapsamakta olup, bunların yaklaşık yüzde seksen beşi ya aile, konut, para ya da adalet ile ilgilidir.
Geri kalan yüzde on beşlik kısım ise ya sosyal güvenlik, ya yabancılar ya da iş ile ilgilidir.
Bu makaleler, büyük sayı'da hukuki konuyu kapsayan otuz iki farklı Belçika yasasından geldiği için de çok çeşitlidir.
İşte bu Belçika kodlarının her birinden toplanan toplam makale sayı'sı.
Yirmi iki bin altı yüz otuz üç maddeden yalnızca bin altı yüz on iki, veri kümesi'ndeki en az bir soru ile ilgili olarak anılmaktadır.
Ve bu alıntı makalelerin yaklaşık yüzde sekseni ya medeni kanun, yargı kanunları, ceza soruşturma kanunları ya da ceza kanunlarından geliyor.
Bu arada, otuz iki koddan on sekizinde en az bir soru ile ilgili olarak belirtilen beşten az madde vardır.
Bu, bu kodların bireylere ve endişelerine daha az odaklanmasıyla açıklanabilir.
Genel olarak, bu alıntı makaleler için atıfların medyanı sayısı ikidir ve bunların yüzde yirmi beşinden azı beşten fazla kez alıntılanmıştır.
Tüm veri kümeleri'ni kullanarak, sözcük temelli ve yoğun mimari dahil olmak üzere çeşitli alma yaklaşımlarını karşılaştırdık.
Bir sorgu ve bir makale verildiğinde, bir sözcük temelli model, o makaledeki bu terimlerin her birinin ağırlıklar'ının sorgu terimleri üzerindeki toplamı hesaplayarak sorgu makale çiftine bir puan atar.
Standart TF- IDF ve BM25 sıralama fonksiyonlarını deniyoruz.
Bu yaklaşımlarla ilgili ana sorun, yalnızca sorgu'da bulunan anahtar kelimeleri içeren makaleleri alabilmeleridir.
Bu sınırlamanın üstesinden gelmek için, sorgular ve makale arasındaki anlamsal ilişkileri yakalayabilen Nöral tabanlı bir mimariyi deniyoruz.
Sorgular'ı ve makaleleri yoğun vektör temsiller'e eşleyen ve bir sorgu makale çifti arasında eklemeler'in benzer'liğine göre bir alaka düzeyi puanı hesaplayan bir bi-kodlayıcı model kullanıyoruz.
Bu eklemeler tipik olarak bir sözcük gömme model'inin çıktısı üzerindeki bir havuzlama işleminden kaynaklanır.
İlk olarak, Siyam bi-kodlayıcılar'ının etkinliğini sıfır atış değerlendirme kurulumunda inceliyoruz, anlam önceden eğitilmiş kelime gömme modeller'i herhangi bir ek hassas ayar yapma yapılmadan kutudan çıkar çıkmaz uygulanıyor.
Bağlam'dan bağımsız metin kodlayıcı, yani word2vec ve fastText ve bağlam'a bağımlı ekleme modeller'i, yani Roberta ve daha spesifik olarak bir Fransızca Roberta model'i olan CamemBERT ile deneyler yapıyoruz.
Ek olarak, kendi CamemBERT tabanlı model ah çift kodlayıcılar'ımızı veri kümesi üzerinde eğitiyoruz.
Eğitim için, bi -kodlayıcı mimarisinin iki aromasını denediğimizi unutmayın.
Sorgu ve makaleyi paylaşılan yoğun bir vektör uzayı'nda birlikte eşleyen benzersiz bir sözcük gömme model'i kullanan Siyam ve sorgu ve makaleyi ayrı ayrı farklı ekleme uzaylarına şifrelemek'te olan iki bağımsız sözcük gömme model'i kullanan iki kule.
Benzerlikleri hesaplamak için ortalama, maksimum ve CLS havuzlamanın yanı sıra çarpım ve kosinüs için denemeler yapıyoruz.
İşte test setlerindeki taban çizgimizin sonucu.
Yukarıdaki sözcük temelli yöntemler ile, Siyam bi -kodlayıcılar ortada sıfır atış kurulumunda ve aşağıdaki ince ayarlı bi -kodlayıcılar olarak değerlendirilmiştir.
Genel olarak, ince ayarlı bi-kodlayıcı diğer tüm taban çizgisi'nden önemli ölçüde daha iyi performans gösterir.
İki kuleli model yüz geri çağırma üzerine Siyam varyantları üzerinde iyileştirir, ancak diğer metrikler üzerinde benzer şekilde performans gösterir.
BM25 eğitilmiş bi-kodlayıcı'dan önemli ölçüde daha düşük performans göstermesine rağmen, performansı etki alanı'na özgü alma için hala güçlü bir temel olduğunu göstermiştir.
Siyam bi-kodlayıcı'sının sıfır atış değerlendirme'si ile ilgili olarak, bilgi erişim görev'i için optimizasyon yapmadan doğrudan önceden eğitilmiş CamemBERT model'inin eklemeler'ini kullanmanın önceki bulgularla tutarlı olarak kötü sonuçlar verdiğini görüyoruz.
Ayrıca, word2vec tabanlı bi-kodlayıcı'nın fastText ve BERT tabanlı modeller'den önemli ölçüde daha iyi performans gösterdiğini gözlemledik, bu da önceden eğitilmiş sözcük seviyesi eklemeler işlemlerinin görev için karakter seviyesi veya alt sözcük seviyesi eklemeler işlemlerinden daha uygun olabileceğini düşündürmektedir.
Umut verici olsa da, bu sonuçlar, herhangi bir soru'yla ilgili tüm makaleleri eninde sonunda bulabilen ve böylece mükemmel puanlar alabilen yetenekli bir hukuk uzmanına karşılaştırıldığında iyileştirme için büyük bir fırsat olduğunu göstermektedir.
Veri kümesi'nin iki sınırlamasını tartışarak sonuçlandıralım.
Birincisi, makalenin derlem'i, kararnameler, direktifler ve kararnameler eksik olduğu için tüm Belçika yasalarını kapsamayan, dikkate alınan otuz iki Belçika kodundan toplananlarla sınırlıdır.
Veri kümesi yapımı sırasında, bu toplanmamış makalelere yapılan tüm referanslar göz ardı edilir, bu da bazı sorular'ın ilgili makalelerin ilk sayı'sının sadece bir kısmı ile sonuçlanmasına neden olur.
Bu bilgi, bu nedenle, kalan ilgili makalelerde yer alan yanıt'ın hala tamamen uygun olmasına rağmen eksik olabileceğini ima eder.
İkincisi, tüm yasal sorular'ın yalnızca tüzüklerle cevaplanamayacağını belirtmeliyiz.
Bu örnek için, soru; çok fazla gürültü yaparlarsa kiracılarımı tahliye edebilir miyim?
Yasal yasada tahliyeye izin verilen belirli bir gürültü eşiğini ölçen ayrıntılı bir yanıt olmayabilir.
Bunun yerine, ev sahibi muhtemelen içtihatlara daha fazla güvenmeli ve mevcut durumlarına Benzer emsaller bulmalıdır.
Bu örnek için, kiracılar saat ikiye kadar haftada iki parti yapar.
Bu nedenle, bazı soru yasal makale alma görev'i için diğerlerinden daha uygundur ve daha az uygun olanların etki alanı belirlenmeye devam etmektedir.
Çalışmalarımızın pratik ve güvenilir yasal makale alma modeller'i geliştirmeye dair ilgiyi ortaya çıkaracağını umuyoruz.
Bu, herkes için adalete erişimin iyileştirilmesine yardımcı olabilir.
Makale, veri kümesi ve kodlarımızı aşağıdaki bağlantılardan inceleyebilirsiniz. Teşekkür ederim.
Merhaba, görme ve dil model'lerini belirli dil bilimsel fenomenlerle test etmek için Görev'den Bağımsız bir Benchmark olan VALSE üzerindeki çalışmamızı sunmaktan mutluluk duyuyoruz.
Bu ölçütü oluşturma zahmetine neden girdik?
Son yıllarda, büyük miktarlarda görüntü metin çifti üzerinde önceden eğitilmiş dönüştürücü tabanlı görüş ve dil modeller'inde bir patlama gördük.
Bu modeller'in her biri, görsel soru yanıtlama, görsel sağduyu gerekçelendirme, görüntü alma, ifade odaklama gibi görme ve dil görevler'i üzerinde en son teknolojiyi zorlamaktadır.
Bu yüzden bir mesaj aldık, bu görevler ve belirli ölçütlerdeki doğruluklar giderek artıyor.
Peki modeller'in gerçekte ne öğrendiğini biliyor muyuz?
Bir vizyon ve dil dönüştürücü'sü bu görüntü ve bu cümle için yüksek bir puan atarken neyi anladı?
Ve düşük puan bunun için mi?
Vizyon ve dil modeller'i doğru şeye odaklanıyor mu?
Yoksa önceki çalışmaların gösterdiği gibi önyargı'lara mı odaklanıyorlar?
Bu özellik üstüne daha fazla ışık tutmak için, daha görev agnostik bir yön önermek'teyiz ve hem dil bilimsel hem de görsel modaliteler'i etkileyen belirli dil bilimsel fenomenlere karşı görme ve dil modeller'inin hassasiyetini test eden VALSE'yi tanıtıyoruz.
Varlık, çokluk, sayma, uzamsal bağıntılar, eylemler ve varlık eş gönderge konularını hedef'liyoruz.
Ancak vizyonun ve dil modeller'inin bu fenomeni yakalayıp yakalamadığını nasıl test ederiz?
Daha önce Ravi Shekhar ve işbirlikçileri tarafından yalnızca isim öbekleri için ve bizim tarafımızdan önceki çalışmalarda sayma üzerine uygulanan bir yöntem'i görme ve dil modeller'i için FOIL kullanarak.
FOIL kullanımı temel olarak bir görüntü başlığını alıp, başlığı artık görüntü'yü tanımlamayacak şekilde değiştirerek bir FOIL üretmemiz anlamına gelir.
Ve bu sözcük öbeği değişikliklerini varlık, çoğulluk, sayma, uzamsal bağıntılar, eylemler ve varlık eş gönderge gibi altı özel parçaya odaklanarak yapıyoruz; burada her parça, FOIL örnekleri oluşturmanın birden fazla ilginç yolunu bulmamız durumunda bir veya daha fazla enstrümandan oluşabilir.
Bu örnek için, eylemler parçası durumunda, eylemin fiil farklı bir eylemle değiştirildiği ve eylemcilerin değiştirildiği iki aracımız vardır.
Sayma ve eş gönderge de birden fazla enstrümana sahip parçalardır.
Ve bu FOIL'leri, görüntü'yü tanımlamadıklarından, dil bilgisiyle ilgili olduklarından ve başka türlü geçerli olduklarından cümleler emin olarak yaratıyoruz.
Bunu yapmak kolay değildir, çünkü FOIL kullanılmış bir başlık orijinal başlıktan daha az olası olabilir.
Bu örnek için, imkansız olmasa da, bitkilerin bir insanı kesmesi, bir insanın bitkileri kesmesi için istatistiksel ihtimal daha az olasıdır ve büyük vizyon ve dil modeller'i bunu anlayabilir.
Bu nedenle, geçerli FOIL'ler elde etmek için harekete geçmeliyiz.
İlk olarak, FOIL'leri önermek için güçlü dil modeller'i kullanıyoruz.
İkinci olarak, hala görüntü'yü tanımlıyor olabilecek FOIL'leri filtrelemek için Doğal Dil Çıkarımı (NLI) veya kısaca NLI kullanıyoruz, çünkü FOIL'leri oluştururken görüntü'yü tanımlamadıklarından emin olmamız gerekiyor.
Bunu otomatik olarak test etmek için, Doğal Dil Çıkarımı (NLI) aşağıdaki gerekçeyle uygularız.
Bir görüntü'yü öncül ve başlığınsa gerekli hipotezi olduğunu düşünüyoruz.
Buna ek olarak, başlığın öncül olduğunu ve FOIL'in ise onun hipotezidir düşünüyoruz.
Bir NLI model'i, FOIL'in başlıkla çelişeceğini veya nötr olacağını öngörüyorsa, bunu geçerli bir FOIL'in göstergesi olarak alırız.
Bir NLI, başlığın gerektireceği FOIL'i tahmin ederse, iyi bir FOIL olamaz, çünkü geçişlilik ile görüntü'nün doğru bir tanımını verir ve bu FOIL'leri filtreleriz.
Ancak bu prosedür mükemmel değildir, sadece geçerli FOIL'lerin bir göstergesidir.
Bu nedenle, geçerli FOIL'leri oluşturma için üçüncü bir önlem olarak, VALSE' de kullanılan veriler'i doğrulamak için insan ek açıklama ekleyiciler'i kullanıyoruz.
Yani, filtreleme ve insan değerlendirmesi sonrasında, bu tabloda açıklandığı gibi birçok test örneğimiz var.
VALSE' nin herhangi bir eğitim verisi sağlamadığını, sadece veri'yi test ettiğini unutmayın.
Sadece sıfır atış testi ölçütü olduğundan, vizyonun mevcut yeteneklerinden ve ön eğitim'den sonra dil modeller'inden yararlanmak için tasarlanmıştır.
Hassas ayar yapma yalnızca modeller'in veriler'de eserleri veya istatistiksel önyargı'ları kullanmasını sağlar.
Ve hepimiz biliyoruz ki bu modeller hile yapmayı ve kestirme yolları kullanmayı seviyorlar.
Ve dediğimiz gibi, ön eğitim sonrasında vizyon ve dil modeller'inin hangi yeteneklere sahip olduğunu değerlendirmeler ile ilgileniyoruz.
VALSE üzerinde yani CLIP, LXMert, ViLBERT, ViLBERT on ikisi bir arada ve VisualBERT ile beş vizyon ve dil modeller'i deniyoruz.
En önemli değerlendirme metrikler'imizden ikisi, modeller'in görüntü cümle çiftlerini açıklamalar ve FOIL olarak sınıflandırma'daki doğruluğudur.
Belki de bu video için daha alakalı olarak, görüntü cümle hizalama skorunun doğru görüntü metin çifti için FOIL'li çiftinden daha büyük olup olmadığını ölçmek için daha müsamahakar metriğimiz olan ikili doğruluğu sergileyeceğiz.
Daha fazla metrikler ve bunlara ilişkin sonuçlar için makale'mize göz atın.
İkili doğrulukla elde edilen sonuçlar burada gösterilmiştir ve diğer metrikler'den elde ettiğimiz sonuçlarla tutarlıdır; en iyi sıfır atış performansı ViLBERT tarafından on ikide bir elde edilir, ardından ViLBERT, LXMert, CLIP ve son olarak VisualBERT gelir.
Varlık ve isim öbekleri gibi tek tek nesnelere odaklanan araçların ViLBERT tarafından neredeyse on ikisinin bir arada çözülmesi, modeller'in adlandırılmış nesneleri ve bunların görüntülerdeki varlığını belirleme vurgulaması dikkat çekicidir.
Bununla birlikte, kalan parçaların hiçbiri kötü amaçlı FOIL ayarlarımızda güvenilir bir şekilde çözülemez.
Çoğulluk ve sayma araçlarından, vizyon ve dil modeller'inin tekli ve çoklu nesnelere yapılan referansları ayırt etmekte veya bir görüntü'de saymakta zorlandıklarını görüyoruz.
Bağıntı parçası, bir görüntü içindeki nesneler arasındaki adlandırılmış uzamsal bağıntı'yı doğru bir şekilde sınıflandırma'kta zorluk çektiklerini göstermektedir.
Ayrıca, eylemler bölümünde gördüğümüz gibi inandırıcılık önyargı'ları ile desteklense bile, eylemleri ayırt etmekte ve katılımcılarını belirleme'de zorlanıyorlar.
Eş gönderge parçasından, zamirler kullanarak bir görüntü içindeki aynı nesneye birden fazla referans izlemenin için vizyon ve dil modeller'i içinde zor olduğunu öğreniyoruz.
Akıl sağlığı kontrolü olarak ve ilginç bir deney olduğu için, VALSE'in bu unimodal modeller tarafından çözülebilir olup olmadığını değerlendirmek için GPT bir ve GPT iki olmak üzere iki metin model'ini, doğru ve FOIL'li başlığın karışıklık durumunu hesaplayarak, burada görüntü yok ve en düşük karışıklık durumuna sahip girişi tahmin ederek karşılaştırıyoruz.
Eğer karışıklık FOIL için daha yüksekse, bunu FOIL'li başlığın inandırıcılık yanlılığından veya diğer dil bilimsel önyargı'lardan muzdarip olabileceğinin bir göstergesi olarak alıyoruz.
Ve bazı durumlarda, metin sadece GPT modeller dünyanın inandırıcılığını vizyon ve dil modeller'inden daha iyi yakaladığını görmek ilginç.
Özetlemek gerekirse, VALSE, topluluğun vizyonunu iyileştirmesine yardımcı olmak için dilbilimsel yapıların lensini kullanan ve görsel odaklama yeteneklerini zorlayarak dil modeller'ini kullanan bir ölçüttür.
Deneylerimiz, görme ve dil modeller'inin adlandırılmış nesneleri ve bunların görüntülerdeki varlığını iyi bir şekilde tanımladığını, ancak dil bilimsel göstergelere uymaya zorlandıklarında görsel sahnelerdeki karşılıklı bağımlılıklarını ve ilişkilerini temellendirmekte zorlandıklarını göstermektedir.
Topluluğu, vizyon ve dil modeller'i ile dil'i odaklama'sına yönelik ilerlemeyi ölçmek için VALSE kullanmaya teşvik etmek istiyoruz.
Dahası, VALSE veri kümeleri'nin dolaylı bir değerlendirmesi olarak da kullanılabilir, çünkü modeller eğitim veya hassas ayar yapma öncesinde ve sonrasında değerlendirilerek bir veri kümesi'nin modeller'in VALSE tarafından test edilen yönlerden herhangi birinde iyileşmesine yardımcı olup olmadığı görülebilir.
İlgileniyorsanız, GitHub'daki VALSE veri adresine göz atın ve sorular'ınız varsa bizimle iletişime geçmekten çekinmeyin.
Merhaba, ben Tokyo Üniversitesi'nden Kamezawa.
RNSum başlıklı bir makale sunacağım: Commit Logs özetleme aracılığıyla otomatik Sürüm Notu oluşturma'sı için büyük Ölçekli veri kümesi.
Bu sırayla açıklayacağım.
İlk olarak, bu araştırma'da üzerinde çalıştığımız otomatik sürüm notunu oluşturma tanıtacağım.
Sürüm notu, bir yazılım ürününün her sürümüyle birlikte dağıtılan değişiklikleri özetleyen teknik bir belge'dir.
Görüntü, vuejs kütüphanesinin iki nokta altı nokta dört sürümünün bir sürüm notunu için gösterir.
Sürüm notları açık kaynak geliştirmede önemli bir rol oynar, ancak manuel olarak hazırlamak zaman alır.
Bu nedenle, otomatik olarak yüksek kalite sürüm notları oluşturabilmek çok yararlı olacaktır.
Otomatik sürüm notu oluşturma ile ilgili iki önceki araştırmaya geçeceğim.
Birincisi, iki bin on dört'te piyasaya sürülen ARENA adlı bir sistem'dir.
Örneğin, tüm farklılıkları, kütüphane değişikliklerini ve belge değişikliklerini sürümler arasındaki farklılıklardan çıkarmak ve son olarak bunları birleştirmek için değişiklik ayıklayıcı'sını kullanmak gibi kural tabanlı bir yaklaşım benimser.
Bu sistem'in en önemli özelliği, sağ üst köşedeki sorun ayıklayıcı'dır.
Sorun izleyici sistem Jira'ya bırakılmalıdır ve yalnızca Jira kullanan projelere uygulanabilir.
Başka bir deyişle, GitHub'daki birçok proje için kullanılamaz.
İkincisi Glyph, son zamanlarda yirmi iki bin yirmi'de ilan edildi.
internet'te mevcuttur ve pip ile kurulabilir.
Bu sistem basit bir öğrenme tabanlı metin sınıflandırması model'ine sahiptir ve her girdi taahhüt mesajı için özellikler veya hata düzeltmeleri için beş etiketten birini çıktılar vermektedir.
Bu görüntü, bir düzeltici veya hata düzeltmeleri etiketi döndüren örnek bir kullanımdır.
Glyph'in eğitim verisi oldukça küçük, yaklaşık beş bin ve aşağıda açıklanan deneylerde gösterilecektir.
Metin sınıflandırması model'in performansı yüksek değil.
İlgili iki araştırma sunuyorum, ancak sorunları sınırlı uygulanabilirlik ve kısıtlı verilerkaynaklar.
Makale'miz bu iki sorunu çözmekte ve otomatik olarak yüksek kalite'li sürüm notları üretmektedir.
Sınırlı bir uygulanabilirlik sorun'u ile, girdi olarak yalnızca taahhüt mesajlarını kullanarak yüksek kalite'li sınıfsal bir özetleme yöntem'i önermek'teyiz.
Önerilen bu yöntem tüm İngilizce depolar için kullanılabilir.
İkinci sorun olan kısıtlı veri kaynaklar'ı için, GitHub API kullanarak halka açık GitHub depolarından veri toplayarak yaklaşık seksen iki bin veri parçasından oluşan RNSum veri kümesi oluşturduk.
Daha sonra, veri kümesi'ni açıklayacağım.
İşte veri için bir örnek.
Sol taraf bir taahhüt mesajıdır ve sağ taraf sürüm notlarıdır.
Sürüm notları, iyileştirmeler veya düzeltmeler vb. olarak etiketli'dir.
İşlenen mesajları girdi olarak alan ve etiketli bir sürüm notu çıktılar veren bir görev oluşturduk
Bu bir özetleme görev'i olarak kabul edilebilir.
Önceden dört etiket tanımladık: özellikler, iyileştirmeler, hata düzeltmeleri, kullanımdan kaldırma işlemleri ve sonlandırma değişiklikleri.
Bunlar önceki araştırma ve diğer faktörlere dayanarak belirlendi.
Sağ alttaki sürüm notu, sol alttaki sürüm notundan ayıklanan'dır.
Şu anda, önceden ayarlanmış dört etiketi tespit etmek gerekir.
Ancak etiketler her depoyla her zaman tutarlı değildir.
Bu örnek için, iyileştirmeler etiketi iyileştirmeler, geliştirmeler, optimizasyonlar vb. içerir.
Bu gösterimsel varyasyonların her biri için yaklaşık otuz etiketten oluşan bir kelime hazinesi listesi hazırladık.
Bu, sürüm notu sınıfını tespit etmektir ve sürüm notu cümle sınıf için olarak takip eden sürümün metin'i toplar.
Sırada bir işlenen mesaj var.
İşlenen mesajlar her sürümle bağlantılı değildir.
Aşağıdaki görüntü'de gösterildiği gibi, mevcut sürüm iki nokta beş ila on dokuz ise, önceki sürüm sürümünü iki nokta beş ila on sekiz olarak tanımlamamız ve bir fark almamız gerekir.
Bu biraz sıkıcı ve sadece sürümlerin bir listesini almak ve öncesi ve sonrasına bakmak yeterli değil.
Önceki ve sonraki sürümleri almak için bir buluşsal eşleştirme kuralı oluşturduk.
Veri kümesi analiz.
Sonunda, yedi bin iki yüz havuz ve seksen iki bin parça veri toplandı.
Ayrıca, sürüm notlarının belirteç'lerinin ortalama sayı'sı altmış üçtür ve bu da bir özetleme görev'i için oldukça yüksektir.
Ayrıca, benzersiz belirteç'lerin sayı'sı sekiz bin sekiz yüz otuz bin ile oldukça büyük'tür.
Bunun nedeni, depoda bulunan benzersiz sınıf veya yöntem adlarının büyük sayı olmasıdır.
Daha sonra, önerilen yöntem'i açıklayacağım.
Sınıfsal ayıklayıcı sonra soyut özetleme model iki nöral modülden oluşur.
BERT veya CodeBERT kullanan bir sınıflandırıcı ve BART kullanan bir oluşturucudur.
İlk olarak, CEAS, her bir taahhüt mesajını iyileştirmeleri, hata düzeltmelerini, kullanımdan kaldırmaları ve diğerlerini kullanan beş sürüm notu sınıfına sınıflandırmak için bir sınıflandırıcı kullanır.
Diğer olarak sınıflandırılan işleme mesajları atılır.
Daha sonra CEAS jeneratörü bağımsız olarak dört etiketli belgeler'e uygular ve her sınıf için sürüm notları oluşturur.
Bu görev'de, taahhüt mesajları ve sürüm notları arasındaki doğrudan yazışmalar bilinmemektedir.
Bu nedenle, sınıflandırıcı'yı eğitmek için, her bir taahhüt mesajının ilk on karakterini kullanarak anketleri her bir girdi işleme mesajına yeniden atamamızın nedeni budur.
Sınıfsal soyut özetleme yaklaşım'ı iki farklı yöntem ile modelledik.
CAS- Single olarak adlandırdığımız ilk model, tek bir altı ila altı ağdan oluşur ve tek bir sürüm notu metin oluşturur ve girdi işlenen mesajlarının bir ardışıklık durumunu verir.
Çıktı metinler, özel sınıfa özgü uç nokta sembollerine dayalı olarak sınıfsal bölümlere ayrılabilir.
İkinci yöntem, CAS-Multi olarak adlandırdığımız yöntem, her biri sabit sürüm nota sınıflarından birine karşılık gelen dört farklı seq2seq ağından oluşur.
Tamam, deneyleri açıklayayım.
Beş yöntem karşılaştırıldığında: CEAS, CAS- Tek, CAS- Çoklu, kümeleme ve önceki çalışma, Glyph.
Değerlendirme ile ilgili olarak, bazı durumlarda, sürüm notları birden fazla cümleler halinde çıkarılır.
Cümleler'in sayı'sını olduğu gibi hesaplamak zor olduğundan, boşluklarla birleştirilir ve uzun bir cümle olarak ele alınır.
Sistem kısa bir cümle çıktılar'ı verdiğinde BLEU cezalandırılır.
Bu ceza, daha sonra açıklanan deney sonuçlarında daha düşük bir BLEU değeri ile sonuçlanır.
Son olarak, ROUGE ve BLEU sürüm notları boşsa hesaplanamayacağı için özgünlüğü de hesaplıyoruz.
Daha yüksek bir özgünlük, sürüm notlarının boş varsayıldığı durumlarda model'in doğru bir şekilde boş bir metin çıktlar'ı verdiği anlamına gelir.
Sonuçları aşağıda bulabilirsiniz.
Veri kümesi e-posta adresleri, karma değerler vb. içerdiğinden, bunları hariç tutan temizlenmiş veri kümesi'ni de değerlendirdik.
CEAS ve CAS ROUGE- L puanlarını taban çizgisi'nden on puan daha yüksek elde etti.
Özellikle, temiz test setinde, önerilen yöntem ile taban çizgisi arasındaki puan farkı yirmi puanın üzerine çıkmıştır.
Bu sonuçlar CEAS ve CAS' ın önemli ölçüde etkilendiğini göstermektedir.
CEAS, CAS'tan daha iyi bir ROUGE-L skoru elde etmiştir; bu da bir sınıflandırıcı ile bir üretecin birleştirilmesinin sahte etiketler kullanarak sınıflandırıcı'yı eğitme konusunda etkili olduğunu göstermektedir.
Yüksek CEAS kapsamı elde edilebilir, çünkü sınıflandırıcı her sınıf için ilgili işlenen mesajlarını seçmeye odaklanabilir.
CAS-Multi, CAS-Single'dan daha yüksek ROUGE-L verme eğilimindeydi.
Her sürüm notu sınıfı için bağımsız olarak farklı soyut özetleme modeller için geliştirmenin de etkili olduğunu öne sürmek.
İşte bir hata analiz.
CAS yöntemler'i, insan referans cümleler'inden daha kısa cümleler üretme eğilimindedir.
Sağdaki şekilde, referans cümle üç veya dört cümle içerirken, CAS ise sadece bir tane içerir.
Bu model'in isteksizliğinin nedeni, eğitim verisi'nde cümleler'in yalnızca yüzde otuz üçünün özellikler etiketinde ve yüzde kırkının iyileştirmeler etiketinde bulunmasıdır.
Ayrıca, CAS yöntemler ek bilgi olmadan doğru sürüm notları oluşturamaz.
Sağdaki en üstteki örnek, çok dağınık bir taahhüt mesajının bir örneğidir ve tam cümle, karşılık gelen ilerleme veya soruna atıfta bulunulmadan oluşturma'sı mümkün değil.
Aşağıdaki örnek, girdi içindeki iki işlenen mesajının ilişkili olduğunu ve bir cümle halinde birleştirilmesi gerektiğini göstermektedir, ancak bunu yapamamaktadır.
Son olarak, bir sonuç.
Yeni bir veri kümesi için otomatik sürüm notu oluşturma hazırladık.
Ayrıca, İngilizce olarak yazılı tüm projelere uygulanabilir olması için işleme mesajlarını girme ve özetleme görev'ini formüle ettik.
Deneylerimiz, önerilen yöntem'in, taban çizgisi'nden daha yüksek kapsama alanında daha az gürültülü sürüm notları ürettiğini göstermektedir.
Lütfen GitHub'daki veri kümesi'ni kontrol edin.
Teşekkür ederim.
Merhaba, Benim adım Asaf Harari.
Ben de, İnce Ayarlı dönüştürücüler mimariler Kullanarak Az Çekimli Tabular Veri Zenginleştirme makale'mizi sunacağım.
Veri bilim adamları veriler'i analiz eder ve esas olarak veriler'in mevcut özellikler'inin manipüle edilmesine odaklanır.
Ancak bazen bu özellikler sınırlıdır.
Başka bir veri kaynak kullanan özellik oluşturma önemli bilgi ekleyebilir.
Araştırma hedefimiz, dış kaynakların ücretsiz metin kullanarak otomatik tablosal veri zenginleştirmesidir.
Bir tablomuz veri kümesi ve bir bilgi tabanı olduğunu varsayalım.
Bilgi tabanı'ndaki serbest metin'den yeni özellikler çıkarmak için varlık bağlama ve metin analiz'i içeren otomatik bir sürece ihtiyacımız var.
Bizim çerçevemiz FeSTE tam olarak bu otomatik süreçtir.
Şimdi FeSTE'ye beslenen bir veri kümesi'nde bir örnek görelim.
Bu örnekte, veri kümesi üniversite veri kümesi'dir.
Amacı üniversiteleri düşük rütbeli üniversiteler ve yüksek rütbeli üniversiteler olarak sınıflandırmak olduğunda.
Bilgi tabanı olarak wikipedia kullanıyoruz.
FeSTE'nin ilk aşaması varlık bağlama'dır.
Her varlık, bu örnekte üniversite adı, bilgi tabanı içindeki bir varlık ile bağlı olduğunda.
Ve bilgi tabanı'ndaki varlıklar'ın metinler'i ayıklanan hale gelir ve veri kümesi'ne eklenir.
Bu örnekte, metin wikipedia sayfasının özetidir.
Şimdi, alınan metin 'den özellikler oluşturmamız veya çıkarmamız gerekiyor.
Bu nedenle, metin analiz'i içeren ayıklama aşamasını öne çıkarmamız gerekir.
Ve bu makale'nin ana yeniliği budur ve sonraki slaytlarda derinlemesine inceleyeceğim.
Özellik ayıklama aşamasından sonra, az sayıda yeni özellik oluşturmak için ayıklanan özellikler'i kullandığımız bir özellik oluşturma aşaması vardır.
İlk önce, veri kümesi'nin sınıflarının sayı'sı içinde ah özellikler oluşturun.
Bu örnekte, orijinal veri kümesi iki sınıfa sahiptir.
Böylece FeSTE iki yeni özellik oluşturur.
Ancak veri kümesi beş sınıfa sahipse, FeSTE beş yeni özellik üretir.
Her özellik, her sınıf için olasılığı temsil eder.
Metin'i analiz etmek için, BERT, GPT, XLNet ve benzeri dönüştürücü tabanlı dil modeller'i olan metin analiz'inin mevcut en son teknolojisini kullanıyoruz.
Ancak girdi veri kümeleri'ni kullanarak dil modeller'ini eğitebilmemiz mümkün değildir.
Dolayısıyla naif bir yaklaşım ah hedef görev hassas ayar yapma olacaktır.
Böylece, özellik ayıklama aşamasında, önceden eğitilmiş dil modeller'ini indirebilir, dil model'ini hedef veri kümesi üzerinde ince ayar yapabiliriz.
Bu örnekte dil modeli'nin ince ayarını yapmak, metin'i sınıflara ayırmak, düşük veya yüksek sınıflara ayırmak için ah sınıflandırmak.
Her sınıf için olasılık olan dil model'i çıktısını alın ve yeni özellikler olarak kullanın.
Bu yaklaşım ile ilgili sorun, veri kümelerinin birkaç farklı varlık veya metin'e sahip olmasıdır.
Deneyimizde, veri kümeleri'nin neredeyse yarısı dört yüzden az örnek içerir ve en küçük veri kümesi bir eğitim setinde otuz beş örnek içerir.
Yani bir dil modeli'ni ah üzerinde ince ayar yapmak için bu veri kümesi etkisiz olacaktır.
Ancak önceden analiz edilmiş veri kümeleri hakkında bilgi kullanabiliriz.
FeSTE, birden fazla veri kümesi üzerinde FeSTE uyguladığımız için, n eksi bir veri kümesi hakkında bilgi toplamak için n eksi bir veri kümesi'ni kullanabilir ve n'inci veri kümesi'ni analiz ederken bu bilgiler'i kullanabiliriz.
Önerdiğimiz şey, eklemek, başka bir hassas ayar yapma aşaması eklemektir.
Bir ön çok görevlihassas ayar yapma aşaması.
Dil modeli'ni n eksi bir veri kümeleri üzerinde ince ayar yaptığınızda.
Ve sonra, n'inci hedef veri kümesi üzerinde dil modeli'ni ince ayar yaptığımızda, bir hedef görev hassas ayar yapma olan başka bir hassas ayar yapma aşaması yürütürüz.
Çok görevli ah çok görevli hassas ayar yapma alanındaki en son teknoloji MTDNN olarak adlandırılır.
MTDNN'de, MTDNN, eğitim setindeki görev sayı'sında ah başlıklarını korur.
Bu örnekte eğitim kümesinde dört görev vardır, bu nedenle MTDNN görüntü'de görebileceğiniz gibi dört başlığı koruyun.
Ve setten rastgele bir partiyi eğitim örnekliyor.
Ve eğer rastgele bir gruba aitlerse, bu örnek için tek bir cümle sınıflandırması görev, ilk başlıkta ileri ve geri yollar yürütür.
Rastgele grup ikili derecelendirmeye görev'e aitse, son başlıkta ileri ve geri yolu yürütür.
Senaryomuzda, ah tabular veri kümeleri sınıf sayı'sı bakımından farklılık göstermektedir.
Halbuki pek çok görevler vardır.
MTDNN sınıfların, kafaların, çıktı katmanlarının sayı'sını korudu.
Ve ayrıca, ek olarak MTDNN yeni bir görev ile yeni bir veri kümesi için yeni başlıklar başlatması gerekir.
Görev reformülasyonu hassas ayar yapma olarak adlandırılan yaklaşım'ımızda görev reformülasyonu hassas ayar yapma, birden fazla başlığı korumak yerine, her veri kümesi'ni iki sınıfın görev'i olan sınıflandırma sorun'u başına bir cümle olarak yeniden formüle ediyoruz.
Şimdi bir örnek görelim.
İşte varlıklar, özellikler, metin ve sınıflardan oluşan girdi veri kümesi.
Ve görev'i metin'i düşük veya yüksek olarak sınıflandırmaktan metin'i, soyutu ve sınıfı doğru veya yanlış olarak sınıflandırmak için yeniden formüle ediyoruz.
Ya da başka bir deyişle, dil modeli'ni bir soyut ve ah sınıfını soyut ve ah sınıfına sınıflandırmak için eğittik, eğer soyut sınıfa aitse ya da değilse.
Dolayısıyla bu durumda etiket vektör her zaman iki sınıftan oluşan ah olarak kalır.
Bu da bizim ince, yeniden formüle edilmiş hassas ayar yapma yaklaşım'ımız için ah algoritma'sı.
Şimdi çerçevenin tamamını görelim.
Veri kümesi FeSTE'ye beslenir.
Ve sonra ah FeSTE varlık bağlama aşamasını yürütür.
Bu örnekte wikipedia sayfasının özeti olan bilgi tabanı'ndan metin çıkarır.
Daha sonra görev'i bir ikili cümle sınıflandırma görev'i olarak yeniden formüle etmiştir.
Dil modeli'ni yeni görev'e ve her sınıf için çıktı olasılığına uygulayın.
Ve şimdi dil modeli bir ön çoklu görev hassas ayar yapma kullanılarak n eksi bir veri kümesi üzerinde zaten ince ayarlanmıştır.
Daha sonra dil modeli'nin çıktısını vektör'ünü sınıfların sayı'sı içinde yeni oluşturulan bir özellik olarak kullanırız.
Çerçevemizi değerlendirmek için boyut, özellikler, denge, etki alanı ve ilk performans açısından farklılık gösteren on yedi tablo sınıflandırma veri kümesi kullanıyoruz.
bilgi tabanı olarak wikipedia kullanıyoruz.
Deneyimizi, FeSTe'yi on altı veri kümesi üzerinde eğittiğimiz ve on yedinci veri kümesi'ne uyguladığımız bir ah değerlendirme dışında bırakmak olarak tasarlıyoruz.
Ayrıca, her veri kümesi'ni dört kata bölüyoruz ve dört kat çapraz doğrulama uyguluyoruz.
Ardından, yeni özellikler oluşturuyor ve bunları beş değerlendirme sınıflandırıcı kullanarak değerlendiriyoruz.
Deneylerimizde temel BERT temel mimarisini kullanıyoruz.
İşte deneylerimizin sonuçları için.
Çerçevemizi hedef veri kümesi hassas ayar yapma, hedef görev ince ayar ve bir MTDNN ön hassas ayar yapma ile karşılaştırdığımızı görebilirsiniz.
Ve bizim yeniden formüle ettiğimiz hassas ayar yapma en iyi sonucu, en iyi performansı başarmak'tadır.
MTDNN, hedef veri kümesi hassas ayar yapma üzerinde yüzde iki iyileşme elde etti.
Yaklaşım'ımız yüzde altı iyileşme sağladı.
Küçük ah veri kümesi'ne baktığımızda, MTDNN performansının düştüğünü ve ön çoklu görev hassas ayar yapma aşaması olan prelim'in iyileştirmesinin yüzde bir nokta beşe düştüğünü görebiliyoruz.
Ancak performansımız tek başına hedef görev hassas ayar yapma ile karşılaştırıldığında yüzde on bire yükseldi.
Özetlemek için, FeSTE deneylerimizde otuz beş örnekten birkaç atış zenginleştirme sağlar.
Tüm görevler ve veri kümeleri için tek bir mimari kullanır.
Ve model ah'ın başını tutar.
Ama reformülasyon aşamasını da ekliyor.
Eğitim setini artırır ve anlamsal anlam'ı olan bir hedef değere ihtiyaç duyar, böylece onu dil modeli'ne besleyebilir ve bağlı cümle sınıflandırma sorun'ununda kullanabiliriz.
Teşekkür ederim.
