Mohamed bin Zayed Yapay Zeka Üniversitesi (MBZUAI) ve ortakları Salı günü, şimdiye kadar toplanmış en büyük Arapça ilk veri kümesi üzerinde eğitilmiş 70 milyar parametreli bir dil modeli olan Jaıs 2’yi (başka hiçbir kurumun denemediği bir ölçek olan 600 milyar Arapça belirteç) yayınladılar.
Serbest bırakma, BAE’nin Arapça Yapay Zekadaki konumunu güçlendiriyor.Önceki Arapça modeller değerlendirme ölçütlerinde yüzde 62 civarında puan alırken, Jaıs 2 araştırmacıların “hem Arapça hem de iki dilli görevlerde son teknoloji performans” olarak tanımladıkları şeyi sunuyor.”
MBZUAI Doğal Dil İşleme Bölüm Başkanı Profesör Preslav Nakov Khaleej Times‘a verdiği demeçte, ”Arapça, yüksek kaliteli veri eksikliği nedeniyle yapay zeka gelişiminde uzun süredir yetersiz hizmet görüyor.” dedi. “Bugün belirleyici bir ilerlemeyi işaret ediyor – özünde ölçek, kültürel derinlik ve dilsel sadakatle inşa edilmiş bir model.”
Arapça-ilk, Arapça ayarlı değil
Jaıs 2’yi farklı kılan şey onun gelişim felsefesidir. Birçok küresel yapay zeka modeli, Arapça’yı ikincil bir dil olarak ele alır, genellikle ingilizce veri kümelerini çevirir veya ingilizce merkezli sistemlerin üzerine ince Arapça katmanlar ekler. Jaıs 2, Arapça yapı, lehçeler ve gerçek kullanım etrafında sıfırdan inşa edilmiştir.
Nakov, ”Başka yerlerde geliştirilen modeller Arapça’yı çevresel bir ek olarak ele alma eğilimindedir” dedi. “Çoğu, lehçeleri ve kültürel açıdan nüanslı bağlamları kötü modellenmiş bırakarak ingilizceye karşı ağır önyargılı olmaya devam ediyor.”
Veri kümesi, Körfez, Emirlik, Fas, Mısır, Irak dahil olmak üzere Modern Standart Arapça, 17 bölgesel lehçeyi ve çevrimiçi olarak yaygın olarak kullanılan Latin alfabeli Arapça Arabizi’yi kapsamaktadır. Jaıs 2 ayrıca 1,6 trilyon ingilizce ve kod belirteci içerir ve kod değiştirmenin günlük konuşmanın bir parçası olduğu gösterilen bir bölgede gerekli olan güçlü iki dilli yetenekler sağlar.
Nakov, ”Arap dünyasında kod değiştirme doğaldır” dedi. “Jaıs 2 bunu bir anormallik olarak değil, normal bir dilsel örüntü olarak ele alıyor.”

Dil derinliği
Jaıs 2, ayrıntılı meta veriler ve anlamsal ek açıklamalar içeren 427.000’den fazla Arapça şiir üzerine eğitildi ve ona küresel modellerin eksik olduğu klasik ve çağdaş ayetler hakkında bir anlayış kazandırdı.
Nakov, ”Arap şiiri, Jais 2’nin üstün olduğu açık bir alandır” dedi. “Batılı modeller, Jais’in doğal olarak ele aldığı sembolizmi veya kültürel referansları yorumlamak için yeterli maruziyete sahip değiller.”
Bu kültürel temel, Batılı varsayımlardan ziyade bölgesel iletişim normları etrafında tasarlanmış, özel olarak oluşturulmuş bir Arapça kelime hazinesi ve güvenlik çerçeveleriyle güçlendirilmiştir.
Ortaklık içinde inşa edilmiş, bölge için inşa edilmiş
Inception (bir G42 şirketi), Cerebras Systems ve MBZUAI’NİN Institute of Foundation Models tarafından geliştirilen Jaıs 2, eğitildi ve tamamen Cerebras donanımında sunuldu — ortakların benzer küresel modeller tarafından kullanılan hesaplama gücünün bir kısmını gerektirdiğini söylediği bir kurulum.
Teknik başarısının ötesinde, model ileriye doğru önemli bir adımı temsil ediyor. BAE ve daha geniş Arap dünyası için egemen Arapça AI, dilin, lehçelerin ve kültürel bağlamın hızla dijitalleşen bir dünyada doğru bir şekilde temsil edilmesini sağlar.
Nakov, ”Bölge için egemen Arap modelleri oluşturmak temsil, kültürel uyum ve güvenilirlik sağlıyor.” dedi. “Arap dünyasının takip etmek yerine liderlik etmesine izin veriyor.”
Açık ağırlık modeli
Jaıs 2, tamamen açık ağırlıklı bir 70B modeli olarak piyasaya sürülüyor – Nakov’un yerel inovasyonu hızlandırmak için gerekli olarak tanımladığı bir karar.
Khaleej Times gazetesine verdiği demeçte, ”Açık ağırlıklı bir modelin piyasaya sürülmesi, araştırmacıların, girişimlerin ve hükümetlerin son teknoloji ürünü bir temel üzerine Arapça çözümler oluşturmasına olanak tanıyor” dedi.
Sürüm, finans, sağlık, eğitim, müşteri hizmetleri, medya ve devlet hizmetlerindeki uygulamalar için ince ayar yapılmasına olanak tanır. Jaıs 2 şu anda Inceptions HuggingFace sayfası aracılığıyla ve şu adreste mevcuttur: jaischat.ai

