1
Kaynak önceliği
Resmi duyuru, model kartı, API dokümanı, fiyat sayfası ve bağımsız benchmarklar ayrı biçimde etiketlenir. Sağlayıcı tarafından paylaşılan veriler bağımsız ölçüm olarak sunulmaz.
metodoloji
AI modellerine ilişkin bilgiler sık değişir. Bu nedenle atlas, tekil bir “en iyi model” sıralaması sunmak yerine model bilgilerini kaynak, tarih ve değerlendirme koşullarıyla birlikte düzenlemeyi amaçlar.
1
Resmi duyuru, model kartı, API dokümanı, fiyat sayfası ve bağımsız benchmarklar ayrı biçimde etiketlenir. Sağlayıcı tarafından paylaşılan veriler bağımsız ölçüm olarak sunulmaz.
2
Model adı aynı kalsa bile endpoint, fiyat, context limiti veya benchmark sonucu değişebilir. Bu nedenle her model girdisinde son güncelleme bilgisi yer alır.
3
MMLU, SWE-bench, MMMU veya AIME gibi benchmarklar tek başına genel model kapasitesini temsil etmez. Görev türü, veri sızıntısı ihtimali, prompt düzeni ve ölçüm koşulu dikkate alınmalıdır.
benchmark okuma kılavuzu
atlas kuralı
İlk sürüm tüm model ailelerini eksiksiz kapsamaz. Öncelik; veri şemasının, kaynak biçiminin ve değerlendirme dilinin tutarlı biçimde oluşturulmasıdır. Kapsam, doğrulanabilir kaynaklar ve düzenli güncelleme süreciyle aşamalı olarak genişletilir.
Amaç: Türkçe, anlaşılır, kaynaklı ve güncel bir karar destek yüzeyi sunmaktır.