metodoloji

Kaynak ve değerlendirme yaklaşımı

AI modellerine ilişkin bilgiler sık değişir. Bu nedenle atlas, tekil bir “en iyi model” sıralaması sunmak yerine model bilgilerini kaynak, tarih ve değerlendirme koşullarıyla birlikte düzenlemeyi amaçlar.

1

Kaynak önceliği

Resmi duyuru, model kartı, API dokümanı, fiyat sayfası ve bağımsız benchmarklar ayrı biçimde etiketlenir. Sağlayıcı tarafından paylaşılan veriler bağımsız ölçüm olarak sunulmaz.

2

Tarih bilgisi korunur

Model adı aynı kalsa bile endpoint, fiyat, context limiti veya benchmark sonucu değişebilir. Bu nedenle her model girdisinde son güncelleme bilgisi yer alır.

3

Karşılaştırma bağlam gerektirir

MMLU, SWE-bench, MMMU veya AIME gibi benchmarklar tek başına genel model kapasitesini temsil etmez. Görev türü, veri sızıntısı ihtimali, prompt düzeni ve ölçüm koşulu dikkate alınmalıdır.

benchmark okuma kılavuzu

Bir skor incelenirken sorulacak sorular

  • Skoru kim yayımladı: sağlayıcı mı, bağımsız bir laboratuvar mı?
  • Hangi model sürümü ve hangi endpoint kullanıldı?
  • Test seti model eğitiminde veya değerlendirme optimizasyonunda görülmüş olabilir mi?
  • Skor tek deneme mi, ortalama mı, özel prompt/harness kullanılmış mı?
  • İlgili kullanım senaryosu bu benchmark ile doğrudan ilişkili mi?

atlas kuralı

Kapsam aşamalı olarak genişletilir

İlk sürüm tüm model ailelerini eksiksiz kapsamaz. Öncelik; veri şemasının, kaynak biçiminin ve değerlendirme dilinin tutarlı biçimde oluşturulmasıdır. Kapsam, doğrulanabilir kaynaklar ve düzenli güncelleme süreciyle aşamalı olarak genişletilir.

Amaç: Türkçe, anlaşılır, kaynaklı ve güncel bir karar destek yüzeyi sunmaktır.