エピソード一覧
EP.022
もうAIニュースに踊らされない。ベンチマークの読み方を知り「自分軸」で性能評価する技術(ep.22)

もうAIニュースに踊らされない。ベンチマークの読み方を知り「自分軸」で性能評価する技術(ep.22)

01:01:13 2025-12-04LLMベンチマーク評価GPT-4Claude比較

この回の概要

生成AIの性能はどうやって決められているのでしょうか?実は、AIモデルの開発競争の裏では、テストスコアを巡る「いたちごっこ」が起きています。今回のテーマは「LLMのベンチマーク」。AIの実力を測るための様々なテストとその仕組みを深掘りします。百科事典的な知識を問う「MMLU」から、Google検索でも答えが見つからない難問「GPQA」、さらに日本語能力に特化した「Nejumi LLM Leaderboard」まで、見るべき指標を徹底解説。しかし、ベンチマークには「テストデータの漏洩(カンニング)」や、指標自体が目的化して本来の性能が歪む「グッドハートの法則」といった落とし穴も存在します。そこで注目されているのが、動的に問題が生成される「Chatbot Arena」や、AI自身が審査員となる「LLM-as-a-Judge」です。ただの数字の羅列に見えるグラフの向こう側にある、エンジニア...

感想・お便りを送る

Xで #おちつきAI をつけてポスト、またはフォームからお便りをどうぞ。