OCHITSUKI AI RADIO

EP.022

もうAIニュースに踊らされない。ベンチマークの読み方を知り「自分軸」で性能評価する技術(ep.22)

01:01:13 2025-12-04LLMベンチマーク評価GPT-4Claude比較

🟣Apple Podcastsで聴く 🟢Spotifyで聴く 🔴YouTubeで聴く 🔵Amazon Musicで聴く ⚪LISTENで聴く

この回の概要

生成AIの性能はどうやって決められているのでしょうか？実は、AIモデルの開発競争の裏では、テストスコアを巡る「いたちごっこ」が起きています。今回のテーマは「LLMのベンチマーク」。AIの実力を測るための様々なテストとその仕組みを深掘りします。百科事典的な知識を問う「MMLU」から、Google検索でも答えが見つからない難問「GPQA」、さらに日本語能力に特化した「Nejumi LLM Leaderboard」まで、見るべき指標を徹底解説。しかし、ベンチマークには「テストデータの漏洩（カンニング）」や、指標自体が目的化して本来の性能が歪む「グッドハートの法則」といった落とし穴も存在します。そこで注目されているのが、動的に問題が生成される「Chatbot Arena」や、AI自身が審査員となる「LLM-as-a-Judge」です。ただの数字の羅列に見えるグラフの向こう側にある、エンジニア...

感想・お便りを送る

Xで #おちつきAI をつけてポスト、またはフォームからお便りをどうぞ。

𝕏 #おちつきAI でポストお便りフォーム

LISTEN NOW

🟣Apple Podcasts 🟢Spotify 🔴YouTube 🔵Amazon Music ⚪LISTEN

RELATED EPISODES

EP.049

【スライド生成AIの結論】ManusとGensparkが二強！パワポ作成から解放される最新AIツール徹底比較(ep.49)

EP.048

[3月3日:速報回]Google Antigravityで作った「ギガファイル便永久保存スクリプト」が大炎上。非エンジニアでもプログラミングできる時代の「技術者倫理」とは？(ep.48)

EP.046

[2月24日:速報回]Gemini 3.1からGrok 4.2まで(ep.46)