GPQA-Diamond
数学とコンピューティングのベンチマークで、より高度な物理関連の質問を含む大学院レベルのベンチマークである。
ちなみにこれを知ったきっかけはカルフォルニア大学バークレー校を拠点とする研究チーム”NovaSky”が発表した”Sky-T1-32B-Preview”のニュースです。
OpenAIの”OpenAI o1-preview”に匹敵する性能を持つ推論モデルだそうで、数学とコンピューティングのベンチマークで”o1-preview”と同等以上であるがこの”GPQA-Diamond”ではおよばなかったそうだ。
このモデルは中国の阿里巴巴(アリババ)の”Qwen2.5-32B-Instruct”を微調整して開発され、”o1-preview”に匹敵するもう一つのオープンソースモデル”QwQ-32B-Preview”を用いて生成されたデータでトレーニングされている。