热搜词:

北大物院200人合作,金牌得主超50人!大模型究竟能不能懂物理?

鏈�」鐩�敱鍖椾含澶у�鐗╃悊瀛﹂櫌鏈卞崕鏄熻€佸笀銆佹浌搴嗗畯鍓�櫌闀跨粺绛规寚瀵笺€傚熀鍑嗚�璁°€侀」鐩��鐞嗕互鍙婃暟鎹�暣鍚堢殑涓昏�宸ヤ綔鐢卞�鐢熸牳蹇冨洟闃熷畬鎴愶紝鏍稿績鎴愬憳鍖呮嫭浠囨槸銆侀儹缁嶉槼銆佸畫鍗撴磱銆佸瓩闊�崥銆佽敗鍒欏畤銆佸崼瀹剁噴銆佺綏澶╁畤绛夈€傞」鐩�繕寰楀埌浜嗗寳浜�ぇ瀛﹁�绠椾腑蹇冪綏姘戝叴闄㈠+鍜屼汉宸ユ櫤鑳界爺绌堕櫌寮犵墽娑佃€佸笀鐨勯紟鍔涙敮鎸併€�

PHYBench 椤圭洰姹囪仛浜嗘潵鑷�墿鐞嗗�闄㈠強鍏勫紵闄㈢郴鐨� 200 浣欏悕瀛︾敓锛屽叡鍚屾壙鎷呴�鐩�紪鍐欍€佸�鏍稿強浜虹被鍩哄噯娴嬭瘯绛夊伐浣溿€傝繖鏀�珮姘村钩鐨勫弬涓庤€呭洟闃熶腑锛屽寘鍚�嚦灏� 50 浣嶅叏鍥戒腑瀛︾敓鐗╃悊绔炶禌閲戠墝寰椾富锛屾洿鏈変簹娲茬墿鐞嗗ゥ璧涘拰鍥介檯鐗╃悊濂ヨ禌鐨勯噾鐗岃幏寰楄€呫€傝繖鍦哄ぇ瑙勬ā銆侀珮璐ㄩ噺鐨勫崗浣滐紝涓嶄粎鍏呭垎灞曠幇浜嗗寳澶у�瀛愭繁鍘氱殑瀛︽湳鍔熷簳鍜屽崜瓒婄殑缁勭粐鍗忚皟鑳藉姏锛屼篃涓� PHYBench 浜у嚭楂樿川閲忔垚鏋滄彁渚涗簡鍧氬疄淇濋殰銆�

鍦ㄥぇ璇�█妯″瀷锛圠LMs锛夐�閫熷彂灞曠殑褰撲笅锛屾ā鍨嬬殑鎺ㄧ悊鑳藉姏淇ㄧ劧鎴愪负妯″瀷鑳藉姏鐨勪唬鍚嶈瘝銆侽penAI 鐨� o 绯诲垪銆丏eepSeek R1 绛夊墠娌挎ā鍨嬬浉缁у彂甯冿紝杩欎簺澶фā鍨嬪嚟鍊熷己鍖栧�涔犳妧鏈�殑鍔╁姏锛屽湪璁稿�绉戝�璇勬祴鍩哄噯涓婇�棰戝埛鏂扮邯褰曪紝鐢氳嚦澹扮О 鈥滆秴瓒婁汉绫讳笓瀹垛€濄€�

浣嗘槸锛岄殢鐫€妯″瀷鑳藉姏鍜岃瘎娴嬪熀鍑嗙殑鍐涘�绔炶禌鐧界儹鍖栵紝瓒婃潵瓒婂�鐨勫熀鍑嗕笉寰椾笉杞�悜鐢熷兓鐨勭煡璇嗙偣銆佹垨鑰呮娊璞$殑鏁板�绔炶禌棰樸€傝繖浜涢�鐩�櫧鐒惰兘 鈥滃尯鍒嗏€� 妯″瀷锛屼絾鏄�€愭笎鑴辩�瀹為檯鍦烘櫙锛屽彲鑳介毦浠ョ湡姝e弽鏄犳ā鍨嬬殑瀹為檯琛ㄧ幇銆�

杩戞棩锛屽寳浜�ぇ瀛︾墿鐞嗗�闄㈣仈鍚堜汉宸ユ櫤鑳界爺绌堕櫌绛夊�涓�櫌绯伙紝鎺ㄥ嚭浜嗗叏鏂拌瘎娴嬪熀鍑� PHYBench銆侾HYBench 鍖呭惈 500 閬撶粡杩囩簿蹇冭�璁$殑楂樿川閲忕墿鐞嗛�锛堝�鍥� 1锛夛紝闅惧害妯�法楂樹腑鐗╃悊銆佸ぇ瀛︾墿鐞嗕互鍙婄墿鐞嗗ゥ鏋楀尮鍏嬬珵璧涖€傝繖浜涢�鐩�互鐪熷疄鐨勭墿鐞嗗満鏅�负鍩虹�锛屽�浜虹被鏉ヨ�骞朵笉鎶借薄锛屽嵈鎶婁竴浼楀ぇ妯″瀷鑰冨緱涓冮浂鍏�惤銆傚ぇ妯″瀷鍦ㄨВ鍐崇墿鐞嗛�鏃剁殑鎬濈淮閾句篃鏆撮湶浜嗗畠浠�湪鎰熺煡锛圥erception锛夊拰鎺ㄧ悊锛圧easoning锛夎兘鍔涗笂鐨勭己闄枫€�

璁烘枃閾炬帴锛歨ttps://arxiv.org/abs/2504.16074椤圭洰缃戝潃锛歨ttps://phybench-official.github.io/phybench-demo/鏁版嵁闆嗭細https://huggingface.co/datasets/Eureka-Lab/PHYBench

涔熻�锛岀墿鐞嗘墠鏄�渶閫傚悎鑰冨療 AI 鎺ㄧ悊鑳藉姏鐨勫�绉戯紵PHYBench 鐨勫皾璇曚负璇勪及澶фā鍨嬬湡姝f湁鏁堢殑鎺ㄧ悊鑳藉姏鎻愪緵浜嗗叏鏂扮殑宸ュ叿鍜岃�瑙掋€�

鍥� 1锛氶�鐩�牱渚嬩笌涓ょ�璇勪及鏂规硶锛氳〃杈惧紡鏍戠紪杈戣窛绂汇€佹�纭�巼銆�

琛� 1锛氫笌鐜版湁 benchmark 瀵规瘮锛孭HYBench 鍦ㄩ珮闅惧害鏁版嵁闆嗕腑锛屾湁鐫€鐩稿�澶х殑瑙勬ā锛屽悓鏃跺紩鍏ヤ簡鍒涙柊鐨勫垎鏁板害閲忥細琛ㄨ揪寮忔爲缂栬緫璺濈�銆�

璇勬祴鏂规硶鍒涙柊

琛ㄨ揪寮忔爲缂栬緫璺濈�锛圗ED Score锛�

浼犵粺鍩哄噯閫氬父渚濊禆 Accuracy 杩欎竴鍗曚竴鎸囨爣锛氳�缃�敮涓€姝g‘绛旀�锛屾ā鍨嬪彧鏈夊湪瀹屽叏鍖归厤鏃舵墠鑳藉緱鍒嗐€備负浜嗘柟渚胯瘎鍒嗭紝闂�瓟棰橀€氬父琚�敼鍐欐垚閫夋嫨棰樻垨瑕佹眰浠e叆鏁板€笺€傝繖鏍蜂細瀵艰嚧绛旀�鐨勪俊鎭�噺琚�弗閲嶅帇缂╋紝鑰屼笖缁欏嚭杩囧�鏉′欢鍙�兘瀵艰嚧妯″瀷 鈥滄牴鎹�€夐」鐚滆繃绋嬧€濓紝鎴栬€呯己涔忎娇鐢ㄨВ鏋愯〃杈惧紡琛ㄨ揪鏅�€傚叧绯荤殑鑳藉姏銆傚悓鏃跺湪楂橀毦搴︾殑鏍锋湰涓婏紝0/1 鎵撳垎浼氫娇寰楁墍鏈夋ā鍨嬪湪鍒嗘暟灞傞潰閮借�褰掗浂锛屽己寮卞樊寮傛棤浠庝綋鐜般€�

EED Score锛圗xpression鈥憈ree Edit Distance锛夊甫鏉ヤ簡鏇磋创杩戜汉绫婚槄鍗风殑鏂规�銆傚畠灏嗘暟瀛﹁〃杈惧紡瑙f瀽鎴愯〃杈惧紡鏍戯紝鍐嶈�绠楁ā鍨嬬瓟妗堜笌鍙傝€冪瓟妗堜箣闂寸殑缂栬緫璺濈�锛氭爲鐨勭粨鏋勮秺鎺ヨ繎锛屽緱鍒嗚秺楂樸€傝繖涓€鏈哄埗杈撳嚭鐨勬槸杩炵画銆佺粏绮掑害鐨勫垎鏁帮紝鑳藉湪鏇村�棰樼洰涓婃樉绀哄尯鍒嗗害锛屾樉钁楁彁楂樹簡缁熻�鏁堝姏銆�

瀹為獙琛ㄦ槑锛岄噰鐢� EED Score 鐨� 500 棰橈紝鍏跺尯鍒嗚兘鍔涚浉褰撲簬 1500 閬撲娇鐢� 0/1 Accuracy 鐨勯�鐩�€備笂鍥撅紙鍥� 1锛夊睍绀轰簡鍚屼竴閬撻�涓夌�涓嶅悓绛旀�鍦� Accuracy 涓� EED Score 涓嬬殑瀵规瘮锛氬墠鑰呭彧鑳界粰鍑� 鈥滃叏閿� / 鍏ㄥ�鈥� 鐨勭矖绯欒瘎浠凤紝鑰屽悗鑰呭垯瀹氶噺鍒荤敾浜嗘ā鍨嬭В绛斾笌姝g‘绛旀�涔嬮棿鐨� 鈥滆窛绂烩€濄€�

瀹為獙缁撴灉

鍓嶆部妯″瀷涓庝汉绫讳笓瀹剁殑宸�窛

PHYBench 鍥㈤槦鎷涘嫙浜� 81 鍚嶅寳澶у�瀛愶紝鍦� 3 灏忔椂鏃堕檺鍐呭仛 8 閬撻�鐩�紝涓庢渶鍏堣繘鐨� AI 妯″瀷灞曞紑浜嗕竴鍦� "浜烘満澶ф垬"銆�

缁撴灉鏄剧ず锛屽嵆浣挎槸鏈€寮虹殑 Gemini 2.5 pro锛屼篃鍙�兘绛斿� 36.9% 鐨勯�鐩�紝EED 璇勫垎 49.5%銆傝€� 鈥滀汉绫讳笓瀹垛€� 浠�垯杞绘澗纰惧帇锛屽钩鍧囨�纭�巼楂樿揪 61.9%锛孍ED 璇勫垎楂樿揪 70.5%銆傛帓鍚嶅墠 25% 鐨勫彈璇曡€呮洿鏄�揪鍒颁簡 71.4% 鐨勬�纭�巼 鈥斺€� 鍑犱箮鏄�渶寮� AI 鐨勪袱鍊嶃€傚叾浠栨ā鍨嬩笌浜虹被鐨勫樊璺濆垯鏇翠负鏄捐憲銆傝繖涓€鏄捐憲宸�窛鎻�ず浜嗙幇闃舵� LLM 鍦ㄥ湪鐗╃悊鎺ㄧ悊鍦烘櫙涓�殑鐡堕�銆�

PHYBench 瀵规ā鍨嬬殑鑳藉姏涔熻繘琛屼簡缁嗙矑搴︾殑瀵规瘮銆傚彲浠ョ湅鍒帮紝Gemini 2.5 pro銆乷3 绛夊己鎺ㄧ悊妯″瀷铏界劧鍜屼汉绫昏繕鏈夎緝澶у樊璺濓紝浣嗘槸鐩告瘮鍓嶄唬鎺ㄧ悊妯″瀷宸茬粡鏈変簡鏄庢樉鐨勮繘姝ャ€侱eepSeek-V3 绛夊熀搴фā鍨嬭櫧鏈�兘瓒呰秺涓绘祦鎺ㄧ悊妯″瀷锛屼絾涔熷睍鐜板嚭浜嗕寒鐪肩殑鎴愮哗銆俀wQ-32B 鍜� DeepSeek32B 钂搁�妯″瀷绛夊皬鍨嬫帹鐞嗘ā鍨嬪湪 PHYBench 涓婄殑琛ㄧ幇寰堜护浜哄け鏈涳紝杩欏彲鑳藉綊鍥犱簬鍏剁墿鐞嗘劅鐭ヨ兘鍔涚殑涓嶈冻銆�

鍩轰簬鎬濈淮閾剧殑閿欏洜鍒嗘瀽锛歅P 脳 RR

PHYBench 鍥㈤槦瀵规ā鍨嬬殑閿欒�杩涜�浜嗙郴缁熸€ф€荤粨鍒嗘瀽锛屽皢妯″瀷鐨勬帹鐞嗚繃绋嬪拰鎺ㄧ悊鑳藉姏鍒掑垎涓轰簡涓や釜鍏抽敭妯″潡锛氱墿鐞嗘劅鐭ワ紙Physical Perception锛孭P锛夊拰椴佹�鎺ㄧ悊锛圧obust Reasoning锛孯R锛夛細

鐗╃悊鎰熺煡锛圥P锛夛細鍦ㄦ�闃舵�锛屾ā鍨嬭繘琛屽瘑闆嗙殑鏂囧瓧鎺ㄧ悊锛屾ā鍨嬮渶瑕佽瘑鍒�棶棰樼浉鍏崇殑鐗╃悊瀵硅薄銆佸彉閲忓拰鍔ㄥ姏瀛﹀叧绯伙紝瀹氭€у垽鏂�摢浜涚墿鐞嗘晥搴旀槸閲嶈�鐨勶紝鍝�簺鍙�互蹇界暐涓嶈�銆傝嫢 PP 鍑洪敊锛屽悗缁�暣涓�帹鐞嗛兘浼氬亸绂昏建閬撱€傦紙绀轰緥 1 灞曠ず鍏稿瀷 PP 澶辫�锛夐瞾妫掓帹鐞嗭紙RR锛夛細鍦ㄦ�闃舵�锛屾ā鍨嬪啓涓嬪ぇ閲忕殑 鈥滆崏绋库€濓紝涓€姝ユ�鍖栫畝琛ㄨ揪寮忥紝瑙f柟绋嬨€傜幇闃舵�鐨勬帹鐞嗘ā鍨嬪湪姝ら樁娈电殑鎺ㄧ悊鏁堢巼灏氫笉楂橈紝鈥滆崏绋库€� 闀垮害杩滈暱浜庝汉绫伙紝鑰屼笖缁忓父鐘� 鈥滀綆绾ч敊璇�€濄€傦紙绀轰緥 2 灞曠ず鍏稿瀷 RR 澶辫�锛�

PP 鍜� RR 浜ゆ浛杩涜�锛岀粍鎴愪簡鍏稿瀷鐨勭墿鐞嗚В棰樻€濈淮閾俱€�

鏈�潵灞曟湜

鎺ㄥ姩 AI 鐨勭墿鐞嗙悊瑙d笌鎺ㄧ悊鑳藉姏鍙戝睍

PHYBench 鐨勬効鏅�繙涓嶆�浜� 鈥滆瘎娴嬧€濓紝鏇村湪浜� 鈥滃紩棰嗏€� AI 鎺㈢储鐗╃悊涓栫晫鐨勬棤闄愬彲鑳姐€�

PHYBench 鐨勫彂甯冿紝涓嶄粎涓鸿瘎浼板ぇ璇�█妯″瀷鍦ㄧ墿鐞嗘劅鐭ヤ笌鎺ㄧ悊鏂归潰鐨勮兘鍔涙彁渚涗簡涓€涓�叏鏂颁笖鏉冨▉鐨勫熀鍑嗭紝鏇翠负鏈�潵 AI 绯荤粺鐨勫彂灞曟寚鏄庝簡鏀诲潥鏂瑰悜銆傛垜浠�簿蹇冭�璁$殑鐪熷疄銆佸�鏉傜殑鐗╃悊鍦烘櫙锛屾棬鍦ㄦ繁搴︽縺鍙戝苟楠岃瘉 AI 鐞嗚В涓栫晫骞惰繘琛屽彲闈犳帹鐞嗙殑鑳藉姏锛屾帹鍔� AI 绯荤粺鐪熸�瀹炵幇瀵逛笘鐣岀殑璁ょ煡銆佽瀺鍏ヤ笌鍙橀潻銆�

闈㈠悜鏈�潵锛孭HYBench 鍥㈤槦灏嗘寔缁�嚧鍔涗簬鏁版嵁闆嗙殑鎷撳睍涓庡垱鏂帮紝璁″垝绾冲叆鏇村�鍓嶆部鐗╃悊璇鹃�銆佽法瀛︾�浜ゅ弶鍐呭�锛岀敋鑷虫寫鎴樹汉绫诲皻鏈�В寮€鐨勭�瀛﹁皽棰樸€傛垜浠�浉淇★紝閫氳繃鎻愪緵鏇村叿娣卞害鍜屽箍搴︾殑鐗╃悊鎸戞垬锛孭HYBench 灏嗘湁鍔涘偓鍖� AI 鍚戠潃绐佺牬璁ょ煡杈圭晫銆佹帰绱㈡湭鐭ラ�鍩熺殑 鈥滄櫤鑳戒紮浼粹€� 鎴� 鈥滆秴绾у姪鎵嬧€� 鍙戝睍銆�