This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Jiangxi Chen, Qian Liu

Articles by Jiangxi Chen, Qian Liu

Academic · 1 min

BaziQA-Benchmark: Evaluating Symbolic and Temporally Compositional Reasoning in Large Language Models

arXiv:2602.12889v1 Announce Type: new Abstract: We present BaziQA-Benchmark, a standardized benchmark for evaluating symbolic and temporally compositional reasoning in large language models. The benchmark is …

29 views Mar 7

Jiangxi Chen, Qian Liu

Articles by Jiangxi Chen, Qian Liu

BaziQA-Benchmark: Evaluating Symbolic and Temporally Compositional Reasoning in Large Language Models

JCG, PC

HSOLLC Co., Ltd.