无一大模型及格！北大/通研院提出超难基准，评估长文本理解生成量子位2024-08-07 15:16北京量子位2024-08-07 15:16北京摘要

wufei123 发布于 2024-10-20 阅读（5）

摘要•帮你速读文章内容北大与北京通用人工智能研究院提出LooGLE基准数据集，评估大语言模型长文本理解能力测试发现主流模型表现不佳，平均准确率较低LooGLE包含超长文档及多类型长依赖任务，助力未来长文本理解模型发展。

摘要由作者通过智能技术生成