无一大模型及格!北大/通研院提出超难基准,评估长文本理解生成量子位2024-08-07 15:16北京量子位2024-08-07 15:16北京摘要

wufei123 发布于 2024-10-20 阅读(5)

摘要•帮你速读文章内容北大与北京通用人工智能研究院提出LooGLE基准数据集,评估大语言模型长文本理解能力测试发现主流模型表现不佳,平均准确率较低LooGLE包含超长文档及多类型长依赖任务,助力未来长文本理解模型发展。

摘要由作者通过智能技术生成

有用

亲爱的读者们,感谢您花时间阅读本文。如果您对本文有任何疑问或建议,请随时联系我。我非常乐意与您交流。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。