6000字解读：当前大语言模型LLM研究的10大挑战

今日实时汇率

金额

持有

兑换

1 美元（USD）=

7.178 人民币（CNY）

反向汇率：1 CNY = 0.1393 USD 更新时间：2025-07-09 03:00:01

作者：Chip Huyen

翻译：阿法兔

来源链接：https://huyenchip.com/2023/08/16/llm-research-open-challenges.html

让大语言模型变得更完善这个目标，是我一生中，第一次见到这么多的聪明人，同时在为一个共同目标而努力。在同众多业界和学术界人士交流后，我注意到出现了十大研究方向。目前受到关注最多的两个方向是Hallucinations（输出幻觉）和 Context Learning。

而对我自己来说，最感兴趣的是下面列出的第 3 个方向（Multimodality多模态数据模式）、第 5 个方向（New architecture 新架构）和第 6 个方向（GPU alternatives开发GPU替代的解决方案）

LLM 研究的十大公开挑战
减少并评估输出输出（虚构信息）
优化上下文长度和上下文构建
融合其他数据形式
提升语言模型的速度和成本效益
设计新的模型架构
开发替代GPU的解决方案
提升代理（人工智能）的可用性
改进从人类偏好中学习的能力
提高聊天界面的效率
构建用于非英语语言的语言模型

1. 减少和评估幻觉

输出环境是一个已经被大量讨论过的话题，所以这里我会长话短说。当人工智能模型胡编乱造时，就会产生幻觉。对于许多创意用例来说，幻觉属于功能的一种。然而，对于大多数应用场景来说，幻觉属于一种错误。最近，我与 Dropbox、Langchain、Elastics 和 Anthropic 的专家共同参加了一个关于 LLM 的专题讨论会，在他们看来，企业在实际生产中，应用 LLM 需要克服的首要障碍就是幻觉输出。

降低模型的幻觉输出和制定评估幻觉输出的指标，是一个蓬勃发展的研究课题，目前很多初创公司都在关注这个问题。还有一些技巧可以减少幻觉输出的概率，例如在提示词中添加更多上下文、CoT、自洽性，或者特定要求模型的响应简洁明了。

下面是关于幻觉输出的系列论文和参考资料：

Survey of Hallucination in Natural Language Generation(Ji et al., 2022)

How Language Model Hallucinations Can Snowball(Zhang et al., 2023)

A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity(Bang et al., 2023)

Contrastive Learning Reduces Hallucination in Conversations(Sun et al., 2022)

Self-Consistency Improves Chain of Thought Reasoning in Language Models(Wang et al., 2022)

SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models(Manakul et al., 2023)

A simple example of fact-checking and hallucination by NVIDIA’s NeMo-Guardrails

2.优化上下文长度和上下文构建

绝大部分问题都需要上下文。例如，如果我们问ChatGPT：“哪家越南餐厅最好？”所需的上下文将是“这个餐厅的限定范围到底在哪里？”，因为越南本土最好吃的餐厅与美国的最好吃的越南餐厅，这个问题的范围是不同的。

根据下面这篇很酷的论文《 SITUATEDQA: Incorporating Extra-Linguistic Contexts into QA 》（Zhang＆Choi，2021），有相当一部分信息搜索问题的答案与上下文有关，例如，在Natural Questions NQ-Open 数据集中大约占 16.5%。

（NQ-Open:https://ai.google.com/research/NaturalQuestions）

我个人认为，在企业实际遇到的案例中，这一比例会更高。例如，假设一家公司为客户支持建立了一个聊天机器人，要让这个聊天机器人回答客户关于任何产品的任何问题，所需的上下文很可能是该客户的历史或该产品的信息。由于语言模型会从提供给它的上下文中 "学习"，因此这一过程也被称为上下文学习。

图片客户支持查询所需的上下文

Context length 对于RAG（检索增强生成）非常重要，而RAG已成为大语言模型行业应用场景的主要模式。具体来说，检索增强生成主要分为两个阶段：

第 1 阶段：分块（也称为编制索引）chunking (also known as indexing)

收集LLM使用的所有文档,将这些文档分成可以喂入大于模型，以生成嵌入的块，并将这些嵌入存储在向量数据库中。

第2阶段：查询

当用户发送查询时，如 "我的保险单是否能够支付某种药物 X"，大语言模型会将此查询转换为embedding，我们称之为 QUERY_EMBEDDING。向量数据库，会获取embedding与 QUERY_EMBEDDING 最相似的块。

6000字解读：当前大语言模型LLM研究的10大挑战

今日实时汇率

1. 减少和评估幻觉

2.优化上下文长度和上下文构建

最新文章

货币汇率换算器使用说明

用户正在查兑