今日实时汇率
1 美元(USD)=
7.3043 人民币(CNY)
反向汇率:1 CNY = 0.1369 USD
更新时间:2025-04-19 08:02:31
作者:Chip Huyen
翻译:阿法兔
来源链接:https://huyenchip.com/2023/08/16/llm-research-open-challenges.html
让大语言模型变得更完善这个目标,是我一生中,第一次见到这么多的聪明人,同时在为一个共同目标而努力。在同众多业界和学术界人士交流后,我注意到出现了十大研究方向。目前受到关注最多的两个方向是Hallucinations(输出幻觉) 和 Context Learning。
而对我自己来说,最感兴趣的是下面列出的第 3 个方向(Multimodality多模态数据模式)、第 5 个方向(New architecture 新架构)和第 6 个方向(GPU alternatives开发GPU替代的解决方案)
LLM 研究的十大公开挑战
减少并评估输出输出(虚构信息)
优化上下文长度和上下文构建
融合其他数据形式
提升语言模型的速度和成本效益
设计新的模型架构
开发替代GPU的解决方案
提升代理(人工智能)的可用性
改进从人类偏好中学习的能力
提高聊天界面的效率
构建用于非英语语言的语言模型
1. 减少和评估幻觉
输出环境是一个已经被大量讨论过的话题,所以这里我会长话短说。当人工智能模型胡编乱造时,就会产生幻觉。对于许多创意用例来说,幻觉属于功能的一种。然而,对于大多数应用场景来说,幻觉属于一种错误。最近,我与 Dropbox、Langchain、Elastics 和 Anthropic 的专家共同参加了一个关于 LLM 的专题讨论会,在他们看来,企业在实际生产中,应用 LLM 需要克服的首要障碍就是幻觉输出。
降低模型的幻觉输出和制定评估幻觉输出的指标,是一个蓬勃发展的研究课题,目前很多初创公司都在关注这个问题。还有一些技巧可以减少幻觉输出的概率,例如在提示词中添加更多上下文、CoT、自洽性,或者特定要求模型的响应简洁明了。
下面是关于幻觉输出的系列论文和参考资料:
Survey of Hallucination in Natural Language Generation(Ji et al., 2022)
How Language Model Hallucinations Can Snowball(Zhang et al., 2023)
A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity(Bang et al., 2023)
Contrastive Learning Reduces Hallucination in Conversations(Sun et al., 2022)
Self-Consistency Improves Chain of Thought Reasoning in Language Models(Wang et al., 2022)
SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models(Manakul et al., 2023)
A simple example of fact-checking and hallucination by NVIDIA’s NeMo-Guardrails
2.优化上下文长度和上下文构建
绝大部分问题都需要上下文。例如,如果我们问ChatGPT:“哪家越南餐厅最好?”所需的上下文将是“这个餐厅的限定范围到底在哪里?”,因为越南本土最好吃的餐厅与美国的最好吃的越南餐厅,这个问题的范围是不同的。
根据下面这篇很酷的论文《 SITUATEDQA: Incorporating Extra-Linguistic Contexts into QA 》(Zhang&Choi,2021),有相当一部分信息搜索问题的答案与上下文有关,例如,在Natural Questions NQ-Open 数据集中大约占 16.5%。
(NQ-Open:https://ai.google.com/research/NaturalQuestions)
我个人认为,在企业实际遇到的案例中,这一比例会更高。例如,假设一家公司为客户支持建立了一个聊天机器人,要让这个聊天机器人回答客户关于任何产品的任何问题,所需的上下文很可能是该客户的历史或该产品的信息。由于语言模型会从提供给它的上下文中 "学习",因此这一过程也被称为上下文学习。
图片客户支持查询所需的上下文
Context length 对于RAG(检索增强生成)非常重要,而RAG已成为大语言模型行业应用场景的主要模式。具体来说,检索增强生成主要分为两个阶段:
第 1 阶段:分块(也称为编制索引)chunking (also known as indexing)
收集LLM使用的所有文档,将这些文档分成可以喂入大于模型,以生成嵌入的块,并将这些嵌入存储在向量数据库中。
第2阶段:查询
当用户发送查询时,如 "我的保险单是否能够支付某种药物 X",大语言模型会将此查询转换为embedding,我们称之为 QUERY_EMBEDDING。向量数据库,会获取embedding与 QUERY_EMBEDDING 最相似的块。