大模型激战长文本差异化待破局

原标题：大模型激战长文本差异化待破局

导读：

由京都念慈菴冠名王恬工作室制作的旅行探索真人秀节目我们仨将于今晚月日起登陆湖南卫视芒果播出湖南广电发布的首个导演爱芒英文名将在节目中与三位常驻嘉宾郭...

由京都念慈菴冠名、王恬工作室制作的旅行探索真人秀节目《我们仨》将于今晚（3月23日）起登陆湖南卫视、芒果TV播出。湖南广电发布的首个AI导演“爱芒”（英文名：AIM）将在节目中与三位常驻嘉宾郭麒麟、毛不易、魏大勋携手合作，结伴前往国内四个地标城市。综艺场景下的科技创新应用，AI导演“爱芒”引起...

本报记者曲忠芳北京报道

历史不会重演，但总会惊人的相似。

曾经，智能手机品牌在芯片核数、摄像头参数、屏幕尺寸、轻薄度、外部形态等各个维度激烈比拼，力求在残酷的市场竞争中标新立异、脱颖而出，如今相似的景象在AI大模型领域上演，围绕参数规模、开源、生成多模态、上下文窗口长度等维度的竞争日益升温。尤其引人关注的是，在过去的半个月里，AI新秀公司月之暗面宣布旗下大模型产品Kimi在上下文窗口技术上支持的长度提升至200万字；随后，阿里云旗下的通义千问宣布免费开放1000万字的长文档处理功能，360智脑则开始内测500万字长文本，并将50万字文本能力开源，而百度文心一言被曝将在本月向公众开放200万至500万字长文本能力。

事实上，国产大模型厂商“围猎”长文本能力的背后，意图自然是在竞争激烈的市场竞争中占据高地，在日益同质化的产品比拼中蹚出一条差异化的道路。而广大用户对于五花八门的AI工具最为关心的显然是其实用性。最近一段时间以来，《中国经营报》记者从用户视角调研体验了多款大模型产品，同时结合不同的日常工作场景采访询问了不同职业的群体，通过呈现较有代表性的测试结果，试图向公众提供一些参考。

与用户预期仍有差距

市场上面向C端消费市场的大模型产品非常多，提供大模型服务的组织机构主要有三类，一是百度、阿里、360、抖音等互联网大厂，二是以月之暗面、智谱AI、百川智能、阶跃星辰等为代表的初创AI公司，三是来自高校和研究机构的相关团队。

从市场上既有的大模型来看，用户使用大语言模型的方式无外乎两种，第一是通过聊天对话的方式发出“指令”，由系统平台生成文本、图片甚至音乐、视频等内容作为回答交互。这里需要指出的是，聊天对话的“指令”包括上传特定格式的文件或联网的某个网址，要求大模型给出某个特定问题的答案，或者将全篇信息进行归纳总结等。第二则是通过平台工具生成各式各样的“智能体”（AI Agent），比如健身运动、文案写作、外语学习、创意设计等各类AI助手。

数名来自不同律师事务所的律师在接受记者采访时普遍提到，从去年年中开始已关注到各类生成式AI工具，这些产品的迭代升级速度很快，查询搜罗信息、生成回答的功能有所改善，但实质性的效能距离预期或理想中的“智能助手”仍有较大差距。其中，上海申伦律师事务所律师夏海龙表示，他现在会使用主流的大模型应用，就某个法律问题，对相关法律规定进行初步检索和简要分析。当被问及是否会用大模型解读PDF文件，他坦言：“不太信任AI解读的完整性和准确性，法律文书中最值得注意的往往不是字面内容，而在于个别字眼以及可能引发的歧义理解。”北京浩天（南京）律师事务所律师俞晓天也表示，自己试用的几款大模型在实际工作场景中效率不高。

基于现有的几款免费版本的大模型，记者先是随机找了某港股上市公司的2023年财报，这份财报为PDF格式，全篇采用繁体中文，共49页，然后将它分别“抛”给了文心一言、通义千问、智谱清言、月之暗面Kimi、天工AI、百川智能等大模型。几秒钟之内，各个平台都作出了回答，重点突出了营收增长、利润变化、成本控制、业务结构、现金流量、股息政策等核心数据指标。值得一提的是，在上传文档流程中，智谱清言显示可支持10个文件上传，且每个文件大小为20MB；通义千问上传按钮显示“可同时上传100个文件，每个150MB”，支持PDF、Word、Excel、Markdown、EPUB、Mobi、txt等格式，百川智能则显示“支持同时上传20个文件，且每个不超过50MB，支持的文件格式为PDF、doc、docx、txt”。

随后，记者又同步向体验测试的所有大模型输入了一模一样的对话指令，主要任务是让其根据可查的公开网络信息制作一张图表，涵盖主要大模型的名称、运营企业、创始人/CEO、首次发布时间、规模参数等信息。显而易见，相较于单纯的知识性问答、PDF财报解析，这一任务更为复杂，测试结果显示通义千问、智谱清言、Kimi、百川智能等基本生成了一张图表，但是在成立时间、创始人等信息上出现了错误。而大模型无法完成的内容会标识类似“未知明确信息”的字样。

综合多个测试问题、不同级别的任务处理，按同一指令语言“交给”大模型后，除了显性、可量化的基础配置参数有所区别之外，绝大部分AI大模型在功能使用、性能方面的优势没有特别突出的表现，同时整体在准确度、全面性、实时信息搜索提炼等方面均有较大的提升空间。

长文本成出圈“抓手”？

据不完全统计，目前已通过备案、向公众开放的通用大模型产品已有20多款，市场竞争的激烈程度可见一斑。在比拼激烈、产品同质化的环境中，作为AI新秀的月之暗面率先找到了“长文本”这一抓手。3月18日，月之暗面宣布Kimi在上下文窗口技术方面取得突破，无损的上下文长度从20万字扩充到200万字，并开启内测。月之暗面创始人杨植麟认为，通往AGI（通用人工智能）的道路上，无损的上下文将是一项很关键的基础技术。历史上所有的模型架构演进，本质上都是在提升有效的、无损的上下文长度。“上下文长度可能存在摩尔定律，但需要同时优化长度和无损压缩水平两个指标才是有意义的规模化。”

Kimi凭借长文本“破圈”，不仅直接带动了二级市场的相关股价上涨，而且引发了互联网大厂在长文本能力上的跟进。其中，360集团创始人周鸿祎公开指出，大模型在“卷文本长度，20万字、50万字，很快100万字就是标配了”，基于此，360智脑将把支持360KB——约50万字的上下文能力开源。

一位来自品牌营销领域的专业人士分析指出，在群雄逐鹿的市场竞争中，一方面是产品力的比拼，另一方面是用户体验的较量，即考验谁能真正解决用户痛点。“我们可以回想智能手机初期的争夺战，从CPU到大屏、从拍照功能到轻薄度，再到生物识别、NFC功能、外壳材质，直到现在仍在比拼的折叠屏，甚至AI，每一个维度的白热化竞争共同促成了智能手机的成熟与普及。”该人士也指出，单一维度的竞争在营销视角中容易占据用户心智，但后续仍需要产品创新与用户体验的支持才能长久，否则很容易被对手超越。

谦询智库创始合伙人龚斌认为，国内大模型厂商之所以能够在短期内找出长上下文的方法，主要是在原有技术积累的基础上进行了算法迭代，采用多种方法的混合优化，实现快速“超车”。具有长上下文的大模型通用性更强，用户将特定领域的知识通过上下文的方式输入模型中，模型即可以通过上下文学习掌握相应内容，一定程度上代替模型的微调。此外，长上下文模型能适应虚拟角色的个性化信息记忆、开发者的长提示词输入、AI Agent的多轮调用需求，以及垂直客户长文档输入需求等多种场景，有望为“AI+”应用带来新的突破机会。

与此同时，龚斌也指出，生成式AI、大模型无论从技术还是从应用方面仍处在初期阶段。现在资本圈里非常火热的一些C端产品，差不多相当于移动互联网早期一些迅速蹿红的现象级应用，而后来真正成为主流的“杀手级应用”目前还没有出现，仍有待持续观察。