不严肃科技 | 大模型为何开窍?向量:这题我会!

科技IT
2025 05-06 20:38:46
分享

  导语:小李企图用大模型在面试中蒙混过关,没想到HR同样借助大模型识破小李的“小心思”。大模型展现出的强大能力,让人不禁惊叹,你是不是也好奇,大模型究竟为啥能读懂人类语言?答案就是向量在“搞事情”!

  小李坐在电脑前,准备着线上面试。屏幕上显示着一款大模型的界面。

  面试官的声音从电脑里传来:“你如何看待加班呢?”

  小李(看着大模型给出的回答,微微一笑):我认为加班是工作的一部分,在项目冲刺阶段或遇到紧急任务时,加班是必要的,能保障工作顺利推进。我会高效完成分内工作,若团队需要,我定会全力配合加班,为达成目标一起努力……

  然而,电脑的另一头,经验老到的HR同样在手机上打开了某款大模型,界面上出现一行警示文字 ――“该回答与数据库中作弊样本高度匹配,建议不予录用!”

  至于为什么大模型能够听懂问题并给出合适的回答,这里就要搬出一个数学概念,确切地说是初中数学的概念――向量。

  先帮着大家回忆一下,向量是有方向和大小、可用数字坐标描述的东西。而在大模型的世界中,向量是一组组表示事物特征的有意义数字,能将文本、图像等非结构化数据转化为高维空间中的坐标点,从而成为大模型可理解的“语言”。

  比如,当大模型看到“牛”这个字,可能会把它分解成几百个数字的向量,包括黄牛、奶牛、肥牛、牛人、牛顿等等等等。实现这种转换的关键技术,就是嵌入(Embedding),当大模型学习海量数据时,嵌入技术能够把语义相近的内容通过向量聚集在一起。在它们训练出的向量空间里,“牛”和“马”的距离就会比“牛”和“窗户”更近。反之,“牛”和“马”的距离就会比“牛”和“牛马”更远。

  这种距离的度量,实际上反映了语义的相似度,使得大模型能够从更抽象的层面理解不同词汇之间的关系。

  那问题来了,大模型是如何在浩如烟海的向量中测量相似度的呢?

  如果只是需要粗略的估算一下,请大家把数学书翻到下一章――余弦

  我们可以把向量之间夹角的余弦值作为参考。利用余弦相似度(Cosine Similarity)来判断两个向量之间有多相似。从几何角度理解,当两个向量的夹角越小,接近0度时,它们的余弦值越接近1,也就意味着相似度越高。就像是一台天平,指针越接近0,两边的质量就越相似。

  如果说你需要更加精确的知道向量之间到底有多相似,那么我们还有第二种方法――欧氏距离(Euclidean Distance)。

  看!简简单单的一个公式就能解决这个问题。原理呢,还是很好理解的。就是计算所有维度两点在空间中的直线距离。在向量空间里距离越短,两个向量所代表的数据相似度就越高。可以想象向量空间是一个城市地图,每个向量就像城市中的建筑。当我们计算两个向量的欧氏距离时,就如同在问从建筑A到建筑B最近的路线有多远。

  当大模型回答“牛和马相似”时,实际上就是在向量空间中运用这些相似度计算方法,找到了距离最近的“邻居”,从而得出语义上的相似结论。

  值得一提的是,向量在实际应用中可谓优势显著:

  就说听歌软件吧,可以利用向量表示相似性。你喜欢新裤子乐队的摇滚歌曲。软件就把新裤子乐队的音乐,按照旋律、歌词、节奏这些特点变成向量,再匹配到曲库里拥有相似向量特征的歌手或者歌曲。哎这个痛仰乐队对路子,这个时候你就在软件的前台看到了推荐给你的相似风格音乐。

  像智能音箱,你跟它说“给我讲个睡前故事”。它就把这句话变成向量,然后在自己存的好多故事的向量里找,找到最匹配的,就开始给你讲故事啦。

  再比如,你跟它说“我想在睡前听相声名段报菜名,捧哏用英语,逗哏用法语。”

  在音箱的程序里会把你模糊的需求以向量的形式向媒体库发起请求,匹配到你需要的答案,这样你就顺利地听到你想要的睡前相声了。

  但话说回来,人无完人,向量也并非完美无缺:

  伴随着我们对大模型计算结果的不断提升和算法的进化,计算的复杂程度呈指数级上升。

  在大模型处理海量数据时,每一个数据样本都被转化为高维向量。当对这些高维向量进行运算时,就需要消耗大量的计算机资源。

  此外,为了保证回答的效率,高维计算还对硬件性能提出了极高要求,需要配备高性能的算力集群来加速计算,这无疑大幅增加了硬件采购成本和运行维护成本。

  这里有一份中国信通院的数据,2022年训练一个千亿参数模型的成本是1200万美元,而到2024年,GPT-4等模型的训练成本已超过10亿美元,一年的成本增长高达9.8倍。

  同时向量表达也很难做到100%准确的描述收集到的信息。我国语言博大精深,一个简单的词汇或句子可能在不同语境下有多种含义,比如……“领导要求我在他有这方面意思的时候意思意思,那么这句话中的意思和意思意思分别表达了什么意思?”

  当利用嵌入技术将文本转化为向量时,很难将所有这些复杂信息完整准确地编码到向量中。

  最后,伴随着不断增加的数据量,对向量数据库存储要求也将不断提升。原因在于它要存储的向量数量极为庞大,可达数百万甚至数十亿个,且这些向量多为高维向量,有众多特征需记录。

  以一个拥有数十亿用户的社交媒体平台为例,每个用户的个人信息、兴趣爱好、社交关系等都被转化为向量存储在数据库中。为在有限空间存储大量复杂向量,并能在需要时快速检索,就必须优化存储和检索效率,否则会影响存储效果及后续数据分析、机器学习等任务的执行速度。

  看到这里,你应该明白啥是向量了吧。所以说~你认为你的向量跟谁更接近?选项:1、牛马;2、吗喽

  总而言之,言而总之,大模型之所以能听懂人话,就是因为向量从中斡旋,将复杂的语言拆解再组合。帮助大模型理解更抽象、更深刻的语义或意识,甚至建立起与现实世界的立体映射关系,让人工智能的认知能力更接近人类思维的本质。

The End
免责声明:本文内容来源于第三方或整理自互联网,本站仅提供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。