2024-05-20 问AI:介绍一下大语言模型的in-context learning 2024-05-20 语言模型, 人工智能, 自然语言处理 69人 已看 然而,ICL也面临着一些挑战,例如如何选择合适的示例、如何评估模型的性能以及如何提高模型的泛化能力等。小样本学习则是为了学习到最佳模型参数,仍然需要使用少量的监督样本做微调,而 ICL 则不对模型做任何的微调,直接将下游任务的输入输出拼接起来作为一个 prompt,引导模型根据输入的测试集样本 demo,给出任务的预测结果。总的来说,大语言模型的in-context learning是指模型在特定上下文中学习、理解和处理语言的能力,这使得模型能够更好地适应各种语言任务,并生成更准确、相关和连贯的语言输出。
视觉语言模型详解【VLM】 2024-05-20 语言模型, 人工智能, 自然语言处理 67人 已看 视觉语言模型被广泛定义为可以从图像和文本中学习的多模态模型。它们是一种生成式模型,可以接受图像和文本输入并生成文本输出。大型视觉语言模型具有良好的零样本能力,具有良好的泛化能力,并且可以处理多种类型的图像,包括文档、网页等。用例包括谈论图像、通过指令进行图像识别、视觉问答、文档理解、图像字幕等。一些视觉语言模型还可以捕获图像中的空间属性。当系统提示检测或分割特定主题时,这些模型可以输出边界框或分割掩码,也可以定位不同的实体或回答有关其相对或绝对位置的问题。
基于大语言模型的应用 2024-05-17 语言模型, 人工智能, 自然语言处理 45人 已看 在AI领域,大语言模型已成为备受瞩目的焦点,尤其在自然语言处理(NLP)领域,其应用愈发广泛。BLM作为一种多任务语言建模方法,旨在构建一个具备多功能的强大模型。在给定文本和查询条件下,该模型能够充分利用上下文中的丰富信息,如查询内容、特定任务或领域知识,以生成准确而恰当的答案。这一特性使得BLM在优化自然语言处理任务中展现出巨大潜力。
基于大语言模型的应用 2024-05-17 语言模型, 人工智能, 自然语言处理 70人 已看 在AI领域,大语言模型已成为备受瞩目的焦点,尤其在自然语言处理(NLP)领域,其应用愈发广泛。BLM作为一种多任务语言建模方法,旨在构建一个具备多功能的强大模型。在给定文本和查询条件下,该模型能够充分利用上下文中的丰富信息,如查询内容、特定任务或领域知识,以生成准确而恰当的答案。这一特性使得BLM在优化自然语言处理任务中展现出巨大潜力。
大语言模型下的JSON数据格式交互 2024-05-23 语言模型, 交互, 人工智能, 自然语言处理, 搜索引擎 81人 已看 程序员或多或少要了解些人工智能,前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家(坚持不懈,越努力越幸运,大家一起学习鸭~~~随着大语言模型能力的增强,传统应用不可避免的需要调用LLM接口,提升应用的智能程度和用户体验,但是一般来说大语言模型的输出都是字符串,除了个别厂商支持JSON Mode,或者使用function call强制大语言模型输出json格式,大部分情况下,还是需要业务放自己去处理JSON格式,下面我来总结一下在解析JSON过程中遇到的一些问题和解决方案。
PaliGemma视觉语言模型综合指南 2024-05-19 语言模型, 人工智能, 自然语言处理 139人 已看 PaliGemma 与其他产品一起在 2024 年 Google I/O 活动上发布,它是一种基于 Google 研究的另外两个模型的组合多模态模型:视觉模型 SigLIP 和大型语言模型 Gemma,这意味着该模型是 Transformer 解码器和 Vision Transformer 图像编码器的组合。它将图像和文本作为输入,并生成文本作为输出,支持多种语言。相对较小的 30 亿组合参数模型允许的商业使用条款能够针对图像和短视频字幕、视觉问答、文本阅读、对象检测和对象分割进行微调。
深度融合大语言模型与知识图谱:思通数科企业知识库智能问答系统的创新实践 2024-05-20 语言模型, 人工智能, 自然语言处理, 知识图谱 121人 已看 本文深入探讨了思通数科如何利用大语言模型和知识图谱技术,构建企业知识库智能问答系统,以促进知识的高效获取、共享、应用和创新,从而提升企业的知识管理水平和业务价值。随着人工智能技术的快速发展,尤其是大语言模型和知识图谱技术的兴起,企业知识管理正迎来新的变革机遇。此外,系统还能够根据业务需求,提供个性化的知识推荐和决策支持,创造更大的业务价值。知识图谱能够将非结构化数据转换为结构化知识,便于检索和分析。深度学习与知识图谱的结合:利用大语言模型的语义理解能力,结合知识图谱的结构化优势,提供精准的知识检索和推荐。
WWW 2024最佳论文|大型语言模型的机制设计 2024-05-22 语言模型, 人工智能, 自然语言处理 50人 已看 本论文针对多个大语言模型(LLM)的激励相容聚合问题,提出了一种基于token的拍卖机制(token auction)。通过线性组合和log-linear组合两种aggregation函数,实现了根据不同广告客户的出价比例生成相应的联合广告文案。实验结果表明,所提机制能够以一种平滑、可解释的方式实现多个LLM的聚合,为自动生成广告创意提供了新的思路。疑惑和想法除了token-level的建模,是否可以设计出其他粒度(如phrase-level、sentence-level)的机制?
【论文阅读】要使用工具!《Toolformer: Language Models Can Teach Themselves to Use Tools》 2024-05-22 论文阅读, 语言模型, 人工智能, 自然语言处理 61人 已看 语言模型(LMs)表现出了从极少量的示例或文本指令中解决新任务的显著能力,尤其是在模型规模较大时表现的更加显著。矛盾的是,它们也在与基本功能作斗争,如算术或事实查找,在这些功能中,更简单、更小的模型脱颖而出。在本文中,我们展示了LMs可以通过简单的API自学使用外部工具,从而实现两全其美。我们介绍了Toolformer,这是一个经过训练的模型,用于决定调用哪些API,何时调用它们,传递什么参数,以及如何将结果最好地结合到未来的Token预测中。这是以一种自监督的方式完成的,只需要为每个API进行少量的演示。
实战LLM微调:大语言模型和微调入门 2024-05-18 语言模型, 人工智能, 自然语言处理 58人 已看 本文对大模型的发展和现状做了个回顾,并重点介绍了下什么是微调以及如何在大模型上做微调,之后展示了对微调后的模型做评估和量化的技术。
2024-05-22 问AI: 介绍一下大语言模型LLM的常用参数 2024-05-22 语言模型, 深度学习, 人工智能, 自然语言处理 55人 已看 而一些轻量级的模型,如谷歌的PaLM和DeepMind的Chinchilla,虽然参数数量较GPT-3少,但通过优化模型结构和训练方法,它们在某些任务上也能达到类似的性能。例如,OpenAI的GPT-3模型在2020年发布时,其参数量达到了惊人的1750亿,而在之后的模型中,如GPT-4,其参数量可能进一步增加。然而,更多的参数也意味着更高的计算成本和训练难度。总结来说,大语言模型的常用参数规模随着技术进步而不断增加,目前已经有多种规模的模型被开发和应用,不同的参数规模对应着不同的性能和计算资源需求。
【开源】多语言大型语言模型的革新:百亿参数模型超越千亿参数性能 2024-05-20 语言模型, 人工智能, 自然语言处理, 开源 62人 已看 大型人工智能模型,尤其是那些拥有千亿参数的模型,因其出色的商业应用表现而受到市场的青睐。但是,直接通过API使用这些模型可能会带来数据泄露的风险,尤其是当模型提供商如OpenAI等可能涉及数据隐私问题时。私有部署虽然是一个解决办法,但昂贵的授权费用对于许多企业来说是一笔不小的开支。Orion-14B系列模型的推出,旨在解决这一难题,提供一个既经济实惠又性能卓越的选择。Orion-14B系列模型以其百亿参数规模,在多个专业场景问题解答中超越了GPT-4等千亿参数级别的模型。
探索现代AI生成模型的底层原理:大语言模型、视频模型与图片模型 2024-05-21 语言模型, 音视频, 深度学习, 人工智能, 自然语言处理 262人 已看 现代AI生成模型在文本、图像、音频和视频等多个领域展现出了巨大的潜力。大语言模型、视频生成模型和图片生成模型的底层原理各具特色,但都基于深度学习和神经网络技术的发展。未来,随着技术的不断进步和跨领域融合,生成模型将为我们的生活和工作带来更多的便利和创意。与此同时,伦理和监管问题也需要得到重视,以确保AI技术的健康发展。
人工智能->自然语言处理中->语言模型相关课题研究 2024-05-15 语言模型, 人工智能, 自然语言处理 67人 已看 基于深度学习的语言模型在新闻摘要生成中的应用研究基于Transformer的语言模型在社交媒体情感分析中的应用语言模型在智能客服系统中的优化与应用基于语言模型的个性化推荐系统设计语言模型在机器翻译中的性能优化研究基于语言模型的智能写作助手设计与实现语言模型在智能问答系统中的应用研究基于语言模型的文本分类技术研究语言模型在智能语音识别中的优化与应用基于语言模型的在线评论情感倾向分析语言模型在社交网络舆论监控中的应用基于语言模型的智能聊天机器人设计与实现语言模型在文本生成中的创新应用
LLM大语言模型(十五):LangChain的Agent中使用自定义的ChatGLM,且底层调用的是remote的ChatGLM3-6B的HTTP服务 2024-05-10 语言模型, 人工智能, http, 自然语言处理, 网络协议 71人 已看 本文搭建了一个完整的LangChain的Agent,调用本地启动的ChatGLM3-6B的HTTP server。为后续的RAG做好了准备。
英伟达推出视觉语言模型:VILA 2024-05-06 算法, 语言模型, 计算机视觉, 深度学习, 人工智能 61人 已看 1.情境学习与泛化能力:VILA通过预训练不仅提升了情境学习能力,即模型对新情境的适应性和学习能力,而且还优化了其泛化能力,使模型能在不同的视觉语言任务上展现出色的性能。这个框架旨在通过有效的嵌入对齐和动态神经网络架构,改进语言模型的视觉和文本的学习能力。3.融合层:融合层是VILA模型的核心,它负责整合来自视觉处理单元和语言处理单元的信息,生成统一的、多模态的表示,这对于执行跨模态任务至关重要4.优化策略:包括技术如弹性权重共享和梯度截断,这些策略帮助模型在训练过程中保持稳定,并优化跨模态信息的流动。
AI大模型探索之路-训练篇9:大语言模型Transformer库-Pipeline组件实践 2024-05-01 语言模型, 机器学习, 人工智能, 自然语言处理 80人 已看 在人工智能和机器学习领域,Pipeline是一种设计模式,它将多个处理步骤串联起来,形成一个有序的、自动化的工作流程。这一概念在自然语言处理(NLP)尤其重要,因为NLP任务通常涉及多个阶段,如文本清洗、特征提取、模型训练或预测等。Pipeline的设计旨在减少重复代码、提高代码的可维护性,并优化整个处理流程的效率。