快速入门PyTorch自然语言处理,实现文本分类 2024-05-22 python, 深度学习, pytorch, 人工智能, 自然语言处理 21人 已看 PyTorch为处理自然语言处理任务提供了一个直观且强大的平台,从创建简单的神经网络到处理词嵌入和文本分类,该框架简化了开发过程。随着深入使用PyTorch探索NLP,不妨尝试挑战一些更高级的领域,例如序列到序列模型、注意力机制和迁移学习。PyTorch社区提供了丰富的资源、教程和预训练模型,为大家学习和实践提供了强有力的支持。
WWW 2024最佳论文|大型语言模型的机制设计 2024-05-22 语言模型, 人工智能, 自然语言处理 19人 已看 本论文针对多个大语言模型(LLM)的激励相容聚合问题,提出了一种基于token的拍卖机制(token auction)。通过线性组合和log-linear组合两种aggregation函数,实现了根据不同广告客户的出价比例生成相应的联合广告文案。实验结果表明,所提机制能够以一种平滑、可解释的方式实现多个LLM的聚合,为自动生成广告创意提供了新的思路。疑惑和想法除了token-level的建模,是否可以设计出其他粒度(如phrase-level、sentence-level)的机制?
BERT for Joint Intent Classification and Slot Filling 论文阅读 2024-05-15 论文阅读, 深度学习, 人工智能, 自然语言处理, bert 47人 已看 意图分类和槽填充是自然语言理解中两个重要的任务。它们通常受制于规模较小的人工标记训练数据,导致泛化能力较差,特别是对于罕见词汇。最近,一种新的语言表示模型BERT(Bidirectional Encoder Representations from Transformers)在大规模未标记语料库上进行了深度双向表示的预训练,通过简单微调后为各种自然语言处理任务创建了最先进的模型。然而,对于自然语言理解,尚未有太多关于探索BERT的努力。在本工作中,我们提出了一种基于BERT的联合意图分类和槽填充模型。
NLP预训练模型-GPT-3 2024-05-19 gpt-3, 人工智能, 自然语言处理 20人 已看 与前两代GPT模型相比,GPT-3具有更大的模型规模(参数量达到1750亿个),更强的计算能力(使用了NVIDIA V100 GPU集群)和更广泛的数据来源(包括书籍、网页、论坛等多种类型的文本)。在未来,随着技术的不断发展和完善,我们有理由相信,GPT-3及其相关技术将为人类社会带来更多的便利和价值。零样本学习:GPT-3具有很好的零样本学习能力,即在没有经过特定任务训练的情况下,也能够完成一些复杂的NLP任务。大规模:GPT-3的参数量达到了1750亿个,是目前已知的最大规模的NLP预训练模型之一。
快速入门PyTorch自然语言处理,实现文本分类 2024-05-22 python, 深度学习, pytorch, 人工智能, 自然语言处理 24人 已看 PyTorch为处理自然语言处理任务提供了一个直观且强大的平台,从创建简单的神经网络到处理词嵌入和文本分类,该框架简化了开发过程。随着深入使用PyTorch探索NLP,不妨尝试挑战一些更高级的领域,例如序列到序列模型、注意力机制和迁移学习。PyTorch社区提供了丰富的资源、教程和预训练模型,为大家学习和实践提供了强有力的支持。
【论文阅读】要使用工具!《Toolformer: Language Models Can Teach Themselves to Use Tools》 2024-05-22 论文阅读, 语言模型, 人工智能, 自然语言处理 26人 已看 语言模型(LMs)表现出了从极少量的示例或文本指令中解决新任务的显著能力,尤其是在模型规模较大时表现的更加显著。矛盾的是,它们也在与基本功能作斗争,如算术或事实查找,在这些功能中,更简单、更小的模型脱颖而出。在本文中,我们展示了LMs可以通过简单的API自学使用外部工具,从而实现两全其美。我们介绍了Toolformer,这是一个经过训练的模型,用于决定调用哪些API,何时调用它们,传递什么参数,以及如何将结果最好地结合到未来的Token预测中。这是以一种自监督的方式完成的,只需要为每个API进行少量的演示。
实战LLM微调:大语言模型和微调入门 2024-05-18 语言模型, 人工智能, 自然语言处理 34人 已看 本文对大模型的发展和现状做了个回顾,并重点介绍了下什么是微调以及如何在大模型上做微调,之后展示了对微调后的模型做评估和量化的技术。
2024-05-22 问AI: 介绍一下大语言模型LLM的常用参数 2024-05-22 语言模型, 深度学习, 人工智能, 自然语言处理 21人 已看 而一些轻量级的模型,如谷歌的PaLM和DeepMind的Chinchilla,虽然参数数量较GPT-3少,但通过优化模型结构和训练方法,它们在某些任务上也能达到类似的性能。例如,OpenAI的GPT-3模型在2020年发布时,其参数量达到了惊人的1750亿,而在之后的模型中,如GPT-4,其参数量可能进一步增加。然而,更多的参数也意味着更高的计算成本和训练难度。总结来说,大语言模型的常用参数规模随着技术进步而不断增加,目前已经有多种规模的模型被开发和应用,不同的参数规模对应着不同的性能和计算资源需求。
【开源】多语言大型语言模型的革新:百亿参数模型超越千亿参数性能 2024-05-20 语言模型, 人工智能, 自然语言处理, 开源 30人 已看 大型人工智能模型,尤其是那些拥有千亿参数的模型,因其出色的商业应用表现而受到市场的青睐。但是,直接通过API使用这些模型可能会带来数据泄露的风险,尤其是当模型提供商如OpenAI等可能涉及数据隐私问题时。私有部署虽然是一个解决办法,但昂贵的授权费用对于许多企业来说是一笔不小的开支。Orion-14B系列模型的推出,旨在解决这一难题,提供一个既经济实惠又性能卓越的选择。Orion-14B系列模型以其百亿参数规模,在多个专业场景问题解答中超越了GPT-4等千亿参数级别的模型。
ROCm上运行预训练BERT 2024-05-19 深度学习, 人工智能, 自然语言处理, bert 35人 已看 此外,由"#"标记的部分,是保存函数定义的提示,便于以后的复用。请注意,由于硬件和软件的快速发展,具体的安装和配置步骤可能会随着时间而变化,因此建议查阅最新的ROCm和相关深度学习框架的官方文档。因此,在使用ROCm时可能会遇到一些挑战和限制。此外,由于ROCm和BERT都是不断发展的技术,建议您查阅最新的官方文档和社区讨论,以获取最准确的安装和运行指南。要在ROCm上运行预训练的BERT模型,您需要确保您的系统已经安装了支持ROCm的TensorFlow版本,并且已经正确配置了相关的环境。
探索现代AI生成模型的底层原理:大语言模型、视频模型与图片模型 2024-05-21 语言模型, 音视频, 深度学习, 人工智能, 自然语言处理 55人 已看 现代AI生成模型在文本、图像、音频和视频等多个领域展现出了巨大的潜力。大语言模型、视频生成模型和图片生成模型的底层原理各具特色,但都基于深度学习和神经网络技术的发展。未来,随着技术的不断进步和跨领域融合,生成模型将为我们的生活和工作带来更多的便利和创意。与此同时,伦理和监管问题也需要得到重视,以确保AI技术的健康发展。
基于transformers框架实践Bert系列3-单选题 2024-05-17 深度学习, 人工智能, 自然语言处理, bert 44人 已看 本系列用于Bert模型实践实际场景,分别包括分类器、命名实体识别、阅读理解、多选选择、文本摘要等等。(关于Bert的结构和详细这里就不做讲解,但了解Bert的基本结构是做实践的基础,因此看本系列之前,最好了解一下transformers和Bert等)本篇主要讲解应用场景。
基于transformers框架实践Bert系列1--分类器(情感分类) 2024-05-17 深度学习, 人工智能, 自然语言处理, bert 39人 已看 本系列用于Bert模型实践实际场景,分别包括分类器、命名实体识别、机器阅读、多选选择、文本摘要等等。(关于Bert的结构和详细这里就不做讲解,但了解Bert的基本结构是做实践的基础,因此看本系列之前,最好了解一下transformers和Bert等)本篇主要讲解。
基于transformers框架实践Bert系列1--分类器(情感分类) 2024-05-17 深度学习, 人工智能, 自然语言处理, bert 27人 已看 本系列用于Bert模型实践实际场景,分别包括分类器、命名实体识别、机器阅读、多选选择、文本摘要等等。(关于Bert的结构和详细这里就不做讲解,但了解Bert的基本结构是做实践的基础,因此看本系列之前,最好了解一下transformers和Bert等)本篇主要讲解。
自然语言处理(NLP)技术的详细介绍 2024-05-21 人工智能, 自然语言处理 24人 已看 自然语言处理技术(NLP)是人工智能领域中的一门重要技术,旨在使计算机能够理解和处理人类语言。它通过模拟人类的语言理解和分析能力,实现人机交互、信息提取、语义分析等任务。NLP技术的核心是将自然语言转换为计算机可读的形式,然后利用各种算法和模型进行语义理解、信息提取和文本生成等工作。
人工智能->自然语言处理中->语言模型相关课题研究 2024-05-15 语言模型, 人工智能, 自然语言处理 22人 已看 基于深度学习的语言模型在新闻摘要生成中的应用研究基于Transformer的语言模型在社交媒体情感分析中的应用语言模型在智能客服系统中的优化与应用基于语言模型的个性化推荐系统设计语言模型在机器翻译中的性能优化研究基于语言模型的智能写作助手设计与实现语言模型在智能问答系统中的应用研究基于语言模型的文本分类技术研究语言模型在智能语音识别中的优化与应用基于语言模型的在线评论情感倾向分析语言模型在社交网络舆论监控中的应用基于语言模型的智能聊天机器人设计与实现语言模型在文本生成中的创新应用
人工智能->自然语言处理中->实体关系抽取 2024-05-15 人工智能, 自然语言处理 23人 已看 基于深度学习的实体关系抽取技术研究面向特定领域的实体关系抽取模型优化基于实体关系抽取的社交媒体舆情分析跨语言实体关系抽取方法探索基于实体关系抽取的电商产品推荐系统实体关系抽取在新闻摘要生成中的应用面向金融领域的实体关系抽取与风险预测基于实体关系抽取的医疗知识图谱构建实体关系抽取在智能问答系统中的应用基于实体关系抽取的个性化学习资源推荐实体关系抽取在社交媒体用户画像构建中的应用基于实体关系抽取的电商平台用户行为分析面向电影领域的实体关系抽取与推荐系统基于实体关系抽取的旅游攻略自动生