适合每个大模型初学者人手一本的(LLM)大语言模型综述,爆火全网!(附PDF) 2024-07-02 pdf, 语言模型, 人工智能, 自然语言处理 106人 已看 今天给大家推荐一本大模型(LLM)这块的一本外文书,经过整理已经出中文版了,就是这本《大型语言模型综述》!本书在git上有9.2k star,还是很不错的一本大模型方面的书。
评估大型语言模型生成文章的能力 2024-06-27 语言模型, 人工智能, 自然语言处理 89人 已看 1. AI解读1.1. 总体概要本文探讨了大型语言模型(LLMs)如GPT-4在生成特定领域(如计算机科学中的自然语言处理NLP)教育调查文章方面的能力和局限性。研究发现,尽管GPT-4能够根据特定指导生成高质量的调查文章,与人类专家的作品相媲美,但在细节完整性和事实准确性方面仍存在不足。此外,GPT-4在评估机器生成文本时显示出对自身生成内容的偏好,表明在某些情况下,它可能不是人类判断的完美替代品。文章强调了LLMs在教育领域中的潜在变革作用,同时也指出了需要进一步验证和人工干预的必要性,
【语言模型】Xinference的部署过程 2024-06-28 语言模型, 人工智能, 自然语言处理 63人 已看 根据自己的需求构建自定义的Xinference Docker镜像,包括安装特定的依赖项、配置环境变量等。这有助于你更灵活地部署和管理Xinference服务。扩展API接口:如果你需要实现自定义的API接口或扩展现有接口的功能,你可以使用Xinference提供的Python SDK或RESTful API接口进行开发。这允许你根据自己的业务需求定制服务的功能和性能。
【机器学习300问】120、该怎么用RNN来构建语言模型? 2024-06-17 rnn, 语言模型, 机器学习, 深度学习, 人工智能 54人 已看 什么是语料库(Corpus)?说明是分词(Tokenization)?用RNN来构建语言模型的步骤。
本地部署Ollama+qwen本地大语言模型Web交互界面 2024-06-18 语言模型, 交互, 人工智能, 前端, 自然语言处理 61人 已看 Ollama WebUI 已经更名为 Open WebUI.Open WebUI是一个可扩展、功能丰富且用户友好的自托管 WebUI,旨在完全离线操作。它支持各种 LLM 运行程序,包括 Ollama 和 OpenAI 兼容的 API。Ollama WebUI 是一个革命性的 LLM 本地部署框架,具有类似 ChatGPT 的 Web 界面。让我们为您的 Ollama 部署的 LLM 提供类似 ChatGPT Web UI 的界面,只需按照以下 5 个步骤开始行动吧。
2024-06-21 问AI: 在大语言模型中,什么是LLama Index 2024-06-21 llama, 语言模型, 人工智能, 自然语言处理 56人 已看 从某个时间点开始,LLama Index不仅限于文本处理,还扩展到了支持大语言模型的多模态处理功能,意味着它可以处理包括图像、音频在内的多种类型的数据,进一步扩展了模型的应用范围。:作为数据与LLMs之间的接口,LLama Index帮助构建高效的查询机制,使得用户可以通过自然语言提出问题,系统则能有效地从整合的数据中检索相关信息,并通过大语言模型生成响应。综上所述,LLama Index是一个强大的工具,它通过促进数据与语言模型的有效互动,提高了大语言模型在实际应用场景中的实用性和智能水平。
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs 2024-06-23 语言模型, 人工智能, 自然语言处理 56人 已看 虽然现如今大模型展现出无与伦比的表现,但是其在工具理解和使用方面依然存在不足,即根据用户的指令和意图来使用外部API。这是因为现有的指令微调任务大多数是基于语言任务,而忽略了工具的调用指令。因此,本文希望为开源的大模型探索一个可以使用工具的模型,并提出TooLLM。
摩根大通研究论文:大型语言模型+自动规划器用来作有保障的旅行规划 2024-06-17 语言模型, 人工智能, 自然语言处理 67人 已看 本文提出了一种结合大语言模型(LLM)和自动规划器的混合方法TRIP-PAL用于旅行规划。实验主要对比了GPT-4和TRIP-PAL在不同规模的一日游规划任务上生成的旅行规划的质量。本论文针对旅行规划问题,提出了一种结合大语言模型(LLM)和自动规划器(automated planner)的混合方法TRIP-PAL。该方法利用LLM从用户需求中提取相关的旅行信息,并将其转化为规划器可接受的形式。之后,规划器在满足各种约束条件的前提下,生成最大化用户效用的最优旅行计划。
ACL2024 | AI的时空穿越记:大型语言模型共时推理的奇幻之旅! 2024-06-19 语言模型, 人工智能, 自然语言处理 51人 已看 作者:苏肇辰标题:Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning?录取:ACL2024 Main论文链接:https://arxiv.org/abs/2406.09072代码链接:https://github.com/zhaochen0110/Cotempqa单位:苏州大学、上海人工智能实验室????...
摩根大通研究论文:大型语言模型+自动规划器用来作有保障的旅行规划 2024-06-17 语言模型, 人工智能, 自然语言处理 55人 已看 本文提出了一种结合大语言模型(LLM)和自动规划器的混合方法TRIP-PAL用于旅行规划。实验主要对比了GPT-4和TRIP-PAL在不同规模的一日游规划任务上生成的旅行规划的质量。本论文针对旅行规划问题,提出了一种结合大语言模型(LLM)和自动规划器(automated planner)的混合方法TRIP-PAL。该方法利用LLM从用户需求中提取相关的旅行信息,并将其转化为规划器可接受的形式。之后,规划器在满足各种约束条件的前提下,生成最大化用户效用的最优旅行计划。
齐普夫定律在循环神经网络中的语言模型的应用 2024-06-12 rnn, 语言模型, 深度学习, 人工智能, 神经网络 53人 已看 齐普夫定律(Zipf’s Law)是一种描述自然语言中单词频率分布的经验法则,它指出在一个文本或语料库中,单词的频率与其出现的排名成反比关系。具体来说,频率最高的单词出现的次数最多,排名第二的单词出现的次数大约是最高频单词的一半,排名第三的单词出现次数是最高频单词的三分之一,依此类推。这里,( \log n_i ) 是单词频率的对数,( \log i ) 是单词排名的对数,( \alpha ) 是斜率,( c ) 是截距。上面的代码统计了文本数据中的词频,并在对数坐标系中绘制了词频图。
【Intel CVPR 2024】通过图像扩散模型生成高质量360度场景,只需要一个语言模型 2024-06-12 语言模型, 人工智能, 自然语言处理 47人 已看 在当前人工智能取得突破性进展的时代,从单一输入图像生成全景场景仍是一项关键挑战。大多数现有方法都使用基于扩散的迭代或同步多视角内绘。然而,由于缺乏全局场景布局先验,导致输出结果存在重复对象(如卧室中的多张床),或者每个视图都需要耗时的人工文本输入。我们提出的 L-MAGIC 是一种新型方法,它利用大型语言模型进行引导,同时扩散 360 度全景场景的多个连贯视图。L-MAGIC 利用预先训练好的扩散和语言模型,无需微调,确保零误差性能。超分辨率和多视图融合技术进一步提高了输出质量。
超越 Transformer开启高效开放语言模型的新篇章 2024-06-12 语言模型, 人工智能, 自然语言处理 44人 已看 在人工智能快速发展的今天,对于高效且性能卓越的语言模型的追求,促使谷歌DeepMind团队开发出了RecurrentGemma这一突破性模型。这款新型模型在论文《RecurrentGemma:超越Transformers的高效开放语言模型》中得到了详细介绍,它通过结合线性递归和局部注意力机制,承诺重新定义语言处理的标准。
Python记忆组合透明度语言模型 2024-06-13 python, 语言模型, 人工智能, 自然语言处理, 开发语言 45人 已看 :dart:浏览器语言推理识别神经网络 | :dart:不同语言秽语训练识别数据集 | :dart:交互式语言处理解释 Transformer 语言模型 | :dart:可视化Transformer 语言模型 | :dart:语言模型生成优质歌词 | :dart:模型不确定性和鲁棒性深度学习估计基准 | :dart:文本生成神经网络诗歌生成 | :dart:模型透明度 | :dart:验证揭示前馈Transformer 语言模型记忆组合 | :dart:可视化语言模型注意力 | :dart:Transfor
从零实现ChatGPT:第一章构建大规模语言模型的数据准备 2024-06-08 语言模型, 机器学习, 深度学习, 人工智能, chatgpt 47人 已看 LLM需要将文本数据转换为数值向量,称为嵌入,因为它们无法处理原始文本。嵌入将离散数据(如单词或图像)转换为连续向量空间,使其与神经网络运算兼容。作为第一步,原始文本被分解为标记,可以是单词或字符。然后,标记被转换为称为标记ID的整数表示。可以添加特殊标记,如_unk_>和_endoftext_>,以增强模型的理解并处理各种上下文,例如未知单词或标记不相关文本之间的边界。GPT和GPT-2等LLM使用的字节对编码(BPE)标记化器可以通过将未知单词分解为子词单元或单个字符来有效处理未知单词。
拒绝Token焦虑,盘点可白嫖的6款LLM大语言模型API~ 2024-06-15 语言模型, 人工智能, 自然语言处理 44人 已看 本文将系统盘点:目前市面上都有哪些**可以免费调用的云端API**? 方便大家开发基于LLM的应用,快速实现自己的想法,让创意起飞~🚀
[论文笔记]Query Rewriting for Retrieval-Augmented Large Language Models 2024-06-11 论文阅读, 语言模型, 人工智能, 自然语言处理 48人 已看 ⭐ 作者提出了可在查询之前先应用LLM作为重写器对问题进行重写,然后再走RAG的流程。同时也提出了可以训练一个小模型来作为重写器。但博主对该小模型的泛化能力存疑。建议还是通过在提示词中给一些示例,让LLM进行重写。
2024-06-10 问AI: 在大语言模型中,ReAct Agents的理论基础是什么 2024-06-10 react.js, 语言模型, 前端, 人工智能, 自然语言处理 41人 已看 通过与易慧智能和面壁智能的合作,清华大学自然语言处理实验室能够将先进的群体智能理论框架和AI Agent技术应用于实际的汽车行业场景中,开发出具有针对性的AI应用产品,从而提升整个汽车行业全链路经营的效果和效率。综上所述,ReAct Agents的理论基础在于其能够有效地结合大规模语言模型的强大推理能力与实际的行动执行,通过一系列精心设计的模块和流程,实现对复杂任务的高效处理。这种性能的提升主要归因于推理和行为的结合,使得模型能够生成类似人类的解决任务的步骤,比没有推理痕迹的基线更容易解释。
Python记忆组合透明度语言模型 2024-06-13 python, 语言模型, 人工智能, 自然语言处理, 开发语言 44人 已看 :dart:浏览器语言推理识别神经网络 | :dart:不同语言秽语训练识别数据集 | :dart:交互式语言处理解释 Transformer 语言模型 | :dart:可视化Transformer 语言模型 | :dart:语言模型生成优质歌词 | :dart:模型不确定性和鲁棒性深度学习估计基准 | :dart:文本生成神经网络诗歌生成 | :dart:模型透明度 | :dart:验证揭示前馈Transformer 语言模型记忆组合 | :dart:可视化语言模型注意力 | :dart:Transfor
构建LangChain应用程序的示例代码:31、连接大型语言模型与机器学习社区的系统-HuggingGPT教程 2024-06-12 语言模型, 机器学习, 人工智能, gpt, 自然语言处理 41人 已看 本文介绍了HuggingGPT系统,这是一个将大型语言模型(如ChatGPT)与机器学习社区(如Hugging Face)连接起来的系统。通过设置Transformers Agent提供的工具库和一些定制工具,HuggingGPT能够执行多种任务,包括文档问答、图像描述、图像问答等。通过创建HuggingGPT实例并使用ChatGPT作为控制器,可以管理和调度这些工具来执行复杂的任务。它包括由Transformers支持的工具库以及一些定制工具,如图像生成器、视频生成器、文本下载器等。