BBPE的优势在于能够处理更大的字符集,特别是对于那些字符量庞大的语言(如中文和日文),BBPE可以有效地避免未登录词(Out-Of-Vocabulary, OOV)的问题,因为它使用256个可能的字节作为基础词汇表,这样可以覆盖几乎所有的字符。在大语言模型的上下文中,BPE的方向或者说其应用意图,主要是为了应对文本数据的多样性与词汇的长尾分布问题,通过学习数据中最频繁出现的字符对并逐步合并它们来构建一个自适应的词典或词汇表。然后,BPE算法选择出现频率最高的字符对,并将其合并为一个新的子词单元。