首页 简历|笔试面试

大模型(LLMs)Tokenizer篇

  • 25年9月4日 发布
  • 302.5KB 共2页
大模型(LLMs)Tokenizer篇大模型(LLMs)Tokenizer篇

LLMs Tokenizer 篇

Byte-Pair Encoding(BPE)篇

1 Byte-Pair Encoding(BPE) 如何构建词典?

1 准备足够的训练语料;以及期望的词表大小;

2 将单词拆分为字符粒度(字粒度),并在末尾添加后缀“”

,统计单词频率

3 合并方式:统计每一个连续/相邻字节对的出现频率,将最高频的连续字节对合并为新字词;

4 重复第 3 步,直到词表达到设定的词表大小;或下一个最高频字节对出现频率为 1。

注:GPT2、BART 和 LLaMA 就采用了 BPE。

WordPiece 篇

WordPiece 与 BPE 异同点是什么?

本质上还是 BPE 的思想。与 BPE 最大区别在于:如何选择两个子词进行合并

BPE 是选择频次最大的相邻子词合并;

WordPiece 算法选择能够提升语言模型概率最大的相邻子词进行合并,来加入词表;

注:BERT 采用了 WordPiece。

SentencePiece 篇

简单介绍一下 SentencePiece 思路?

把空格也当作一种特殊字符来处理,再用 BPE 或者来构造词汇表。

注:ChatGLM、BLOOM、PaLM 采用了 SentencePiece。

对比篇

1 举例介绍一下不同大模型 LLMs 的分词方式?

2 介绍一下不同大模型 LLMs 的分词方式的区别?

1. LLaMA 的词表是最小的,LLaMA 在中英文上的平均 token 数都是最多的,这意味着

LLaMA 对中英文分词都会比较碎,比较细粒度。尤其在中文上平均 token 数高达 1.45,

这意味着 LLaMA 大概率会将中文字符切分为 2 个以上的 token。

2. Chinese LLaMA 扩展词表后,中文平均 token 数显著降低,会将一个汉字或两个汉字切

分为一个 token,提高了中文编码效率。

3. ChatGLM-6B 是平衡中英文分词效果最好的 tokenizer。由于词表比较大,中文处理时间

也有增加

4. BLOOM 虽然是词表最大的,但由于是多语种的,在中英文上分词效率与 ChatGLM-6B

基本相当。

开通会员 本次下载免费

所有资料全部免费下载! 推荐用户付费下载获取返佣积分! 积分可以兑换商品!
一键复制 下载文档 联系客服