Stanford-CS-336-1

BPE编码器原理

算法过程:

准备语料:corpus = [

"low",

"lower",

"newest",

"widest"

]

初始:每个词拆成字符序列,用空格分隔方便统计

核心处理流程:

最后得到:

如果合并12次,或者更多,则会变回原来的几个单词:

但是bpe的优点就是:

bpe的目的就是在双边找平衡,既能获取到新词汇,又能保持高频词快速处理(保留整体),bpe一般适用于欧美拉丁语系中,大多为字符形式,前后缀词根较多,中文而言,直接分词即可。

BPE 就是不断用高频子串替代短子串,得到更紧凑的表示,同时保证能还原原文