hugging face 发布词语切分工具:Tokenizers

专注 NLP 的初创团队抱抱脸(hugging face)发布帮助自然语言处理过程中,更快的词语切分(tokenization)工具:Tokenizers —— 只要 20 秒就能编码 1GB 文本。

  • 功能多样:适用于 BPE / byte-level-BPE / WordPiece / SentencePiece 各种 NLP 处理模型
  • 可以完成所有的预处理:截断(Truncate)、填补(Pad)、添加模型需要的特殊标记。
  • 速度超级快:只需要 20 秒就可以在 CPU 上标记 1GB 的文本。
  • 目前适用三种编程语言:Rust / Python / Node.js

GitHub地址项目 GitHub 地址