japanese_pretokenizers (japre)

Custom pretokenizers for Japanese language models

installation

pip install japre

Usage

IpadicPreTokenizer

from japre.ipadic import IpadicPreTokenizer

from transformers import PreTrainedTokenizerFast
from tokenizers import Tokenizer

tokenizer_object = Tokenizer.from_file("your-awesome-tokenizer.json")
tokenizer_object.pre_tokenizer = IpadicPreTokenizer.make()
tokenizer = PreTrainedTokenizerFast(
    tokenizer_object=tokenizer_object,
    unk_token='[UNK]',
    mask_token='[MASK]',
    cls_token='[CLS]',
    pad_token='[PAD]',
    sep_token='[SEP]'
)

ManbyoDictPreTokenizer

export MANBYO_DICT_PATH=/path/to/MANBYO_201907_Dic-utf8.dic

from japre.manbyo import ManbyoDictPreTokenizer

from transformers import PreTrainedTokenizerFast
from tokenizers import Tokenizer

tokenizer_object = Tokenizer.from_file("your-awesome-tokenizer.json")
tokenizer_object.pre_tokenizer = ManbyoDictPreTokenizer.make()
tokenizer = PreTrainedTokenizerFast(
    tokenizer_object=tokenizer_object,
    unk_token='[UNK]',
    mask_token='[MASK]',
    cls_token='[CLS]',
    pad_token='[PAD]',
    sep_token='[SEP]'
)

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
src/japre		src/japre
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
pyproject.toml		pyproject.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

japanese_pretokenizers (japre)

installation

Usage

IpadicPreTokenizer

ManbyoDictPreTokenizer

About

Releases

Packages

Languages

License

Alab-NII/japanese_pretokenizers

Folders and files

Latest commit

History

Repository files navigation

japanese_pretokenizers (japre)

installation

Usage

IpadicPreTokenizer

ManbyoDictPreTokenizer

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages