diff --git a/tn/chinese/data/number/digit.tsv b/tn/chinese/data/number/digit.tsv index 3a578d3..b6b4ae0 100644 --- a/tn/chinese/data/number/digit.tsv +++ b/tn/chinese/data/number/digit.tsv @@ -7,3 +7,12 @@ 7 七 8 八 9 九 +1 一 +2 二 +3 三 +4 四 +5 五 +6 六 +7 七 +8 八 +9 九 diff --git a/tn/chinese/data/number/teen.tsv b/tn/chinese/data/number/teen.tsv index 04c85dd..55620af 100644 --- a/tn/chinese/data/number/teen.tsv +++ b/tn/chinese/data/number/teen.tsv @@ -7,3 +7,12 @@ 7 七 8 八 9 九 +1 +2 二 +3 三 +4 四 +5 五 +6 六 +7 七 +8 八 +9 九 diff --git a/tn/chinese/data/number/zero.tsv b/tn/chinese/data/number/zero.tsv index d6b9cec..d7c75e8 100644 --- a/tn/chinese/data/number/zero.tsv +++ b/tn/chinese/data/number/zero.tsv @@ -1 +1,2 @@ 0 零 +0 零 diff --git a/tn/chinese/rules/cardinal.py b/tn/chinese/rules/cardinal.py index 863b31b..beb772e 100644 --- a/tn/chinese/rules/cardinal.py +++ b/tn/chinese/rules/cardinal.py @@ -34,7 +34,7 @@ def build_tagger(self): sign = string_file('tn/chinese/data/number/sign.tsv') dot = string_file('tn/chinese/data/number/dot.tsv') - rmzero = delete('0') + rmzero = delete('0') | delete('0') rmpunct = delete(',').ques digits = zero | digit self.digits = digits diff --git a/tn/chinese/test/data/normalizer.txt b/tn/chinese/test/data/normalizer.txt index 897596d..0ebce9d 100644 --- a/tn/chinese/test/data/normalizer.txt +++ b/tn/chinese/test/data/normalizer.txt @@ -42,3 +42,7 @@ B2B => B to B 当场票数≥100万 => 当场票数大于等于一百万 独得300w张 => 独得三百万张 面积是10km² => 面积是十平方千米 +仅仅是2015年 => 仅仅是二零一五年 +包含3000余件 => 包含三千余件 +查处450余名 => 查处四百五十余名 +查处450余名 => 查处四百五十余名