Skip to content

Commit

Permalink
Add documents about tokenize_wth_location
Browse files Browse the repository at this point in the history
  • Loading branch information
linuxscout committed Aug 8, 2021
1 parent 0278c8a commit 770ab6b
Show file tree
Hide file tree
Showing 3 changed files with 37 additions and 2 deletions.
17 changes: 16 additions & 1 deletion doc/features.md
Original file line number Diff line number Diff line change
Expand Up @@ -11,6 +11,7 @@
تنميط أشكال الهمزة المختلفة | normalize_hamza(text)
تفريق كلمات النص |tokenize(text)
تفريق جمل النص |sentence_tokenize(text)
تفريق النص إلى كلمات مع مواضع الكلمات| ar.tokenize_with_location(text)

* حذف الحركات

Expand Down Expand Up @@ -276,7 +277,21 @@ Tokenize text into Sentences.
['العربية لغة جميلة.', 'والبلاد بعيدة،', 'والشوق زائد']

```

* تفريق النص إلى كلمات مع مواضع الكلمات
Tokenize text into tokens with locations
```python
>>> text = "حدثنا ابن أبي عامر، قال: رايت مناما"
>>> tokens = araby.tokenize_with_location(text)
>>> print u"\\n".join(tokens)
[{'token': 'حدثنا', 'start': 0, 'end': 5},
{'token': 'ابن', 'start': 6, 'end': 9},
{'token': 'أبي', 'start': 10, 'end': 13},
{'token': 'عامر', 'start': 14, 'end': 18},
{'token': 'قال', 'start': 20, 'end': 23},
{'token': 'رايت', 'start': 25, 'end': 29},
{'token': 'مناما','start': 30, 'end': 35}
]
```
#### وظائف الحروف
دوال الحروف وهي تعيد صواب إذا انتمى الحرف إلى المجموعة المطلوبة

Expand Down
20 changes: 20 additions & 0 deletions docs/features.rst
Original file line number Diff line number Diff line change
Expand Up @@ -21,6 +21,8 @@
+-----------------------------------+----------------------------+
| تفريق جمل النص | sentence\_tokenize(text) |
+-----------------------------------+----------------------------+
| تفريق النص إلى كلمات ومواضعها | tokenize_with_location |
+-----------------------------------+----------------------------+

- حذف الحركات

Expand Down Expand Up @@ -316,6 +318,24 @@ them:
>>> print(sentences)
['العربية لغة جميلة.', 'والبلاد بعيدة،', 'والشوق زائد']
- تفريق النص إلى كلمات ومواضعها Tokenize text into tokens with location.

.. code:: python
>>> from pyarabic import araby
>>> text = "حدثنا ابن أبي عامر، قال: رايت مناما"
>>> tokens = araby.tokenize_with_location(text)
>>> print u"\\n".join(tokens)
[{'token': 'حدثنا', 'start': 0, 'end': 5},
{'token': 'ابن', 'start': 6, 'end': 9},
{'token': 'أبي', 'start': 10, 'end': 13},
{'token': 'عامر', 'start': 14, 'end': 18},
{'token': 'قال', 'start': 20, 'end': 23},
{'token': 'رايت', 'start': 25, 'end': 29},
{'token': 'مناما','start': 30, 'end': 35}
]
وظائف الحروف
^^^^^^^^^^^^

Expand Down
2 changes: 1 addition & 1 deletion pyarabic/araby.py
Original file line number Diff line number Diff line change
Expand Up @@ -1404,7 +1404,7 @@ def tokenize_with_location(text: str) -> list:
Example:
>>> text = "حدثنا ابن أبي عامر، قال: رايت مناما"
>>> tokens = araby.tokenize_with_position(text)
>>> tokens = araby.tokenize_with_location(text)
>>> print u"\\n".join(tokens)
[{'token': 'حدثنا', 'start': 0, 'end': 5},
{'token': 'ابن', 'start': 6, 'end': 9},
Expand Down

0 comments on commit 770ab6b

Please sign in to comment.