From 746a92cf00517156245da88590f1984f1800c959 Mon Sep 17 00:00:00 2001
From: "copilot-swe-agent[bot]" <198982749+Copilot@users.noreply.github.com>
Date: Fri, 6 Feb 2026 20:18:26 +0000
Subject: [PATCH 1/5] Initial plan
From 80b4625e66742c09ab196919424f87cf067af8bf Mon Sep 17 00:00:00 2001
From: "copilot-swe-agent[bot]" <198982749+Copilot@users.noreply.github.com>
Date: Fri, 6 Feb 2026 20:25:26 +0000
Subject: [PATCH 2/5] Update Thai README structure to match English README
Co-authored-by: bact <128572+bact@users.noreply.github.com>
---
README_TH.md | 232 +++++++++++++++++----------------------------------
1 file changed, 77 insertions(+), 155 deletions(-)
diff --git a/README_TH.md b/README_TH.md
index c43990cf8..3a2844a88 100644
--- a/README_TH.md
+++ b/README_TH.md
@@ -1,163 +1,107 @@
-
-

-
PyThaiNLP: Thai Natural Language Processing in Python
-

-

-

-

-

-

-

-

-

-
+# PyThaiNLP: Thai Natural Language Processing in Python
+
+
+
+[](https://pypi.python.org/pypi/pythainlp)
+[](https://www.python.org/downloads/)
+[](https://opensource.org/licenses/Apache-2.0)
+[](https://doi.org/10.5281/zenodo.3519354)
+[](https://www.repostatus.org/#active)
+[](https://www.codacy.com/gh/PyThaiNLP/pythainlp/dashboard?utm_source=github.com&utm_medium=referral&utm_content=PyThaiNLP/pythainlp&utm_campaign=Badge_Grade)
+[](https://coveralls.io/github/PyThaiNLP/pythainlp?branch=dev)
+[](https://colab.research.google.com/github/PyThaiNLP/tutorials/blob/master/source/notebooks/pythainlp_get_started.ipynb)
+[](https://www.facebook.com/pythainlp/)
+[](https://matrix.to/#/#thainlp:matrix.org)
+
+[pythainlp.org](https://pythainlp.org/) |
+[Tutorials](https://pythainlp.org/tutorials) |
+[License info](https://pythainlp.org/dev-docs/notes/license.html) |
+[Model cards](https://github.com/PyThaiNLP/pythainlp/wiki/Model-Cards) |
+[Adopters](https://github.com/PyThaiNLP/pythainlp/blob/dev/INTHEWILD.md) |
+*[English](https://github.com/PyThaiNLP/pythainlp/blob/dev/README.md)*
PyThaiNLP เป็นไลบารีภาษาไพทอนสำหรับประมวลผลภาษาธรรมชาติ โดยเน้นภาษาไทย
-
-## ติดตั้งแบบด่วน
+**PyThaiNLP** ถูกออกแบบให้เป็นเครื่องมือมาตรฐานสำหรับการวิเคราะห์ภาษาศาสตร์ภาษาไทย
+ภายใต้สัญญาอนุญาต Apache-2.0 โดยข้อมูลและโมเดลอยู่ภายใต้ CC0-1.0 และ CC-BY-4.0
```sh
pip install pythainlp
```
-| รุ่น | คำอธิบาย | สถานะ |
-|:------:|:--:|:------:|
-| [5.2.0](https://github.com/PyThaiNLP/pythainlp/releases) | Stable | [Change Log](https://github.com/PyThaiNLP/pythainlp/issues/1080) |
-| [`dev`](https://github.com/PyThaiNLP/pythainlp/tree/dev) | Release Candidate for 5.3 | [Change Log](https://github.com/PyThaiNLP/pythainlp/issues/1169) |
-
-ติดตามพวกเราบน [PyThaiNLP Facebook page](https://www.facebook.com/pythainlp/) เพื่อรับข่าวสารเพิ่มเติม
-
-## เริ่มต้นกับ PyThaiNLP
-
-พวกเราได้จัดทำ [PyThaiNLP Get Started Tutorial](https://pythainlp.org/tutorials/notebooks/pythainlp_get_started.html) สำหรับสำรวจความสามารถของ PyThaiNLP; พวกเรามีเอกสารสอนใช้งาน สามารถศึกษาได้ที่ [หน้า tutorial](https://pythainlp.org/tutorials).
-
-อ่านเอกสารล่าสุดได้ที่ [https://pythainlp.org/docs](https://pythainlp.org/docs).
-
-พวกเราพยายามทำให้โมดูลใช้งานได้ง่ายที่สุดเท่าที่จะเป็นไปได้; ตัวอย่างเช่น บางชุดข้อมูล (เช่น รายการคำและตัวแบบภาษา) จะถูกดาวน์โหลดอัตโนมัติเมื่อมีการเรียกใช้งาน โดย PyThaiNLP จะจัดเก็บข้อมูลเหล่านั้นไว้ในโฟลเดอร์ `~/pythainlp-data` เป็นค่าเริ่มต้น แต่ผู้ใช้งานสามารถระบุตำแหน่งที่ต้องการได้เองผ่านค่า environment variable `PYTHAINLP_DATA_DIR` อ่านรายละเอียดคลังข้อมูลเพิ่มเติมได้ที่ [PyThaiNLP/pythainlp-corpus](https://github.com/PyThaiNLP/pythainlp-corpus).
+| Version | Python version | Changes | Documentation |
+|:-------:|:--------------:|:-------:|:-------------:|
+| [5.2.0](https://github.com/PyThaiNLP/pythainlp/releases) | 3.7+ | [Log](https://github.com/PyThaiNLP/pythainlp/issues/1080) | [pythainlp.org/docs](https://pythainlp.org/docs) |
+| [`dev`](https://github.com/PyThaiNLP/pythainlp/tree/dev) | 3.9+ | [Log](https://github.com/PyThaiNLP/pythainlp/issues/1169) | [pythainlp.org/dev-docs](https://pythainlp.org/dev-docs/) |
## ความสามารถ
-PyThaiNLP มีความสามารถพื้นฐานสำหรับการประมวลผลภาษาไทย ตัวอย่างเช่นการกำกับหน้าที่ของคำ (part-of-speech tagging) การแบ่งหน่วยของข้อความตามหลักภาษาศาสตร์ (พยางค์ คำ และประโยค) บางความสามารถสามารถใช้งานได้ผ่านทางคอมมานด์ไลน์
-
-
- รายการความสามารถ
-
-- ชุดตัวอักขระและคำภาษาไทยที่เรียกใช้ได้สะดวก เช่น พยัญชนะ (`pythainlp.thai_consonants`), สระ (`pythainlp.thai_vowels`), ตัวเลข (`pythainlp.thai_digits`), และคำหยุด (stop word) (`pythainlp.corpus.thai_stopwords`) -- ซึ่งเทียบได้กับค่าคงที่มาตรฐานในไพทอนอย่าง `string.letters`, `string.digits`, และ `string.punctuation`
-- Thai linguistic unit segmentation/tokenization, including sentence (`sent_tokenize`), word (`word_tokenize`), and subword segmentations based on Thai Character Cluster (`subword_tokenize`)
-- Thai part-of-speech taggers (`pos_tag`)
-- Thai spelling suggestion and correction (`spell` and `correct`)
-- Thai transliteration (`transliterate`)
-- Thai soundex (`soundex`) with three engines (`lk82`, `udom83`, `metasound`)
-- Thai collation (sort by dictionary order) (`collate`)
-- Read out number to Thai words (`bahttext`, `num_to_thaiword`)
-- Thai datetime formatting (`thai_strftime`)
-- Thai-English keyboard misswitched fix (`eng_to_thai`, `thai_to_eng`)
-- Command-line interface for basic functions, like tokenization and pos tagging (run `thainlp` in your shell)
+- **หน่วยภาษาศาสตร์:** การแบ่งประโยค คำ และหน่วยคำย่อย
+ (`sent_tokenize`, `word_tokenize`, `subword_tokenize`)
+- **การกำกับหน้าที่:** Part-of-speech tagging (`pos_tag`)
+- **การถอดอักษร:** Romanization (`transliterate`) และการแปลงเป็น IPA
+- **การแก้ไข:** การแนะนำและแก้ไขการสะกด (`spell`, `correct`)
+- **เครื่องมือเสริม:** Soundex, การเรียงลำดับ, แปลงตัวเลขเป็นข้อความ (`bahttext`),
+ การจัดรูปแบบวันที่ (`thai_strftime`), และแก้ไขการสลับแป้นพิมพ์
+- **ข้อมูล:** ชุดตัวอักษรไทย, รายการคำ, และคำหยุด (stop words)
+- **CLI:** Command-line interface ผ่าน `thainlp`
-
+ ```sh
+ thainlp data catalog # แสดงรายการชุดข้อมูล
+ thainlp help # แสดงวิธีใช้งาน
+ ```
-อ่านรายละเอียดได้ที่ [tutorials](https://pythainlp.org/tutorials)
+## ตัวเลือกการติดตั้ง
-## การติดตั้ง
+การติดตั้งพร้อม extras เฉพาะ (เช่น `translate`, `wordnet`, `full`):
```sh
-pip install --upgrade pythainlp
+pip install "pythainlp[extra1,extra2,...]"
```
-วิธีดังกล่าวเป็นการติดตั้งรุ่นเสถียรของ PyThaiNLP
-PyThaiNLP ใช้ pip สำหรับจัดการโมดูลและใช้ PyPI เป็นช่องทางหลักในการแจกจ่ายโมดูล อ่านรายละเอียดได้ที่ [https://pypi.org/project/pythainlp/](https://pypi.org/project/pythainlp/)
+`extras` ที่เป็นไปได้:
-ความแตกต่างในแต่ละรุ่น:
+- `compact` — ติดตั้งชุดย่อยที่เสถียรและเล็ก (แนะนำ)
+- `translate` — รองรับการแปลภาษา
+- `wordnet` — รองรับ WordNet
+- `full` — ติดตั้ง dependencies ทั้งหมด (อาจเกิดความขัดแย้ง)
-- รุ่นเสถียร: `pip install --upgrade pythainlp`
-- รุ่นก่อนเสถียร (near ready): `pip install --upgrade --pre pythainlp`
-- รุ่นที่กำลังพัฒนา (likely to break things): `pip install https://github.com/PyThaiNLP/pythainlp/archive/dev.zip`
+เว็บไซต์เอกสารมี[รายการ extras ทั้งหมด](https://pythainlp.org/dev-docs/notes/installation.html)
+หากต้องการดูไลบารีที่รวมอยู่ในแต่ละ extra
+กรุณาตรวจสอบส่วน `[project.optional-dependencies]` ใน
+[`pyproject.toml`](https://github.com/PyThaiNLP/pythainlp/blob/dev/pyproject.toml)
-### ตัวเลือกการติดตั้ง
+## ไดเรกทอรีข้อมูล
-บางความสามารถ เช่น Thai WordNet ต้องการโมดูลภายนอกในการทำงานนอกจาก PyThaiNLP ซึ่งในตอนติดตั้ง คุณจะต้องติดตั้งส่วนขยายพิเศษที่จำเป็นหรือ "extras" โดยระบุชื่อลงใน `[name]` ต่อท้าย `pythainlp`:
-
-```sh
-pip install pythainlp[extra1,extra2,...]
-```
+PyThaiNLP ดาวน์โหลดข้อมูล (ดูแค็ตตาล็อกข้อมูล `db.json` ที่
+[pythainlp-corpus](https://github.com/PyThaiNLP/pythainlp-corpus))
+ไปที่ `~/pythainlp-data` ตามค่าเริ่มต้น
+ตั้งค่า environment variable `PYTHAINLP_DATA_DIR` เพื่อเปลี่ยนตำแหน่งนี้
-
- รายการสำหรับติดตั้งผ่าน extras
-
-- `full` (ติดตั้งทุกอย่าง)
-- `compact` (ติดตั้งไลบารีชุดเล็กที่ทดสอบแล้วว่าไม่ตีกันเองและติดตั้งได้ในทุกระบบปฏิบัติการ)
-- `abbreviation` (สำหรับการย่อคำภาษาไทย)
-- `attacut` (เพื่อสนับสนุน attacut ซึ่งเป็นตัวตัดคำที่ทำงานได้รวดเร็วและมีประสิทธิภาพ)
-- `benchmarks` (สำหรับทดสอบความแม่นยำของการตัดคำ)
-- `budoux` (สำหรับการแบ่งข้อความด้วย BudouX)
-- `coreference_resolution` (สำหรับการหาคำที่อ้างอิงถึงกัน)
-- `dependency_parsing` (สำหรับการวิเคราะห์โครงสร้างประโยค)
-- `el` (สำหรับการเชื่อมโยงเอนทิตี)
-- `esupar` (สำหรับการรองรับ esupar parser)
-- `generate` (สำหรับการสร้างข้อความ)
-- `icu` (สำหรับการรองรับ ICU หรือ International Components for Unicode ในการถอดเสียงเป็นอักษรและการตัดแบ่งคำ)
-- `ipa` (สำหรับการรองรับ IPA หรือ International Phonetic Alphabet ในการถอดเสียงเป็นอักษร)
-- `ml` (เพื่อให้สนับสนุนตัวแบบภาษา ULMFiT สำหรับการจำแนกข้อความ)
-- `mt5` (สำหรับรองรับโมเดล mT5)
-- `nlpo3` (สำหรับตัวตัดคำภาษาไทย nlpo3)
-- `onnx` (สำหรับรองรับโมเดล ONNX)
-- `oskut` (สำหรับตัวตัดคำภาษาไทย OSKut)
-- `sefr_cut` (สำหรับตัวตัดคำภาษาไทย SEFR CUT)
-- `spacy_thai` (สำหรับรองรับภาษาไทยใน spaCy)
-- `spell` (สำหรับการแก้ไขคำสะกดผิด)
-- `ssg` (สำหรับการแบ่งประโยค)
-- `testing` (เวอร์ชันที่ปักหมุดสำหรับ CI/CD)
-- `textaugment` (สำหรับการเพิ่มข้อมูลข้อความ)
-- `thai_nner` (สำหรับการจดจำชื่อเฉพาะภาษาไทย)
-- `thai2fit` (สำหรับ Thai word vector)
-- `thai2rom` (สำหรับการถอดอักษรไทยเป็นอักษรโรมัน)
-- `transformers_ud` (สำหรับ Universal Dependencies ด้วย transformers)
-- `translate` (สำหรับการแปลภาษา)
-- `wangchanberta` (สำหรับโมเดล WangchanBERTa)
-- `wangchanglm` (สำหรับโมเดล WangchanGLM)
-- `word_approximation` (สำหรับการประมาณคำ)
-- `wordnet` (สำหรับ Thai WordNet API)
-- `wsd` (สำหรับการแก้ความกำกวมของความหมายคำ)
-- `wtp` (สำหรับการแบ่งข้อความด้วย Where's the Point)
-- `wunsen` (สำหรับตัวตรวจการสะกดคำ Wunsen)
-
-
-
-สำหรับโมดูลที่ต้องการ สามารถดูรายละเอียดได้ที่ส่วน `[project.optional-dependencies]`
-ใน [`pyproject.toml`](https://github.com/PyThaiNLP/pythainlp/blob/dev/pyproject.toml).
-
-## Command-line
-
-บางความสามารถของ PyThaiNLP สามารถใช้งานผ่าน command line ได้โดยใช้ `thainlp`
-
-ตัวอย่าง, แสดงรายละเอียดของชุดข้อมูล:
+เมื่อใช้ PyThaiNLP ในสภาพแวดล้อมการคำนวณแบบกระจาย
+(เช่น Apache Spark) ให้ตั้งค่า environment variable `PYTHAINLP_DATA_DIR`
+ภายในฟังก์ชันที่จะถูกกระจายไปยัง worker nodes
+ดูรายละเอียดใน[เอกสาร](https://pythainlp.org/dev-docs/notes/installation.html)
-```sh
-thainlp data catalog
-```
+## การทดสอบ
-แสดงวิธีใช้งาน:
+เราทดสอบฟังก์ชันหลักบน Python ทุกเวอร์ชันที่รองรับอย่างเป็นทางการ
-```sh
-thainlp help
-```
+ดู [tests/README.md](./tests/README.md) สำหรับ test matrix และรายละเอียดอื่น ๆ
-## ผู้ใช้งาน Python 2
+## ร่วมพัฒนา PyThaiNLP
-- PyThaiNLP สนับสนุน Python 3.10 ขึ้นไป บางความสามารถ สามารถใช้งานกับ Python 3 รุ่นก่อนหน้าได้
- แต่ไม่ได้มีการทดสอบว่าใช้งานได้หรือไม่
- อ่านเพิ่มเติม [1.7 -> 2.0 change log](https://github.com/PyThaiNLP/pythainlp/issues/118).
- - [Upgrading from 1.7](https://pythainlp.org/docs/2.0/notes/pythainlp-1_7-2_0.html)
- - [Upgrade ThaiNER from 1.7](https://github.com/PyThaiNLP/pythainlp/wiki/Upgrade-ThaiNER-from-PyThaiNLP-1.7-to-PyThaiNLP-2.0)
-- ผู้ใช้งาน Python 2.7 สามารถใช้งาน PyThaiNLP 1.6
+กรุณา fork และสร้าง pull request
+ดู [CONTRIBUTING.md](https://github.com/PyThaiNLP/pythainlp/blob/dev/CONTRIBUTING.md)
+สำหรับแนวทางและการอ้างอิงอัลกอริทึม
## การอ้างอิง
-หากคุณใช้ซอฟต์แวร์ `PyThaiNLP` ในโครงงานหรืองานวิจัยของคุณ คุณสามารถอ้างอิงได้ตามนี้
+หากคุณใช้ `PyThaiNLP` ในโครงงานหรืองานวิจัยของคุณ
+กรุณาอ้างอิงไลบารีดังนี้:
> Phatthiyaphaibun, Wannaphong, Korakot Chaovavanich, Charin Polpanumas, Arthit Suriyawongkul, Lalita Lowphansirikul, and Pattarawat Chormai. “Pythainlp: Thai Natural Language Processing in Python”. Zenodo, 2 June 2024. .
-โดยสามารถใช้ BibTeX นี้:
+หรือ BibTeX entry:
```bibtex
@software{pythainlp,
@@ -177,11 +121,11 @@ thainlp help
}
```
-บทความของเราในงานประชุมวิชาการ [NLP-OSS 2023](https://nlposs.github.io/2023/):
+บทความของเราใน [NLP-OSS 2023](https://nlposs.github.io/2023/):
> Wannaphong Phatthiyaphaibun, Korakot Chaovavanich, Charin Polpanumas, Arthit Suriyawongkul, Lalita Lowphansirikul, Pattarawat Chormai, Peerat Limkonchotiwat, Thanathip Suntorntip, and Can Udomcharoenchaikit. 2023. [PyThaiNLP: Thai Natural Language Processing in Python.](https://aclanthology.org/2023.nlposs-1.4) In Proceedings of the 3rd Workshop for Natural Language Processing Open Source Software (NLP-OSS 2023), pages 25–36, Singapore, Singapore. Empirical Methods in Natural Language Processing.
-โดยสามารถใช้ BibTeX นี้:
+และ BibTeX entry:
```bibtex
@inproceedings{phatthiyaphaibun-etal-2023-pythainlp,
@@ -211,34 +155,12 @@ thainlp help
}
```
-## ร่วมสนับสนุน PyThaiNLP
-
-- กรุณา fork แล้วพัฒนาต่อ จากนั้นสร้าง pull request กลับมา :)
-- สำหรับเอกสารแนะนำและอื่น ๆ รวมถึงการอ้างอิงขั้นตอนที่เราใช้งาน สามารถเข้าไปศึกษาเพิ่มเติมได้ที่หน้า [contributing](https://github.com/PyThaiNLP/pythainlp/blob/dev/CONTRIBUTING.md)
-
-## ใครใช้ PyThaiNLP?
-
-คุณสามารถอ่านได้ที่ [INTHEWILD.md](https://github.com/PyThaiNLP/pythainlp/blob/dev/INTHEWILD.md)
-
-## สัญญาอนุญาต
-
-| | สัญญาอนุญาต |
-|:---|:----|
-| ต้นรหัสซอร์สโค้ดและโน๊ตบุ๊กของ PyThaiNLP | [Apache Software License 2.0](https://github.com/PyThaiNLP/pythainlp/blob/dev/LICENSE) |
-| ฐานข้อมูลภาษา ชุดข้อมูล และเอกสารที่สร้างโดยโครงการ PyThaiNLP | [Creative Commons Zero 1.0 Universal Public Domain Dedication License (CC0)](https://creativecommons.org/publicdomain/zero/1.0/)|
-| Language models created by PyThaiNLP | [Creative Commons Attribution 4.0 International Public License (CC-by)](https://creativecommons.org/licenses/by/4.0/) |
-| สำหรับฐานข้อมูลภาษาและโมเดลอื่นที่อาจมาพร้อมกับซอฟต์แวร์ PyThaiNLP | ดู [Corpus License](https://github.com/PyThaiNLP/pythainlp/blob/dev/pythainlp/corpus/corpus_license.md) |
-
-## บัตรโมเดล
-
-สำหรับรายละเอียดทางเทคนิค ข้อควรระวัง และข้อคำนึงทางจริยธรรมของตัวแบบ (โมเดล) ที่ใช้ใน PyThaiNLP
-กรุณาดูที่ [Model cards](https://github.com/PyThaiNLP/pythainlp/wiki/Model-Cards)
-
## ผู้สนับสนุน
-[](https://airesearch.in.th/)
-
-ตั้งแต่ปี 2562 การสมทบพัฒนา PyThaiNLP โดย กรกฎ เชาวะวณิช และ ลลิตา โล่พันธุ์ศิริกุล สนับสนุนโดย [VISTEC-depa Thailand Artificial Intelligence Research Institute](https://airesearch.in.th/)
+| โลโก้ | รายละเอียด |
+| --- | ----------- |
+| [](https://airesearch.in.th/) | ตั้งแต่ปี 2019 ผู้ร่วมพัฒนาของเรา Korakot Chaovavanich และ Lalita Lowphansirikul ได้รับการสนับสนุนจาก [VISTEC-depa Thailand Artificial Intelligence Research Institute](https://airesearch.in.th/) |
+| [](https://www.macstadium.com) | เราได้รับการสนับสนุน Mac Mini M1 ฟรีจาก [MacStadium](https://www.macstadium.com) สำหรับการรัน CI builds |
------
From 0cfaa34a430743c3a628f13fd6a008fb62c14bcb Mon Sep 17 00:00:00 2001
From: "copilot-swe-agent[bot]" <198982749+Copilot@users.noreply.github.com>
Date: Sat, 7 Feb 2026 09:10:20 +0000
Subject: [PATCH 3/5] Restore full extras list and license table in Thai README
Co-authored-by: bact <128572+bact@users.noreply.github.com>
---
README_TH.md | 53 +++++++++++++++++++++++++++++++++++++++++++++++-----
1 file changed, 48 insertions(+), 5 deletions(-)
diff --git a/README_TH.md b/README_TH.md
index 3a2844a88..54a8e6e40 100644
--- a/README_TH.md
+++ b/README_TH.md
@@ -60,14 +60,48 @@ pip install "pythainlp[extra1,extra2,...]"
`extras` ที่เป็นไปได้:
+
+ รายการสำหรับติดตั้งผ่าน extras
+
- `compact` — ติดตั้งชุดย่อยที่เสถียรและเล็ก (แนะนำ)
-- `translate` — รองรับการแปลภาษา
-- `wordnet` — รองรับ WordNet
- `full` — ติดตั้ง dependencies ทั้งหมด (อาจเกิดความขัดแย้ง)
+- `abbreviation` — เครื่องมือขยายคำย่อ
+- `attacut` — รองรับ AttaCut (ตัวตัดคำที่รวดเร็วและแม่นยำ)
+- `budoux` — รองรับการแบ่งข้อความด้วย BudouX
+- `benchmarks` — รองรับการรันเบนช์มาร์ก
+- `coreference_resolution` — รองรับการแก้ไขการอ้างอิงร่วม
+- `dependency_parsing` — รองรับการวิเคราะห์โครงสร้างประโยค
+- `el` — รองรับการเชื่อมโยงเอนทิตี
+- `esupar` — รองรับ ESuPAR parser
+- `generate` — รองรับการสร้างข้อความ
+- `icu` — รองรับ ICU (International Components for Unicode) ใช้ในการถอดอักษรและการตัดคำ
+- `ipa` — รองรับ IPA (International Phonetic Alphabet) ในการถอดอักษร
+- `ml` — รองรับโมเดล ULMFiT ที่ใช้ในการจำแนกประเภท
+- `mt5` — โมเดล mT5 สำหรับการสรุปข้อความภาษาไทย
+- `nlpo3` — รองรับการตัดคำภาษาไทยด้วย nlpo3
+- `onnx` — รองรับโมเดล ONNX
+- `oskut` — รองรับ OSKUT
+- `sefr_cut` — รองรับการตัดคำภาษาไทยด้วย SEFR CUT
+- `spacy_thai` — รองรับภาษาไทยใน spaCy
+- `spell` — รองรับตัวตรวจการสะกดเพิ่มเติม (phunspell & symspellpy)
+- `ssg` — รองรับตัวตัดพยางค์ SSG
+- `textaugment` — เครื่องมือเสริมข้อความ
+- `thai_nner` — รองรับการจดจำเอนทิตีชื่อภาษาไทย
+- `thai2fit` — เวกเตอร์คำภาษาไทย (thai2fit)
+- `thai2rom` — การถอดอักษรด้วยแมชชีนเลิร์นนิง
+- `transformers_ud` — รองรับเอนจิน transformers_ud
+- `translate` — รองรับการแปลภาษาด้วยแมชชีน
+- `wangchanberta` — โมเดล WangchanBERTa
+- `wangchanglm` — รองรับโมเดล WangchanGLM
+- `word_approximation` — รองรับการประมาณคำ
+- `wordnet` — รองรับ WordNet
+- `wsd` — รองรับการแก้ความกำกวมของความหมายคำ (pythainlp.wsd)
+- `wtp` — รองรับการแบ่งข้อความด้วย Where's the Point
+- `wunsen` — รองรับตัวตรวจการสะกด Wunsen
-เว็บไซต์เอกสารมี[รายการ extras ทั้งหมด](https://pythainlp.org/dev-docs/notes/installation.html)
-หากต้องการดูไลบารีที่รวมอยู่ในแต่ละ extra
-กรุณาตรวจสอบส่วน `[project.optional-dependencies]` ใน
+
+
+สำหรับรายละเอียด dependencies สามารถดูได้ที่ส่วน `[project.optional-dependencies]` ใน
[`pyproject.toml`](https://github.com/PyThaiNLP/pythainlp/blob/dev/pyproject.toml)
## ไดเรกทอรีข้อมูล
@@ -155,6 +189,15 @@ PyThaiNLP ดาวน์โหลดข้อมูล (ดูแค็ตต
}
```
+## สัญญาอนุญาต
+
+| | สัญญาอนุญาต |
+|:---|:----|
+| ซอร์สโค้ดและโน๊ตบุ๊กของ PyThaiNLP | [Apache Software License 2.0](https://github.com/PyThaiNLP/pythainlp/blob/dev/LICENSE) |
+| คลังข้อมูล ชุดข้อมูล และเอกสารที่สร้างโดยโครงการ PyThaiNLP | [Creative Commons Zero 1.0 Universal Public Domain Dedication License (CC0)](https://creativecommons.org/publicdomain/zero/1.0/)|
+| โมเดลภาษาที่สร้างโดยโครงการ PyThaiNLP | [Creative Commons Attribution 4.0 International Public License (CC-BY)](https://creativecommons.org/licenses/by/4.0/) |
+| คลังข้อมูลและโมเดลอื่น ๆ ที่อาจมาพร้อมกับ PyThaiNLP | ดู [Corpus License](https://github.com/PyThaiNLP/pythainlp/blob/dev/pythainlp/corpus/corpus_license.md) |
+
## ผู้สนับสนุน
| โลโก้ | รายละเอียด |
From e76505e56896f11e65bf519a97ba738cef47bfd6 Mon Sep 17 00:00:00 2001
From: Arthit Suriyawongkul
Date: Sat, 7 Feb 2026 15:47:24 +0000
Subject: [PATCH 4/5] Provide more Thai translation
---
README_TH.md | 50 +++++++++++++++++++++++++-------------------------
1 file changed, 25 insertions(+), 25 deletions(-)
diff --git a/README_TH.md b/README_TH.md
index 54a8e6e40..97d647ff8 100644
--- a/README_TH.md
+++ b/README_TH.md
@@ -1,4 +1,4 @@
-# PyThaiNLP: Thai Natural Language Processing in Python
+# PyThaiNLP ประมวลผลภาษาไทยด้วย Python

@@ -14,13 +14,12 @@
[](https://matrix.to/#/#thainlp:matrix.org)
[pythainlp.org](https://pythainlp.org/) |
-[Tutorials](https://pythainlp.org/tutorials) |
-[License info](https://pythainlp.org/dev-docs/notes/license.html) |
-[Model cards](https://github.com/PyThaiNLP/pythainlp/wiki/Model-Cards) |
-[Adopters](https://github.com/PyThaiNLP/pythainlp/blob/dev/INTHEWILD.md) |
+[วิธีใช้งาน](https://pythainlp.org/tutorials) |
+[ข้อมูลสัญญาอนุญาต](https://pythainlp.org/dev-docs/notes/license.html) |
+[ใบข้อมูลโมเดล](https://github.com/PyThaiNLP/pythainlp/wiki/Model-Cards) |
+[ใครใช้ PyThaiNLP บ้าง](https://github.com/PyThaiNLP/pythainlp/blob/dev/INTHEWILD.md) |
*[English](https://github.com/PyThaiNLP/pythainlp/blob/dev/README.md)*
-PyThaiNLP เป็นไลบารีภาษาไพทอนสำหรับประมวลผลภาษาธรรมชาติ โดยเน้นภาษาไทย
**PyThaiNLP** ถูกออกแบบให้เป็นเครื่องมือมาตรฐานสำหรับการวิเคราะห์ภาษาศาสตร์ภาษาไทย
ภายใต้สัญญาอนุญาต Apache-2.0 โดยข้อมูลและโมเดลอยู่ภายใต้ CC0-1.0 และ CC-BY-4.0
@@ -28,22 +27,22 @@ PyThaiNLP เป็นไลบารีภาษาไพทอนสำหร
pip install pythainlp
```
-| Version | Python version | Changes | Documentation |
-|:-------:|:--------------:|:-------:|:-------------:|
+| รุ่น | รุ่นของ Python | มีอะไรเปลี่ยน | เอกสาร |
+| :-: | :-: | :-: | :-: |
| [5.2.0](https://github.com/PyThaiNLP/pythainlp/releases) | 3.7+ | [Log](https://github.com/PyThaiNLP/pythainlp/issues/1080) | [pythainlp.org/docs](https://pythainlp.org/docs) |
| [`dev`](https://github.com/PyThaiNLP/pythainlp/tree/dev) | 3.9+ | [Log](https://github.com/PyThaiNLP/pythainlp/issues/1169) | [pythainlp.org/dev-docs](https://pythainlp.org/dev-docs/) |
## ความสามารถ
-- **หน่วยภาษาศาสตร์:** การแบ่งประโยค คำ และหน่วยคำย่อย
+- **วิเคราะห์หน่วยทางภาษา:** การแบ่งประโยค คำ และหน่วยคำย่อย
(`sent_tokenize`, `word_tokenize`, `subword_tokenize`)
-- **การกำกับหน้าที่:** Part-of-speech tagging (`pos_tag`)
-- **การถอดอักษร:** Romanization (`transliterate`) และการแปลงเป็น IPA
-- **การแก้ไข:** การแนะนำและแก้ไขการสะกด (`spell`, `correct`)
-- **เครื่องมือเสริม:** Soundex, การเรียงลำดับ, แปลงตัวเลขเป็นข้อความ (`bahttext`),
+- **กำกับหน้าที่ของคำ:** part-of-speech tagging (`pos_tag`)
+- **ถอดอักษร:** การถ่ายเสียงเป็นอักษรโรมัน (`transliterate`) และการแปลงเป็น IPA
+- **ตรวจตัวสะกด:** การแนะนำและแก้ไขการสะกด (`spell`, `correct`)
+- **เครื่องมือเสริม:** soundex, การเรียงลำดับ, แปลงตัวเลขเป็นข้อความ (`bahttext`),
การจัดรูปแบบวันที่ (`thai_strftime`), และแก้ไขการสลับแป้นพิมพ์
-- **ข้อมูล:** ชุดตัวอักษรไทย, รายการคำ, และคำหยุด (stop words)
-- **CLI:** Command-line interface ผ่าน `thainlp`
+- **คลังภาษา:** ชุดตัวอักษรไทย, รายการคำ, และคำหยุด (stop words)
+- **CLI:** ใช้งานทาง command line ด้วย `thainlp`
```sh
thainlp data catalog # แสดงรายการชุดข้อมูล
@@ -58,7 +57,7 @@ pip install pythainlp
pip install "pythainlp[extra1,extra2,...]"
```
-`extras` ที่เป็นไปได้:
+`extras` ที่ใช้ได้:
รายการสำหรับติดตั้งผ่าน extras
@@ -89,7 +88,7 @@ pip install "pythainlp[extra1,extra2,...]"
- `thai_nner` — รองรับการจดจำเอนทิตีชื่อภาษาไทย
- `thai2fit` — เวกเตอร์คำภาษาไทย (thai2fit)
- `thai2rom` — การถอดอักษรด้วยแมชชีนเลิร์นนิง
-- `transformers_ud` — รองรับเอนจิน transformers_ud
+- `transformers_ud` — รองรับ Universal Dependencies ด้วย transformers
- `translate` — รองรับการแปลภาษาด้วยแมชชีน
- `wangchanberta` — โมเดล WangchanBERTa
- `wangchanglm` — รองรับโมเดล WangchanGLM
@@ -130,12 +129,11 @@ PyThaiNLP ดาวน์โหลดข้อมูล (ดูแค็ตต
## การอ้างอิง
-หากคุณใช้ `PyThaiNLP` ในโครงงานหรืองานวิจัยของคุณ
-กรุณาอ้างอิงไลบารีดังนี้:
+หากคุณใช้ซอฟต์แวร์ `PyThaiNLP` ในโครงงานหรืองานวิจัยของคุณ คุณสามารถอ้างอิงได้ตามนี้:
> Phatthiyaphaibun, Wannaphong, Korakot Chaovavanich, Charin Polpanumas, Arthit Suriyawongkul, Lalita Lowphansirikul, and Pattarawat Chormai. “Pythainlp: Thai Natural Language Processing in Python”. Zenodo, 2 June 2024. .
-หรือ BibTeX entry:
+โดยใช้รายการ BibTeX นี้:
```bibtex
@software{pythainlp,
@@ -155,11 +153,13 @@ PyThaiNLP ดาวน์โหลดข้อมูล (ดูแค็ตต
}
```
-บทความของเราใน [NLP-OSS 2023](https://nlposs.github.io/2023/):
+หากคุณอ้างอิงงานวิจัยของเราในงานประชุมวิชาการ
+[NLP-OSS 2023](https://nlposs.github.io/2023/)
+คุณสามารถอ้างอิงได้ตามนี้:
> Wannaphong Phatthiyaphaibun, Korakot Chaovavanich, Charin Polpanumas, Arthit Suriyawongkul, Lalita Lowphansirikul, Pattarawat Chormai, Peerat Limkonchotiwat, Thanathip Suntorntip, and Can Udomcharoenchaikit. 2023. [PyThaiNLP: Thai Natural Language Processing in Python.](https://aclanthology.org/2023.nlposs-1.4) In Proceedings of the 3rd Workshop for Natural Language Processing Open Source Software (NLP-OSS 2023), pages 25–36, Singapore, Singapore. Empirical Methods in Natural Language Processing.
-และ BibTeX entry:
+โดยใช้รายการ BibTeX นี้:
```bibtex
@inproceedings{phatthiyaphaibun-etal-2023-pythainlp,
@@ -191,8 +191,8 @@ PyThaiNLP ดาวน์โหลดข้อมูล (ดูแค็ตต
## สัญญาอนุญาต
-| | สัญญาอนุญาต |
-|:---|:----|
+| เนื้อหา | สัญญาอนุญาต |
+| :-- | :-- |
| ซอร์สโค้ดและโน๊ตบุ๊กของ PyThaiNLP | [Apache Software License 2.0](https://github.com/PyThaiNLP/pythainlp/blob/dev/LICENSE) |
| คลังข้อมูล ชุดข้อมูล และเอกสารที่สร้างโดยโครงการ PyThaiNLP | [Creative Commons Zero 1.0 Universal Public Domain Dedication License (CC0)](https://creativecommons.org/publicdomain/zero/1.0/)|
| โมเดลภาษาที่สร้างโดยโครงการ PyThaiNLP | [Creative Commons Attribution 4.0 International Public License (CC-BY)](https://creativecommons.org/licenses/by/4.0/) |
@@ -203,7 +203,7 @@ PyThaiNLP ดาวน์โหลดข้อมูล (ดูแค็ตต
| โลโก้ | รายละเอียด |
| --- | ----------- |
| [](https://airesearch.in.th/) | ตั้งแต่ปี 2019 ผู้ร่วมพัฒนาของเรา Korakot Chaovavanich และ Lalita Lowphansirikul ได้รับการสนับสนุนจาก [VISTEC-depa Thailand Artificial Intelligence Research Institute](https://airesearch.in.th/) |
-| [](https://www.macstadium.com) | เราได้รับการสนับสนุน Mac Mini M1 ฟรีจาก [MacStadium](https://www.macstadium.com) สำหรับการรัน CI builds |
+| [](https://www.macstadium.com) | เราได้รับการสนับสนุน Mac Mini M1 จาก [MacStadium](https://www.macstadium.com) สำหรับการรัน CI builds |
------
From 14516f87a6e2df887a544f180b10cfa89402efe4 Mon Sep 17 00:00:00 2001
From: Arthit Suriyawongkul
Date: Sat, 7 Feb 2026 15:51:21 +0000
Subject: [PATCH 5/5] Update README.md
---
README.md | 11 ++++++-----
1 file changed, 6 insertions(+), 5 deletions(-)
diff --git a/README.md b/README.md
index a6cb1f39d..b3108aa17 100644
--- a/README.md
+++ b/README.md
@@ -99,12 +99,12 @@ for guidelines and algorithm references.
## Citations
-If you use `PyThaiNLP` in your project or publication,
-please cite the library as follows:
+If you use `PyThaiNLP` library in your project,
+please cite the software as follows:
> Phatthiyaphaibun, Wannaphong, Korakot Chaovavanich, Charin Polpanumas, Arthit Suriyawongkul, Lalita Lowphansirikul, and Pattarawat Chormai. “Pythainlp: Thai Natural Language Processing in Python”. Zenodo, 2 June 2024. .
-or by BibTeX entry:
+with this BibTeX entry:
```bibtex
@software{pythainlp,
@@ -124,11 +124,12 @@ or by BibTeX entry:
}
```
-Our [NLP-OSS 2023](https://nlposs.github.io/2023/) paper:
+To cite our [NLP-OSS 2023](https://nlposs.github.io/2023/) academic paper,
+please cite the paper as follows:
> Wannaphong Phatthiyaphaibun, Korakot Chaovavanich, Charin Polpanumas, Arthit Suriyawongkul, Lalita Lowphansirikul, Pattarawat Chormai, Peerat Limkonchotiwat, Thanathip Suntorntip, and Can Udomcharoenchaikit. 2023. [PyThaiNLP: Thai Natural Language Processing in Python.](https://aclanthology.org/2023.nlposs-1.4) In Proceedings of the 3rd Workshop for Natural Language Processing Open Source Software (NLP-OSS 2023), pages 25–36, Singapore, Singapore. Empirical Methods in Natural Language Processing.
-and its BibTeX entry:
+with this BibTeX entry:
```bibtex
@inproceedings{phatthiyaphaibun-etal-2023-pythainlp,