The dfk library

The dfk library provides functions to compute the corpus frequency of a string, the document frequency of a string, and the number of documents containing the string more than once. The C implementation was written by Kyoji Umemura.

More information can be found at

インストール方法

pip install .

など。

テスト実行の方法

コーパスに出現する部分文字列の頻度を事前計算する（make-index/ にあるプログラムを利用）
事前計算されたテーブルを使ってdocument frequencyなどを利用する

data/ にあるデータを使ってサンプルプログラムを実行する方法:

( cd make-index && make )  # 分析の前処理プログラムのコンパイル
( cd data && make )  # テストデータに対する分析の前処理の実行
head data/D-test-1000.dat | cut -f 1,3 | python example/smart_es_bayes.py data/D-learn-1000.class data/D-test-1000.class

dfkライブラリの利用例を知りたい場合、 example/smart_es_bayes.py を読んでください。

デバッグ関連のコマンドメモ

python setup.py build_ext --inplace  # コンパイルだけする
head data/D-test-1000.dat | cut -f 1,3 | PYTHONPATH=build/lib.linux-x86_64-3.6/ python example/es_bayes.py data/D-learn-1000.class data/D-test-1000.class
PYTHONPATH=build/lib.linux-x86_64-3.6/ python example/es_bayes.py data/D-learn-1000.class data/D-test-1000.class --input <(head data/D-test-1000.dat | cut -f 1,3)
PYTHONPATH=build/lib.linux-x86_64-3.6/ python -m pdb example/es_bayes.py data/D-learn-1000.class data/D-test-1000.class --input <(head data/D-test-1000.dat | cut -f 1,3)
PYTHONPATH=build/lib.linux-x86_64-3.6 gdb -ex r --args /home/hironaka15/.pyenv/versions/dfk/bin/python -m pdb example/es_bayes.py data/D-learn-1000.class data/D-test-1000.class --input <(head data/D-test-1000.dat | cut -f 1,3)

head data/D-test-1000.dat | cut -f 1,3 | example/Es-bayes/Es-bayes data/D-learn-1000.class data/D-test-1000.class
head data/D-test-1000.dat | cut -f 1,3 | python example/smart_es_bayes.py data/D-learn-1000.class data/D-test-1000.class
head data/D-test-1000.dat | cut -f 1,3 | python example/es_bayes.py data/D-learn-1000.class data/D-test-1000.class

diff <(head data/D-test-1000.dat | cut -f 1,3 | python example/smart_es_bayes.py data/D-learn-1000.class data/D-test-1000.class) <(head data/D-test-1000.dat | cut -f 1,3 | python example/es_bayes.py data/D-learn-1000.class data/D-test-1000.class)

Name		Name	Last commit message	Last commit date
Latest commit History 27 Commits
data		data
dfk		dfk
example		example
make-index		make-index
src		src
.gitignore		.gitignore
README.rst		README.rst
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

The dfk library

インストール方法

テスト実行の方法

デバッグ関連のコマンドメモ

About

Releases

Packages

Languages

tut-ulab/dfk

Folders and files

Latest commit

History

Repository files navigation

The dfk library

インストール方法

テスト実行の方法

デバッグ関連のコマンドメモ

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages