日本食品標準成分表の食材名を前処理するリポジトリです. 日本食品標準成分表(八訂)増補2023年 に対応しています. 今の食品成分表の食材の表記は分類の情報も混ざっているので,分析等では非常に使いずらいです. 本リポジトリではそれを処理します.
リポジトリルートファイルにdata/inputファイルを作りその直下に公式サイトから得られるエクセルファイルを保存してください. 設置が終わると全体のディレクトリ構造は以下のようになります.
.
├── LICENSE
├── README.md
├── data
│ └── input
│ ├── 20230428-mxt_kagsei-mext_00001_012.xlsx
│ ├── 20230428-mxt_kagsei-mext_00001_022.xlsx
│ ├── 20230428-mxt_kagsei-mext_00001_023.xlsx
│ ├── 20230428-mxt_kagsei-mext_00001_024.xlsx
│ ├── 20230428-mxt_kagsei-mext_00001_025.xlsx
│ ├── 20230428-mxt_kagsei-mext_00001_032.xlsx
│ ├── 20230428-mxt_kagsei-mext_00001_033.xlsx
│ ├── 20230428-mxt_kagsei-mext_00001_034.xlsx
│ ├── 20230428-mxt_kagsei-mext_00001_042.xlsx
│ ├── 20230428-mxt_kagsei-mext_00001_043.xlsx
│ └── 20230428-mxt_kagsei-mext_00001_044.xlsx
├── requirements.txt
├── config.yaml
└── src
├── preprocessing.py
└── utils.py
config.yamlにデータの入力の場所と出力の場所を書いてください.(入力例はcondig_ex.yamlに書かれています.)
その後,以下のコマンドを実行することでoutputファイルに保存されます.(Python 3.10.10)
python src/preprocessing.py
正しく実行できればdata/outputに以下のファイル群が作成できます.
│ └── output
│ ├── food_categories_all.csv(食材名のカテゴリ名を分離した結果)
│ └── food_nutrition_all.csv(カラム名を栄養素にした結果)
こちらに詳しい説明があります. food_nutrition_all.csv に登場する栄養素のカラム名に対して,その対応付をしたものになります.
プログラムの修正等は issue にお願いします.