Wikipediaを用いた日本語の固有表現抽出データセット

Version: 2.0

HuggingFace Hubからも利用可能です：https://huggingface.co/datasets/stockmark/ner-wikipedia-dataset

概要

このデータセットはWikipediaから抜き出した文に対して、固有表現をタグ付けしたものです。固有表現をハイライトしたサンプルはこちらでご覧になれます。全データ数は5343で、各データは一文から構成されています。全体の10%程度が固有表現を含まない負例です。このデータセットでタグ付された固有表現のタイプと、それぞれのタイプごとの固有表現数は以下の表にまとめられます。

タイプ	固有表現数	備考
人名	2980
法人名	2485	法人または法人に類する組織
政治的組織名	1180	政治的組織名、政党名、政府組織名、行政組織名、軍隊名、国際組織名
その他の組織名	1051	競技組織名、公演組織名、その他
地名	2157
施設名	1108
製品名	1215	商品名、番組名、映画名、書籍名、歌名、ブランド名等
イベント名	1009

データ形式

データファイル: ner.json

データファイルはjson形式で、全体としてはデータサンプルのリストとして構成されています。各データは以下のような辞書形式です。

{
    "curid": "473536",
    "text": "イギリスはリーマンショック直後の2008年10月にイングランド銀行のバランスシートを一気に3倍近く増やした後、2008年11月から2009年3月にかけて段階的に縮小させていった。",
    "entities": [
        {
            "name": "イギリス",
            "span": [0,4],
            "type": "地名"
        },
        {
            "name": "リーマンショック",
            "span": [5,13],
            "type": "イベント名"
        },
        {
            "name": "イングランド銀行",
            "span": [25,33],
            "type": "政治的組織名"
        }
    ]
}

curidはデータ元のWikipediaのページID
textはタグ付を行う対象のテキスト
entitiesは固有表現のリスト
- nameは固有表現名
- spanはtextでの位置
- typeは固有表現のタイプ

ライセンス

Wikipedia日本語版と同じCC-BY-SA 3.0のライセンスに従います。（参考：Wikipediaの著作権）

商用利用も可能です。

このデータセットを改変・再配布される方は、Wikipediaのこちらのページを参考にしてください。

参考文献

近江崇宏、「Wikipediaを用いた日本語の固有表現抽出のデータセットの構築」、言語処理学会第27回年次大会（2021）PDF

作成

本データセットはストックマーク株式会社により作成されました。 https://stockmark.co.jp/

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Wikipediaを用いた日本語の固有表現抽出データセット

概要

データ形式

ライセンス

参考文献

作成

Files

README.md

Latest commit

History

README.md

File metadata and controls

Wikipediaを用いた日本語の固有表現抽出データセット

概要

データ形式

ライセンス

参考文献

作成