自然言語処理100本ノック2020から逃げるな「22. カテゴリ名の抽出」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録
他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ

22. カテゴリ名の抽出

記事のカテゴリ名を(行単位ではなく名前で)抽出せよ.

Pythonコード

import NLP100_20
import re

data = NLP100_20.load()
p = re.compile(r'^.*\[\[Category:(.*?)(?:\|.*)?\]\]$', re.MULTILINE)

for l in p.findall(data):
    print(l)

20. JSONデータの読み込みで作成したload関数を利用しています。

実行結果

イギリス
イギリス連邦加盟国
英連邦王国
G8加盟国
欧州連合加盟国
海洋国家
現存する君主国
島国
1801年に成立した国家・領域