自然言語処理100本ノック2020から逃げるな「21. カテゴリ名を含む行を抽出」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。
他の問題はこちら → 自然言語処理100本ノック2020から逃げるなまとめ

21. カテゴリ名を含む行を抽出

記事中でカテゴリ名を宣言している行を抽出せよ．

Pythonコード

import NLP100_20
import re

data = NLP100_20.load()
p = re.compile(r'^(.*\[\[Category.*\]\])$', re.MULTILINE)

for l in p.findall(data):
    print(l)

20. JSONデータの読み込みで作成したload関数を利用しています。

実行結果

[[Category:イギリス|*]]
[[Category:イギリス連邦加盟国]]
[[Category:英連邦王国|*]]
[[Category:G8加盟国]]
[[Category:欧州連合加盟国|元]]
[[Category:海洋国家]]
[[Category:現存する君主国]]
[[Category:島国]]
[[Category:1801年に成立した国家・領域]]