これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。
他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ
21. カテゴリ名を含む行を抽出
記事中でカテゴリ名を宣言している行を抽出せよ.
Pythonコード
import NLP100_20 import re data = NLP100_20.load() p = re.compile(r'^(.*\[\[Category.*\]\])$', re.MULTILINE) for l in p.findall(data): print(l)
20. JSONデータの読み込みで作成したload関数を利用しています。
実行結果
[[Category:イギリス|*]] [[Category:イギリス連邦加盟国]] [[Category:英連邦王国|*]] [[Category:G8加盟国]] [[Category:欧州連合加盟国|元]] [[Category:海洋国家]] [[Category:現存する君主国]] [[Category:島国]] [[Category:1801年に成立した国家・領域]]