これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。
他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ
22. カテゴリ名の抽出
記事のカテゴリ名を(行単位ではなく名前で)抽出せよ.
Pythonコード
import NLP100_20 import re data = NLP100_20.load() p = re.compile(r'^.*\[\[Category:(.*?)(?:\|.*)?\]\]$', re.MULTILINE) for l in p.findall(data): print(l)
20. JSONデータの読み込みで作成したload関数を利用しています。
実行結果
イギリス イギリス連邦加盟国 英連邦王国 G8加盟国 欧州連合加盟国 海洋国家 現存する君主国 島国 1801年に成立した国家・領域