これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。
他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ
24. ファイル参照の抽出
記事から参照されているメディアファイルをすべて抜き出せ.
Pythonコード
import NLP100_20 import re data = NLP100_20.load() p = re.compile(r'ファイル:(.+?)(?:\||\])') for l in p.findall(data): print(l)
20. JSONデータの読み込みで作成したload関数を利用しています。
実行結果
Royal Coat of Arms of the United Kingdom.svg United States Navy Band - God Save the Queen.ogg Descriptio Prime Tabulae Europae.jpg Lenepveu, Jeanne d'Arc au siège d'Orléans.jpg London.bankofengland.arp.jpg Battle of Waterloo 1815.PNG Uk topo en.jpg BenNevis2005.jpg Population density UK 2011 census.png 2019 Greenwich Peninsula & Canary Wharf.jpg Birmingham Skyline from Edgbaston Cricket Ground crop.jpg Leeds CBD at night.jpg Glasgow and the Clyde from the air (geograph 4665720).jpg Palace of Westminster, London - Feb 2007.jpg Scotland Parliament Holyrood.jpg Donald Trump and Theresa May (33998675310) (cropped).jpg Soldiers Trooping the Colour, 16th June 2007.jpg City of London skyline from London City Hall - Oct 2008.jpg Oil platform in the North SeaPros.jpg Eurostar at St Pancras Jan 2008.jpg Heathrow Terminal 5C Iwelumo-1.jpg Airbus A380-841 G-XLEB British Airways (10424102995).jpg UKpop.svg Anglospeak.svg Royal Aberdeen Children's Hospital.jpg CHANDOS3.jpg The Fabs.JPG Wembley Stadium, illuminated.jpg