自然言語処理100本ノック2020

自然言語処理100本ノック2020から逃げるな「40. 係り受け解析結果の読み込み(形態素)」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 40. 係り受け解析結果の読み込み(形態素) 形態素を表すクラスMorphを実装せよ.このクラスは表層形(surface),基本…

自然言語処理100本ノック2020から逃げるな「39. Zipfの法則」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 39. Zipfの法則 単語の出現頻度順位を横軸,その出現頻度を縦軸として,両対数グラフをプロットせよ.j Pythonコード i…

自然言語処理100本ノック2020から逃げるな「38. ヒストグラム」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 38. ヒストグラム 単語の出現頻度のヒストグラム(横軸に出現頻度,縦軸に出現頻度をとる単語の種類数を棒グラフで表し…

自然言語処理100本ノック2020から逃げるな「37. 「猫」と共起頻度の高い上位10語」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 37. 「猫」と共起頻度の高い上位10語 「猫」とよく共起する(共起頻度が高い)10語とその出現頻度をグラフ(例えば棒グ…

自然言語処理100本ノック2020から逃げるな「36. 頻度上位10語」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 36. 頻度上位10語 出現頻度が高い10語とその出現頻度をグラフ(例えば棒グラフなど)で表示せよ. Pythonコード import…

自然言語処理100本ノック2020から逃げるな「35. 単語の出現頻度」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 35. 単語の出現頻度 文章中に出現する単語とその出現頻度を求め,出現頻度の高い順に並べよ. Pythonコード import NLP…

自然言語処理100本ノック2020から逃げるな「34. 名詞の連接」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 34. 名詞の連接 名詞の連接(連続して出現する名詞)を最長一致で抽出せよ. Pythonコード import NLP100_30 sentence_…

自然言語処理100本ノック2020から逃げるな「33. 「AのB」」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 33. 「AのB」 2つの名詞が「の」で連結されている名詞句を抽出せよ. Pythonコード import re import NLP100_30 senten…

自然言語処理100本ノック2020から逃げるな「32. 動詞の原形」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 32. 動詞の原形 動詞の原形をすべて抽出せよ Pythonコード import NLP100_30 sentence_list = NLP100_30.get_morpheme(…

自然言語処理100本ノック2020から逃げるな「31. 動詞」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 31. 動詞 動詞の表層形をすべて抽出せよ. Pythonコード import NLP100_30 sentence_list = NLP100_30.get_morpheme() …

自然言語処理100本ノック2020から逃げるな「30. 形態素解析結果の読み込み」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 30. 形態素解析結果の読み込み 形態素解析結果(neko.txt.mecab)を読み込むプログラムを実装せよ.ただし,各形態素は…

自然言語処理100本ノック2020から逃げるな「29. 国旗画像のURLを取得する」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 29. 国旗画像のURLを取得する テンプレートの内容を利用し,国旗画像のURLを取得せよ.(ヒント: MediaWiki APIのimage…

自然言語処理100本ノック2020から逃げるな「28. MediaWikiマークアップの除去」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 28. MediaWikiマークアップの除去 27の処理に加えて,テンプレートの値からMediaWikiマークアップを可能な限り除去し,…

自然言語処理100本ノック2020から逃げるな「27. 内部リンクの除去」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 27. 内部リンクの除去 26の処理に加えて,テンプレートの値からMediaWikiの内部リンクマークアップを除去し,テキスト…

自然言語処理100本ノック2020から逃げるな「26. 強調マークアップの除去」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 26. 強調マークアップの除去 25の処理時に,テンプレートの値からMediaWikiの強調マークアップ(弱い強調,強調,強い…

自然言語処理100本ノック2020から逃げるな「25. テンプレートの抽出」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 25. テンプレートの抽出 記事中に含まれる「基礎情報」テンプレートのフィールド名と値を抽出し,辞書オブジェクトとし…

自然言語処理100本ノック2020から逃げるな「24. ファイル参照の抽出」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 24. ファイル参照の抽出 記事から参照されているメディアファイルをすべて抜き出せ. Pythonコード import NLP100_20 i…

自然言語処理100本ノック2020から逃げるな「23. セクション構造」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 23. セクション構造 記事中に含まれるセクション名とそのレベル(例えば”== セクション名 ==”なら1)を表示せよ. Pyth…

自然言語処理100本ノック2020から逃げるな「22. カテゴリ名の抽出」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 22. カテゴリ名の抽出 記事のカテゴリ名を(行単位ではなく名前で)抽出せよ. Pythonコード import NLP100_20 import …

自然言語処理100本ノック2020から逃げるな「21. カテゴリ名を含む行を抽出」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 21. カテゴリ名を含む行を抽出 記事中でカテゴリ名を宣言している行を抽出せよ. Pythonコード import NLP100_20 impor…

自然言語処理100本ノック2020から逃げるな「20. JSONデータの読み込み」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 20. JSONデータの読み込み Wikipedia記事のJSONファイルを読み込み,「イギリス」に関する記事本文を表示せよ.問題21-…

自然言語処理100本ノック2020から逃げるな「19. 各行の1コラム目の文字列の出現頻度を求め,出現頻度の高い順に並べる」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 19. 各行の1コラム目の文字列の出現頻度を求め,出現頻度の高い順に並べる 各行の1列目の文字列の出現頻度を求め,その…

自然言語処理100本ノック2020から逃げるな「18. 各行を3コラム目の数値の降順にソート」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 18. 各行を3コラム目の数値の降順にソート 各行を3コラム目の数値の逆順で整列せよ(注意: 各行の内容は変更せずに並び…

自然言語処理100本ノック2020から逃げるな「17. 1列目の文字列の異なり」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 17. 1列目の文字列の異なり 1列目の文字列の種類(異なる文字列の集合)を求めよ.確認にはcut, sort, uniqコマンドを…

自然言語処理100本ノック2020から逃げるな「16. ファイルをN分割する」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 16. ファイルをN分割する 自然数Nをコマンドライン引数などの手段で受け取り,入力のファイルを行単位でN分割せよ.同…

自然言語処理100本ノック2020から逃げるな「15. 末尾のN行を出力」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 15. 末尾のN行を出力 自然数Nをコマンドライン引数などの手段で受け取り,入力のうち末尾のN行だけを表示せよ.確認に…

自然言語処理100本ノック2020から逃げるな「14. 先頭からN行を出力」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 14. 先頭からN行を出力 自然数Nをコマンドライン引数などの手段で受け取り,入力のうち先頭のN行だけを表示せよ.確認…

自然言語処理100本ノック2020から逃げるな「13. col1.txtとcol2.txtをマージ」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 13. col1.txtとcol2.txtをマージ 12で作ったcol1.txtとcol2.txtを結合し,元のファイルの1列目と2列目をタブ区切りで並…

自然言語処理100本ノック2020から逃げるな「12. 1列目をcol1.txtに,2列目をcol2.txtに保存」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 12. 1列目をcol1.txtに,2列目をcol2.txtに保存 各行の1列目だけを抜き出したものをcol1.txtに,2列目だけを抜き出した…

自然言語処理100本ノック2020から逃げるな「11. タブをスペースに置換」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 11. タブをスペースに置換 タブ1文字につきスペース1文字に置換せよ.確認にはsedコマンド,trコマンド,もしくはexpan…