2020-05-22から1日間の記事一覧

UbuntuでGitHubのSSH接続設定

WindowsのWSL環境で行いました。 $ cd ~/.ssh $ ssh-keygen -t rsa Generating public/private rsa key pair. Enter file in which to save the key (/home/shoi/.ssh/id_rsa): Enter passphrase (empty for no passphrase): Enter same passphrase again: $…

自然言語処理100本ノック2020から逃げるな「29. 国旗画像のURLを取得する」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 29. 国旗画像のURLを取得する テンプレートの内容を利用し,国旗画像のURLを取得せよ.(ヒント: MediaWiki APIのimage…

自然言語処理100本ノック2020から逃げるな「28. MediaWikiマークアップの除去」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 28. MediaWikiマークアップの除去 27の処理に加えて,テンプレートの値からMediaWikiマークアップを可能な限り除去し,…

自然言語処理100本ノック2020から逃げるな「27. 内部リンクの除去」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 27. 内部リンクの除去 26の処理に加えて,テンプレートの値からMediaWikiの内部リンクマークアップを除去し,テキスト…

自然言語処理100本ノック2020から逃げるな「26. 強調マークアップの除去」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 26. 強調マークアップの除去 25の処理時に,テンプレートの値からMediaWikiの強調マークアップ(弱い強調,強調,強い…

自然言語処理100本ノック2020から逃げるな「25. テンプレートの抽出」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 25. テンプレートの抽出 記事中に含まれる「基礎情報」テンプレートのフィールド名と値を抽出し,辞書オブジェクトとし…

自然言語処理100本ノック2020から逃げるな「24. ファイル参照の抽出」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 24. ファイル参照の抽出 記事から参照されているメディアファイルをすべて抜き出せ. Pythonコード import NLP100_20 i…

自然言語処理100本ノック2020から逃げるな「23. セクション構造」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 23. セクション構造 記事中に含まれるセクション名とそのレベル(例えば”== セクション名 ==”なら1)を表示せよ. Pyth…

自然言語処理100本ノック2020から逃げるな「22. カテゴリ名の抽出」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 22. カテゴリ名の抽出 記事のカテゴリ名を(行単位ではなく名前で)抽出せよ. Pythonコード import NLP100_20 import …

自然言語処理100本ノック2020から逃げるな「21. カテゴリ名を含む行を抽出」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 21. カテゴリ名を含む行を抽出 記事中でカテゴリ名を宣言している行を抽出せよ. Pythonコード import NLP100_20 impor…

自然言語処理100本ノック2020から逃げるな「20. JSONデータの読み込み」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 20. JSONデータの読み込み Wikipedia記事のJSONファイルを読み込み,「イギリス」に関する記事本文を表示せよ.問題21-…

自然言語処理100本ノック2020から逃げるな「19. 各行の1コラム目の文字列の出現頻度を求め,出現頻度の高い順に並べる」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 19. 各行の1コラム目の文字列の出現頻度を求め,出現頻度の高い順に並べる 各行の1列目の文字列の出現頻度を求め,その…

自然言語処理100本ノック2020から逃げるな「18. 各行を3コラム目の数値の降順にソート」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 18. 各行を3コラム目の数値の降順にソート 各行を3コラム目の数値の逆順で整列せよ(注意: 各行の内容は変更せずに並び…

自然言語処理100本ノック2020から逃げるな「17. 1列目の文字列の異なり」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 17. 1列目の文字列の異なり 1列目の文字列の種類(異なる文字列の集合)を求めよ.確認にはcut, sort, uniqコマンドを…

自然言語処理100本ノック2020から逃げるな「16. ファイルをN分割する」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 16. ファイルをN分割する 自然数Nをコマンドライン引数などの手段で受け取り,入力のファイルを行単位でN分割せよ.同…

自然言語処理100本ノック2020から逃げるな「15. 末尾のN行を出力」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 15. 末尾のN行を出力 自然数Nをコマンドライン引数などの手段で受け取り,入力のうち末尾のN行だけを表示せよ.確認に…

自然言語処理100本ノック2020から逃げるな「14. 先頭からN行を出力」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 14. 先頭からN行を出力 自然数Nをコマンドライン引数などの手段で受け取り,入力のうち先頭のN行だけを表示せよ.確認…

自然言語処理100本ノック2020から逃げるな「13. col1.txtとcol2.txtをマージ」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 13. col1.txtとcol2.txtをマージ 12で作ったcol1.txtとcol2.txtを結合し,元のファイルの1列目と2列目をタブ区切りで並…

自然言語処理100本ノック2020から逃げるな「12. 1列目をcol1.txtに,2列目をcol2.txtに保存」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 12. 1列目をcol1.txtに,2列目をcol2.txtに保存 各行の1列目だけを抜き出したものをcol1.txtに,2列目だけを抜き出した…

自然言語処理100本ノック2020から逃げるな「11. タブをスペースに置換」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 11. タブをスペースに置換 タブ1文字につきスペース1文字に置換せよ.確認にはsedコマンド,trコマンド,もしくはexpan…

自然言語処理100本ノック2020から逃げるな まとめ

これは自然言語処理100本ノック2020に挑んだとある人間の物語。 1章 00. 文字列の逆順 01.「パタトクカシーー」 02. 「パトカー」+「タクシー」=「パタトクカシーー」 03. 円周率 04. 元素記号 05. n-gram 06. 集合 07. テンプレートによる文生成 08. 暗…

自然言語処理100本ノック2020から逃げるな「10. 行数のカウント」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 10. 行数のカウント 行数をカウントせよ.確認にはwcコマンドを用いよ. Pythonコード import sys filepath = sys.argv…

自然言語処理100本ノック2020から逃げるな「09. Typoglycemia」

自然言語処理100本ノック2020の挑戦記録です。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 09. Typoglycemia スペースで区切られた単語列に対して,各単語の先頭と末尾の文字は残し,それ以外の文字の順序をランダムに並び替えるプ…

自然言語処理100本ノック2020から逃げるな「08. 暗号文」

自然言語処理100本ノック2020の挑戦記録です。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 08. 暗号文 与えられた文字列の各文字を,以下の仕様で変換する関数cipherを実装せよ. 英小文字ならば(219 - 文字コード)の文字に置換 そ…

自然言語処理100本ノック2020から逃げるな「07. テンプレートによる文生成」

自然言語処理100本ノック2020の挑戦記録です。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 07. テンプレートによる文生成 引数x, y, zを受け取り「x時のyはz」という文字列を返す関数を実装せよ.さらに,x=12, y=”気温”, z=22.4と…

自然言語処理100本ノック2020から逃げるな「06. 集合」

自然言語処理100本ノック2020の挑戦記録です。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 06. 集合 “paraparaparadise”と”paragraph”に含まれる文字bi-gramの集合を,それぞれ, XとYとして求め,XとYの和集合,積集合,差集合を求…

自然言語処理100本ノック2020から逃げるな「05. n-gram」

自然言語処理100本ノック2020の挑戦記録です。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 05. n-gram 与えられたシーケンス(文字列やリストなど)からn-gramを作る関数を作成せよ.この関数を用い,”I am an NLPer”という文から…

自然言語処理100本ノック2020から逃げるな「04. 元素記号」

自然言語処理100本ノック2020の挑戦記録です。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 04. 元素記号 “Hi He Lied Because Boron Could Not Oxidize Fluorine. New Nations Might Also Sign Peace Security Clause. Arthur King…

自然言語処理100本ノック2020から逃げるな「03. 円周率」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 03. 円周率 “Now I need a drink, alcoholic of course, after the heavy lectures involving quantum mechanics.”とい…

自然言語処理100本ノック2020から逃げるな「02. 「パトカー」+「タクシー」=「パタトクカシーー」」

これは自然言語処理100本ノック2020に挑んだ、とある人間の記録。 他の問題はこちら → 自然言語処理100本ノック2020から逃げるな まとめ 02. 「パトカー」+「タクシー」=「パタトクカシーー」 「パトカー」+「タクシー」の文字を先頭から交互に連結して文…