Luhnの要約アルゴリズムの本処理

Luhnの要約アルゴリズムの前処理の続き。 記事本文を"。"で分割して文のリストにし、さらに英語を小文字化したのがnormalized_sents(以下、sents)だった。 ここでは、分割された各文がどのようにスコア付けされるかを見ていく。 文を単語に分割する 今回は…

Luhnの要約アルゴリズムの前処理

入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック作者: Matthew A. Russell,奥野陽(監訳),佐藤敏紀(監訳),瀬戸口光宏(監訳),原川浩一(監訳),水野貴明(監訳),長尾高弘出版社/メーカー: オライリージャパン発売日: 2011/11/26メ…

簡易的な日本語ストップワードの取得メソッド

それほど厳密に調査した訳ではないが、NLTKのコーパスには日本語のストップワードが存在しないようで、多くの人は SlothLib を利用している、という印象をWebから受けた。 SlothLibのように単語ベースでストップワードを定義している一方で、 IBM Content An…

MeCab-Pythonで分かち書きと形態素解析

MeCabでwakatiとchasenを使うと、それぞれ分かち書きと形態素解析ができる。 これらの結果を利用しやすくするために、前者は単語のリスト、後者は単語と品詞のセットのリストとして取得できるようにした。 分かち書き まずはMeCabの使い方から。最初は分かち…

新規リポジトリー同期のためのGitHub Desktop

GitHub Desktopを使って、GitHubで作った新規リポジトリーをローカルと同期させるための手順をまとめた。 手順 ローカルでファイル作成 GitHubでリポジトリー作成 GitHubのリポジトリーにファイルをアップロード GitHub DesktopでGitHubのリポジトリーをクロ…

GIGAZINEの記事をPythonでスクレイピング

前回、 GIGAZINEのRSSをDBに保存した。今回はソースから本文を抽出してDBに保存する。 urllib2でソースを取得 リンクからソースを取得するには、urllib2.urlopen()を使うのが早い。 articleのlinkを渡す。取得したソースは、idをファイル名にして保存する。 …

GIGAZINEのRSSをPythonで読み込む

毎日読んでいるGIGAZINEをなんとかもっと効率的に読めないかと常日頃思ってる。 とりあえず、PythonでRSSだけでも読み込んでみようとした記録を書いておく。 feedparserでRSSを取得 feedparserを使うとRSSから記事を取得してくれる。 各記事については、次の…

PythonからMongoDBをCRUD操作

MongoDBはHomebrewで、pymongoはpipでインストールすれば使える。 Create 前半は定型文。 datebaseとcollectionは、client.my_database.my_collectionでも作れる。 でも、のちのち名前を自由に付けたくなると思うのでStringを使った。 データはjsonライクな…

Homebrewがアップデートできない時の対処法

しばらくHomebrewを使っていなくて、mongodbを使うために久々にコマンドを打ったらエラーが出た。 $ brew update /usr/local/bin/brew: /usr/local/Library/brew.rb: /System/Library/Frameworks/Ruby.framework/Versions/1.8/usr/bin/ruby: bad interpreter…

python-firebaseでCRUD操作

Python経由でFirebaseのDBを操作することができるので、CRUD操作の方法をまとめた。 インストール pipでrequestsとpython-firebaseをインストール。 python-firebase 1.2のチュートリアルだと、requestsのバージョン指定がある。 でも僕の場合、既にインスト…

FirebaseのApiKeyとAppIDはHTMLソースにコピペしてもセキュア

FirebaseのWebアプリ作成チュートリアルでは、ApiKeyやAppIDなどの情報をhtmlソースにコピペすることなっている。 これらの情報が公開されることに少し抵抗があったので、焼け石に水だが、これらの情報は別のjavascriptファイルにして、 htmlから呼び出す仕…

Firebase入門に最適な記事とリアルタイムデータベース体験

Firebaseとは?から簡単なWebアプリをホスティングサーバーにデプロイするまでは、 Firebaseの始め方が分りやすかった。 入門はこれだけ読めばOKだと思う。 リアルタイムデータベース 自分でも同様のアプリを作って、Firebaseの最も大きな特徴でリアルタイム…

Macでnpmを使う

Firebaseを始めようとしたら、npmコマンドが見当たらない、と言われ出鼻をくじかれた。 $ npm install -g firebase-tools -bash: npm: command not found 調べてみたら、Node.jsの管理ツールとのこと。 Pythonでいうところのpipみたいなものか、と理解して、…

ネット切断頻度が高くなってきたので、ルーターのファームウェアをアップデートした

Netflixを見ていると、たまに字幕が現れなくなることがあった。原因は、ルーターの不具合でネットが切断されていたためで、これは一度ルーターの電源を落として再起動させることで解決できていた。しかし、最近は1日数回と頻度が高くなり、とても快適なイン…

AtomのMarkdown Previewをgithubっぽく表示

Markdown Previewを使いたくてAtomを入れたのだが、mdファイルのテーマそのままだったので、githubっぽく表示させるために以下の設定を行った。 設定 Atom > Preferences > Packages Input 'markdown-preview' to textbox and Enter Click 'Setting' button …

AtomをSublime Textっぽく使うための設定

いま使ってる Sublime Text と同じような環境になるよう Atom を設定した。パッケージなどの詳細は参考文献を参照。 インストールしたもの Packages minimap file-icons highlight-line atom-beautify linter term3 highlight-selected tag Japanese Wrap sh…