2016-10-02から1日間の記事一覧

GIGAZINEの記事をPythonでスクレイピング

前回、 GIGAZINEのRSSをDBに保存した。今回はソースから本文を抽出してDBに保存する。 urllib2でソースを取得 リンクからソースを取得するには、urllib2.urlopen()を使うのが早い。 articleのlinkを渡す。取得したソースは、idをファイル名にして保存する。 …