ruby
- 現時点での最新バージョン(2.1.5)
Padrino Framework
- 全部入りのRails とシンプルな Sinatra の中間くらいのフレームワーク
- ウェブを使わないのでpadrinoはおろかsinatraすら不要だったのですが、スキーマのmigrationを自前で実装するのが嫌だったのでpadrino使ってます
Heroku

HTMLのスクレイピング

Mechanize を使ってます。

メリット
- 軽い
- Ruby単体で動く
デメリット
- htmlのbodyのparseしかしないので、jsでDOMが操作されている場合には使えない

Ajaxがふんだんに使われたページをスクレイピングするには phantomjs + Capybara + poltergeist の組み合わせが鉄板だと思います。（が、phantomjsはデバッグしづらいのが。。。）

参考

実際のソースコードで解説します

https://github.com/sue445/ccc_privacy_crawler/blob/672bc0dbe8c88f431603b4913c2d1236df6e2d99/lib/workers/pdf_crawl_worker.rb#L28-39

  def download_ccc_pdf(dest_pdf_file)
    # mechanizeのインスタンスを初期化
    agent = Mechanize.new

    # http://qa.tsite.jp/faq/show/25129 を開く
    agent.get("http://qa.tsite.jp/faq/show/25129")

    # <a href="/attachment_file/〜.pdf"> のようなリンクを探す
    download_link = agent.page.link_with(href: %r(/attachment_file/.+\.pdf))

    # リンクが見つからなければエラー
    raise "Not found download_link" unless download_link

    # リンク先のPDFをダウンロードしてファイルに保存する
    pdf_content = agent.get_file(download_link.href)
    File.open(dest_pdf_file, "wb") do |file|
      file.write(pdf_content)
    end
  end

pdfのスクレイピング

pdf-reader というgemを使ってます。

pdfをrubyから読むためのgemはいくつか使ってみたのですが、今回はこのgemじゃないとうまくテキストで取得出来ませんでした。（cccのpdfはExcelをpdfに変換してるみたいなのですが、他のgemだとセルの中のテキストが列単位でしか取得できない。pdf-readerだとpdfとしてレンダリングされる時の実際の座標もある程度考慮してくれる模様）

ダウンロードしたpdfをテキストで読み込む

https://github.com/sue445/ccc_privacy_crawler/blob/672bc0dbe8c88f431603b4913c2d1236df6e2d99/lib/workers/pdf_crawl_worker.rb#L65-74

  def read_pdf(pdf_file)
    pdf_content = ""

    reader = PDF::Reader.new(pdf_file)
    reader.pages.each do |page|
      pdf_content << page.text
    end

    pdf_content
  end

これ自体は特別なことをしていないんですが、そのままだと下記のようにpdf内の日付がうまく取得できませんでした

1 TSUTAYA・蔦屋書店                      2014/10/2提携先：TSUTAYAフランチャイズチェーン加盟企業
2 ＪＸ日鉱日石エネルギー株式会社                   2014/10/2提携先：ENEOS
3 株式会社アプラス                          2014/10/2提携サービス：Tカードプラス， Tカードプラスα ，TSUTAYAWカード
4 株式会社Ｍｉｓｕｍｉ                        2014/10/2提携先：BOOKSmisumi，Misumiグループ（ガス・水）
5 ＪＲ九州ドラッグイレブン株式会社                  2014/10/2提携先：ドラッグイレブン

モンキーパッチで文字描画の位置を無理矢理変えて対応してます。

https://github.com/sue445/ccc_privacy_crawler/blob/672bc0dbe8c88f431603b4913c2d1236df6e2d99/lib/pdf-reader.rb

class PDF::Reader::PageLayout
  # fix rate: 1.05 -> 1.5
  def col_count
    @col_count ||= ((@page_width  / @mean_glyph_width) * 1.5).floor
  end
end

pdfを文字列で取得でした後は正規表現でparseしてます

https://github.com/sue445/ccc_privacy_crawler/blob/672bc0dbe8c88f431603b4913c2d1236df6e2d99/lib/workers/pdf_crawl_worker.rb#L41-62

  def parse_ccc_pdf(pdf_file)
    companies = []
    read_pdf(pdf_file).each_line do |line|
      line = line.strip

      matched_data = %r(
        ^(?<no>[0-9]+)\s*
        (?<company_name>.+)\s*
        (?<receipted_date>[0-9]{4}/[0-9]{1,2}/[0-9]{1,2})
        (?<destination_name>.+)$)x.match(line)
      next unless matched_data

      companies << Company.new(
        no:               matched_data[:no].to_i,
        company_name:     matched_data[:company_name].strip,
        receipted_date:   matched_data[:receipted_date].strip,
        destination_name: matched_data[:destination_name].strip,
      )
    end

    companies
  end

ソースコード中の正規表現の

%r(
^(?<no>[0-9]+)\s*
(?<company_name>.+)\s*
(?<receipted_date>[0-9]{4}/[0-9]{1,2}/[0-9]{1,2})
(?<destination_name>.+)$)x.match(line)

は

/^([0-9]+)\s*(.+)\s*([0-9]{4}\/[0-9]{1,2}\/[0-9]{1,2})(.+)$/ =~ line

と同等ですが下記のような工夫があります

$1 や $2 だと分かりづらいので (?<no>[0-9]+) や (?<company_name>.+) のように名前付きキャプチャを使う
- http://docs.ruby-lang.org/ja/2.1.0/doc/spec=2fregexp.html
/〜/ だと正規表現内にスラッシュがあるとエスケープしないといけないので %r(〜) を使う
- http://docs.ruby-lang.org/ja/2.1.0/doc/spec=2fliteral.html#regexp

クローラ

Heroku Scheduler だと1日1回以上cronを動かすには有料になりますが、sidekiq-cron で自前でcronすることで無料枠で30分に1回cronを動かしています

詳しくはこちらを参照

sidekiqでcron処理を行うにはいくつかgemがありますが、starの数で比較するとsidetiqがメジャーみたいですね。

sidekiq-cron 79 star
sidekiq-scheduler 78 star
sidetiq 836 star

今回は会社で使い慣れていたsidekiq-cronを使いました。

追記：2015/12/6

Herokuの料金体系が変わってインスタンスを24時間フル稼働する方式だとお金がかかるようになり、Heroku Schedulerも1時間に1回の実行も無料になっていたので、sidekiq-cronはやめてHeroku Schedulerでrakeタスクを実行するようにしています

f:id:sue445:20151206005941p:plain

Herokuのアドオン一覧

f:id:sue445:20141207023701p:plain

Deploy Hooks
- デプロイした時にRollbarに通知を送るためのwebhook（が、半日遅れくらいでRollbarからSlackに通知がくるのであてにならないｗ）
- Rollbar - Tracking Deploys with Heroku
Heroku Postgres
- pdfからparseした会社情報を保存する先のデータベース
New Relic
- アプリケーションのパフォーマンス解析。無料なので入れたけどボットだから意味なかったｗ
Papertrail
- アプリのログをwebから見るためのアドオン
Redis Cloud
- sidekiqを使うためのKVS
- 他に Redis To Go もあったのですが無料枠どうしだとRedis Cloudの方がスペック高かったのでこっちを使ってます。(Redis Cloudだとメモリ25MBでRedis To Goだと5MB)
Rollbar
- エラー検知
- 無料枠だと他に Bugsnag があったんですが同じ無料枠どうしだと月に受信できるエラーの件数が多いRollbarを選択(Rollbarが3000件でBugsnagが100件)