リンクの抽出がバグっている #130

PharaohKJ · 2016-09-03T09:07:08Z

閉じ括弧が含まれてしまうようだ

例

石川県休日当番医情報を(http://i-search.pref.ishikawa.jp/toban/index.php?a=3) スクレイピングサービスkimonolabを使ってAPI化していましたが、kimonolab終了に伴いサービスが停止しております。

PharaohKJ · 2016-09-04T06:05:14Z

Rubyの標準ライブラリを使ってます

irb(main):008:0> URI.extract('(http://a.b.c/index)')
=> ["http://a.b.c/index)"]

この動きは、RFC的に正しいです

RFCの定義では ) はURI としてありえるとあります。

真面目に対応することを考えると抽出時に抽出したURLが404か確認し、404の場合は
予想してあれこれする、という対応になりそうですが、手間かかるのでいったんこのままで

PharaohKJ added the enhancement label Sep 4, 2016

Provide feedback