894171 ランダム
 HOME | DIARY | PROFILE 【フォローする】 【ログイン】

鶏が口だけでも飛び立ちます

鶏が口だけでも飛び立ちます

【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! --/--
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x

PR

Keyword Search

▼キーワード検索

Profile

Solis

Solis

Calendar

Comments

effelpist@ kilovermek.es effelpist <a href="https://kilovermek.es/…
http://buycialisky.com/@ Re:TinyURLのようなRedirectionの仕組み(06/30) viagra cialis predamdiferencias entre e…
http://viagraiy.com/@ Re:TinyURLのようなRedirectionの仕組み(06/30) cialis viagra ou levita <a href=&qu…
ジャピーノ@ フィリピンペソなど興味無し 日本でビジネスの手腕が発揮できない者は…
KJN@ MagpieRSSでRSSをHTMLに展開する方法を教えてください。 こんにちは! 最近はwordpressを使って、…
とおりすがり@ たしかに・・・。 この会社の社長さんはすばらしいかたです…
どぴゅ@ みんなホントにオナ鑑だけなの? 相互オナって約束だったけど、いざとなる…
お猿@ やっちまったなぁ! http://feti.findeath.net/rue-oo1/ ちょ…
もじゃもじゃ君@ 短小ち○こに興奮しすぎ(ワラ 優子ちゃんたら急に人気無い所で車を停め…
リナ@ 今日は苺ぱんちゅ http://kuri.backblack.net/ps82ouo/ 今…

Recent Posts

Archives

2024.10
2024.09
2024.08
2024.07
2024.06
2024.05
2024.04
2024.03
2024.02
2024.01

Category

Favorite Blog

偶然と誤解 New! にわとりのあたまさん

遍路と農業とFXの… おばか社長さん
田舎で!情報起業 … 田舎っぽ こと 関根雅泰さん
パンラヤー(妻)は… samo1965さん
アサワ(妻)はフィ… マハルナさん
     さ.ゆ.り.… さゆり1995さん
2008.03.06
XML
カテゴリ:起業

スクレイピングに興味を持ったいきさつと、その実現が困難なことを述べてみようと思う。

10年ほど昔からデータを取り込むために、一時的に加工することがある。
文字コードを変換したり、スペースをカンマに変えたり、数字にカンマを入れたりする。ちょっとしたプログラムを書けばできる。大昔は、awkを使ったり、PerlやPHPなどを使ってやる。古くはAppleScriptなどを使ってやったこともある。

ちょっとしたプログラム「1行プログラム」で実現する類だ。

手元にあるファイルではなくて、Webページを対象にするのはどうだろうかと、次に考える。

そのとき、オライリーのSpidering Hacksという本が出版された。世の中には同じことを考える人が山のようにいる。

だけど、仕事の片手間に必要に迫られてそのプログラムをつくるけれど、そのスクレイピングを専門にやる人はいない。ノウハウを積み上げれば、優位に立てると考えた。

独立してから時間があるので、楽天ブログのバックアップ用ソフトや「Cybozu、Desknets, Google Calendar対応スケジュール同期」ソフトをスクレイピングを使って作っていった。

一つ一つ手作りで作っていけばなんとかなるんだけれど、大きな山がいくつか見え始めていた。

  • 認証(IDでログインして情報を取得すること)
  • HTMLの変更への対応
  • 欲しいデータの特定(URIとWeb内の位置)

 

この中では認証が一番やっかいだ。

ログインしないと情報が取れない場合がある。これはデータの2次利用という規則違反の場合もあるが、「本人が目で見える情報を個人だけが利用するのは良いのではないか」という基準で考えるとぎりぎりいいのではないかととらえている。貴重なデータは会社のイントラネットの中にデータがある場合にどうにか取り出したいという顧客のニーズがあるかもしれない。

HTMLの変更への対応もやっかいだ。

企業がサービスとして公開している、Webページはときどき変更がある。
デザインを変えたり、アプリケーションを作り直したりする。その変更は、もちろん発信者の都合で、スクレイピングする方のことは一切考えない。突然で変更方法が通知されない(勝手にやっていることだから当然だ)。それをできれば自動的に修正すること、自動でなくても変更があったことを伝え、容易に修正できるようにしておくようにできればいい。

欲しいデータの特定も同様にやっかいだ。

表示されているWebの画面で、どの部分が欲しいデータだろうか?
それをWeb画面上で、これといって指定しなくてはいけない。そしてそのデータはどのように表示されているのかと示す必要がある。表なのか、数ページに現れるデータの一部なのか、そういったことを分析する必要がある。

 

結局、「人がブラウザを使ってWebにアクセスして情報を得る」という自然にやっていることをプログラムにやらせるのだが、そんなAI的なことは簡単に実現できるものではない。せめて、その一歩二歩前に何かやることがあるだろう、それで何かできないかということなんだ。

 

同じようなことを考えている会社があって、とてもよくできたサービスを行っている。

Dapper

http://www.dapper.net/ 

ここに負けたと思っていたが、結局作る人が異なると微妙に違う目的のものができるので、あきらめずにゆっくりと作り続けている。 

 






お気に入りの記事を「いいね!」で応援しよう

Last updated  2008.03.07 00:27:53
コメント(2) | コメントを書く



© Rakuten Group, Inc.
X