|
カテゴリ:起業
スクレイピングに興味を持ったいきさつと、その実現が困難なことを述べてみようと思う。 10年ほど昔からデータを取り込むために、一時的に加工することがある。 ちょっとしたプログラム「1行プログラム」で実現する類だ。 手元にあるファイルではなくて、Webページを対象にするのはどうだろうかと、次に考える。 そのとき、オライリーのSpidering Hacksという本が出版された。世の中には同じことを考える人が山のようにいる。 だけど、仕事の片手間に必要に迫られてそのプログラムをつくるけれど、そのスクレイピングを専門にやる人はいない。ノウハウを積み上げれば、優位に立てると考えた。 独立してから時間があるので、楽天ブログのバックアップ用ソフトや「Cybozu、Desknets, Google Calendar対応スケジュール同期」ソフトをスクレイピングを使って作っていった。 一つ一つ手作りで作っていけばなんとかなるんだけれど、大きな山がいくつか見え始めていた。
この中では認証が一番やっかいだ。 ログインしないと情報が取れない場合がある。これはデータの2次利用という規則違反の場合もあるが、「本人が目で見える情報を個人だけが利用するのは良いのではないか」という基準で考えるとぎりぎりいいのではないかととらえている。貴重なデータは会社のイントラネットの中にデータがある場合にどうにか取り出したいという顧客のニーズがあるかもしれない。 HTMLの変更への対応もやっかいだ。 企業がサービスとして公開している、Webページはときどき変更がある。 欲しいデータの特定も同様にやっかいだ。 表示されているWebの画面で、どの部分が欲しいデータだろうか?
結局、「人がブラウザを使ってWebにアクセスして情報を得る」という自然にやっていることをプログラムにやらせるのだが、そんなAI的なことは簡単に実現できるものではない。せめて、その一歩二歩前に何かやることがあるだろう、それで何かできないかということなんだ。
同じようなことを考えている会社があって、とてもよくできたサービスを行っている。 Dapper ここに負けたと思っていたが、結局作る人が異なると微妙に違う目的のものができるので、あきらめずにゆっくりと作り続けている。
お気に入りの記事を「いいね!」で応援しよう
[起業] カテゴリの最新記事
|