894534 ランダム
 HOME | DIARY | PROFILE 【フォローする】 【ログイン】

鶏が口だけでも飛び立ちます

鶏が口だけでも飛び立ちます

【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! --/--
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x

PR

Keyword Search

▼キーワード検索

Profile

Solis

Solis

Calendar

Comments

effelpist@ kilovermek.es effelpist <a href="https://kilovermek.es/…
http://buycialisky.com/@ Re:TinyURLのようなRedirectionの仕組み(06/30) viagra cialis predamdiferencias entre e…
http://viagraiy.com/@ Re:TinyURLのようなRedirectionの仕組み(06/30) cialis viagra ou levita <a href=&qu…
ジャピーノ@ フィリピンペソなど興味無し 日本でビジネスの手腕が発揮できない者は…
KJN@ MagpieRSSでRSSをHTMLに展開する方法を教えてください。 こんにちは! 最近はwordpressを使って、…
とおりすがり@ たしかに・・・。 この会社の社長さんはすばらしいかたです…
どぴゅ@ みんなホントにオナ鑑だけなの? 相互オナって約束だったけど、いざとなる…
お猿@ やっちまったなぁ! http://feti.findeath.net/rue-oo1/ ちょ…
もじゃもじゃ君@ 短小ち○こに興奮しすぎ(ワラ 優子ちゃんたら急に人気無い所で車を停め…
リナ@ 今日は苺ぱんちゅ http://kuri.backblack.net/ps82ouo/ 今…

Recent Posts

Archives

2024.10
2024.09
2024.08
2024.07
2024.06
2024.05
2024.04
2024.03
2024.02
2024.01

Category

Favorite Blog

歳とりすぎて、、 New! にわとりのあたまさん

遍路と農業とFXの… おばか社長さん
田舎で!情報起業 … 田舎っぽ こと 関根雅泰さん
パンラヤー(妻)は… samo1965さん
アサワ(妻)はフィ… マハルナさん
     さ.ゆ.り.… さゆり1995さん
2007.10.31
XML
カテゴリ:未踏

未踏の中間合宿を終えて、ちょっと中だるみ状態である。
自分の仕事の先が見えてきたというか、もうこれぐらいでいいかなと感じて
きたか。技術的な困難な点は、あと1点のみ。

フレームを使ったエキスパートシステムの構築である。
HTMLを読み取って、それがどんなページであるかを判断して、どこに入力す
るべき要素があり、どこに出力するべき要素があるかを判断するプログラム
である。

入力するべき部分は、2種類。
(1) Formタグの中のInputの項目
(2) URIのパスが既に商品番号などである場合が多いので、パス

出力する可能性のあるところは判断するところが難しいが、Webページの本
文か、一覧(リスト)であることが多い。メニュー部分だったらメニューそ
のものとなる。

一覧は、タグが使われていれば話が早いがテーブルで構成されているか
もしれない。本文だって何が本文かは人が見ればすぐわかるが、HTMLのコー
ドを覗き込んでどれだっていうのは難しい。

いずれも判断は100%とはいかないだろう。


そしてそのWebページが、どんな種類のページあるかを判断するのは、上記
のように入力要素があるか、本文が大半を占めるか、リストがあるかによ
る。逆に入力要素があれば、ログイン画面か入力画面、リストがあれば一覧
画面、本文があれば詳細記事というように判断できる。


これらの判断をするために、HTMLのDOM構造が入力データとなり、プログラ
ム中にifという条件文が100以上積み上げられるようになる。たくさんの条
件分岐があると人間はそれが正しいかどうかデバッグが大変になる。そこ
で、ルールエンジン(プロダクションシステム)という条件文を扱いやすく
したプログラミング言語が出てくるのである。

これによって構築されたプログラムを、エキスパートシステムという。

私も修士論文のときに、if文が数十個ぐらいのものに相当するものを作っ
た。わけがわからなくなる直前だったが、、、


これからHTML解析のためのエキスパートシステムを構築して、スクレイピン
グに役立てようと思うが、、、あと1ヶ月。間に合うかな。。。


ただ人間が理解できるぐらいのif文の塊ではあまり意味がない。
我々が理解できなくなるぐらいのif文となって、予想外の答えであるが、結
果として私たちが予想したものよりも正しい解答だったとわかって、初めて
価値がある。


ちなみに10年ちょっと前の修士論文のときは、CLIPSというLISPライクなも
のを使った。今でも細々と開発していることがわかってうれしい。Javaでは
CLIPS互換から発展中のJess、私の未踏プロジェクトではRubyで開発してく
れているRulebyというのを使う予定だ。

CLIPS http://www.ghg.net/clips/CLIPS.html
Jess http://www.jessrules.com/
Ruleby http://ruleby.org/



他にもいろいろあるけれど、JBossに吸収されたDroolsが有名かな、って誰もしらないよ。

しかしずっと人工知能にこだわっているなぁ。。。。これがやりたいがために未踏に応募したのだが間に合うかなぁ偶然ではるが、畑PMが社長を勤めておられるサイボウズラボの中谷さんもWebの本文抽出というプログラムも書かれている。
http://labs.cybozu.co.jp/blog/nakatani/2007/09/web_1.html






お気に入りの記事を「いいね!」で応援しよう

Last updated  2007.10.31 16:27:50
コメント(0) | コメントを書く



© Rakuten Group, Inc.
X