2007年11月21日水曜日

"Hyper Estraier"のjsessionid対策

スズキです。

Java-Webアプリケーションに対して、
"Hyper Estraier"でクロールしていると、
同じページなのに、jsessionidが違うということで、
別ページとみなされ、検索結果に、
実体が同じページが複数表示されてしまう問題に直面しました。

解決方法はクロールするときに、jsessionidの部分を
すべてカットした形にすることですが、
これを設定ファイルの調整で実現することができました。

対象となる設定ファイルは、
estwaver init hoge
で作成したhogeディレクトリ中の、
_confファイルです。

この中のreplace設定の部分を下記のように設定すると、
--------_conf
...
replace: %3Bjsessionid%3D.*hoge{{!}}
...
--------
%3Bjsessionid%3DE1DBF2D95B948F3499342CCD88C649FC.hoge
のようなjsessionidがカットされてクロールされます。
※"変換元の正規表現{{!}}変換先の文字列"といったフォーマットです。

全文検索は、みんなGoogleと比較してくるから、
対応が大変なんだよなー。

--
blog: http://suz-lab.blogspot.com/

0 コメント: