あいまい検索に対応した書誌検索端末

4月 28th, 2004
[`evernote` not found]
Facebook にシェア

三省堂書店が、日本IBMの検索用ソフトウェアを利用して店頭検索端末であいまい検索機能を実現した(CNET Japan)というニュース。記事によれば、

全角/半角や大文字/小文字の違い、長音記号の有無、「ヂ」や「ジ」など濁音の相違、誤記など、表記方法の揺れを吸収するという負荷の高い検索処理を高速処理できるようになったという。例えば、「芥川龍之介」で探す場合、「竜之介」や「龍之助」と間違った入力をしても、全著作を1秒以内に検索できた。

とのこと。
実際に三省堂書店神田本店で触ってみた。確かに、レスポンスが驚くほど速い。これまでの書誌検索端末とは、レベルの違う操作感だ。試しに「バイオリン」が書名に含まれる書籍を検索してみると、「ヴァイオリン」などを含むものも検索される。ただし、「バイリンガル」を含むものも結果に含まれていた。これはバグではなく、少しの打ち間違えは許容する仕様になっているからだろう。記事では漢字の打ち間違えにも対応すると書いてあるが、客が操作できる端末からは漢字の入力はできないので、これは社員用検索システムについてのことと思われる。
sanseido.jpg


上は書誌検索端末の話だが、これからはさまざまなケースで、あいまい検索が重要になってくるはずだ。今までも全角・半角、ひらがな・カタカナの違いを吸収するソフトウェアは数多く作られてきたが、それに加えて新字体・旧字体、異体字、アクセント記号の有無等々についても考慮しなくてはならないだろう。
その理由の1つは、Unicodeの普及だ。Unicodeでは世界各国の文字を1つのコード体系で表すのだが、例えばアルファベットの「e」1つとっても、アクセント記号の付いた「è」「é」「ê」「ë」などがある。丸数字(??など)やローマ数字、囲み英数字(?)も正式に収録されている。ローマ数字「?」とアルファベットを組み合わせた「IV」を同一したい場合もあるだろう。
「異体字の迷宮」というページではこの問題がわかりやすく整理されているが、この中にそれぞれの検索ソフトが、別個の基準で包摂をやったら、てんでにバラバラとなって、混乱をもたらすというくだりがある。オープンソースで、こういうあいまい検索の共通ライブラリを作っていく必要があるかもしれない。
ライブラリでは、1つ1つの文字について、異体字、新字体・旧字体、別の字の同一視(「介」と「助」とか)、複数文字の同一視(先述の「IV」など)、アクセント記号の有無をそれぞれ区別した上で、網羅しなければならないからかなり大変な作業になりそうだが……。

2 Responses to “あいまい検索に対応した書誌検索端末”

  1. kamicup Says:

    アルファベットとかの表音文字ならUnicode Normalizationで間に合うのでしょうけど、漢字だとそうもいかないのですかね。リンク先勉強になります。

  2. Tats_y Says:

    Unicode Normalizationって、アルファベットだけでなく、丸数字やローマ数字にもある程度は対応しているんですね。知らなかった……。
    http://homepage1.nifty.com/nomenclator/unicode/normalization.htm

    ただ、異体字や別の字の同一視などはやっぱり検索ソフト側で用意しなければいけないんでしょうね。

Leave a Reply

Comments links could be nofollow free.