アクセント記号付き文字をGoogleで検索
4月 29th, 2004書誌端末のところで述べたあいまい検索について、ちょっと気付いたことがある。
CLIeやLibrie、Exposeといった単語の最後の「e」は正確にはアクセント記号付きの「é」だ。こうした文字をHTMLで記述する場合、一般的には「é」といった「文字参照」を使う。文字参照を使って記述しておけば、アクセント記号付き「e」のフォントがない環境(auの携帯電話A5503SAもそうだった)でも、ブラウザが解釈してただの「e」として表示してくれる(ことが多い?)。
ところが、Googleで検索をしてみると、「Exposé」と書かれたページは「Expose」ではヒットしないのだ。Unicodeの文字を直接「Exposé」と入力すれば、ちゃんとヒットする。
では、Unicodeの文字を直接記述できるUTF-8のページ(このbinWord/blogもそうだ)で、文字参照を使わずに直接「Exposé」と記述した場合はどうなるか?「Expose」でも検索できるのだろうか? このような例をうまく見つけられなかったが、この記事がGoogleに収集されればこのあたりもはっきりするはず。
Googleは4月22日にデフォルトの文字コードをUTF-8に変更している(参考記事)。このことも、Unicode Normalizationと関係があるのかな?
5月 5th, 2004 at 13:59
Googleにこのページが収集されたようなのでちょっと実験。
「é」は文字参照であれ、直接入力したものであれ、「e」とは別の文字として扱われる模様です。
なお、Googleで「é」を検索した場合、文字参照・直接入力どちらの「é」もヒットします。