ネット検索の達人~人の名前からさまざまな情報を知る

名前検索を仕事に活用

(2004年7月19日、日経パソコン)

営業先の社長を検索する
ほとんどの社長の名前がヒット

私の知り合いの営業マンは、営業先を訪問するとき、その会社の社長の名前をGoogleで検索してから出かけるようになった。ほとんどの社長の名前がヒットするそうだ。「いったいその前はどうしていたのか思い出せないくらい便利」と友人は言う。Googleが登場する以前は、図書館や資料室に行って過去の新聞や雑誌を探していたのだろうか。

新聞や雑誌のインタビュー

社長の名前を検索する場合は、新聞や雑誌のインタビューに答えているWebページに行き当たったり、講演の議事録が手に入ることもある。

原田永幸氏
アップルからマクドナルドへ

最近は、会社を移る社長も増えてきた。先日、アップルコンピュータ日本法人の社長だった原田永幸氏が退任して、日本マクドナルドの社長になり、全く違う業界への転職として大きな話題になった。

原田社長を検索してみる

話を具体的にするために、その原田社長にこれから会いに行くという想定で、しばらく検索してみよう。

「原田永幸 発表」でGoogle検索

Googleで「原田永幸 発表」と検索してみると、アップル時代とマクドナルドに移ってから、その両方で彼が行った発表などに関する記事が見つかる。原田氏が社長時代に関わったアップル製品がどれだったのかも分かってくる。

「原田永幸さん」でGoogle検索

その人がある程度話題の人物なら「原田永幸さん」のように「さん」付けしてGoogleで検索すると、もっと詳しい情報が手に入る。「さん」付けで文章を書く人は、その人に敬意を持っているか実際に会ったことがある人だろう。つまりインタビュー記事や日記の類だけがヒットすることになり、ビジネス外の話題が手に入ることがあるのだ。

夫人はシンガーソングライターの谷村有美さん

試しに「原田永幸さん」と検索してみると、いくつかのことが判明した。一つ目は、夫人がシンガーソングライターの谷村有美さんということ。二つ目は原田永幸氏がジャズバンドのドラマーということ。極めつけは、コピーライターの糸井重里氏が部長時代の原田氏に会っていて「この男は社長になる」と直感したというエピソードだ。Googleで次々に検索していって、これらの情報を手にするまでに10分もかからなかった。

役に立つGoogleの紹介文
Googleの検索結果について表示

人名の検索に限らずGoogleの検索結果について表示される紹介文は、驚くほど役に立つ。例えば、この3つの原田社長ネタは、検索結果に表示されるタイトルと紹介文だけを読んでいても分かってしまう。

ディレクトリ型検索の紹介文
運営側が作成した文章

Google以前に一般的に使われていたディレクトリ型検索で出てくる紹介文は、Yahoo!ならYahoo!の編集者が作成した文章だ。登録してあるWebサイトについて1つの紹介文だけしか掲載されないので、その情報量は極めて少ない。

ロボット検索の紹介文
キーワードが入った文章を切り出して表示

ロボット検索のGoogleの場合、ページの全文を検索していて、Webサイト上の文章の中からキーワードが入った文章を勝手に切り出して表示している。つまりユーザーが検索するキーワードごとに表示される紹介文が変わる仕組みだ。キーワードと一致する言葉は、分かりやすく太字で表示される。

「KWIC」(Key Word In Context=文脈中のキーワード)

この仕組みは、専門的には「KWIC」(Key Word In Context=文脈中のキーワード)と呼ばれている。キーワードが含まれる文脈を紹介文として表示するもので、Googleもこの方式を採用している。

画像検索で人物の顔を知る

次に画像での検索を見てみよう。画像検索を使えば、通常の検索では分からないその人の情報も手に入る。

グーグル日本法人の社長

例えば、Googleを提供しているグーグル日本法人の社長を知っているだろうか。米本社の創業者2人は前号で紹介したが、日本法人の社長を知っている人は少ないだろう。

「グーグル社長」で検索

さっそく「グーグル社長」や「Google社長」と検索してみるが、テキストだけだと彼の人物像を知ることが難しい。

イメージ検索を使う
インターネット上の画像ファイルを検索

Googleにはイメージ検索と呼ぶインターネット上の画像ファイルを検索するサービスがある。このイメージ検索では、全世界の8億8000万以上の画像が検索対象になっている。テキスト検索と同じで「キーワード」を検索窓に入力する。Googleは、画像周辺のキーワード情報などから、キーワードに関連した画像を見つける仕組みになっている。

グーグル日本法人の社長

このイメージ検索を使って「グーグル社長」を検索すれば、写真が何枚か表示される。米国本社の2人の創業者に比べて、日本法人の社長は年配で、背広を着て少しお堅い雰囲気がある。そんなことまで分かってくる。

肖像権や著作権の侵害に注意

ただ、このイメージ検索を利用する際に、表示された人物の画像を個人で利用する以外の目的に使用することは肖像権や著作権の侵害になる場合がある。その点は十分な注意と配慮が必要だ。

日本独自の検索サービスが消滅
「goo」の検索エンジン

NTTレゾナントの検索サービス「goo」は、2003年12月に従来の独自エンジンからGoogleに検索エンジンを切り替えた。日本で独自に開発された検索サービスがこれで事実上消滅した、と業界ではちょっとした話題になったものだ。

同姓同名の名前の場合は
日本語独特の揺らぎ表記に対応

さて、gooの検索にはGoogleにはない独自の日本語対応が追加されている。日本語独特の揺らぎ表記に対応するもので、「年賀葉書」と検索しても「年賀ハガキ」「年賀はがき」を自動的に同じキーワードと判断してくれる便利なものだ。

芸能人の名前を間違って検索

その一例として、女性タレントの名前を「吉岡美保」と間違って検索しても「吉岡美穂」が結果に表示される(ちなみに、「吉岡美穂」は昨年最も多く検索された人名である)。

人名の入力ミス
「木村拓哉」と「木村拓也」

確かに人名の入力ミスは、インターネットの検索では非常に多いミスだ。人気グループSMAPの「キムタク」こと「木村拓哉」の名前は、「木村拓也」と一文字間違えて検索されることが多い。しかも、広島東洋カープに「木村拓也」という野球選手がいてファンも多いからやっかいだ。確かに揺らぎ対応は便利な機能だが、Yahoo!で検索すると「キーワードに間違いはありませんか?木村拓哉でも検索してみてください」とメッセージが表示され、広島ファンはムッとすることになる。

Webサイトを作っている人たちも間違える

検索する人がよく間違えるということは、Webサイトを作っている人たちも間違えるということだ。こうなると検索エンジンも対処しようがない。実際、「木村拓也」と広島カープの選手の名前で検索してみると、一番上には「SMAPのキムタク」の情報が出てきてしまった。「木村拓也」の検索結果100件のうち、実に40件が「SMAPのキムタク」の名前を間違えて書いたページだった。

自分や子供の名前で検索
一般の人々の情報

42億8000万ものページを検索対象にしているGoogleだからこそ、有名人や会社の社長だけでなく、一般の人々の情報も豊富にある。試しに、自分の名前や知り合いの名前、子供の名前を検索してみよう。子供がスポーツ大会や音楽会などに出ていると、名前が見つかる場合もある。

ヒットした件数

私は久しぶりに友人にあったとき、「お前より俺の方がえらい」とカラカラ笑われた経験がある。彼は私と会う前に自分の名前と私の名前を検索していて、自分の方がヒットした件数が多かったと自慢したのだ。

その人の有名度が計れる

確かにGoogleの検索結果からある程度は、その人の有名度が計れるかもしれない。どれどれと思って私も検索してみると、彼の検索方法には問題があることが分かった。彼が名前を入れたときに「高橋 隆夫」というように姓名の間に空白を入れて検索していたのだ。これだと「高橋」という姓と「隆夫」という名前の両方が別々にヒットしてしまう。これを「“高橋隆夫”」と引用符を付けて検索すると、とたんに検索結果は少なくなった。

子供の名前はGoogleで
名づけに検索を使う

私の友人は、子供の名前を付けるのにGoogleを利用した。彼はできるだけ呼びやすく、同名の人が少ない名前を選びたいと考えた。少ない名前と思っていても、日本中には似た名前の人がけっこういるものだ。

ヒット件数が少なければ珍しい名前

そこで、候補として出した名前のいくつかをGoogleで検索して件数を調べた。この数が少なければその名前も珍しい名前ということになる。

漢字のバリエーションで検索

例えば、「カズヤ」という音の響きを決めて、「和也」にするか「一哉」にするか「和弥」にするかを決めかねているときも、いくつかの漢字のバリエーションで検索してみることができる。名前以外の漢字もヒットしてしまう場合は、頭に「鈴木」などの一般的な姓を付けて比べると相対的な多さ少なさを見ることができる。

同姓同名の人物に犯罪歴

そうやって名前を探しているうちに、一つの候補の名前には、同姓同名の人物に過去に犯罪歴があったり、意外な著名人がいたりすることが分かったりもする。子供の名前を付ける上では重要な情報だ。

検索エンジンが人生に影響?

気が付かないうちに、検索エンジンは人間関係や人生にも影響を与え始めているのかもしれない。

ビル・ゲイツ氏が次に狙うのは検索市場
マイクロソフトが検索ビジネスに参入

マイクロソフトが本格的に検索ビジネスに参入する。2004年3月にはCEO(最高経営責任者)のスティーブ・バルマー氏が、インターネットの検索技術に投資をしてこなかったことは「重大な失策だった」と語り、競争に参戦することを表明した。もうすぐ新しい検索システム「MSNサーチ」が登場するといわれている。

ビル・ゲイツ氏の「インターネット宣言」

私事だが、まだ日本にヤフーがなかった1995年、インターネットの仕事をしたくて、日本IBM、日本ネットスケープ・コミュニケーションズ、マイクロソフトの3社で悩んだ末、転職先としてマイクロソフトを選んだ。しかし、マイクロソフトがインターネットに力を入れる気配はなく、正直がっかりした。それが1995年12月にビル・ゲイツ氏が社内外に向けて「インターネット宣言」を行った途端、あらゆる事業が一気にインターネットに向かって走り始めた。その勢いはすさまじく、この会社のすごさを肌で感じたものだ。

「魔法はない。勝つまで戦う」
ゲイツ流のやり方

これまでもマイクロソフトは、ブラウザーの「Internet Explorer」(対ネットスケープ)、表計算ソフトの「Excel」(対ロータス)、デジタルメディア「Windows Media」(対リアルネットワークス)などで後発ながら次々と勝利してきた。新しい検索サービスも、将来のOS「Longhorn」を最大限に活用しようとしている。現在は向かうところ敵なしのGoogleだが、過去のマイクロソフトとの競争相手と同じ道をたどる可能性がないとはいえない。「魔法はない。勝つまで戦う」というのがゲイツ流のやり方なのだ。

人物検索の小技
キーワードに人物名を使い、その人となりを知る
  • 「原田永幸 発表」で検索すれば、アップル時代とマクドナルド時代の記事が見つかる
  • 「原田社長って」と検索すれば、原田氏の人物像や評判などが見つかる
  • 「原田社長 らしい」と検索すれば、原田氏の考え方や行動に関して憶測・噂などが見つかる
  • 人物名に「らしい」「って」を付けてその人の評判を知る。ただ、いい加減な情報も多いので注意が必要
著名人なら、人物名に「さん」を付けてみる
  • 原田さんに会った人の日記やBLOGが見つかることも
  • インタビュー記事が見つかれば、その人の考え方などが分かることも
人物の紹介文からはいろいろな情報が手に入る
  • 名前が「ながゆき」ではなく「えいこう」であることが分かる
  • 夫人が歌手の谷村有美さんであることや結婚した日付まで分かる
  • 趣味も多彩で、ドラムを叩けることが分かる
  • コピーライターの糸井重里氏とは対談などで知り合っていることが分かる
イメージ検索でその人物の顔を知る
  • Googleのイメージ検索は人物について調べるときにも役立つ
  • テキストだけだとプロフィルは分かってもその人物の雰囲気まで知ることは難しい
  • 米国本社の2人の創業者に比べて、日本法人の社長は背広を着てお堅い雰囲気だ
日本語での名前の違いの対応
  • gooは「推薦ワード」を表示し、検索結果のトップにはSMAPの「キムタク」が来る。一方、Yahoo!はキーワードが「間違っていないか」指摘
自分の名前を検索しても面白い
  • 子供の名前を付ける際にも、Googleは役に立つかも
  • 左は同名の例。達也と和也は、あだち充の漫画「タッチ」の登場人物の名前で、兄のタツヤは楽天家で、弟のカズヤは成績優秀な野球部のエース

Webサイトの検索機能を磨く

ニーズ芽生える動画や画像の検索

(2003年2月1日、日経インターネットソリューション)

動画や静止画を検索
動画の特定のシーンを検索

リッチ・コンテンツ化が進むWebサイトでは、テキスト・ベースだけでなく、動画や静止画などを検索したいというニーズが高まりつつある。最近になり、動画の特定のシーンを検索したり、色味や形状から商品写真を検索したりする専用ツールが登場。それを使って、従来とは違った検索機能を提供するサイトも出始めている。

急増するリッチ・コンテンツ
視覚的な特徴をもとに商品を探す

最近、動画や音声などのリッチ・コンテンツの急増に伴って、検索のニーズも多様化してきた。このため、テキスト情報だけでなく、動画や音声といったさまざまなコンテンツを検索する仕組みが求められるようになってきている。ストリーミング映像のなかから希望のシーンを探し出す、画像データの色や形など視覚的な特徴をもとに商品を探す、といった従来とは違う検索機能である。

マルチメディア・データを検索
動画のインデックス生成機能を搭載した検索システム

マルチメディア・データを検索できるようにする方法はいくつか考えられる。動画を例にすれば、(1)HTMLコンテンツのmetaタグや本文などに含まれる動画のファイル名やコンテンツ概要を検索する、(2)シーンに含まれる音声や字幕をテキスト化したHTMLコンテンツを検索する、(3)動画のインデックス生成機能を搭載した特殊な検索システムを使う――である。(1)と(2)は一般的なテキスト検索用の製品やサービスをそのまま利用できるものの、任意のシーンを直接呼び出すといった検索はできない。そこで注目され始めているのが(3)の専用ツールを使う方法である。

音声波形で動画のシーンを検索
WBT(Webベース・トレーニング)サイト「税理士Web講座」

税理士の資格取得を支援するWBT(Webベース・トレーニング)サイト「税理士Web講座」を運用するビズバレーは、このサイトに動画の検索機能を持たせた。「復習したいときに必要な講座の必要なシーンをすぐに閲覧できる仕組みが欲しかった」(営業本部長である小林孝明氏)からだ。その際、音声によって見たいシーンを探すという方法を採用することで、比較的容易にシステムを構築できた。

税理士Web講座のコンテンツ

税理士の資格を取得するには、5科目の試験に合格しなければならない。1つの科目を2~3年続けて受講することは珍しくなく、重要な部分だけを復習したいというニーズも高い。ところが、税理士Web講座のコンテンツは、1科目だけで年間160時間にも及ぶ。1回分でも2~3時間ある。映像の内容を確かめながら見たいシーンを探すには無理がある。

HTMLファイルにキーワードを埋め込む
テキスト検索

そこで、映像ファイルに関連付けたHTMLファイルに、講師が講義内容を示すキーワードを埋め込んである。講座1回分の映像を、10~40分ごとの動画ファイルに分け、それぞれのファイルごとにキーワードを設定して、テキスト検索できるようにした。

富士ゼロックスの「Media DEPO」
動画中の音声検索

ただ、これだけでは不十分である。受講者がキーワードとして登録されていない語句を検索語に入力した場合、ヒットしないという検索漏れも問題になる。そこでビズバレーが目を付けたのが、動画中の音声検索だった。ちょうど、Web講座のシステムのベースとして考えていた富士ゼロックスの「Media DEPO」が、そうした機能を備えていた。

テキストを音声波形に変換

音声検索の仕組みはこうだ。検索語の入力欄にひらがなで「しょとくぜい」などと入力すると、検索システムがそれを音声波形に変換。Media DEPOが、同じような音声波形が含まれている時間帯を動画ファイルから検出する。検索結果としては、ファイルごとに、波形の適合率が高い方から5件分のリンクが表示される。検索結果のリストからそれぞれのリンク・ボタンを選ぶと、その単語を話しているシーンから動画の再生が始まる。

メタ情報の指定を支援するツールも
検索用のメタ情報を付与

動画検索には、シーンの切り替わりのポイントにインデックスを設定し、そこに検索用のメタ情報を付与しておく方法もある。映像が切り替わるポイントの静止画を切り出してサムネイル化し、この画像にメタ情報をひも付けてインデックスとして使う。メタ情報に含まれない検索語ではヒットしない、任意のシーンを取り出せないといった問題はある。ただ、一般的なテキスト検索システムを利用して実現できる点は魅力的である。

導入するにはそれなりのコストも
テキスト検索は安価

ビズバレーも、音声検索のほかに、シーンの切り替わりポイントの静止画をサムネイルとして切り出し、インデックス化する方法を採り入れている。しかし、ビズバレーの場合、サムネイルはあくまでも動画のプレーヤ上でシーンを探し出すために使っているだけ。メタ情報を使った検索機能は持たせていない。理由は、「コンテンツの量が多く、音声をテキスト化するには手間がかかり過ぎるため」(小林氏)。代わりに音声波形による検索を選んだ。ただ、これはMedia DEPOを採用したからこそ実現できた仕組み。導入するにはそれなりのコストがかかる。この点、テキスト検索の仕組みを使えば、もっと安価にシステムを構築できる。

NTTコムウェア
インデックス情報を設定できる動画配信サービス

最近は、こうしたシーンの切り替わりのポイントを自動的に抽出し、インデックスを簡単に作成できる製品がいくつか登場している。NTTコムウェアが開発したシステムがその1つ。シーンの切り替わりのポイントを抽出する作業と、そのポイントを任意のHTMLコンテンツに関連付ける作業が容易になる。NTTコムウェアは2003年春にも、このシステムを使ってインデックス情報を設定できる動画配信サービスを開始する予定である。

見たいシーンを探し出せるWebページ
一覧からシーンを選択

こうしたツールを使って、動画の各シーンのリストとシーンを関連付けておけば、見たいシーンを探し出せるWebページが作れる。Webページ上の説明文(またはサムネイル)の一覧から、希望するシーンを選択(クリック)すると、そのシーンから動画が再生される。

別々のHTMLファイルに記述

各シーンの説明を別々のHTMLファイルに記述しておく方法もある。これなら、HTMLファイルを対象にしたテキスト・ベースでの検索で特定のシーンを探し出せる。また、動画の音声をHTMLファイル化しておけば、各シーンで実際に使われている単語やフレーズを基に検索できる。ビズバレーの例のようにその単語を話しているシーンから再生するような仕組みは作れないが、少なくとも、見たいシーンを絞り込むことは可能になる。

メタ情報なしでの画像検索も可能
ショッピング・モール「Shopping@nifty」

ニフティ(ショッピング・モール「Shopping@nifty」)の場合は、商品写真の画像データから抽出した色彩的な特徴で検索できるようにした。「花束や服飾品などは、色味で選択されることが多い。より視覚的、あるいは直感的な検索方法を実現する必要があった」(サービス事業部 コマース部の服部英一氏)。新たな仕組みでは、Webページ上に表示された色見本からユーザーが好みの色を選択すると、似た色味を持つ商品の写真が検索され、一覧表示される。

メタ情報を記述しづらい

このような場合にオーソドックスなのは、画像に色味を表すメタ情報を指定しておく方法である。しかし、メタ情報の指定は面倒な作業。画像点数が膨大になると、なかなか対応しきれない。さらに、色味などの情報は主観を含むため、言葉での表現が難しく、メタ情報を記述しづらい側面もある。

富士通の「MIRADOR-Search」
色味、素材感、形状を自動抽出

そこでニフティでは、画像に含まれる被写体の色味を自動抽出し、検索する方法を選択した。システム構築には、富士通の「MIRADOR-Search」を使っている。この製品は、ニフティが利用する色味のほか、素材感、形状といった特徴点を自動抽出して検索できる。

Yahoo!オークション
リコーと共同開発の類似画像検索システム

似たような機能は、ヤフーが運営するオークション・サイト「Yahoo!オークション」にも搭載されている。女性用の服飾品を検索するときに使える。例えば、気に入ったブラウスを見付けたときには、「この商品画像に似た商品を検索できます」という検索ボタンを押すと、色味や形状が似ているものが一覧表示される。ヤフーの場合は、リコーと共同開発した類似画像検索システムを使って構築した。

画像内の文字列も検索対象に
三菱化学の「プラスチックサイト」

三菱化学のように、画像内に含まれる文字列の検索を目指す例もある。三菱化学は、グループとして運営している「プラスチックサイト」で、画像に含まれる文字を検索する機能を組み込んだ。検索対象は、紙の商品カタログや技術文書である。「紙の文書に含まれているイラストやスペック表なども、ユーザーにとっては重要な情報。それらを検索対象にしたかった」(コーポレート営業推進部次長でEビジネス担当の大内英良氏)。

OCR(光学式読み取り装置)でテキスト・ファイル化

まず、紙の文書をスキャナで読み取り、そのイメージ・データをPDF(ポータブル文書フォーマット)ファイル化して閲覧できるようにした。これだけでは検索対象にはならない。そこで、スキャンする際に、OCR(光学式読み取り装置)で画像の中の文字情報を読み取りテキスト・ファイル化し、PDFファイルと関連付けた。こうすることで、カタログに掲載されているスペック表などに含まれる語句も検索できるようになった。

誤認識の可能性

実際には、OCRには誤認識の可能性があるため、運用は必ずしも容易ではない。誤った単語に変換してしまうと、うまく検索できなくなる。三菱化学の場合も、一部、誤認識してしまう部分がある。ただ、「スペック表など特に重要な部分については、今のところ誤認識する例はほとんど見当たらず、運用上は十分」(大内氏)という。誤認識してしまう語句については検索機能は役に立たないものの、検索対象を紙の文書にまで広げることはできた。

マルチメディア検索のまとめ
動画などのマルチメディア・データの中身を検索する方法は大きく3種類

画像、動画、音声といったマルチメディア・データの中身を検索するには、大きく3つの方法がある。例えば動画を例にすると、(1)動画のファイル名や概要をWebページにメタ情報として記述、(2)字幕や音声などをテキスト化して別のHTMLファイルに記述し相互リンク、(3)動画像のインデックス設定機能を備えた特殊な検索エンジンを使用――である。

ビズバレーは「税理士Web講座」で音声による検索を実現した

講義の動画の中から特定のシーンを抜き出すために、音声の検索機能を付加した。受講者は画面上で検索したい単語をひらがなで指定。サーバー側ではこれを音声波形に変換して検索を実行する。検索結果としては、ヒットした動画の再生時間とそこへのリンク・ボタンを返す。リンク・ボタンをクリックすれば、検索した単語が講師の話の中に登場するシーンから再生が始まる。検索には、配信システムの基盤になっている富士ゼロックスの「Media DEPO」の機能を利用。音声波形によるインデックスもMedia DEPOがコンテンツ作成時に自動生成する。

動画にメタ情報を簡単に追加できる技術もある

NTTコムウェアは、動画データの任意のシーンを呼び出せるようにする動画検索技術を開発した。ツールで動画データを指定すると、シーンの切り替わりポイントが自動的にインデックス候補として抽出される。インデックス候補は、簡単な操作でテキスト・データと関連付けることができる。テキスト・データをクリックすると、関連付けたシーンが呼び出される。

画像データの特徴点を自動的に抽出して検索するサイト

ニフティはショッピング・モール「Shopping@nifty」に、Webページ上に表示された色見本を選んで、似た色の商品を検索する機能を搭載した。コンテンツに含まれる写真から、商品の特徴として色情報を抽出。それをもとにユーザーが指定した色の商品を検索する。富士通の画像検索システム「MIRADOR-Search」を使って実現した。

検索用語解説
ストリーミング映像
ストリームは「流れ」の意。ストリーミング映像では、動画データをすべてダウンロードしてから再生するのではなく、映像データをダウンロードしながら切れ目なく再生する。
WBT
Web Based Trainingの略。Web技術などを使い、インターネットまたはイントラネット上で双方向型の教育/学習をすること。
サムネイル
縮小表示した画像のこと。画像データや文書データ、Webページなどのイメージを複数並べて参照しやすくするために利用する。
スキャナ
写真や印刷物などをコンピュータ上に取り込み、電子化するための入力装置。取り込んだデータは、一般的には画像ファイルとして保存される。このため、「イメージ・スキャナ」と呼ぶこともある。OCRの機能を備えたものもある。
OCR
Optical Character Readerの略。スキャナなどで光学的に読み取った文字の形状から文字を識別する装置。パターン認識などにより特定の文字として識別する。このため、手書きの文字や、特殊なフォントを使った文字などは、正しく識別できないこともある。OCRを使って紙の文書を読み取るサービスを提供する事業者もある。

ネット検索「goo」と「グーグル」提携

「ヤフー」追撃の構え

(2003年10月7日)

国産検索エンジンが消える
「日本語に関して最も強力な検索サイト」を目指す

インターネットの検索サイトgooと米検索大手グーグルが先週、提携を発表した。これで唯一生き残っていた国産検索エンジンが消えることになる。惜しむ声もあるが、gooを運営するNTT-Xでは、独自技術を付加して「日本語に関して最も強力な検索サイトにする」と、国内最強のヤフージャパンを追撃する構えだ。

検索エンジンとは
検索語に適合するサイト情報を表示

検索エンジンとは、あらゆるサイトを機械的に巡回して作成したデータベースをもとに、ユーザーの入力した検索語に適合するサイト情報を表示するシステム。有用なサイトをどのように見分け、上位に表示するかが技術のポイントだ。

NTT-Xのgoo
米インクトミと共同開発した国産検索エンジン

NTT-Xは1997年春に米インクトミと共同開発した国産検索エンジンをgooに導入、国内最強をうたって話題を呼び、ヤフー追撃の一番手だった。しかし、2000年秋に、検索精度の高さが評判のグーグルが日本語版サービスを開始、さらに翌年にヤフーがグーグルを採用したこともあって、ヤフーとgooの差は逆に広がった。

NTTグループ全体のブロードバンド戦略
検索サービスを強化

今回の提携は、こうした状況下での失地回復を目指すもので、NTT-Xの中嶋孝夫社長は「ソフトバンクがヤフーをベースにブロードバンド事業を普及させており、NTTの中でgooがその使命を担うことが重要なテーマになっていた」と説明、検索サービスを強化することが、NTTグループ全体のブロードバンド戦略につながるとの立場を説明した。

グーグル日本語版との差別化を図る
検索キーワードの自動補正

グーグルの検索エンジンに切り替えてのサービスは2003年12月から始まる予定。ただし、検索結果の表示には、これまで培ってきた日本語処理技術を用いて、より正確な結果が表示されるような検索キーワードの自動補正や、通称や誤った言葉を入力した場合に関連語や修正候補を表示する機能などを備え、グーグル日本語版との差別化も図っていく。

日本語独特の“ゆれ”を吸収

例えば、「ウィスキー」を「ウィスキィ」とも表す日本語独特の“ゆれ”を吸収したり、「ドラえもん」を「ドラエモン」、「松嶋菜々子」を「松嶋奈々子」などと誤って入力した場合でも、大丈夫という。

gooの転換の評価

gooの転換について、検索業界に詳しいECジャパンチーフ SEOスペシャリストのジェフ・ルート氏は「gooはここ2、3年に失ったシェアを回復し、ユーザーにとっても検索の質の向上につながるだろう」と評価している。

米ヤフーが新機能「サーチ・ダイレクト」公表

検索入力画面でサイトも分かる

(2011年3月24日)

ネット検索機能「サーチ・ダイレクト」試験版
米インターネットサービス大手ヤフー

米インターネットサービス大手ヤフーは2011年3月23日、新たな自社ネット検索機能「サーチ・ダイレクト」試験版を公表した。利用者の入力途中で、検索候補の語句を次々と類推、表示するだけでなく、候補と並列して特定のウェブサイトの中身まで簡易表示できるのが特長。当初米国向けに始め、今年中にサービス対象の国・地域を広げる。

利用者の閲覧データや最新の検索需要を分析

パソコン画面のポータル(玄関口)サイトなどで行うネット検索は一般的に、入力途中で示される10程度の候補語句のなかから、入力を終える前に選ぶことで、関連するサイト一覧画面に迅速に切り替わる仕組み。これに対し、サーチ・ダイレクトは利用者の閲覧データや最新の検索需要分析に基づいて、一覧画面を経ずに語句選択段階でも「効率的にお目当ての情報やサイトにたどり着ける」ことを目的に改良された。

ヤフーの検索エンジン
マイクロソフト「Bing(ビング)」

ヤフーの検索エンジン自体は、ネット検索・広告両事業で提携済みのマイクロソフト「Bing(ビング)」に2010年の夏に移行したが、個別サービスに関して独自に開発が続けられている。(

3分間キーワード~サジェスト機能

サジェスト表示停止を命じる仮処分も

(2012年6月1日、日経情報ストラテジー)

サジェスト機能
検索エンジンで同時に検索された単語を件数の多い順に表示して入力の手間を省く機能。不利益を受けたとの申し立てで、表示停止を命じる仮処分の決定が3月に出た。
同時によく検索される言葉
関連語が予測

グーグルの検索ボックスに会社名などを入力すると、同時によく検索される言葉が隣に表示されます。あいまいな単語や誤入力でも関連語が予測され、利用者が求める情報にたどり着きやすくなります。これをサジェスト機能といいます。

サジェスト機能の悪用
便利な反面、悪用も後を絶たない

非常に便利ですが、以前から悪用する動きがありました。例えばネット広告会社が特定の言葉を入力して表示させようとしたのです。検索エンジンの事業者はこうした行為を見つけると、特定の言葉が表示されないように対策を講じてきました。

違法との司法判断
東京地裁が差し止めを命じる仮処分

最近は新たな展開がありました。ある男性が自分の実名を検索しようとするとサジェスト機能が働き、身に覚えのない犯罪を連想させる単語が表示されたのです。解雇されたり内定を取り消されたりする不利益を被ったとしてプライバシー侵害などを理由に米グーグルに表示の差し止めを求めました。これに対し、2012年3月に東京地裁が差し止めを命じる仮処分を決定しました。

削除義務

男性の代理人である富田寛之弁護士はこう解説します。「問題のある情報がネットに拡散して消せない場合、検索エンジンの管理者もネットの情報流通を管理する立場として、一定の違法な状態があれば検索エンジンを通して見られないようにする削除義務があるという法的な前提があります」

「単語の候補」でも違法

今回はネットに流通する情報を表示する検索結果とは異なり、検索手段として登場する「単語の候補」でも違法な場合があると判断されたことになります。しかし、検索エンジン事業者は「ネガティブな情報の検索でも利用者のニーズに応える必要がある」といいます。例えば、営業で訪ねてきた会社の評判を知るといった用途で利用したい時です。表現の自由や国民の知りたい欲求に応えるには、情報の取捨選択に介入はできないとも主張します。

遮断するサイトもあり

グーグルやヤフーなど国内の検索エンジン事業者が唯一、検索エンジンで遮断している情報があります。児童ポルノ画像です。警察からの情報や外部専門家の意見を交えてサイトに表示されないようにしたり、サジェスト機能に表示されてもサイトにたどりつかないようにしています。放置すれば検索エンジン事業者も違法とされかねないためです。

利便性や公益性とプライバシー
米国での執行は難しい

富田弁護士によると、米グーグルに検索結果の表示停止を求めて対応してもらえた例もあるそうです。ただ、今回グーグルは「米本社がサーバーを管理している」とすることから、富田弁護士は差し止め決定が出たにもかかわらず事実上、米国での執行は難しいと説明します。利便性や公益性と、プライバシーの間で企業にも影響がありそうです。