連載 Tourism Informatics (TI) の試み(46)
おきなわ観光情報学研究会


セマンティックWeb

おきなわ観光情報学研究会・當間愛晃(琉球大学工学部情報工学科・助手)

情報検索技術にみる研究シーズ(4)

 前回は、検索エンジンを取り巻く研究開発が各国で強力に推し進められている事を紹介し、身近な問題点として(1)キーワードの問題、(2)検索精度の問題、(3)情報分散の問題、を挙げました。これらが解決できると、単純に検索結果が改善されるだけではなく、「今年のゴールデンウィークは**に行こう。何か面白そうなイベントがあればそれにも参加してみたいな」といったアバウトな要求に対しても返答できる、Web上に散らばっている種々の情報を整理統合する事で作成したプラン提案型のシステムが構築できるようになるはずです(*1)。

 各々の問題については様々な提案がなされていますが、本記事では「類似性を計算する自然言語処理技術やメタ情報付加技術」の一つとして、「セマンティックWeb(*2)」について紹介したいと思います。

 セマンティックWebとは、Web上の情報に対して「メタ情報」を適切に定義してやることでコンピュータに処理させやすい環境を整える(利便性を向上させる)ための技術全般の総称です。例えば、この記事における最初の「情報検索技術にみる研究シーズ(4)-セマンティックWeb-」という文字列(文章)にはタイトルであることは書かれていませんが、私たち人間が読むと「この記事のタイトルだろう」という事を想像できます。同様に、「當間愛晃(琉球大学工学部情報工学科・助手)」という文字列にはそれ以外の事が明記されていませんが、「當間愛晃という“人(著者)”が書いた記事である」「その著者は琉球大学という“組織”に属している」という事を暗黙の内に理解することが出来ます。このとき、もし「當間愛晃」という文字列と「(琉球大学工学部情報工学科・助手)」という文字列が離れた場所(本文中など)に書かれていれば、この二つの文字列を結びつけて考えることはありません。

 このように、私たちが文章を読む際には、単語の持つ直接的な意味だけではなく、それがどのように記述されているのかといった文字飾り(文字の大小・色・位置)なども手がかりにする事で「その文字列が持つ意味」に補足的な解釈をあたえています。しかし、コンピュータはこのような知識が無いだけではなく、言葉を理解することも出来ません。そこで、セマンティックWebでは「データの意味を記述したタグ情報」を文章内に埋め込み、コンピュータが処理しやすいようにしています。あらゆるコンテンツ・情報に対して適切なメタ情報を埋め込まれれば、ページ内の情報を要約する事や、複数ページに散らばっている情報を統合したページを自動生成する事がある程度可能になります(*3)。  NAL研(*4)では、このような情報の収集整理・統合・要約といった言語処理をサポートできるようなツールの実現を目指して、研究開発を進めています。近い将来(?)にその成果をご紹介する事が出来ればと思います。

(*1)プラン提案型のシステムが構築できるようになるはず

 勿論、提案するだけの情報源が十分に揃っている必要があります。

(*2)セマンティックWeb

 このプロジェクト自体は古くから提案されています。

 http://ja.wikipedia.org/wiki/Semantic_Web

(*3)要約や情報統合

 自然言語処理の分野で古くから行われており、これらを検索エンジンに活用するだけでも便利になるはずです。

(*4)NAL研

 琉球大学工学部情報工学科當間研究室の俗称です。日々の活動状況に関しては以下で公開しています。

 http://www.eva.ie.u-ryukyu.ac.jp/~tnal/  (當間サイト)

 http://www.nal.ie.u-ryukyu.ac.jp/wiki/  (研究室サイト)

 feed://www.nal.ie.u-ryukyu.ac.jp/graduate/gnote/rss (NAL研卒業研究ノートRSS配信)

(「観光とけいざい」第722号07年5月合併号)


 |  連載47 |  HOME |
本ホームページに掲載の記事・写真の無断転載を禁じます。すべての著作権は沖縄観光速報社に帰属します。
Copyright (c) 1996 Okinawa Kankou Sokuhousya. No reproduction or republication without permission.