独立行政法人情報通信研究機構(NICT、長尾真理事長)と、沖電気工業(篠塚勝正社長)は、Webページから新語を取得して属性を判別する技術を共同開発した。インターネット検索エンジン等に代表される情報検索・抽出システムの精度向上に効果を発揮するもので、今後、ユーザー向けインターネットサービスへの導入を推進していく。

 情報検索・抽出システムの辞書に容易に追加できなかった最新用語を、高速にWebページから取得・判別可能とするもの。約1億文字、2年分の新聞記事に相当する大量の収集済みWebページを平均1日でテキスト処理。インターネット上で日々生み出される最新用語を継続的に取得することができる。

 これによって、検索や抽出に必要となるテキスト解析精度が向上する。たとえば、大学や企業のWebページから獲得した技術用語を継続的にシステムに反映することで、ユーザーが探している最新技術の名称を常に正しく検索・提示することも可能となる。

 沖電気では、Webページなどからの情報収集支援サービス「MAILPIAR」や三菱総合研究所と共同開発中の次世代型の検索エンジン「Bluesilk」への本技術の導入を進める予定。