沖電気工業(篠塚勝正社長)は4月11日、ウェブでの文章検索でテキストから数値情報を抽出し、指定した検索条件範囲に入る数値をより検索できる検索技術を業界で初めて開発したと発表した。インターネット検索エンジンに代表される情報検索・抽出システムに組み込むことで検索精度向上することができるという。

 沖電気が開発した技術は、まず、テキストの数字周辺に現れる単位文字列や単語を、「金額」「時間」「長さ」「重さ」「速度」の5つの属性を判定。判定した属性の代表単位で数字の大きさを換算し、数値情報として抽出する。長さの場合であれば、「インチ」や「尺」といった単位で記述された数値はすべてメートルに換算する。

 これまでの検索技術では「重さ1キロから2キロのノートパソコン」というキーワードを指定した場合、「重さ1キロから2キロ」という文字列が含まれる情報は検索できるが、「1.2kg」という記述の情報を検索することはできなかった。また、「キロ」の部分だけが該当する記述を探すため、重さではなく長さを検索結果として表示することもあった。


 沖電気の検索技術を使えば、カタカナだけでなく単位で書かれた数字語句も探せるほか、「重さ」だけに絞った情報をより正確にウェブ上から入手できる。検索されたウェブの文書などに記述されている数値情報と指定した数値情報の単位と大きさをユーザーが比べることで、目的の数値条件を含んだ文書か、そうでないかを判定することが可能となる。

 沖電気では新技術を自社のWebページ/RSSデータの更新をメールで通知するサービス「MAILPIA」で、新機能として追加し、無料で利用できるようにした。新機能を使うとWebページの更新内容に、指定した数値条件にマッチした数値情報が含まれた場合、更新内容をメールで知らせる。今後は新機能を携帯電話コンテンツサービスにも展開していく予定。