NTTコミュニケーションズ(NTT Com)は1月21日、放送局の生放送ニュース番組向けに、世界で初めて字幕を全自動で制作する「全自動リアルタイム字幕制作システム」の提供を開始すると発表した。1月22日から、全国の放送局を対象に申し込みを受け付ける。税別価格は300万円。今後1年で20-30局へ販売し、1-2億円の売り上げを目指す。

 開発したシステムは、番組放送前にあらかじめ準備した放送用原稿を、システムに取り込んだ後、字幕テキストに自動で変換。その後、放送中にアナウンサーの音声を認識し、事前に登録した字幕テキストとアナウンサーの発話の音声認識結果を照合してから、アナウンサーの発話のタイミングに同期して、リアルタイムで字幕テキストを流す仕組み。



 従来の字幕制作は、放送前に設定したあらかじめ予想される単語から、機械がアナウンサーの発話内容を認識し、その結果を手動で修正して字幕テキストを流す「リスピーク音声認識方式」や、放送用原稿を手動で変換して字幕テキストを作成し、アナウンサーの発話に合わせてスタッフが字幕を流す「字幕テキスト主導送出方式」などが主流。最低でも放送前作業に30分-1時間程度かかり、放送中も字幕を流すスタッフが2-5名待機していなければならないなどの制約があった。

 新システムでは、30分の番組であれば、最短10秒程度で放送用原稿を字幕テキスト化でき、放送中は、アナウンサーの音声を直接システムに取り込むため、放送中の待機スタッフも必要ないという。

 先端IPアーキテクチャセンタの端末・配信プロジェクト情報変換チームの粟田定樹氏は、「近年、難聴者が増加しており、生放送番組においても字幕放送の必要性が高まっている。また、放送局側からも、番組制作スタッフの確保が困難であるという声を聞いていた。今回の実用化は、そういった問題の解決策」とシステム開発の背景を語った。


 今後は、放送前の原稿取り込み作業の自動化や、現在は5分程度のストレートニュースまでという対応可能時間を延長を図り、地域放送局が夕方放送している情報・ニュース番組にも対応する予定。また、NTT Comのネットワークサービスと連携し、字幕付与のASP事業の展開も検討している。

 吉川博・先端IPアーキテクチャセンタ端末・配信プロジェクト情報変換チーム担当課長は「字幕放送は、いまやどんなときでも利用できるユニバーサルサービス。今回のシステムが、我々が培ってきた技術を還元する場にしたい」と挨拶した。