MENU

お客様の声

  1. Home
  2. 導入事例
  3. お客様の声
  4. Join-View®を活用した、AI音声認識文字起こしアプリケーション「オトジロウ」の開発

Join-View®を活用した、AI音声認識文字起こしアプリケーション「オトジロウ」の開発

株式会社フジテレビジョン技術局 デジタルソリューションセンター IT戦略部 主任福田 暁史 様

映像の文字起こしの負担軽減と効率化へ

フジテレビでは、番組コンテンツ制作の過程において、映像素材の文字起こしに膨大な作業時間を掛けており、負担の軽減と効率化が課題とされてきました。
一方、音声認識による自動文字起こしについて、AIを利用したサービスが巷間で出回り始め、認識性能も向上してきていました。
これを受け、AI音声認識を利用して課題解決を行う、汎用的な文字起こし作業補助アプリケーション「オトジロウ」の開発プロジェクトを立ち上げることになりました。

そして2020年、アプリケーションの社内向けリリースを行いました。
続いて2021年夏、取材素材を扱う設備及び番組制作支援システムにオトジロウと同じモジュールを連携し、取材映像素材の文字起こしに特化した仕組みをサービスインしました。

アプリケーション開発に用いた、様々な機能を備える「Join-View®」

AI音声認識を利用した文字起こしに取り組み始めた当初、ユーザからは、人手で行っている文字起こし作業をそのまま全自動処理に置き換えたいという発想が強くありましたが、音声認識は音源の明瞭度に結果が大きく左右され、精度については必ずしも完璧なものではないことが明らかでした。
このため、ユーザに、文字起こし作業の補助として音声認識を用いることによる効率化を理解してもらい、まずユーザに汎用的な文字起こしアプリケーションを提供し(音声認識PJフェーズ1)、その後、フジテレビの報道・情報制作統合オンライン編集システムLive Video Center(以下:LVC)及びLVCで扱う素材に紐付いて取材予定・素材メタデータ・原稿などを管理、作成するシステム(以下:Fujion)に文字起こし機能を連携する(音声認識PJフェーズ2)計画を策定しました。

ユーザからの要件と実現可能性の面から、フェーズ1では、映像(音声)ファイルの音を認識するファイル文字起こしと、処理端末に映像を入力しつつ文字起こしするストリーミング型文字起こしの両方の作業を対象とすることとしました。

「MP4などの多くのファイルフォーマットを処理でき、映像再生と文字の編集を可能とする文字起こしアプリケーション」を低コストで実現するため、完全なスクラッチ開発で多くの要件を盛り込むことは合理的ではありませんでした。
アプリケーションの調査を進める中で、ユニゾンシステムズ社の映像共有システムである「Join-View®」を利用して、音声認識をアドオンするというコンセプトに行き着きました。
決め手になったことは、音声認識、文字起こし機能の他に、既に映像プレビュー・共有の仕組みが備わっていたことと、Azure AD連携も視野に開発を進めることが可能であった点です。

これにより、構築コストを抑え、短期間で汎用アプリケーション“オトジロウ”の提供を行うことができました。要件確認後、社内の利用環境の整備やユーザ受け入れテストも含めると、開発開始から3ヶ月半でリリースすることが出来ました。

開発者と直接コミュニケーションが取れるユニゾンシステムズ

ユニゾンシステムズ社は、お客様と直接コミュニケーションを取りながら開発できるところが魅力の一つです。
開発部門と早い段階で直接会話することができ、本質の議論が迅速に進んだので、このようにスムーズにリリースまで至ったと思います。

またこちらの要望を細かく聞いてくださり、UX/UIが柔軟にカスタマイズできたことも大変助かりました。

最後に

オトジロウによる文字起こし時間について、報道部門では、リリース後4ヶ月で事前にシミュレーションした手作業での文字起こし映像尺概算(30000分/月)に達しました。

情報番組部門では、リリース後にAI音声認識ツールの認知度が上がり、オトジロウアプリ利用が1.4倍に増え、LVCでのルーティン利用も右肩上がりに増加しています。
オトジロウアプリでディレクターによるデジ取材が多く文字起こしされ始め、情報番組部門の性質としてクルーによる取材と並び、デジ取材や電話取材が多いことも見て取れました。

また番組制作における取材映像文字起こしの他、議事録作成、電話取材、Web会議などの文字起こしが恒常的に音声認識によって行われはじめるなど、それまで全て手作業であった文字起こし業務の状況変化が見て取れ、システム利用過渡期の様子が検証できました。

今後は、よりコアな運用に乗せていくための安定性の向上や、更なる利用シーンの拡大(ライブ映像の運用拡大、モバイルデバイスへの対応)を目指していきたいと思います。

製品情報はこちら