生成AIによる同時翻訳が「予測」の領域に突入
「ABEMA Prime」に出演したKotoba Technologies CEO・小島熙之氏が手掛けた、リアルタイム翻訳サービス「同時通訳」は、従来の翻訳アプリが人間が話し終えてから訳すのに対して、独自の生成AIモデルを開発したことで、話したそばから翻訳していく。そのスピードは世界最速レベルで、人間が話したところから計算した遅延は平均で1秒以内。さらに小島氏は「マイナス0.5秒まで達成している」という。 “遅延がマイナス”となれば、人が話す前に翻訳が始まることになる。 小島氏は番組で、この仕組みや今後の展望について語った。 Kotoba Technologiesは、音声・同時通訳に特化したAIが強み。小島氏も「基本的にAIの研究開発は、汎用的にいろいろなタスクで使えるものを作ろうというコンセプト。我々はスピード、同時通訳に全振りした」と語る。 同社のサービス「同時通訳」では、独自の生成AIモデルを開発し、リアルタイム性と精度の2つで、世界最速レベルを達成した。現在は日本語・英語・中国語・韓国語に対応している。その速度は、人間が話したものが翻訳されて文字になるまで平均1秒以内。さらには相手が次に話す内容を“予知”することで、話す前に文字が表示される“マイナス0.5秒”にまで達した。 生成AIが「この人は次にこう話すだろう」と予測したものと実際の発言が異なるケースもあるが、それも“先読み”までできるレベルにまで高まった証しだ。 引用:yahooニュース https://news.yahoo.co.jp/articles/29e2b33159ad811063991db89ffa52a2ba5b0ad7 ─ YODOQの見方─────────────────────────── Kotoba Technologiesについて調べてみました。 コトバテクノロジーズは、米国のトップ校のAI分野で博士号をとった小島熙之博士と、笠井淳吾博士が共同で設立。従業員は20人ほど。 米国と日本の最先端のAI研究とHPC(ハイパフォーマンスコンピューティング)の専門知識が融合した、国境を超えたスタートアップ企業です。 世界最速のスーパーコンピューター(当時は第2位)富岳を活用した、日本語中心の大規模言語モデル(LLM)の開発から始まりました。 この富岳プロジェクトの成功を基に、最も才能のある研究者やエンジニアが集まり、英語と英語以外の言語間の生成AI導入におけるギャップを埋め、特に生成AIの音声における技術的能力を強化し、様々な実用化の可能性を信じ立ち上げたのがコトバテクノロジーズです。 翻訳以外にもボイスクローニングや音声のテキスト化なども行われている。 2024年11月に行われたエヌビディア ジェンスン・フアンCEOとソフトバンクグループ 孫正義社長の対談にも同社の同時翻訳が使われたようです。 現在はスマホでテキストを表示する段階だが、メガネ型の端末などもリリースされており、いずれは翻訳された内容がスマホを覗く必要もなく、視界に入れることすらできるようになるとのこと。 参考:Kotoba Technologies https://www.kotoba.tech/jp/home

