MENU CLOSE

IT・科学

「うー、ひどいですぅぅぅ」萌える人工音声で特許出願 驚きの技術

「めがみめぐり」でキャラクターが正しい発音を学ぶイメージ ©CAPCOM CO., LTD. 2016 ALL RIGHTS RESERVED.
「めがみめぐり」でキャラクターが正しい発音を学ぶイメージ ©CAPCOM CO., LTD. 2016 ALL RIGHTS RESERVED.

目次

 バーチャル歌手「初音ミク」などの登場で、一気に生活に浸透した人工音声。ただ、聞く人に無機質な印象を与えがちな発展途上の技術でもあります。用途が広がる中で、いかに感情豊かに聞こえるよう工夫するか、技術開発が盛んになっています。最近では「萌える」音声の特許をめざす動きも出ています。

【PR】手話ってすごい!小学生のころの原体験から大学生で手話通訳士に合格

人間らしさの表現、苦手

 大手ゲームメーカー「カプコン」東京支店(新宿区)で、12月8日に発売されたばかりのニンテンドー3DSソフト「めがみめぐり」を見せてもらいました。

 交通系ICカードと連動し、利用した駅や買い物に応じて見習いめがみのキャラクター「ツクモ」と、ゲーム内で多彩な対話ができるのが売り。

 ストーリーに合わせ、ツクモは全てのセリフを人工音声で読み上げます。さらにプレーヤーが入力した「呼んで欲しいあだな」や「好きな食べ物」なども、自然な発音で読み上げて会話に盛り込むことができます。

 人工音声の合成は東芝の技術「ToSpeak」を採用。声優に数百種の短文をしゃべってもらい、その情報をもとにあらゆる文章の読み上げを可能にしています。

 ただ、音声制作を担当したサウンドディレクターの山東善樹さんは「人工音声はすごく発達しているようで、人間らしさを表現するのが非常に苦手。たとえば駅のアナウンスの人工音声に喜びや怒りはいらないですからね。でもエンターテインメントに使おうと思ったら、不可欠な要素になってくる」と指摘します。

プレイヤーが入力した言葉も、自然な発音ができる ©CAPCOM CO., LTD. 2016 ALL RIGHTS RESERVED.
プレイヤーが入力した言葉も、自然な発音ができる ©CAPCOM CO., LTD. 2016 ALL RIGHTS RESERVED.

人工音声に「癖」を追加

 そこでカプコンでは、より表現力を高めるため、独自の技術を開発しました。3DSの小さな画面の中でツクモがしゃべる音声には、ある特徴があります。

 たとえば「うー、寝るなんてひどいです。ううう」というセリフ。真ん中の「寝るなんてひどいです」は、人工音声で読み上げています。

 しかし、その前後の「うー」と「ううう」は、声優の録音したままの「生声」を流しています。

 ほかにも「あっ!」「ほっ…」など、数百種類の息継ぎや短い発声を収録。喜びや焦り、退屈など表現したい感情に合わせて、人工音声の前後でこうした生声を流すことで「人間が話すときの『癖』や『息づかい』を再現でき、ツクモの音声全体が格段に人間らしく聞こえることが分かりました」(山東さん)といいます。

 カプコンではこの仕組みを「オセロットシステム」と名付け、特許出願中です。

 「めがみめぐり」の野中大三プロデューサーは「現状では人工音声は声優さんの代わりにはなりません。しかし、工夫次第で聞く人に愛着をもってもらえるものを、作り出すことはできそうです」と語ります。

カプコンの野中大三プロデューサー(右)と、山東善樹・サウンドディレクター
カプコンの野中大三プロデューサー(右)と、山東善樹・サウンドディレクター
「めがみめぐり」の公式動画。ツクモがしゃべる音声を聞くことができる

表現力磨いた技術次々

 人工音声をつくりだす技術も、進化しています。

 一般社団法人「電子情報技術産業協会(JEITA)」は今年10月に発表した業界調査で、「声色のバリエーション数が大きく増え、感情や口調の表現力が増した技術が開発されてきている」と報告しています。

 同協会によると2014年以降、富士通研究所、HOYAサービス、NTTアイティ、東芝、エーアイなどが新技術を発表しています。

 NTTアイティが2015年6月に発表したサービスでは、150人の音声から声自体の特徴だけでなく、速さや抑揚といった「しゃべり方の特徴」も抽出。これらを組み合わせることで「明るい早口なおばあちゃん」「ゆっくり丁寧なお姉さん」など約2万パターンの人工音声を利用可能にしています。

「しゃべり方の特徴」を選べる技術も登場している=NTTアイティ提供
「しゃべり方の特徴」を選べる技術も登場している=NTTアイティ提供

 人工音声をめぐるニーズは多彩になっています。

 普及が進むロボットやスマホアプリで親しみのわく音声が求められているほか、工場アナウンスで緊急性に応じてトーンを変えたり、周りの騒音に応じて声の通りやすさを調整したりといった活用が進んでいます。

 「喜び、怒り、悲しみ」を表現できる技術を昨年発表したエーアイは「人工知能技術の進化で、機械と人間の関係が変化していく未来が予想される。コミュニケーション手段として人に寄り添い、ユーザーが語りかけられている実感を持つような音声が必要とされている」と強調します。

 また、今年4月には障害者差別解消法が施行。NTTアイティの担当者は「視覚障害を持つ人などに向けて、ホームページの読み上げ機能を充実させるといった人工音声のニーズが、企業や行政機関で高まっている」と話します。

関連記事

PICKUP PR

PR記事

新着記事

CLOSE

Q 取材リクエストする

取材にご協力頂ける場合はメールアドレスをご記入ください
編集部からご連絡させていただくことがございます