MENU CLOSE

連載

#1 #ゆるテック

「持続が球菌」「魔方陣」…大臣の就任会見、音声認識してみると?

ネット上で公開されている会見の音声を「文字起こし」してみたら……?

就任会見の音声を機械に「聞き取らせて」みると……(写真:朝日新聞、デザイン:赤澤豪将)
就任会見の音声を機械に「聞き取らせて」みると……(写真:朝日新聞、デザイン:赤澤豪将)

目次

映像のリアルタイム字幕、スマホの音声入力など、さまざまな場面で「声」を「文字」に変換する音声認識技術を目にすることが多くなってきました。より多くの人に情報を届けるためにも、視力と聴力のいずれかに偏らない形式の情報を増やすことは重要です。しかし、時には人間の耳で聞いていればありえないような「誤変換」が話題になることもしばしば。現在の実力と課題とは? 音声認識技術使って、9月16日に菅義偉首相によって組閣された新内閣の、記者会見の音声データを機械が「聞き取って」みました。
【PR】手話ってすごい!小学生のころの原体験から大学生で手話通訳士に合格
ゆるテック

インターネットに公開されているデータをもとに調査

官邸や各府省庁で行われる記者会見は、大臣の発言や記者の質問へのやりとりがテキストで各組織のホームページで公開され、誰でも閲覧できる状態になっています。これに加え近年では、会見の動画を公開する省庁も増えてきました。例えば、昨年9月に小泉進次郎氏が大臣に就任した環境省では、その翌月から閣議後の定例会見の動画をYouTubeで公開するようになっています。
記者会見の動画と発言内容が公開されている
記者会見の動画と発言内容が公開されている 出典:首相官邸ホームページより
今月16日に発足した菅内閣。河野太郎行政改革大臣が「やめたらいい」と慣例に一石を投じ、話題となった深夜の就任会見についても、各メディアがYouTubeなどの動画サービスでライブ配信し、政府インターネットテレビでも公開されています。

今回、当日首相官邸で行われた大臣の就任会見と、それ以降(17日~18日)に初めて各省庁で行われた大臣の記者会見の音声(冒頭5分間)を、マイクロソフトのクラウドサービス「Azure Cognitive Services」に含まれる音声文字変換機能「Speech to Text」を使って「文字起こし」を行いました。各組織が公開している発言要旨のテキストを「正」とし、機械がどれだけ正しく聞き取ることができたかを比較します。

ただし、24日18時の時点で動画と発言記録を公開している会見に絞ったため、調査できた閣僚は21人中8人となりました。具体的な調査方法は記事末尾にて紹介しています。
記念撮影する菅義偉新首相(前列中央)と閣僚たち=2020年9月16日
記念撮影する菅義偉新首相(前列中央)と閣僚たち=2020年9月16日 出典: 朝日新聞
一般的に音声の文字変換は、録音した環境の騒音の大きさや、個人の特性でもある方言や滑舌などにも影響を受けます。今回、調べた会見は「Speech to Text」による文字変換を想定して行われたものではなく、音声認識の技術自体も発展途上です。会見の優劣を比較するものではなく、あくまで私たちが現在、ネット上で受け取れる情報が、機械にとってどれくらい受け取りやすいものなのかを目的に調べました。

それはこの技術が発達し、変換が正しく行われることによって、聴覚障害がある人など視覚に充実した情報が必要な人が、より受け取りやすくなるはずだからです。また、近年の自動翻訳技術の向上に伴い、日本語が母語でない方へ向けた、多言語での情報伝達のしやすさにもつながっていきます。

菅総理、上川法務大臣…90%以上の合致率

まず驚くべきことに、調査した8人の会見の半数である4人の会見は、発言趣旨の単語の90%以上を「機械」が聞き取ることができていました。

最も発言要旨との合致率が高かったのは、上川陽子法務大臣で96.6%です。音声からテキスト化された文章を見ても、ほとんどストレスなく読むことができるレベルになっていました。

※24日18時の時点でインターネット上で発言要旨(テキスト)と動画をセットで公開されている会見に絞っています
※24日18時の時点でインターネット上で発言要旨(テキスト)と動画をセットで公開されている会見に絞っています
一方、岸信夫防衛大臣の会見は60%を切るなど、合致率が比較的低くなっています。これは動画を視聴していただければすぐに感じると思いますが、他の動画に比べて周囲の音が多く入り、人間の耳でもやや聞こえにくい状態です。前任の防衛大臣、河野氏の会見でも同様に合致率は低くなっています。この程度の合致率になると、変換された文章だけを読んでも、正直内容が理解しやすいとは言えませんでした。

「Go To トラベル」が「交通トラブル」? こんな誤変換も

では、全体を通して、「誤変換」されていたのはどんな単語だったのでしょうか。

まず一番に目立つものは、今まさに今世界に大きな影響をもたらしている、新型コロナウイルスにまつわる言葉の数々です。
今回の調査をする前に、前職の大臣の会見を同じように調べていたのですが、「三密」などは「三三」と変換されていました。「みつ」は「三つ」だと予想したのでしょうか。

日本マイクロソフトのデジタルトランスフォーメーション事業本部・シニアクラウドソリューションアーキテクトの畠山大有さんは、「最近生まれた言葉、もしくは最近よく使われるようになった言葉は、システム内にある辞書に言葉が存在していないため、変換することが難しい」と話します。これは、日常会話などで使わない、専門用語にもいえることだといいます。
日本マイクロソフトの畠山大有さん=畠山さん提供
日本マイクロソフトの畠山大有さん=畠山さん提供
そもそも音声認識とは、音声がそのまま言葉に変換されるひとつの仕組みではなく、さまざまな機能を組み合わせて実現されています。今回の文字起こしの場合、①音声をコンピューターが理解できる数字に変換し、②音を「あ」や「か」などの文字と対応させ、③文脈を認識し適当な単語・漢字を判断する……などの処理を経て、文章化されています。そのためには、語彙の辞書とともに、この単語がどのような場面で使われているのかという語句の関係や構造を示す情報も必要なのです。

畠山さんによると、新しい固有名詞などを認識し変換できるようになるためには、「一般的にはその語句を含むデータを千件近く学習させる必要がある」と話します。このため、こうした変化に対応していくには、常にデータをインプットしていくことが重要なのです。

「邦人」が「魔法陣」に 無意識に出てしまう口癖

他にも、口癖に起因するような誤変換もありました。ついつい言ってしまう「あのー」「えーと」のような文脈上意味のない言葉は、「Speech to Text」ではほとんど省いて変換されています。しかし、単語の一部として認識されてしまっているケースもありました。

こうした口癖と同じように、畠山さんは「方言やイントネーションによっては正しく変換できない場合がある」といいます。

また、音声認識の精度には辞書の課題や話し手の特性も影響していますが、録音する環境にも依存します。

記者会見のようなマイクを使ってひとりずつ話す場では、複数人の声がかぶりにくく、騒音が少ない状況ですが、畠山さんは「人間の耳に聞こえているノイズがすべてではない」と指摘します。

「人間の耳では聞こえない周波数の音でも、デジタル変換すれば数値として表れ、機械には『聞こえてしまう』のです。また、聞き間違いを文脈などから補正する力も人間は強いです。このような点でも機械と人間には大きな違いがあるのです」

日本語の音声技術の「弱点」

では、さらに精度を上げるためには、これからどんなことができるのでしょうか。

畠山さんは、シチュエーションに特化したデータを収集し、学習させるというカスタマイズを挙げます。例えば今回のケースでは、話し手の声や会見場のノイズ、専門用語などのデータを蓄積すること。運用として音声認識が人間の代わりになるまでには、まだまだ地道な作業が必要なのです。
会見場の様子。会見を終え、退席する井上信治万博担当相。初閣議後の閣僚会見が終了した=2020年9月17日午前1時45分、首相官邸
会見場の様子。会見を終え、退席する井上信治万博担当相。初閣議後の閣僚会見が終了した=2020年9月17日午前1時45分、首相官邸 出典: 朝日新聞
こうした状況からも、畠山さんは「音声認識サービスが誰にでも対応できる万人のものになるのは当面難しい」と指摘します。

「その理由のひとつは、やはり学習しているデータが圧倒的に少ないことです。特に日本語の音声認識技術はこれが弱点になってしまっています」

前述しましたが、音声認識技術のキーとなっているのが、言葉の読み、意味、関係、構造などを表す膨大な「言葉のデータ」です。日本では大学や研究機関、企業などで独自にデータを収集していますが、知的財産権やプライバシーの保護により、その量に課題を抱え続けている状況だといいます。
会見する菅義偉首相=2020年9月16日、首相官邸
会見する菅義偉首相=2020年9月16日、首相官邸 出典: 朝日新聞
また、データを集めていく中でその多様性も問われるべきだと畠山さんは警鐘を鳴らします。

「例えば、アナウンサーのような話し方、記者が書くような文章であれば、かなりの精度を出せると思います。しかし、独自の特徴がある方言や、居酒屋などで交わされるようなくだけた会話はそうはいきません。特定の音声がカバーできないことで、そのコミュニティーに不利益が生じないようにすることも重要な視点です」

技術がすぐに「万人のためのもの」にならないからこそ

コールセンターやファーストフードの注文など、音声認識技術が活躍する場は広がりつつあります。生活の中にもスマートスピーカーや声で操作する家電などが普及し始めていますが、これらを使う時は、ゆっくりはきはき話すことを意識している人もいるかもしれません。

今回の取材で、畠山さんの言葉を聞いて考えたのが、様々なハンディを抱える人との向き合い方です。

バリアフリーなどが進んでいるとはいえ、まだまだ、ハンディを持っている側が努力を強いられることが多いという現実があります。これをカバーすると期待されている技術が「万人のためのもの」になるにも、課題がまだまだあります。
誰が、いつ、どんなハンディを抱えるかわからないのが人生です。吃音などに悩む人もいる中、誰もがアナウンサーのように話す世界が正解とは思えませんが、例えば「音声認識しやすい話し方」を心がけることで助かる人がいるかもしれない、という視点は忘れてはならないと感じました。

大多数が「当たり前」だと思っていることを、少し変えるだけで生きやすくなる人たちがたくさんいます。技術の進化を待つだけでなく、使う側の自分たちにもできることがあるのではないか、「自分の声」が持つデータがこれから何に役立つのか、考えるきっかけをもらう取材になりました。
【#ゆるテック】
この企画は朝日新聞社の技術部門・情報技術本部の研究開発チーム「ICTRAD(アイシートラッド)」を中心に、最新技術を最近の出来事や身近な話題と組み合わせて紹介する連載です。ICTRADでは音声認識技術などを使って、記者の取材を支援するサービスを開発しています。
ゆるテック

調査方法について

▼対象とした会見動画
・菅義偉内閣総理大臣:https://nettv.gov-online.go.jp/prg/prg21212.html
・武田良太総務大臣:https://youtu.be/Agkb66ARkjU
・上川陽子法務大臣:https://nettv.gov-online.go.jp/prg/prg21190.html?t=169&a=1
・茂木敏充外務大臣:https://nettv.gov-online.go.jp/prg/prg21191.html?t=169&a=1
・野上浩太郎農林水産大臣:https://youtu.be/ZGNzQfb2iIM
・梶山弘志経済産業大臣:https://youtu.be/PqnuktGv7YY
・岸信夫防衛大臣:https://youtu.be/zTTcjrvYDlE
・加藤勝信内閣官房長官:https://nettv.gov-online.go.jp/prg/prg21218.html

▼調査方法
① インターネット上に公開されている会見動画の音声を、マイクロソフト社の「Speech To Text」で文章に変換する
② 変換された文章を、形態素解析エンジン「MeCab」(システム辞書:NEologd)で名詞や助詞などの単語に区切る
③ 公開されている会見の発言要旨も②と同様に区切る
④ ③の単語が②に含まれているかどうか人の目で比較(読みが合致していれば、正しく変換されたとみなす)
⑤ ③の全単語数を分母に、④で合致していた数を分子とし、「合致率」とする

▼比較時の条件
・それぞれ対象としている話者が話し始めてから5分間のデータで調査しました
・記者による質問は除いています
・句読点やカッコなど、発音されない語句は比較の対象外、全単語数としてもカウントしていません

連載 #ゆるテック

その他の連載コンテンツ その他の連載コンテンツ

全連載一覧から探す。 全連載一覧から探す。

PICKUP PR

PR記事

新着記事

CLOSE

Q 取材リクエストする

取材にご協力頂ける場合はメールアドレスをご記入ください
編集部からご連絡させていただくことがございます