AIが生成した「偽音声」で詐欺が発生しているが、「偽音声」を99%見抜く検知器も開発される

ネット上には様々な画像や音声、動画やニュースなどが日々更新されている。ＡＩの進化により、それらの情報が本物なのかが怪しまれる事態が進行している。最近では以前よりあった合成写真にＡＩの技術が加わり、本物と見分けが付かないレベルの合成写真や動画が見られるようになった。

さらに近年では機械学習の進歩により、合成音声の品質が劇的に向上し、ほぼ人間っぽい音で出力されるため、人間と見分けがつかない。そのためAIが生成した「偽音声」を使った詐欺事件も発生しているという。
米フロリダ大学の研究チームが音声生成モデルで作成された合成音声を見抜く検出器を開発し、99％以上の精度で識別できたという。

本人公認「AIひろゆきに適当なことを喋らせよう！」

9月5日、AI音声合成サービスのCoeFont社は、匿名掲示板「2ちゃんねる」の開設者の西村博之氏の声を再現した合成音声に、好きな文章を読み上げさせられるジェネレーターを無料公開している。
おしゃべり　ひろゆきメーカー

なりきりひろゆきメーカー | ひろゆきになりきって色々喋っちゃおう！

ひろゆきになりきって色々喋っちゃおう！

このジェネレーターを無料公開している目的は、同社の技術を周知するためと話している。
このジェネレーターの特徴は

①　無料
②　140文字までの文字が入力可
③　ひろゆき氏の写真を紙芝居のようにつなぎ合わせたmp4形式の動画として出力
④　【重要】ジェネレーターで生成した音声はSNSでのシェアのみ利用可能

注意点としては、ネット上のほとんどの画像や音声には著作権が発生する。

利用する場合は許諾を得る必要があるが、ひろゆき氏の映像と音声に関しては、本人の許可が得られているため無料で使用できる。
同ジェネレーターの活用メリットは、病気等で声帯を摘出しなければならない患者が、声帯摘出前に合成音声を作成しておけば、声帯摘出後も他の人と意思疎通が図りやすくなる。

その反面、このようなサービスを利用し他人の声を合成音声に登録し、犯罪に使われる恐れがある。海外では実際に上司の音声を合成し、資金送金を指示させる詐欺事件が起こっているという。

どんなディープフェイク音声でも見抜く

近年「おしゃべり　ひろゆきメーカー」のように、機械学習モデルの進歩で合成音声の品質は劇的に向上したため、ほぼ人間と見分けがつかないという。敵対者が任意のフレーズを話す標的の個人をシミュレートできるようになったことで、現実的に被害も確認されている。
これまでもディープフェイク音声を使った犯罪を阻止するための技術開発が行われてきたが、多くの場合は未知の合成音声に対して、本物かどうかの検出ができなかったという。

2022年8月10日-12日、米フロリダ大学の研究チームが発表した論文「Who Are You（I Really Wanna Know）？　Detecting Audio DeepFakes Through Vocal Tract Reconstruction」によると、本研究では音声から声の通り道「声道」をAIの中に作成し、その声道から人の音声か偽物の音声かを識別する技術を開発し、その精度は99％以上だという。

Who Are You (I Really Wanna Know)? Detecting Audio DeepFakes Through Vocal Tract Reconstruction

Who Are You (I Really Wanna Know)? Detecting Audio DeepFakes Through Vocal Tract Reconstruction | USENIX

人体の構造から音響的挙動を再現し検知する

人間の声帯や舌、唇などの声道構造はほぼ同じだが、人によって声帯の長さや舌の厚みや動かし方、唇の筋肉の付き方などに違いが出る。この違いにより音響的挙動が変化し人それぞれの声の違いに現れてくる。声帯や舌、唇などの構造を変化させることで200以上の異なる音（音素）を作り出せるが、人体の構造上自ずと制限され、声に微妙な変化が出る。そのため音素の音域は比較的狭くなる。
これに対し、ディープフェイク音声には制限がなく、数十秒の音声だけで声の特徴を抽出し、テキスト音声合成アルゴリズムを用いて、選択したフレーズをしゃべっているように聞かせる。AIが合成したことで音素の音域には制限がなく、幅広い音域で生成できる。

研究チームは、人間の声とディープフェイク音声の違いに注目し、発声時の人間の声道の配置を推定する流体力学モデルを開発した。
この技術で人間の声でモデル化すると、生物学的に複雑な形状になるが、ディープフェイク音声でモデル化すると、ストローが曲がったような単純で無機質な形状になることが分かった。
これにより、どんなに人間に近い音声であっても声道が模倣できなければ見分けられることが検証できたという。
さらにシステムを評価するための実験を行った結果、判別精度99.9％、再現率99.5％という信頼できる高い数字を達成した。

またどのような声道の特徴や発話部分からディープフェイク音声が検出されるかを分析した結果、平均して1文の発話でディープフェイク音声を検出することができ、真陽性率（TPR）は92.4％であったという。
AIの劇的進化は今後も続く。この技術をより良く使うか、だますために使うか、その選択は人が握っている。
参考
AIが生成した“偽音声”を見抜く技術　99％以上の精度で検出
https://www.itmedia.co.jp/news/articles/2209/27/news062.html
「AIひろゆきに適当なことを喋らせよう！」　無料のジェネレーター公開　本人公認
https://www.itmedia.co.jp/news/articles/2209/05/news117.html