義肢の声
テクノロジーにより、「書かれたテキストのフォントについて考えるように」声について考えることができるようになりました。

Shutterstock / Pablo Inones
ロジャー・エバートが下顎、つまり彼の声を癌で失ったとき、テキスト読み上げ会社のCereProcが作成しました 合成音声 それは映画評論家のためにカスタムメイドされるでしょう。コンピューター化された声は、エバートが長いキャリアの中で録音した言葉の融合であり、完全に自然に聞こえるわけではありません。しかし、それは独特に聞こえるでしょう。それは、エバートが声帯を取り除いて失ったもの、つまり彼自身の声を取り戻すのを助けることを目的としていました。ほとんどの人はそれほど幸運ではありません。脳卒中を起こした人、またはパーキンソン病や脳性麻痺などの病気を患っている人は、配信が完全に一般的なバージョンの合成音声に依存することがよくあります。 (スティーブンホーキングのコンピューター化された単調なものを考えてみてください。または アレックス 、AppleのVoiceOverソフトウェアの声。)良いニュースは、これらの人々の声が聞こえることです。悪いニュースは、彼らがまだ声が私たちに与えることができる最も強力なものの1つを奪われているということです:ユニークで、聞こえるアイデンティティ。ボストンで、 ルパルパテル それを変えることを望んでいます。彼女と彼女の協力者、 ティム・バネル Nemours AI DuPont Hospital for Childrenは、コンピューターの支援なしに、話すことができない人のために声を出すアルゴリズムを数年間開発してきました。声は自然な響きだけではありません。彼らもユニークです。それらは、基本的に、ユーザーの既存の声(およびより一般的にはアイデンティティ)に合わせて調整された音声補綴物です。彼らはそのアイデアを前提としている、とパテルは私に言った、テクノロジーは今や私たちが「書かれたテキストのフォントについて考えるのと同じように」声について考えることを可能にする。これ このように動作します :ボランティアがスタジオに来て、数千のサンプル文を読み通します( 白い牙 と オズの素晴らしい魔法使い )。次に、Patel、Bunnell、およびそのチームは、可能であれば、受信者自身の声を録音して、そのピッチとトーンを把握します。 (受信者に音声がまったくない場合は、性別、年齢、出身地域などを選択します。)次に、チームは音声録音をマイクロ単位の音声に分解します(たとえば、1つの母音で構成されます。それらのユニットのいくつか)。次に、彼らが作成したソフトウェアを使用して— VocaliD 、 それは呼ばれています-2つの音声サンプルをブレンドして、ラボで設計された新しいレキシコンを作成します。これは、コミュニケーションを必要とする人が自由に使える単語の音響コレクションです。これは、アルゴリズムによる支援にもかかわらず、骨の折れるプロセスです。簡単に使える声をつくる、 ニューサイエンティスト ノート 、ドナーは少なくとも(少なくとも!)800文を読む必要があります。そして、比較的自然に聞こえる声を思いつくには、3,000文を声に出して読む必要があります。さらに、現在のシステム(アルゴリズムによるリミックスと組み合わせた人間の録音)では、音声ドナーの物理的な存在が必要です。「今のところ、」パテルは私に言った、「私たちのプロセスは人々を研究室に呼び込むことです-そしてそれは拡大縮小しません。」これらすべての障害にもかかわらず、人々は困っている人々に自分の声を貸すことに興味を持っているようです。パテル、彼女の立場で ノースイースタン大学准教授 は現在、Human Voicebank Initiativeを開発しています。これは、自分の声を持たない人々に寄付できる人間の声のリポジトリを作成することを目的としたプロジェクトです。イニシアチブ 現在、10,000人以上が音声提供者として登録されています 、パテルは言います。彼女と彼女のチームは、プロジェクトの技術インフラストラクチャを構築し、ドナーが自分の時間に自分の録音を行えるようにするWebクライアントやiPhoneアプリなどのツールを開発しているところです。これは、おそらく、コマンドのために人間の声をますます要求するデバイスの適切な使用法です。 「私たちがあなたと私が使用し、依存しているテクノロジーについて考えるとき、私たちは今、はるかに多くのスピーチを使用するつもりです」とパテルは言います。 「私たちは私たちの電話と話します、そして私たちの電話は私たちと話します。」