GPTやAIによる議事録作成ツールには限界があります。ユーザーは、運用上のトラブルを防ぐために、GPTやAIの限界をきちんと見極めることが重要となってきます。
2022年後半のChatGPTの登場は社会全体に大きく飛躍させましたが、同時に多くのユーザーがその限界を見誤っています。例えば、ChatGPTが登場した当初、ChatGPT用いて報告書を作成しようとすると、内容には嘘や正確ではない情報が含まれてしまっていました。ChatGPTは報告書の隙間を埋めるために、いわゆるハルシネーション(人工知能が学習したデータからは正当化できないはずの回答を堂々とする現象)を起こしたのです。
最近ではChatGPTが作成した内容を検証し確認するようになりましたが、もうひとつ見落としがちな分野が残っています。文字起こしの分野です。現在、ChatGPT、より具体的にはOpenAiのオープンソース音声認識システムであるWhisperを搭載した文字起こしツールや、競合プロバイダーのものが数多くあります。
AIによる文字起こしツールもまた限界があります。ユーザーがそのことに気づかず、AIが生成した議事録を額面通りに受け取ってしまうと、業務上の混乱(作業の進行に関わる単語がスペルミスをしていて、実際に何を指しているのかわからないなど)から風評被害(誤った議事録が失言として記録され、組織の評判を損なうなど)まで、深刻な結果を招く可能性があります。
このようなリスクがあるため、ユーザーはChatGPTやAIに限界があることに注意しておくべきでしょう。
新しい企業の多くは、母音を省略したり、同じ文字を繰り返すなど、戦略的な意図を持って従来とは異なる綴りのブランド名を付けます。一般的な綴りのドメイン名がすでに使われているか、あるいは、ブランドとして検索結果の上位に表示されるようにするためでしょう。
AIによる文字起こしは、このような名前の書き起こしには向いていません。例えば、モトローラ・モビリティのスマートフォン、Razrは、より一般的なrazorと書き起こされる可能性が高くなります。モトローラ・モビリティがビデオの書き起こしを公開した場合、このミスは深刻な風評被害につながる可能性があります。評論家たちは、たとえツールが最終的な原因であったとしても、自社のブランド名を正しく表記できなかったモトローラ・モビリティを非難するでしょう。
一般的な会話は、一人が話したら一旦止まって、次に話す人に場を与えるというような、きちんとした形では行われないのが普通です。自然な会話の中では、互いの話を遮り、口を挟み、横やりを入れることもあるでしょう。
パリ工科大学のThe Computational Social Scienceグループによれば、GPTを利用したツールはこのような感動詞の書き起こしに苦労しているそうです。GPTを使ったツールは、次の2つのエラーのどちらかを犯す傾向にあります:
一つ目、音声が重なる場合、音声のどちらかを文字起こしから省略してしまう。
2つ目、音声は順次文字起こしされるので、実際にはそうでなかったにもかかわらず、会話の意味を変えてしまう可能性がある。
包括性と正確性を求めてAIツールに依存している企業にとって、このような感動詞によるエラーを見つけることは簡単ではなく、途方に暮れてしまう企業も多いでしょう。
この言葉に聞き覚えがない方もご安心を。コードスイッチングとは、バイリンガルやマルチリンガルが会話中に自由に言語を切り替えることを指します。例えば、シンガポール出身の同僚は、英語で会話を始めて、話題が中国語で表現しやすいコンセプトに及ぶと言語を切り替えて話すかもしれません。
いくつかの報告書によると、GPTによる文字起こし機能はこのコードスイッチングを含む音声解析に手こずるそうです。具体的にどう手こずるかというと、2つ目の言語を正確に文字起こしする代わりに、1つ目の言語で似ている響きの音に置き換えて文字起こしをしてしまうのです。このため、コードスイッチングが一般的な文化圏では、正確な文字起こしが難しくなる可能性があります。
Whisperのトレーニングデータセットは68万時間以上の音声に及び、アラビア語やアルメニア語からベトナム語やヴェルシュ語まで、数十種類の言語を認識する能力を備えています。
しかし、膨大な種類の言語の全てが同じクオリティで集約されているわけではありません。フィリピンの公用語であるタガログ語はこれまで幾度となく同じエラーを繰り返してきました。アメリカ公共放送でフィリピンの凶悪犯罪事件インタビューデジタル化プロジェクト(Philippines Interviews Digitization Project Intern at GBH and the American Archive of Public Broadcasting)にインターンとして従事したトミーリムさんは「子音や滑舌のような特定の発音を不必要に入れたり、単語のスペルを間違えたり、1つの単語を複数に分けたり、または別々の単語を1つに連結したりするエラーが発生した。」と述べています。
このようなサービスを利用する企業は、より質の高い文字起こしサービスを期待していますが、サポートされている言語が限られているため、期待を裏切られるかもしれません。エラーの修正に膨大な時間を費やし、その言語を母国語とする人に文字起こしを頼んだ場合よりも多くの時間を費やすことになるかもしれません。
GPTはまた、特殊な失敗例として知られているものに弱い傾向があります。これはChatGPTがハルシネーションで不正確な事実を作り出す事と似ています。特殊な例では、音声入力は明確であるのに、対応する出力はまったく関係のないものになります。
アナリティクス・インディア誌に掲載された例の中には、特にひどいものもあります。音声では "Seven "なのに、文字起こしでは "Damn it!"に、"Her jewelry shimmered "が "Hey, did you lose your mind? "になっているというのです。このようなミスは、その文字起こしの意味を根本的に変えてしまう可能性があり、従業員間の誤解や、一般社会からの多大な風評被害につながってしまいます。
ナレッジワーカーの中でも、ジャーナリストは最も文字起こしの多い仕事かもしれません。彼らは取材元にインタビューをし、記事を書くためにインタビューを書き起こす必要があるからです。ジャーナリストのジェームズ・ソマーが『ニューヨーカー』で述べているように、当然ながら文字起こしは彼らにとって膨大な時間の浪費になっています。
彼は、文字起こしのツールとサービスに関する長い歴史を文書にまとめ、最終的に最初のAIベースの「Otter.AI」に行き着き、Otter.AI は句読点が苦手だと指摘しました。例えば、ほとんどの人間の文字起こし担当者がピリオドを置くような場所をAIに任せると、内容は延々と続き駆け足の文章になってしまうそうです。効率化を求めてツールを使っているのに、読みやすくするために文章に正しく句読点をつけなければならないのは、時間のかかる面倒なことかもしれません。
GPTのような最先端のツールでさえ、さまざまなミスを起こしやすいため、企業は単なる文字起こしソフトにとどまらないことを考えるべきです。会議で話されたことをただ書き留めるだけでは受動的な作業になってしまいます。
その代わりに、企業は文字起こしを、さらなるコラボレーションのための分岐点として捉えるべきです。この考え方は、Vocol.aiのような音声コラボレーションプラットフォームを通して可能になります。Vocol.aiは文字起こしサービスですが、重要なのは付加価値機能を提供することで、有意義なインパクトを与え、文字起こしだけでは解決できない問題を解決することにあります。
Vocol.aiでは、文字起こしを翻訳したり、自動生成された要約を共有したり、必要に応じて議事録の中でハイライトを作成したり、アクションアイテムを作成したりすることもできます。これらの機能により、文字起こしはその場限りの作業から、タスクを達成するための重要な作業に変わります。Vocol.aiを使えば、計画を立てるだけでなく、実行に移すことができるのです。
この記事を気に入っていただけましたか?ぜひお友達やお仲間にシェアしてください!Facebook、LinkedIn、TwitterをフォローするとVocolのニュースや最新情報をいち早くチェックできます。さらに、以下のレビューサイトで私たちに評価を残していただけると幸いです!
AlternativeTo | Crozdesk | Product Hunt | SaaSHub | There's An AI For That | SourceForge | Slashdot | BetaList