GPT和AI驅動的逐字稿工具能幫助工作但也存在一定限制。使用者應該了解有那些限制,才能避免產出錯誤結果,也才能將逐字稿軟體效能最大化
當ChatGPT於2022年底出現時,代表了一個時代的大躍進,以至於許多使用者忽略了它可能有的限制。例如,一些使用者引用來自ChatGPT的訊息做為報告的內容,最終被證明是虛假或不準確,你可能聽說過,ChatGPT曾為了要填空而產生捏造的訊息。
儘管現在人們已經懂得仔細檢查和驗證由ChatGPT提供的內容,但仍有另外一個人們經常忽視的領域:語音轉文字,又名轉錄逐字稿。現在有許多由ChatGPT,或更具體地說是OpenAI的Whisper(其開源語音識別系統)提供的逐字稿解決方案,以及來自其競爭者的解決方案。
由AI驅動的逐字稿解決方案也有其限制。如果用戶不了解這些限制,並將由AI生成的逐字稿視為事實,則可能面臨嚴重後果,包括操作混亂(即同事不知道拼錯的單字實際上是工作流程中必要的內容)到聲譽損害(即不正確的逐字稿創造失態,損害企業聲譽)。
由於有著這些風險,所有使用者也必須認識到以下的限制。
許多新創組織選擇自創非常規的的品牌名稱,例如重複相同的字母。這樣做的目的雖然是有其策略性的:可能是因為常見拼法的網域已經被使用,或者他們希望在搜尋結果中能出現對品牌有利的搜索結果。
這些情況對於由AI驅動的語音轉文字,可能有不好效果。例如,Motorola Mobility的智慧手機系列Razr可能會被錄製成為更常見的razor。如果Motorola Mobility要公開發布其影音的逐字稿,這個錯誤可能嚴重傷害到聲譽。批評者可能嘲笑Motorola Mobility未能正確拼寫自己的品牌名稱,即使錯的是因為使用工具不當。
一般的對話通常不會是很乾淨地只存在一種音檔,例如:一個人說完然後停下來,再給另一個人發言的機會。在自然對話過程中,人們會相互打斷,插嘴,並發表經常重疊的評論。
根據巴黎理工學院計算社會科學小組的說法,由GPT驅動的解決方案在處理這些插話時存在問題。它們往往會犯以下兩種錯誤之一:一是忽略次要對話的部分。二是按順序呈現對話,即使實際上並非如此,而這些可能會改變對話的真實意義。對於依賴這些工具進行全面性和準確性的業務來說,它們可能會在讓不容易被檢視的部分出現問題。
年輕人可能不知道晶晶體,其實就是中英夾雜,常見於雙語或多語系的人在對話過程中自由切換常用語言的行為。新加坡的同事可能會用英語開始對話,然後在話題轉向更容易用該某些特定語言表達的概念時,再切換到中文。
根據研究報告,由GPT驅動之逐字稿轉錄在包含中英夾雜的音檔方面存在某些問題。例如,它可能僅記錄下存在於第一語言中的相似發音詞語,而不是準確地轉錄成應該要被轉錄的第二語言。這種無法正常運作的狀況,可能會使慣於切換語系的工作文化更難獲得準確的逐字稿。
Whisper的訓練資料集包括超過680,000小時的音檔,因此能夠轉錄數十種不同的語言,包括從阿拉伯語和亞美尼亞語到越南語和威爾斯語的所有語言。
但並非所有語言支援的品質都相同,這歸因於不是所有語言在大量資料集中都有相同的包含性。菲律賓的官方語言塔加洛語是較少數人使用的語種,就受到了一些常見錯誤的影響,正如GBH和美國公共廣播檔案館的菲律賓採訪數據化項目中的評論。
他寫道:[錯誤包括]不必要地包含某些發言聲音,通常是輔助音和滑音,另外也像是:拼寫單詞的錯誤,將一個單字分成多個,以及將單獨的單字連接在一起。
那些期待這些服務提供更高品質逐字稿的企業可能會失望。因為他們可能不得不花費大量時間來更正這些錯誤,比起選擇一位以其母語為其語言的真人聽打逐字稿人員,可能需要耗費更多的時間。
GPT也容易出現所謂的特殊故障案例。這類似於ChatGPT產生不真實事實的情況。對於特殊的故障案例可能會有:輸入語音時是清晰的短句,而產出卻跟音檔毫無關聯。
來自Analytics India Magazine的一些例子尤其誇張:音檔中的“seven(七)”變成文字時的“Damn it"(該死)而“Her jewelry shimmered (她的珠寶閃閃發光)則變成了“Hey, did you lose your mind" (嘿,你失去理智了嗎?),這些錯誤完全跟原意不同。
在所有知識工作者中,記者可能是最常轉錄逐字稿的角色之一。他們必須訪問並將語音轉文字,以便撰寫故事。對於他們來說,轉錄逐字稿本質就需要耗費大量時間,正如記者詹姆斯·索默(James Sommer)在《紐約客》的描述。
他記錄了自己在逐字稿解決方案和服務方面的長期歷史,他也使用過以人工智慧驅動的解決方案Otter.AI。他指出,該解決方案在標點方面表現不佳。例如,在大多數人工聽打人員會放句號的地方,Ottter.AI的內容則是持續沒有斷點,像這樣的長句可能會激怒即使是那群最有耐心的英語教師。對於那些希望透過這個解決方案而更有效率的人來說,為了要能擁有正確的標點來幫助可讀性,使用這個方案反而可能造成反效果。
因為即使像GPT這樣的高科技工具仍然容易出現各種錯誤,企業應該超越僅僅考慮轉錄軟件。能夠成長的企業不應該單純要求員工去記錄會議上講了什麼,因為這是一種被動的舉動。
相反的,企業應該將語音轉文字視為能進一步協作的起點。要達成這樣的目標,前提是要能夠導入像Vocol.ai這樣的語音協作平台,他的平台始於語音轉文字,但最重要的是提供加值功能,他改善了單純逐字稿工具的現存問題。在Vocol.ai上,用戶可以共享轉逐字稿,閱讀AI自動生成的摘要,在適當的地方進行劃重點顯示,甚至生成待辦事項。這些功能將逐字稿從一次性行為轉變為後續處理工作的中心點:讓計劃不僅僅被制定,而是可以被實現。