科技新知
3/7/2023

逐字稿軟體推薦|用GPT-3一鍵自動生成逐字稿與AI分析,解放人力就靠它!

席捲全球的聊天機器人ChatGPT顛覆了人們對一般Chatbot簡易回答的制式印象,不僅回覆更靈活,資訊也更加豐富度與準確,甚至能做到擬真人的對答與創作,究竟它背後所驅動的黑科技是什麼?

逐字稿軟體推薦|用GPT-3一鍵自動生成逐字稿與AI分析,解放人力就靠它!
聊天機器人 ChatGPT 為何能掀起全球熱烈關注,背後核心技術 GPT-3.5 大型語言模型厲害在哪?生成式 AI 如何走向商品化,變身語音轉錄工具以及協作平台,解放聽打逐字稿的雙手?

近期,AI 研究實驗室 OpenAI 開發的聊天機器人 ChatGPT 為 AI 界拋下一枚震撼彈,超脫一般聊天機器人(Chatbot)的能力,進化到更精準且人性化的對話,甚至能撰寫程式、根據文字創作圖像,還能創作詩篇、論文等各式文字內容的境界,掀起主流社群、媒體的熱烈討論,搖身成為時下 AI 界新寵兒。


席捲全球的聊天機器人 ChatGPT 顛覆了人們對一般 Chatbot 簡易回答的制式印象,不僅回覆更靈活,資訊也更加豐富度與準確,甚至能做到擬真人的對答與創作,究竟它背後所驅動的黑科技是什麼?

ChatGPT 擁有很強的生成能力,可以回答各種各樣的問題,包括常識性問題、科技問題、文化問題等等。它可以為使用者提供人類化的對話體驗,因此在網上聊天和客戶服務方面很受歡迎。(Credit: OpenAI


ChatGPT 聊天機器人聰明的原因?


ChatGPT 背後的關鍵開發技術是 OpenAI 所開發的 GPT-3.5 大型語言模型(Large Language Model;LLM)),同時透過人類回饋機制的強化學習來進行訓練。不只 OpenAI 大力發展「生成式 AI」(Generative AI),今年 6 月,全球科技巨頭 Google 基於大型語言模型Meena所開發的聊天機器人 LaMDA,同樣引發世人注目。

目前 OpenAI 尚未公布 GPT-3.5 模型的訓練規模,值得參考的是,OpenAI 先前砸下 1,200 萬美金訓練費用開發了 GPT-3 大型語言模型(GPT-3.5的前身),而 GPT-3 擁有 1,750 億個模型參數,預訓練資料量為 45 TB,此語言模型善於生成文字內容,已可達到即時問答、聊天、用註解生成SQL語法、情感分析等強大功能。

不管是全球科技巨頭亦或國際AI研發組織,訓練這些大型語言模型需要動輒上百萬、上千億個模型參數,開發者需要花費大量資源才能做到。但本著開放原始碼的精神,這些機構紛紛大方釋出開源軟體,讓更多程式開發者使用大型語言模型,這也成為國內外企業發展 AI 應用與商機的重要開端之一。


走在 GPT-3 新商模前端,一窺語音轉錄與分析工具的背後技術


語音轉錄工具通常會複合式地利用多個語言模型例如:GPT-3、BERT、BLOOM、DPR,也是國內外許多企業會採用的作法,不僅可以汲取不同模型的優勢,在成本的控管上也更加有彈性;相對來說,一套 AI 工具在不同的語言模型中切換,對於企業團隊的技術要求也會更高。舉例來說,Vocol 語音協作平台就利用了四項大型語言模型,其各自特色如下:

上表為市面上常見的四大型語言模型與其特色。(Credit: Vocol


4 大族群從此解放雙手!不用再聽打逐字稿和摘錄重點,提升效率產出更有價值


「記者:聽打採訪的逐字稿好花時間,特別是這場專訪有多位受訪者,整理起來更麻煩了...」

「YouTuber:這期拍攝的影音節目能直接轉成文字再上字幕嗎?」

「學生:線上教育課程的影片轉成文字能更好吸收…」

「資深菜鳥:每天那麼多會議,光整理會議摘要就夠費神了…老闆還要求今天下班前所有同仁要針對年度重點計畫這項會議摘要提出具體建議,我要怎麼短時間產出會議摘要,並共享給所有同仁即時回饋?」


相信這是許多媒體從業人員、文字自由工作者、YouTuber、學生、企業員工,在產出具有價值的內容前,或者是在學習新知的過程中,最真實的崩潰心聲。

聽打逐字稿和整理摘要非常繁瑣和費時,需要高度專注和耐心,而且容易出錯和漏掉重要信息,時常讓人感到非常痛苦和挫敗。(Credit: Canva


語音協作平台 Vocol 除了能消化大量語音轉製文字的需求,最大的特色是能透過人工智慧快速將長篇逐字稿內容總結出簡要的重點,滿足了市面上多款語音轉錄工具無法滿足的用戶需求。

不只面對個人端用戶,Vocol 亦可作為企業內部協作工具,比如新創公司、教育產業、金融業的法遵單位、或者需要大量汲取國際研究報告或論文的研究單位等,都能夠有效加速組織內的工作效率。

Vocol 怎麼用?一次看懂 8大功能

1. 支援影音檔、語音檔:一鍵上傳各式影音/語音檔案到媒體庫,即時轉錄成文字。

2. 支援 3 大語言版本:中文、英文、日文,一次滿足多種語言需求。

3. 內建 AI Power:可即時消化大量語音轉錄成文字的需求,同時快速將長篇逐字稿內容總結出簡要的重點。舉例來說,一場多人會議,此 AI 工具能做到「逐字稿摘要」、列出「逐字稿主題」,同時具備「人聲分離」功能,可區分出會議中不同參與者發表的言論內容。

4. 重點摘要:使用者可在語音轉錄時,隨時標註重點段落,比如客戶行銷預算、本年度重點計畫,讓參與會議的成員一目了然。

5. 支援線上多人共編:任一使用者可手動摘錄多段重點文字,並標註共筆成員協作註解內容。

6. 重點集:此專區提供重點內容全覽,使用者可隨選、隨看每場會議的每段重點,讓重要資訊不漏接。

7. 數據分析:此儀表板提供內部成員全覽會議回饋,比如團隊成員對每段會議重點摘要的審視頻率、喜歡程度等。

8. 付費機制彈性:Vocol 提供兩種計費方式,單次購買或是月付制,但是用多少扣多少的概念則是通用的, 皆依照上傳的語音分鐘數從方案上扣除(語音轉錄文字)。


使用 AI 工具可以大大簡化人們的工作流程,並節省大量時間和精力,從而讓人們更加輕鬆和開心地工作。(Credit: Canva


結論:生成式 AI 迎來商品化浪潮,Vocol 語音協作平台整合多個大型語言模型特色,能夠做到生成文字內容、意圖分析與對話管理、理解多國語言、識別與摘錄大量文檔中的重點段落。不只解放聽打逐字稿、摘錄會議重點的雙手,更能成為企業內部協作平台的新選擇,提升組織的工作效率。