自 2022 年 OpenAI 發(fā)布 ChatGPT 以來,幾乎所有行業(yè)的大多數(shù)人都至少嘗試過一次生成式 AI 工具。生成式 AI 的市場規(guī)模預(yù)計(jì)復(fù)合年增長率為 24.40%,從而產(chǎn)生 到 2030 年市場規(guī)模將達(dá)到 2070 億美元。該技術(shù)可以通過多種方式發(fā)揮作用。其中之一是使用 OpenAI 從文檔中提取數(shù)據(jù)。
閱讀這篇文章,了解基于 ChatGPT 的 AI 從文檔中提取數(shù)據(jù)的應(yīng)用程序和用例、該技術(shù)的挑戰(zhàn)和局限性及其前景。
OpenAI GPT 如何幫助從文檔中提取數(shù)據(jù)?

OpenAI 的 ChatGPT 是一種大型語言模型 (LLM),旨在根據(jù)獲得的輸入理解并生成類似人類的文本。該技術(shù)利用大規(guī)模機(jī)器學(xué)習(xí)和自然語言處理 (NLP),使其能夠根據(jù)特定查詢提供數(shù)據(jù)提取問題的答案。
在頂級大型語言模型中,ChatGPT 因其在文檔數(shù)據(jù)提取方面的先進(jìn)功能而脫穎而出。我們先來回顧一下OpenAI GPT在該領(lǐng)域的應(yīng)用。使用該技術(shù)的可能方法列表包括但不限于:
- 上下文理解:掌握單詞或短語的使用上下文。此功能對于情感分析、機(jī)器翻譯和對話系統(tǒng)等任務(wù)至關(guān)重要。
- 自動響應(yīng):從電子郵件或基于文本的支持渠道中提取和解釋客戶查詢,以提供自動但準(zhǔn)確的響應(yīng)。它在知識管理中也很有用,可以生成或更新自動常見問題解答。
- 文本摘要:生成長文檔、報(bào)告或文章的簡明摘要,有助于快速決策和信息傳播。
- 命名實(shí)體識別 (NER):對命名實(shí)體進(jìn)行識別和分類,例如人名、組織、位置、時間表達(dá)、數(shù)量等。這對于信息檢索、數(shù)據(jù)挖掘和客戶服務(wù)機(jī)器人非常重要。
- 問答:接收問題,然后提供準(zhǔn)確、簡潔的答案。這可以應(yīng)用于客戶服務(wù)或?qū)W術(shù)研究等領(lǐng)域。
- 發(fā)票處理:從發(fā)票中提取相關(guān)財(cái)務(wù)數(shù)據(jù),以便自動輸入會計(jì)系統(tǒng)。
- 醫(yī)療記錄管理:從健康記錄中提取和總結(jié)關(guān)鍵信息,以便醫(yī)療保健專業(yè)人員更輕松地訪問和解釋。
- 市場研究:分析新聞文章、報(bào)告和其他文檔并提取市場趨勢、客戶偏好或競爭情報(bào)等數(shù)據(jù)點(diǎn)。
- 簡歷篩選:篩選簡歷,提取教育背景、技能、經(jīng)驗(yàn)和其他相關(guān)信息,以進(jìn)行自動初步篩選。
使用人工智能從文檔中提取數(shù)據(jù)可以在很多方面提供幫助,具體取決于各個行業(yè)企業(yè)的特定需求。
在數(shù)據(jù)提取任務(wù)中成功使用 OpenAI GPT 的示例
盡管生成式人工智能技術(shù)不久前才公開,但它已經(jīng)得到了廣泛的應(yīng)用。以下是一些現(xiàn)實(shí)世界中基于開放式人工智能的文檔數(shù)據(jù)提取示例以及其他生成式人工智能使用示例,展示了該技術(shù)在商業(yè)領(lǐng)域的日益普及:
可行的生成分析平臺

Viable 平臺使公司能夠更好地處理客戶支持請求并檢索可行的見解通過客戶互動來提高他們的凈推薦值 (NPS)。
他們開始利用經(jīng)過微調(diào)的 OpenAI 法學(xué)碩士的功能以超出傳統(tǒng)技術(shù)的規(guī)模分析定性數(shù)據(jù)。通過這種方式,他們能夠幫助客戶理解他們通過與客戶溝通生成的大量數(shù)據(jù)。 The Viable 的客戶聲稱生成分析功能每年為他們節(jié)省了近 1,000 個小時。
Yabble反饋分析平臺
Yabble 平臺允許公司從客戶反饋中提取數(shù)據(jù),為他們的業(yè)務(wù)提供信息策略并節(jié)省手動處理數(shù)據(jù)的時間。
Yabble Count,一款由 OpenAI ChatGPT 提供支持的人工智能工具,可以分析數(shù)千條評論和其他非結(jié)構(gòu)化數(shù)據(jù)集,按情緒對它們進(jìn)行分類,并將數(shù)據(jù)組織成主題和子主題。 Yabble 產(chǎn)品主管 Ben Roe 表示:“用戶很喜歡最終理解海量數(shù)據(jù)和反饋表格并以易于理解的方式呈現(xiàn)這些信息是多么容易。”
B2B求職平臺開發(fā)

挑戰(zhàn)在于確保高質(zhì)量的職位描述解析并將候選人資料與職位要求相匹配。這將幫助客戶簡化平臺上的候選人采購。作為附加要求,解決方案應(yīng)符合多元化、公平和包容 (DEI) 原則。
該解決方案是由 Intelliarts 團(tuán)隊(duì)創(chuàng)建的 NLP 技術(shù)驅(qū)動的 ML 模型。它可以將求職委員會或 LinkedIn 等社交媒體網(wǎng)站上的候選人資料與公司打算填補(bǔ)的職位進(jìn)行比較。它是通過分析文本描述并提取和匹配關(guān)鍵短語來完成的。該解決方案包括一個語義搜索引擎,支持多種搜索過濾器,例如年齡、性別、種族出身等,性別和種族檢測準(zhǔn)確率超過 90%。
值得注意的是,生成式人工智能并不是唯一能夠執(zhí)行數(shù)據(jù)提取任務(wù)的技術(shù)。您還可以使用文檔提取、旨在從文檔中提取特定信息的非生成式人工智能或基于規(guī)則的文檔提取軟件。
詳細(xì)的用例只是使用 ChatGPT 進(jìn)行數(shù)據(jù)提取的眾多示例中的幾個,因?yàn)楣就粫队嘘P(guān)此類問題的信息。廣泛使用 ChatGPT 數(shù)據(jù)提取的行業(yè)和企業(yè)范圍如下圖所示。

![ChatGPT 代碼氣味 [漫畫] ChatGPT 代碼氣味 [漫畫]](https://m.cnwindow.com.cn/wp-content/uploads/2024/03/17571910-1710780098409.png)