<noframes id="jrxhh"><address id="jrxhh"><th id="jrxhh"></th></address>
<span id="jrxhh"><th id="jrxhh"></th></span><listing id="jrxhh"><nobr id="jrxhh"><meter id="jrxhh"></meter></nobr></listing>
<listing id="jrxhh"><listing id="jrxhh"><meter id="jrxhh"></meter></listing></listing>
<span id="jrxhh"><nobr id="jrxhh"><progress id="jrxhh"></progress></nobr></span>

    <form id="jrxhh"></form>

    <noframes id="jrxhh">
    <form id="jrxhh"></form>

      1. 首頁 > 熱點新聞 >

      零基礎一文讀懂AI文本理解新聞分類

        #尋找真正的學校##科學思考,看待一切#

        人工智能常識(3):文本理解(以自動新聞分類為例)

        最近寫了一組關于人工智能的科普帖。第一個帖子介紹AI自動診斷的方法屬于數據分析,第二個帖子介紹深度學習圖像識別。這個帖子屬于自然語言處理,基本包含了人工智能的幾個常見應用領域。請繼續關注。

        通過對新聞自動分類的介紹,本文介紹了科普人工智能自然語言處理的基本應用知識。

        人類自然語言是由可分類符號編碼的離散非結構化信號系統。自然語言,尤其是漢語的表達習慣和語法規則是靈活的、不精確的、不嚴謹的。要準確傳達信息,表達自己的感受,往往需要人腦的知識和經驗。比如同一個體育比賽,兩個媒體報道的新聞標題分別是“中國打美國”和“中國打美國”,但兩個看似對立的文本卻有著相同的語義:中國打美國。“百人眼中有百個哈姆雷特”和“紅樓夢的每一個讀者都是創造者”,都表達了自然語言的靈活性和不確定性。因此,機器準確處理、正確識別和理解人類自然語言,有效發現、挖掘和應用知識是非常復雜的。

        然而山勝于峰。盡管困難重重,人們還是找到了許多用計算機處理自然語言的有效方法。在中文自然語言處理方面,美國的Google,中國的百度,科大訊飛都有自己的成就。尤其值得稱贊的是,字節跳動的自然語言處理技術(以及結合圖像和視頻的處理技術)在準確性、魯棒性、處理速度和效率方面達到了前所未有的高度。相信每一個閱讀頭條、西瓜、顫音,尤其是發表內容的朋友,一定對這些系統的分發、推薦建議、審核機制、技術有著深刻的體會,引起了白宮領導的警覺、恐懼和反感。

        計算機如何識別、理解和處理自然語言?本文介紹了自然語言處理、中文分詞、關鍵詞提取、文本矢量化、新聞自動分類等基本技術和應用領域。希望零基礎的小白也能知道。你可能不直接從事這項工作,但多了解一些知識是有益的,至少豐富了精神世界。

        自然語言處理的基本技術和應用領域。

        自然語言處理的主要技術包括詞干提取、形態恢復、中文分詞、單詞矢量化、詞性標注、命名實體消歧、命名實體識別、語義分析、情感分析等。

        主要應用領域包括:文本關鍵詞抽取、文本自動摘要、文本聚類與分類、知識圖譜與可視化、問答系統與自動對話、機器翻譯、自動寫作(創作)、輿情監控等。

        用數學方法處理語言問題。

        什么?概率統計?這不就是數學嗎?是的,你說得對。概率統計是AI自然語言處理的有力工具。

        自然語言的基本特征是與上下文相關的,因此利用各種語法和規則來研究機器處理自然語言的方法是非常困難的。后來發現用數學方法可以有效處理這個特征。請閱讀以下示例:

        例1:我先吃蘋果,然后吃香蕉。

        例2:然后吃香蕉。我先吃蘋果。

        例三:香蕉吃蘋果,然后先吃我。

        也是10個字符組成的字符串,排列成例句,便于理解;例二有些莫名其妙,但基本能表達說話人的意思;例三完全聽不懂。如果從語法規則上分析,例1符合語法規則;第二部分符合語法規則;例3不符合語法規則。這是對短句的分析,比較簡單。如果用語法規則來分析長句,會帶來很大的困難和巨大的計算量,使得處理自然語言的機器陷入困境。

        拋開繁瑣的語法規則,回歸常識,人們發現例1很好理解,因為大家都這么說;少數語無倫次的人(如剛學單詞的孩子)也像例2那樣說話;例三則完全是“非人類”,因為很少有人這么說話。經常講,很少講,很少講,體現在數學概率和統計問題上。使用一些數學工具進行自然語言處理的方法稱為統計語言模型。

        中文分詞。

        分詞是中文處理的基礎。拉丁語言,以英語和漢語為代表,使用空格作為自然分隔符,而漢語繼承了古代漢語的傳統,所以詞與詞之間沒有分隔。在古代漢語中,單個漢字除了連續的單詞和名稱外,通常都是一個單詞,不需要寫分詞。但是在現代漢語中,有很多雙字或多字,大多數情況下,單個漢字不再等于一個字。

        中文分詞是指將一個漢字序列自動劃分為單詞,從而將連續的字符序列按照一定的規范重組為單詞序列的過程。

        目前常用的分詞技術都是基于人工構建的大規模百萬字中文語料庫。根據概率統計原理,通過機器學習實現中文分詞。

        分詞有很多困難,其中最常見的是歧義消解。比如句子成分“組合成”可以分為“組合/形成”和“結/合成”,這就是分詞歧義。排歧的方法是通過上下文和概率。常用的分詞工具捷霸的準確率可以達到98%。例:“我去人民銀行給公司辦事”。分詞效果:

        圖1漢語分詞例句效果。

        為什么這里不用“中國/人民/銀行”或者“中國人民/銀行”兩個字?還有一個概率的因素,還有一個原則是“取最大者為先”,即按照能形成概率較高的詞的最長詞來劃分詞。

        詞頻分析和詞云顯示。

        詞頻分析是文本挖掘的一種重要手段,它統計和分析重要詞匯在文獻中出現的頻率。它是文獻計量學中一種傳統的、有代表性的內容分析方法,其基本原理是通過改變詞頻來確定熱點及其變化趨勢。

        詞云顯示是將文本中出現頻率較高的詞進行可視化高亮顯示,通過不同的字體大小和顏色形成關鍵詞渲染或關鍵詞云,從而過濾掉文本中大量的冗余信息,使讀者直觀快速地理解文本的基本內容和關鍵內容。

        圖2。這篇帖子的詞云分析。

        關鍵詞抽取。

        關鍵詞抽取是從文檔中抽取一些與本文含義最相關的詞。關鍵詞在文獻檢索、自動文摘、文本聚類/分類等方面有著重要的應用。它不僅是完成這些任務不可缺少的基礎和前提,也是在互聯網上建立信息數據庫的重要工作。

        關鍵詞抽取主要有兩種方法:第一種是關鍵詞分配:給定一個已有的關鍵詞庫,對于一個新的文檔,匹配詞庫中的幾個詞作為該文檔的關鍵詞。二是關鍵詞提取:針對新文檔,通過算法分析,提取文檔中的部分單詞作為文檔的關鍵詞。目前大多數應用領域的關鍵詞提取算法都是基于后者的。從邏輯上講,后者在實際應用中比前者更準確。

        Tf-IDF(術語頻率-逆文檔頻率)是一種經典的關鍵詞提取算法。這種基于數字統計的方法可以反映單詞對文檔的重要性。TF-IDF的基本思想是:如果一個詞在一個文檔中頻繁出現,即TF高;并且很少出現在語料庫中的其他文獻中,即DF低,即IDF高,所以認為這個詞在很大程度上屬于某個文獻。

        文本矢量化。

        文本矢量化的主要意義在于根據語義內容對文本進行聚類和分類。

        文本矢量化的前提是要有詞匯。例如,一個詞匯中有64000個單詞,每個單詞都有一個數字。數字和詞匯之間的比較關系如圖所示:

        圖3術語表。

        文本矢量化的具體方法如下:首先,去掉對文本語義沒有直接影響的虛詞和標點符號,如“的、地、的”等。這一步叫停字;然后計算文本中所有單詞的TF-IDF值。根據對應實詞在詞匯中的位置依次排列這些值,得到一個向量:

        圖4文本矢量化。

        如果詞匯表中的某個詞沒有出現在文章中,對應的TF-IDF值為0。那么這64000個數就構成了64000維向量;這個向量代表一篇文章。同樣的,每篇文章都可以參考詞匯轉化成64000維向量。當然,不同文章的矢量化成分可能有所不同。熟悉向量的朋友可能都想過:計算這些向量之間的距離,就可以對文章進行分類聚類了!

        新聞自動分類。

        對于一系列的矢量化文本,比如網絡上的新聞或評論帖子,我們可以通過計算兩個向量之間的距離(比如夾角余弦、歐氏距離等)來計算兩篇文章的相似度。).

        比如,一些關于國慶活動的新聞文章中“國歌”、“國旗”等詞語的TF-IDF值可能比較高,會使代表此類新聞的向量距離比較近,即屬于同類文獻;在其他文章中,“投籃”、“越位”、“角球”等詞的TF-IDF值更高,所以一定都是講足球的。文本矢量化可以方便準確地對新聞和文章進行自動分類和聚類。

        寫到這里,我想起了華先生多年前的一幅漫畫:一位讀者要了一本冶金學的書,工作人員拿來了一本《鋼鐵是怎樣煉成的》??赡苣贻p朋友沒覺得有什么諷刺或者幽默的地方。老同志們都知道,這是一部描寫一個蘇聯(烏克蘭)的“問題青年”如何成長為一個堅強的共產主義戰士的文學作品,與冶金無關。文本矢量化的方法不會犯這個題方的錯誤。

        總結:本帖從最基礎的分詞開始,介紹自然語言處理的常用技術和應用。還有很多有價值的應用,比如情感分析、機器翻譯、自動寫作、知識映射、看圖說話等。感興趣的學生請參考其他文件。另外推薦一本值得一讀的科普書:《數學美》(吳軍著,人民郵電出版社出版)。閱讀這本書可以幫助你更多地了解自然語言處理。

        #尋找真知識派##科學思維看一切##自然語言處理新聞分類#

      本文由網上采集發布,不代表我們立場,轉載聯系作者并注明出處:http://www.pskv.net/a/hotnews/321.html

      聯系我們

      在線咨詢:點擊這里給我發消息

      微信號:

      工作日:9:30-18:30,節假日休息

      欧美特级午夜片,暖暖视频 高清 中文,麻豆系列一区二区三区在线

      <noframes id="jrxhh"><address id="jrxhh"><th id="jrxhh"></th></address>
      <span id="jrxhh"><th id="jrxhh"></th></span><listing id="jrxhh"><nobr id="jrxhh"><meter id="jrxhh"></meter></nobr></listing>
      <listing id="jrxhh"><listing id="jrxhh"><meter id="jrxhh"></meter></listing></listing>
      <span id="jrxhh"><nobr id="jrxhh"><progress id="jrxhh"></progress></nobr></span>

        <form id="jrxhh"></form>

        <noframes id="jrxhh">
        <form id="jrxhh"></form>