語言智能:未來學術研究的主要項目之一

文/唐良元

近年來,由於人工智慧技術和語言技術的快速發展,語言智能(英文language intelligence)越來越受到學術界尤其語言學界的重視和研究。在這方面,人們取得不少令人可喜的成果。有關專家認為,語言智能具有促進其他智能發展的魅力,是未來學術研究的主要項目之一。

語言智能是語言信息的智能化,是運用信息技術模仿人類的智能,分析和處理人類語言的過程;它是人工智慧技術的重要組成部分及人機交互認知的重要基礎和手段,最終達到多場景的有效人機交互的目的。此外,語言智能還有力促進語言教學、語言學習的智能化,拓展語言學研究的新領域,在未來教育發展中將發揮越來越重要的作用。
語言智能是信息技術創新發展的時代產物。發展語言智能必須增強科學意識,只有深刻認識語言智能的科學原理,才能深入研究語言智能這個前沿領域。語言智能基於人腦生理屬性、言語認知路徑、語義生成規律,利用大數據與人工智慧技術,對語言信息進行標註、抽取、加工、存儲和特徵分析,構擬人機語義同構關系,讓機器實施類人言語行為。
語言智能具有文化傳承的服務優勢。語言是文化載體,語言精神反映民族精神。從浩瀚的古典文獻中精選優秀傳統文化素材,從當下日新月異的語言信息洪流中洗練文化精華,把歷史和時代的變遷傳遞給他人,需要語言智能獨特的算力演算法。從既有的語言文字數據中分析發現文化素養和家國情懷,精準實施優秀文化教育,可以成為語言智能的常態服務。
上世紀80年代,美國著名學者霍華德·加德納先生認為,語言智能就是人們運用語言的能力。這種能力是人的認知力、思維力、邏輯力、創造力和表達力的綜合體現;而提高語言能力是對語言智能提出的挑戰性問題。這需要採集相應數據,科學分析個人的知識基礎、思維類型、能力潛質等,分析經驗積累和知識攝取狀況,並通過智能技術手段來推薦個性化知識學習內容。
語言理解是語言智能的主要任務,涉及到語言理解的目標、途徑和主要模型。機器對語言的理解就是確定了概念與語言單元的映射,以及知道承載概念單元的語言屬性,和知曉不同語言單元之間的關系。而語義理解是語言理解的核心,它包括對自然語言知識和常識的學習;語義理解可以通過一系列的人工智慧演算法以及多場景智能語義分析,將文本解析為結構化的、機器可讀的意圖與詞槽信息。
目前語言智能在多個領域都有應用,主要是四種類型:分類、生成、抽取和校對。分類問題就是給語言對象打標簽,語言對象可以是句子、篇章等;生成問題主要是給原文本生成另一種文本表達,典型的應用是機器翻譯以及人機對話、自動寫作等;抽取問題就是從研究對象提取想要的答案,讓文本信息處理更加方便;校對問題主要是讓機器對給定的處理對象,回答對應信息是否齊全、是否一致、是否準確的問題。
語言智能在人工智慧研究中扮演著非常重要的角色。其實,人類對語言的學習與理解並不是完全通過文本本身來完成的,語言只是其背後具體概念與含義的抽象載體,也許通過多模態的建模才能讓機器更好地去理解語言的含義。但可以肯定的是,語言智能研究具有重大的現實意義。正如中國著名學者周海中先生曾經所言:語言智能是人工智慧皇冠上的明珠,它對於發展人類的表達能力、思維能力、理解能力等具有十分重要的意義。
如何讓人工智慧技術與語言科學結合得更加緊密,比如對語言的語義信息、模型結構、語用信息組織、數據採集與存儲、深度機器學習與認知計算等也是學術界非常關註的重大問題。隨著網際網路、大數據、雲計算、自然語言處理、人工智慧技術以及演算法的更新換代,人類社會越來越邁入智能時代。作為未來學術研究的主要項目之一,語言智能將廣泛地影響著我們的生活,有力地促進著社會的全面進步和迅速發展。
文/唐良元(作者單位:英國倫敦大學高等研究院)