[發明專利]一種古漢語語義分析方法及其系統在審
| 申請號: | 201710509228.7 | 申請日: | 2017-06-28 |
| 公開(公告)號: | CN107451114A | 公開(公告)日: | 2017-12-08 |
| 發明(設計)人: | 熊衛 | 申請(專利權)人: | 廣州尚恩科技股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 廣州市越秀區哲力專利商標事務所(普通合伙)44288 | 代理人: | 徐朝榮,馬簪 |
| 地址: | 510630 廣東省廣州市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 古漢語 語義 分析 方法 及其 系統 | ||
技術領域
本發明涉及語義分析,尤其涉及一種古漢語語義分析方法及其系統。
背景技術
古漢語是我國古代文化的重要載體,正確解讀古漢語成為人們研究分析古代文化的關鍵途徑;目前,有不少學者對古漢語的語義分析展開研究,其中基于統計學規律的分析方法,利用統計大量的古漢語分析數據得出一定的分析規律來輔助古漢語分析釋義,但統計規律很大程度上是基于經驗主義的分析方法,通過歸總古漢語的形式形態的出現頻率,指導古漢語分析。但因古漢語表現形式豐富,釋義不一,無法確保語義分析的穩定性與一致性。
發明內容
為了克服現有技術的不足,本發明的目的在于提供一種古漢語語義分析方法及其系統。
本發明提供一種古漢語語義分析方法,包括以下步驟:
獲取古漢語語句,用戶端上傳待分析的古漢語信息,獲取以完整句為最小輸入單元的古漢語語句;
詞元劃分,獲取古漢語語句中詞元,所述的詞元為最小的語義單元,將所述古漢語語句中的詞元順序存儲于詞元棧中;
詞元翻譯,獲取所述的詞元棧,檢索查找古漢語詞典庫中的詞元釋義,建立所述詞元的釋義關系映射;
語義拼接,獲取所述詞元的釋義關系映射,排列組合各所述詞元的的釋義,得到古漢語初始語義;
語義檢查,獲取所述古漢語初始語義,匹配現代漢語語義模板,匹配成功則將古漢語初始語義存儲至輸出緩存區得到待輸出語義;匹配不成功則返回語義拼接;
語義輸出,輸出待輸出語義。
進一步地,所述的古漢語語義分析方法還包括朝代匹配,所述的朝代匹配位于詞元翻譯與語義拼接之間;所述的詞元釋義中包括詞元朝代信息;
所述的朝代匹配具體為獲取所述詞元棧中詞元朝代信息,統計得到詞元棧中頻率最高的詞元朝代,并對所述詞元的釋義關系映射按照詞元朝代信息排序,高頻率的詞元朝代的詞元釋義位于低頻率的詞元朝代的詞元釋義之前。
進一步地,所述的古漢語語義分析方法還包括句式匹配,所述的句式匹配位于朝代匹配與語義拼接之間;
所述的句式匹配具體為根據朝代建立句式庫,獲取所述的頻率最高的詞元朝代,得到所述的頻率最高的詞元朝代的語義句式,所述語義句式為所述詞元的關系鏈表,根據所述的語義句式對所述的詞元棧中的詞元進行重新排序。
進一步地,所述的古漢語詞典庫包括詞元典故,所述的語義檢查還包括詞元典故檢查,匹配現代漢語語義模板后,對所述的古漢語初始語義與所述的詞元典故進行匹配,匹配成功則將古漢語初始語義存儲至輸出緩存區得到待輸出語義;匹配不成功則返回語義拼接。
進一步地,所述的古漢語語義分析方法還包括語義自學習,所述的語義自學習統計并記錄所述的詞元釋義的頻率、詞元朝代頻率、句式頻率,根據所述的釋義的頻率、詞元朝代頻率、句式頻率排序下一所述的古漢語語句中相同詞元的詞元釋義、詞元朝代、句式。
本發明還提供一種古漢語語義分析系統,包括配置庫、分析模塊;所述的配置庫包括古漢語詞典庫;所述的古漢語詞典庫包括詞元釋義;所述的分析模塊包括劃分模塊、翻譯模塊、拼接模塊、檢查模塊、輸出模塊;所述的劃分模塊用于將古漢語語句劃分為若干詞元;所述的翻譯模塊用于獲取所述的古漢語詞典庫中的詞元釋義;所述的拼接模塊用于將若干所述的詞元釋義拼接成古漢語初始語義;所述的檢查模塊用于將所述的古漢語初始語義與現代漢語語義模板進行匹配檢查,匹配成功則將所述的古漢語初始語義傳輸至所述的輸出模塊輸出;匹配不成功則丟棄所述的古漢語初始語義,所述的拼接模塊重新拼接。
進一步地,所述的配置庫還包括朝代庫;所述的朝代庫內存儲的朝代信息關聯所述的古漢語詞典庫內的詞元釋義;所述的古漢語詞典庫還包括詞元典故,所述的詞元典故內存儲有詞元的典故信息;所述的檢查模塊對所述的古漢語初始語義與所述的詞元典故進行匹配,匹配成功則將古漢語初始語義存儲至所述的輸出模塊的輸出緩存區得到待輸出語義;匹配不成功則返回至所述的拼接模塊進行語義拼接。
進一步地,所述的配置庫還包括句式庫,所述的句式庫包括朝代句式庫與現代句式庫;所述的朝代句式庫內存儲的句式信息關聯所述的朝代庫內存儲的朝代信息;所述的現代句式庫用于存儲所述的現代漢語語義模板。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州尚恩科技股份有限公司,未經廣州尚恩科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201710509228.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種協同編輯文檔的方法和系統
- 下一篇:一種語音識別方法及裝置





