[發明專利]一種語料生成裝置和方法在審
| 申請號: | 201680001747.6 | 申請日: | 2016-06-29 |
| 公開(公告)號: | CN107004000A | 公開(公告)日: | 2017-08-01 |
| 發明(設計)人: | 王昊奮;邱楠;楊新宇 | 申請(專利權)人: | 深圳狗尾草智能科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 深圳市華優知識產權代理事務所(普通合伙)44319 | 代理人: | 李麗君 |
| 地址: | 518000 廣東省深圳市南山區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語料 生成 裝置 方法 | ||
技術領域
本發明涉及文字處理領域,特別是涉及一種語料生成裝置和方法。
背景技術
隨著互聯網的發展,網絡檢索的需求也越來越高,因此需要儲備更多的關鍵詞,以及語料,存儲于云端的語料庫中,供網民上網搜索時使用。
但是語言表達方式豐富多變,僅需通過若干詞語隨機組合,可能就會形成語句,如果語料庫通過依次采集輸入全部的語料,需要投入過大的精力,而且容易遺漏。現有技術有采用編輯距離的方法,通過刪除、移位、插入等操作擴充語料庫,但是實際操作的過程繁瑣。
發明內容
本發明主要解決的技術問題是提供一種語料生成裝置和方法,能夠通過將詞語嵌套到擴充得到的句式結構中獲取語料,操作簡單,節省資源,同時較大程度的擴充了語料庫。
為解決上述技術問題,本發明采用的一個技術方案是:提供一種語料生成裝置,該裝置包括:分詞模塊,連接至少一個單語平行語料庫,用于對每一平行語料庫內的語句進行分詞,并對分詞進行知識驅動以實現標簽化;分類模塊,用于識別知識驅動處理后的語句,將標簽序列不同的相同含義的語句分類到同一語句簇;映射模塊,用于分析每一單語平行語料庫中每一語句簇中的語句,確定語句簇中所有語句的句式結構類別,確定并記錄存儲同一語句簇中不同句式結構類別之間進行變換時,相應的句式結構之間的標簽變換的映射方式;句式結構生成模塊,用于查找所有單語平行語料庫中每一語句簇中相同的第一類別句式結構,并根據語句簇其中之一者的第一類別句式結構與同一語句簇中其他類別句式結構的第一類映射方式,在其余的語句簇中對第一類別句式結構按照映射方式分別進行映射,生成相應的句式結構類別;以及,語料生成模塊,用于對新生成的句式結構嵌套語句簇中句式結構的序列標簽對應的詞語,生成新的單語平行語料庫。
為解決上述技術問題,本發明采用的一個技術方案是:提供一種語料生成方法,該方法的步驟包括:對至少一個單語平行語料庫中每一語句進行分詞,并對分詞進行知識驅動以實現標簽化;識別知識驅動處理后的語句,將標簽序列不同的相同含義的語句分類到同一語句簇;分析每一單語平行語料庫中每一語句簇中的語句,確定語句簇中所有語句的句式結構類別,確定并記錄存儲同一語句簇中不同句式結構類別之間進行變換時,相應的句式結構之間的標簽變換的映射方式;查找所有單語平行語料庫中每一語句簇中相同的第一類別句式結構,并根據語句簇其中之一者的第一類別句式結構與同一語句簇中其他類別句式結構的第一類映射方式,在其余的語句簇中對第一類別句式結構按照映射方式分別進行映射,生成相應的句式結構類別;對新生成的句式結構嵌套語句簇中句式結構的序列標簽對應的詞語,生成新的單語平行語料庫。
區別于現有技術,本發明的語料生成裝置在通過將現有語料庫中的語句進行標簽化,將標簽序列不同的句式格式根據句式的標簽進行映射,得到更多的句式結構,填充嵌套標簽對應的詞語后得到更多的語料。通過本發明,能夠通過將詞語嵌套到擴充得到的句式結構中獲取語料,操作簡單,節省資源,同時較大程度的擴充了語料庫。
附圖說明
圖1是本發明提供的一種語料生成裝置的實施方式的結構示意圖;
圖2是本發明提供的一種語料生成方法的實施方式的流程示意圖。
具體實施方式
下面結合具體實施方式對本發明的技術方案作進一步更詳細的描述。顯然,所描述的實施例僅僅是本發明的一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動的前提下所獲得的所有其他實施例,都應屬于本發明保護的范圍。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳狗尾草智能科技有限公司,未經深圳狗尾草智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201680001747.6/2.html,轉載請聲明來源鉆瓜專利網。





