[發(fā)明專利]一種基于詞向量的文學(xué)作品創(chuàng)作年代判定方法有效
| 申請?zhí)枺?/td> | 201810239402.5 | 申請日: | 2018-03-22 |
| 公開(公告)號: | CN108520018B | 公開(公告)日: | 2021-09-24 |
| 發(fā)明(設(shè)計)人: | 姚念民;王賀 | 申請(專利權(quán))人: | 大連理工大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/253;G06F40/289;G06F40/30 |
| 代理公司: | 大連理工大學(xué)專利中心 21200 | 代理人: | 李曉亮;潘迅 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 向量 文學(xué)作品 創(chuàng)作 年代 判定 方法 | ||
1.一種基于詞向量的文學(xué)作品創(chuàng)作年代判定方法,其特征在于,包括以下步驟:
第一步,劃分候選年代區(qū)間
給定一個創(chuàng)作年代未知的文學(xué)作品,根據(jù)經(jīng)驗大致推測其可能的創(chuàng)作年代范圍,將該范圍劃分為若干互不相交的時間連續(xù)的子區(qū)間;
第二步,構(gòu)建訓(xùn)練語料
針對每一個子區(qū)間,收集創(chuàng)作于此時間區(qū)間的同體裁的文學(xué)作品,將作品集合預(yù)處理后得到訓(xùn)練語料;采用同樣方法,將待判定作品預(yù)處理后也得到對應(yīng)的訓(xùn)練語料;最終,每一個子區(qū)間對應(yīng)一個訓(xùn)練語料,同時待判定文本對應(yīng)一個訓(xùn)練語料;
第三步,計算時代風(fēng)格向量
對于每一個訓(xùn)練語料,使用word2vec工具訓(xùn)練詞向量,并基于訓(xùn)練好的詞向量計算對應(yīng)的時代風(fēng)格向量;最終得到對應(yīng)于每一個子區(qū)間的時代風(fēng)格向量和對應(yīng)于待判定文本的時代風(fēng)格向量;
時代風(fēng)格向量的計算方式為:采用預(yù)處理好的文本分別訓(xùn)練詞向量,得到若干個詞向量集合和詞表;從上述若干個詞表中取出共有的前m個詞;對于每一個詞向量集合,計算m個詞所對應(yīng)的詞向量之間的距離后組成一個新的向量,該向量即為該語料所對應(yīng)的時間子區(qū)間的時代風(fēng)格向量;距離的度量采取歐氏距離、余弦距離方式;
第四步,對比時代風(fēng)格向量差異,得出判定結(jié)果
計算待判定作品的時代風(fēng)格向量和每一個時代區(qū)間對應(yīng)的時代風(fēng)格向量的相似度,與待判定作品的時代風(fēng)格向量最相似的風(fēng)格向量所對應(yīng)的時代區(qū)間即為最終判定結(jié)果;
最終判定結(jié)果可以是與待判定文本時代風(fēng)格最相似的一個時間子區(qū)間,也可以是若干個子區(qū)間;多個子區(qū)間的輸出順序根據(jù)子區(qū)間的時代風(fēng)格向量和待判定文本的時代風(fēng)格向量的相似度由高到低或由低到高排序;相似性的度量采取余弦相似度的方式。
2.根據(jù)權(quán)利要求1所述的一種基于詞向量的文學(xué)作品創(chuàng)作年代判定方法,其特征在于,所述的第一步中,待判定作品包括文學(xué)、史學(xué)、醫(yī)學(xué)各個領(lǐng)域的文獻。
3.根據(jù)權(quán)利要求1或2所述的一種基于詞向量的文學(xué)作品創(chuàng)作年代判定方法,其特征在于,所述的第二步中,在對原始語料進行預(yù)處理時,對于現(xiàn)代漢語的語料,采取正常分詞策略;對于古漢語語料采取單字詞分詞策略。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連理工大學(xué),未經(jīng)大連理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201810239402.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 多人協(xié)作創(chuàng)作方法、裝置及存儲介質(zhì)
- 基于區(qū)塊鏈的協(xié)作創(chuàng)作方法、裝置及電子設(shè)備
- 一種基于移動端或PC端的智能創(chuàng)作系統(tǒng)
- 一種菜譜創(chuàng)作方法及裝置
- 創(chuàng)作裝置、創(chuàng)作方法和創(chuàng)作程序
- 內(nèi)容創(chuàng)作方法及設(shè)備
- 作品生成和編輯方法、裝置、終端、服務(wù)器和系統(tǒng)
- 文字作品的內(nèi)容生成方法、裝置和電子設(shè)備
- 一種在作品創(chuàng)作過程中提供創(chuàng)作幫助信息的方法與設(shè)備
- 作品生成和編輯方法、裝置、終端、服務(wù)器和系統(tǒng)





