[發(fā)明專利]一種基于語義的企業(yè)研發(fā)資源信息建模方法有效
| 申請?zhí)枺?/td> | 202110318900.0 | 申請日: | 2021-03-25 |
| 公開(公告)號: | CN113065343B | 公開(公告)日: | 2022-06-10 |
| 發(fā)明(設(shè)計(jì))人: | 王磊;馬劍 | 申請(專利權(quán))人: | 天津大學(xué) |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/242;G06F40/30 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 | 代理人: | 程毓英 |
| 地址: | 300350 天津市津南區(qū)海*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 語義 企業(yè) 研發(fā) 資源 信息 建模 方法 | ||
1.一種基于語義的企業(yè)研發(fā)資源信息建模方法,包括如下步驟:
(1)構(gòu)建企業(yè)研發(fā)資源信息文本語料庫T;
(2)對企業(yè)研發(fā)資源信息文本語料庫T進(jìn)行基于語義的文本分詞;
(3)基于語義分析的企業(yè)研發(fā)資源信息實(shí)體識別,采用基于隱馬爾科夫模型(HMM)和viterbi算法相結(jié)合的方式對企業(yè)研發(fā)資源信息實(shí)體是被模型進(jìn)行識別,方法如下:
第一步:使用企業(yè)研發(fā)資源信息文本語料庫T訓(xùn)練模型,結(jié)合基于語義分析的企業(yè)研發(fā)資源信息文本分詞中生成的狀態(tài)序列結(jié)果對待輸入企業(yè)研發(fā)資源信息文本語料庫T文本進(jìn)行處理;
第二步:結(jié)合基于語義分析的企業(yè)研發(fā)資源信息文本分詞中生成的狀態(tài)序列結(jié)果對待輸入企業(yè)研發(fā)資源信息文本語料庫T文本進(jìn)行處理,根據(jù)已經(jīng)求出的狀態(tài)序列,標(biāo)識出企業(yè)研發(fā)資源信息實(shí)體;
(4)基于語義分析的企業(yè)研發(fā)資源信息實(shí)體識別關(guān)系提取,采用半監(jiān)督學(xué)習(xí)的snowball算法,提取與企業(yè)研發(fā)信息資源相關(guān)的實(shí)體關(guān)系,步驟如下:
第一步:輸入待處理文本,標(biāo)注待處理文本中企業(yè)研發(fā)資源信息實(shí)體中識別到的資源信息實(shí)體;
第二步:定義資源信息實(shí)體前后取詞長度;
第三步:生成規(guī)則:根據(jù)資源信息實(shí)體前后取詞結(jié)果,形成待處理文本,結(jié)構(gòu)轉(zhuǎn)化為:詞向量+實(shí)體類別+詞向量+實(shí)體類別+詞向量,表示為規(guī)則(L,T,M,T,R);
第四步:計(jì)算規(guī)則相似度:對于規(guī)則1(L1,T1,M1,T1,R1)、規(guī)則2(L2,T2,M2,T2,R2),如果T1不等于T2,則規(guī)則1和規(guī)則2無相似度;反之,則規(guī)則1和規(guī)則2相似度S=W1 L1 L2+W2 M1 M2+W3R1 R2,其中W1,W2和W3為相應(yīng)詞向量的權(quán)重,中間詞向量的權(quán)重較大;
(5)企業(yè)研發(fā)資源動(dòng)態(tài)分析,利用關(guān)鍵詞提取技術(shù)分析企業(yè)內(nèi)部資源使用情況,方法如下:
第一步:建立停用詞語料庫,對已經(jīng)得到的分詞文本去除停用詞,停用詞語料庫內(nèi)容包括標(biāo)點(diǎn)符號、常用詞、以及名詞、動(dòng)詞、形容詞、副詞之外的詞,得到實(shí)際有用的詞語;
第二步:結(jié)合TF-IDF算法,提取關(guān)鍵詞:設(shè)詞頻TF=某一企業(yè)研發(fā)資源信息實(shí)體詞匯在企業(yè)研發(fā)資源信息文本語料庫T中的出現(xiàn)次數(shù)/企業(yè)研發(fā)資源信息文本語料庫T總次數(shù),逆文檔頻率IDF=log(企業(yè)資源信息文本語料庫的文檔總數(shù)/包含企業(yè)研發(fā)資源信息實(shí)體詞匯文檔數(shù)+1),計(jì)算所有單詞的TF-IDF值,由此,根據(jù)所提取的企業(yè)研發(fā)資源信息實(shí)體詞匯關(guān)鍵詞對集團(tuán)研發(fā)資源使用動(dòng)態(tài)進(jìn)行分析,為進(jìn)一步企業(yè)研發(fā)資源信息實(shí)體關(guān)系抽取作參考;
(6)抽取發(fā)現(xiàn)企業(yè)研發(fā)資源信息實(shí)體間的聯(lián)系:為提取企業(yè)研發(fā)資源信息實(shí)體,實(shí)體對象是所有的跟企業(yè)研發(fā)資源有關(guān)的實(shí)體,抽取實(shí)體之間的關(guān)系,對企業(yè)研發(fā)資源信息文本語料庫T抽取出相應(yīng)企業(yè)資源信息實(shí)體的組成關(guān)系元組。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于前綴詞典Df實(shí)現(xiàn)詞圖掃描,生成企業(yè)研發(fā)資源信息文本語料庫T文本中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖DAG,生成步驟如下:
從前往后依次遍歷企業(yè)研發(fā)資源信息文本語料庫T文本的每個(gè)位置,對于位置k,首先形成一個(gè)片段L,片段L只包含位置k的字,判斷該片段L是否在前綴詞典Df中:
1)如果片段L在前綴詞典Df中:
a)如果在某一位置i的片段L包含位置k的字詞頻P大于0,則將此位置i追加到以k為key的一個(gè)列表中;
b)如果在某一位置i的片段L包含位置k的字詞頻P等于0,則表明前綴詞典Df存在此前綴,但統(tǒng)計(jì)詞典沒有這個(gè)詞,繼續(xù)循環(huán);
2)如果片段L不在前綴詞典Df中:
a)則表明片段L已經(jīng)超出統(tǒng)計(jì)詞典中該詞的范圍,則終止循環(huán);
b)位置i加1,形成一個(gè)新片段L;
3)重復(fù)步驟1)和步驟2),繼續(xù)判斷新片段L是否在前綴詞典Df中,直至輸入企業(yè)研發(fā)資源信息文本語料庫T文本遍歷結(jié)束;
4)生成輸入企業(yè)研發(fā)資源信息文本語料庫T文本中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖DAG。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202110318900.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 面向語義Web服務(wù)程序設(shè)計(jì)的語義數(shù)據(jù)表示和處理方法
- 一種基于語義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語義匹配方法和系統(tǒng)
- 遠(yuǎn)程語義識別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級語義表征和語義計(jì)算的信號語義識別方法
- 語義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 根據(jù)企業(yè)規(guī)劃模型進(jìn)行水平企業(yè)規(guī)劃
- 企業(yè)評價(jià)裝置和企業(yè)評價(jià)程序
- 企業(yè)評價(jià)裝置和企業(yè)評價(jià)程序
- 企業(yè)評價(jià)裝置和企業(yè)評價(jià)程序
- 企業(yè)評價(jià)裝置和企業(yè)評價(jià)程序
- 企業(yè)評價(jià)裝置和企業(yè)評價(jià)程序
- 企業(yè)評價(jià)裝置和企業(yè)評價(jià)程序
- 企業(yè)與企業(yè)之間信息交流平臺
- 基于企業(yè)畫像的企業(yè)精準(zhǔn)分析方法
- 標(biāo)貼(企業(yè))
- 數(shù)據(jù)化和數(shù)據(jù)匹配方法和代碼推薦方法及相關(guān)裝置
- 一種基于服務(wù)協(xié)作模式的研發(fā)管理方法和系統(tǒng)
- 基于流程驅(qū)動(dòng)研發(fā)任務(wù)的方法及系統(tǒng)
- 一種研發(fā)工時(shí)計(jì)算方法和裝置
- 一種企業(yè)研發(fā)管理方法及系統(tǒng)
- 產(chǎn)品研發(fā)管理方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 軟件研發(fā)管理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種研發(fā)試制信息管理方法及系統(tǒng)
- 軟件研發(fā)安全能力動(dòng)態(tài)評估和提升方法及系統(tǒng)
- 研發(fā)項(xiàng)目資金監(jiān)管系統(tǒng)





