[發(fā)明專利]基于學(xué)者科研成果挖掘的學(xué)者精準定位方法及裝置有效
| 申請?zhí)枺?/td> | 201811149733.6 | 申請日: | 2018-09-29 |
| 公開(公告)號: | CN109359249B | 公開(公告)日: | 2020-07-10 |
| 發(fā)明(設(shè)計)人: | 唐杰;邵洲;高博;劉德兵 | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | G06F16/9537 | 分類號: | G06F16/9537 |
| 代理公司: | 北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 張潤 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 學(xué)者 科研成果 挖掘 精準 定位 方法 裝置 | ||
本發(fā)明公開了一種基于學(xué)者科研成果挖掘的學(xué)者精準定位方法及裝置,其中,該方法包括:對學(xué)者科研成果p中文本信息進行抽取以獲取關(guān)鍵信息,并構(gòu)建結(jié)構(gòu)化信息;根據(jù)關(guān)鍵信息和結(jié)構(gòu)化信息對學(xué)者科研成果p中具有地理指向性的隱含信息進行挖掘,以構(gòu)造學(xué)者科研成果p相關(guān)結(jié)構(gòu)化的隱含信息O;對結(jié)構(gòu)化信息根據(jù)定位信息產(chǎn)生影響的重要程度進行結(jié)構(gòu)化整理,并根據(jù)隱含信息O和不同類型地圖API特點,獲取最終結(jié)果R;根據(jù)最終結(jié)果R和矩陣U獲取A→R映射,并獲取學(xué)者科研成果中集合A的每個學(xué)者的地理位置信息,輸出學(xué)者科研成果p中所有作者的定位信息。該方法可以通過深度挖掘?qū)W者科研成果的文本信息,有效、準確地實現(xiàn)學(xué)者科研成果到學(xué)者地理位置信息的精確映射。
技術(shù)領(lǐng)域
本發(fā)明涉及定位技術(shù)領(lǐng)域,特別涉及一種基于學(xué)者科研成果挖掘的學(xué)者精準定位方法及裝置。
背景技術(shù)
學(xué)者科研成果的特定性質(zhì)決定了其高可靠性,而學(xué)者的科研成果蘊含了學(xué)者的時空相關(guān)信息,根據(jù)學(xué)者的科研成果實現(xiàn)對學(xué)者的定位提供了可能性,根據(jù)復(fù)雜文本(如學(xué)者隸屬關(guān)系的信息)實現(xiàn)精準的定位一直以來是一個難題,已有的多種方法在實現(xiàn)精準定位上出現(xiàn)多方面的不一致。
學(xué)者的科研成果具有真實性、準確性、非匿名性、嚴謹?shù)纫幌盗械奶攸c,因此,其信息具有相當(dāng)高的可靠性,學(xué)者的科研成果蘊含了學(xué)者在特定時間、特定地點、從事特定方向的科研活動信息。就一般的論文、專利等科研成果來講,會包含學(xué)者的姓名、所在單位、時間和研究的內(nèi)容等基本信息。其中,對學(xué)者科研論文信息進行抽取等可以完成學(xué)者時間空間的關(guān)系的關(guān)聯(lián),在此基礎(chǔ)上使用地圖API完成學(xué)者所屬單位和地理位置信息的映射即可實現(xiàn)學(xué)者的定位。但是,由于學(xué)者科研成果文本信息的非結(jié)構(gòu)化、寫法多樣等原因,導(dǎo)致抽取單一、語義明確的單位信息存在相當(dāng)大的困難。使得所獲取的學(xué)者隸屬信息往往具有信息量相對較大、無用信息多、重點信息不突出、干擾信息多、信息缺失、歧義性大、多語言等一系列問題,都使得從學(xué)者的科研成果中實現(xiàn)對學(xué)者的精準定位變得困難。
傳統(tǒng)的地圖在實現(xiàn)字符串到地理位置信息的映射中做了很多工作,如谷歌實現(xiàn)了將來自用戶的、用于地圖搜索的輸入條目解析成用于指示輸入搜索條目中的位置信息的位置部分相關(guān)的工作。百度將用戶的輸入語句進行切詞,并在切詞結(jié)果中提取與該用戶需求相關(guān)的特定信息,然后再提取相應(yīng)信息。奇虎根據(jù)用戶輸入的語句確定查詢對應(yīng)的查詢樣式,然后根據(jù)查詢樣式,確定查詢的地圖相關(guān)度分數(shù),再根據(jù)地圖相關(guān)分數(shù),判斷是否顯示與查詢相關(guān)的電子地圖。騰訊通過統(tǒng)計興趣點數(shù)據(jù)庫內(nèi)部地圖數(shù)據(jù)出現(xiàn)頻率及通過搜索引擎的查詢結(jié)果數(shù)進行排序,提高了地圖數(shù)據(jù)重要度的覆蓋率和準確率。微軟在多語言的查詢上進行了轉(zhuǎn)化和處理,提高了多語言環(huán)境下的處理準確率。
上述方法在一定程度上提高了用戶輸入查詢得到的結(jié)果的準確性,但是,針對學(xué)者科研成果中學(xué)者隸屬關(guān)系信息的特殊性沒有進行考慮,導(dǎo)致相當(dāng)部分的數(shù)據(jù)無法獲得地理位置信息結(jié)果,獲得的部分結(jié)果出現(xiàn)了較大的偏差。使用國內(nèi)著名的科技大數(shù)據(jù)挖掘服務(wù)平臺AMiner的論文數(shù)據(jù)進行測試,其中,結(jié)果顯示,直接使用地圖API對學(xué)者隸屬關(guān)系信息進行地理位置信息映射的查全率為50%,正確率低于80%。
由于不同的地圖在地址信息庫的建設(shè)的差異性存在,使得地址收錄的情況不一致、搜索關(guān)鍵字的權(quán)重不一樣、搜索結(jié)果的順序不一樣等情況的出現(xiàn)。這使得在查詢同一字符串時出現(xiàn)的結(jié)果出現(xiàn)差異,例如,以查詢“西北大學(xué)”為例,分別調(diào)用百度地圖和谷歌地圖API,百度地圖定位結(jié)果為:{lng:108.9342237431768,lat:34.25373435757479},谷歌地圖定位結(jié)果為:{lat:42.0564594,lng:-87.67526699999999},其中,兩者一個在中國境內(nèi),一個在美國境內(nèi),如果可以從論文中抽取出學(xué)者所在國別信息即可實現(xiàn)信息的正確化處理。
發(fā)明內(nèi)容
本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
為此,本發(fā)明的一個目的在于提出一種基于學(xué)者科研成果挖掘的學(xué)者精準定位方法,該方法可以有效、準確地實現(xiàn)學(xué)者科研成果到學(xué)者地理位置信息的精確映射。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201811149733.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于學(xué)者科研成果挖掘的學(xué)者精準定位方法及裝置
- 科研社群劃分及核心學(xué)者發(fā)現(xiàn)方法、系統(tǒng)、介質(zhì)及終端
- 一種面向?qū)W者的用戶畫像構(gòu)建及應(yīng)用方法
- 基于學(xué)者論文關(guān)系網(wǎng)絡(luò)的學(xué)者學(xué)術(shù)影響力計算方法及系統(tǒng)
- 一種基于引文網(wǎng)絡(luò)與科研合作網(wǎng)絡(luò)的領(lǐng)域?qū)<义噙x方法
- 基于知識圖譜的專業(yè)特長學(xué)者推薦方法
- 基于大數(shù)據(jù)分析的個性化教育管理系統(tǒng)、方法、介質(zhì)
- 一種基于異質(zhì)學(xué)術(shù)網(wǎng)絡(luò)進行學(xué)者畫像的方法及系統(tǒng)
- 一種基于合作網(wǎng)絡(luò)的學(xué)者檢索方法和裝置
- 凳(學(xué)者)
- 新型Web技術(shù)開發(fā)的大學(xué)科研管理系統(tǒng)
- 一種科技成果轉(zhuǎn)化追蹤系統(tǒng)
- 一種科技成果轉(zhuǎn)化追蹤系統(tǒng)
- 基于學(xué)者科研成果挖掘的學(xué)者精準定位方法及裝置
- 一種科技成果評估方法和裝置
- 一種科技成果啟發(fā)式評價的自適應(yīng)方法和裝置
- 一種基于移動互聯(lián)網(wǎng)技術(shù)的科技推廣服務(wù)系統(tǒng)
- 一種基于詞向量的層次多標簽文本分類方法及系統(tǒng)
- 面向煙草領(lǐng)域科研人員的多維度畫像構(gòu)建方法及推薦方法
- 一種基于區(qū)塊鏈的科技創(chuàng)新服務(wù)平臺





