[發(fā)明專(zhuān)利]實(shí)體名稱匹配有效
| 申請(qǐng)?zhí)枺?/td> | 201110329092.4 | 申請(qǐng)日: | 2011-10-26 |
| 公開(kāi)(公告)號(hào): | CN102385625A | 公開(kāi)(公告)日: | 2012-03-21 |
| 發(fā)明(設(shè)計(jì))人: | C.約翰斯頓 | 申請(qǐng)(專(zhuān)利權(quán))人: | 微軟公司 |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30 |
| 代理公司: | 中國(guó)專(zhuān)利代理(香港)有限公司 72001 | 代理人: | 謝建云;劉鵬 |
| 地址: | 美國(guó)華*** | 國(guó)省代碼: | 美國(guó);US |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 實(shí)體 名稱 匹配 | ||
背景技術(shù)
諸如商業(yè)企業(yè)清單(例如黃頁(yè))、基于搜索引擎的目錄等在線目錄允許在線用戶搜尋和標(biāo)識(shí)期望的實(shí)體(例如要光顧的本地企業(yè))。另外,受雇專(zhuān)家、客戶或者其他各方可以提交在線評(píng)論,其中評(píng)論者可以提及實(shí)體并且描述他們對(duì)實(shí)體的體驗(yàn)或者意見(jiàn)(例如飯店或者產(chǎn)品評(píng)論)。此外,博客者、記者或者其它編輯人士可以提交關(guān)于實(shí)體的在線信息、報(bào)道等,其中提到實(shí)體的名稱。然而實(shí)體名稱(比如企業(yè))經(jīng)??赡茉趦蓚€(gè)或者更多目錄、博客、評(píng)論或者報(bào)道之間無(wú)統(tǒng)一標(biāo)識(shí)。例如當(dāng)目錄可以將圖書(shū)館標(biāo)識(shí)為Depot?Street?Library?Branch?in?Medina(Depot街圖書(shū)館中部分館)時(shí),在線博客可以僅將它稱為Medina?Branch?Library(圖書(shū)館中部分館)。另外可能有相似但是混淆名稱的不同類(lèi)型的另一實(shí)體(比如Library?Street?Depot(圖書(shū)館街Depot)(例如酒吧))。
發(fā)明內(nèi)容
提供這一發(fā)明內(nèi)容以簡(jiǎn)化形式介紹下文在具體實(shí)施方式中進(jìn)一步描述的所選概念。這一發(fā)明內(nèi)容并非目的在于標(biāo)識(shí)所要求主題的關(guān)鍵因素或者基本特征、也并非目的在于用來(lái)限制要求主題的范圍。
匹配實(shí)體名稱(比如在目錄中或者來(lái)自多個(gè)目錄/位置的企業(yè)名稱)對(duì)于涉及到實(shí)體名稱的記錄鏈接系統(tǒng)而言可能頗為重要。實(shí)體名稱匹配可能是未對(duì)僅基于字符或者基于標(biāo)記的方式有良好響應(yīng)的困難問(wèn)題。當(dāng)前或者現(xiàn)有技術(shù)嘗試通過(guò)在經(jīng)歷匹配的兩個(gè)(或者更多)名稱之間匹配字符或者標(biāo)記來(lái)匹配名稱。也就是說(shuō),例如將串匹配算法通常應(yīng)用于兩個(gè)名稱(比如“Matt’s?Restaurant(Matt的飯店)”和“Matt’s?Bar?and?Grill(Matts酒吧和烤肉店)”)以確定它們是否可能是相同實(shí)體。
另外,當(dāng)前或者現(xiàn)有技術(shù)嘗試使用完全基于知識(shí)的方式來(lái)匹配實(shí)體名稱。這一技術(shù)通常由于各類(lèi)文字中的企業(yè)名稱表述的大量自然變化而未良好地起作用。也就是說(shuō),例如相對(duì)于包括多個(gè)企業(yè)名稱和關(guān)聯(lián)的企業(yè)類(lèi)型的數(shù)據(jù)庫(kù)來(lái)匹配實(shí)體的名稱。然而僅使用這一方式可能需要巨型數(shù)據(jù)庫(kù),并且由于名稱使用方式的變化而可能未提供充分的結(jié)果。
因而公開(kāi)一種或者多種使用小型知識(shí)庫(kù)從實(shí)體名稱表述(例如在目錄、博客、評(píng)論等中)中提取可以表明實(shí)體類(lèi)型(例如企業(yè)類(lèi)型、比如服務(wù)、零售、食品等)的實(shí)體類(lèi)別信號(hào)的技術(shù)和/或系統(tǒng)。另外可以對(duì)實(shí)體名稱的其余部分(例如非類(lèi)別信號(hào)的部分)使用基于串或者標(biāo)記的匹配方式。利用這一方式,可以匹配廣泛多種類(lèi)型的實(shí)體名稱表述、從例如在線目錄清單數(shù)據(jù)庫(kù)中的正規(guī)表述到例如博客或者評(píng)論文字中的隨意企業(yè)表述。
在用于匹配實(shí)體名稱的一個(gè)實(shí)施例中,在第一實(shí)體名稱(比如目錄中的企業(yè)名稱)與第二實(shí)體名稱(比如來(lái)自在線評(píng)論的另一企業(yè)名稱)之間執(zhí)行匹配分析。該匹配分析可以包括比較已經(jīng)修改到第一實(shí)體名稱中的第一實(shí)體類(lèi)別描述符與已經(jīng)修改到第二實(shí)體名稱中的第二實(shí)體類(lèi)別描述符。
為了實(shí)現(xiàn)前述和有關(guān)目的,下文描述和附圖闡述某些示例方面和實(shí)現(xiàn)。這些僅僅是其中可以采用一個(gè)或者多個(gè)方面的各種方式中的僅少數(shù)方式的指示。本公開(kāi)內(nèi)容的其它方面、優(yōu)點(diǎn)和新穎特征將根據(jù)在與附圖結(jié)合考慮時(shí)的下文具體實(shí)施方式而變得清楚。
附圖說(shuō)明
圖1是用于匹配實(shí)體名稱的示例方法的流程圖。
圖2是圖示了這里描述的一種或者多種方法的一個(gè)或者多個(gè)部分的一個(gè)實(shí)施例的流程圖。
圖3是這里描述的一種或者多種技術(shù)的一個(gè)實(shí)施例的流程圖。
圖4圖示了其中可以利用一種或者多種技術(shù)和/或系統(tǒng)的一個(gè)或者多個(gè)示例實(shí)施例。
圖5圖示了其中可以利用一種或者多種技術(shù)和/或系統(tǒng)的一個(gè)或者多個(gè)示例實(shí)施例。
圖6是用于匹配實(shí)體名稱的示例系統(tǒng)的部件圖。
圖7圖示了這里描述的一種或者多種系統(tǒng)的一個(gè)示例實(shí)施例的部件圖。
圖8是示例計(jì)算機(jī)可讀介質(zhì)的圖示,該計(jì)算機(jī)可讀介質(zhì)包括被配置成具體實(shí)施這里闡述的一種或者多種規(guī)定的處理器可執(zhí)行指令。
圖9圖示了其中可以實(shí)現(xiàn)這里闡述的一種或者多種規(guī)定的示例計(jì)算環(huán)境。
具體實(shí)施例
現(xiàn)在參照其中相似標(biāo)號(hào)用來(lái)通篇指代相似單元的附圖來(lái)描述所要求的主題。在下文描述中,出于說(shuō)明的目的而闡述諸多具體細(xì)節(jié)以便提供對(duì)要求主題的透徹理解。然而可以清楚的是,可實(shí)現(xiàn)所要求的主題而無(wú)需這些具體細(xì)節(jié)。在其它實(shí)例中,以框圖形式示出了結(jié)構(gòu)和設(shè)備以便有助于描述所要求的主題。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于微軟公司,未經(jīng)微軟公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201110329092.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體關(guān)系識(shí)別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于實(shí)體對(duì)齊的屬性融合方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲(chǔ)介質(zhì)





