[發明專利]醫療字段映射校驗方法及裝置有效
| 申請號: | 201611027722.1 | 申請日: | 2016-11-21 |
| 公開(公告)號: | CN108091372B | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 鄭號 | 申請(專利權)人: | 醫渡云(北京)技術有限公司 |
| 主分類號: | G16H10/60 | 分類號: | G16H10/60;G06F40/289;G06F16/33;G06F16/36 |
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 闞梓瑄;王衛忠 |
| 地址: | 100191 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 醫療 字段 映射 校驗 方法 裝置 | ||
本公開提供一種醫療字段映射校驗方法及裝置,所述醫療字段映射校驗方法包括:接收待校驗字段,待校驗字段具有字段名稱且包括字段內容;對待校驗字段的字段內容進行分詞得到多個第一切分詞;將各第一切分詞分別表征為第一詞向量;計算第一詞向量的平均值得到待校驗字段的中心向量;分別計算待校驗字段的中心向量與多個參照字段的中心向量的相似度;結合相似度從多個參照字段中確定目標參照字段;其中,目標參照字段為與待校驗字段的相似程度最高的參照字段;比較待校驗字段與目標參照字段的名稱,并根據比較結果確認待校驗字段的字段內容與字段名稱的映射關系是否正確。本公開能夠提高校驗結果的準確性。
技術領域
本公開涉及醫療大數據技術領域,具體而言,涉及一種醫療字段映射校驗方法及醫療字段映射校驗裝置。
背景技術
目前,在醫療活動中,會產生大量的醫療數據,這些醫療數據通常包括包括大量的字段,這些字段一般包含患者的基本信息、就診信息、診斷記錄、檢查記錄和病理記錄等。為了有效的管理這些醫療數據,需要把各家醫院不同的醫療數據映射到統一的數據平臺上,使醫療數據中的字段的字段內容和字段名稱按照一定映射關系對應。
但由于各家醫院的醫療數據在數據格式和數據內容上不盡相同,使得醫療數據中的字段映射過程可能出現錯誤,導致數據平臺上出現字段內容和字段名稱的映射錯誤。因此,需要對醫療字段映射進行校驗,即判斷字段名稱與字段內容是否一致。
現有技術中,對醫療字段映射的校驗主要根據字段長度和字段格式判斷出相似的字段,然后根據相似字段的字段內容和字段名稱是否相同檢驗映射結果的正確與否。但由于很多不同的文本在字段長度、字段格式上并沒有顯著差別,導致難以準確發現字段內容和字段名稱的映射關系錯誤的,即醫療字段映射錯誤,因而校驗結果的準確性有待提高。
需要說明的是,在上述背景技術部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
本公開的目的在于提供一種醫療字段映射校驗方法及醫療字段映射校驗裝置,進而至少在一定程度上克服由于相關技術的限制和缺陷而導致的一個或者多個問題。
根據本公開的一個方面,一種醫療字段映射校驗方法,包括:
接收待校驗字段,所述待校驗字段具有字段名稱且包括字段內容;
對所述待校驗字段的字段內容進行分詞得到多個第一切分詞;
將各所述第一切分詞分別表征為第一詞向量;
計算所述第一詞向量的平均值得到所述待校驗字段的中心向量;
分別計算所述待校驗字段的中心向量與多個參照字段的中心向量的相似度;
結合所述相似度從所述多個參照字段中確定目標參照字段;其中,所述目標參照字段為與所述待校驗字段的相似程度最高的參照字段;
比較所述待校驗字段與所述目標參照字段的名稱,并根據比較結果確認所述待校驗字段的字段內容與字段名稱的映射關系是否正確。
在本公開的一種示例性實施例中,還包括計算所述參照字段的中心向量的步驟,包括:
接收所述參照字段,所述參照字段具有字段名稱且包括字段內容;
對所述參照字段的字段內容進行分詞得到多個第二切分詞;
將各所述第二切分詞分別表征為第二詞向量;
計算所述第二詞向量的平均值得到所述參照字段的中心向量。
在本公開的一種示例性實施例中,所述將各所述第二切分詞分別表征為第二詞向量包括:
對至少包含所述多個參照字段的參照語料庫進行分詞得到多個第三切分詞;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于醫渡云(北京)技術有限公司,未經醫渡云(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201611027722.1/2.html,轉載請聲明來源鉆瓜專利網。





