[發明專利]基于大數據的創新創意標簽自動標注方法及系統有效
| 申請號: | 201710173029.3 | 申請日: | 2017-03-22 |
| 公開(公告)號: | CN106997382B | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 鹿旭東;張盤龍;陳志勇;郭偉;崔立真 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/9536;G06F40/289;G06F40/30;G06F40/216 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250101 *** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 數據 創新 創意 標簽 自動 標注 方法 系統 | ||
本發明公開了基于大數據的創新創意標簽自動標注方法及系統,所述方法包括:使用搜狗語料庫訓練Word2vector和LDA得到訓練結果集。將用戶瀏覽頁面的文檔數據進行分詞、去除停用詞和詞過濾處理。將預處理的文檔數據,通過使用改進的TextRank算法Word2vector相結合計算出來源于本文數據的標簽。并且將預處理的文檔通過LDA計算得出關于文檔數據主題的標簽。通過生成標簽云的方式實現可視化,并且將所有的本文標簽詞語在文檔數據中標注出來,方便用戶進行閱讀和發現重點內容部分。
技術領域
本發明涉及基于大數據的創新創意標簽自動標注方法及系統。
背景技術
隨著互聯網的快速發展與普及,信息呈爆炸式增長,使得互聯網上積累了大量的信息。同時互聯網用戶不僅是互聯網內容的瀏覽者,也在互聯網創造各種信息,于是導致互聯網信息形式多樣化,這給信息篩選造成很大的難度。互聯網信息中以文字為載體的信息占了很大的比例,信息量的增多與結構的混亂使人們在查找信息的過程中有了更多的參考性,信息的覆蓋率更為全面,涉及人們生活的方方面面,極大地便利了人們的生活,然而大量的信息容易使人類陷入到無從選擇的地步,從大量的信息中快速選出有效信息并不是一件容易的事情。
企業在進行創新工作時,應用大數據作為分析和計劃的基礎,需要分辨和查看分析有價值的數據。如何充分利用大數據并且快速有效獲得企業所關注主題的相關數據,并且實現標注關鍵數據,排除雜亂無用的信息,使企業注意力集中在更有價值并且重要的信息上,是當前創新的難點,文本標注在這樣的背景下應運而生。文本標注是指使用若干個具有專指性且能反映文本主題的詞語或短語,這些詞語或短語通常稱為標簽,讀者通過閱讀這些標簽能夠快速了解文本主題,從而判斷是否為自己感興趣的文本。
文本自動標注是隨著互聯網發展起來的一門新興的研學科,它衍生自信息抽取和文本分類技術,并結合了信息檢索以及協同過濾等方向的研究方法。近年來,發展起來的文本自動標注技術有基于用戶的社會化標注、多標簽分類標注、關鍵詞提取標注;
上述介紹了目前文本標注的主要方法。其中,基于用戶的社會化標注在系統服務初期,由于沒有過往的數據提供參考,存在冷啟動的問題;多標簽分類標注方法大多是基于有監督學習的算法,需要大量的人工標注的數據集作為訓練集,人工標注數據集不僅費時費力,還存在很大的主觀性。
發明內容
為了解決現有技術的不足,本發明提供了基于大數據的創新創意標簽自動標注方法及系統,其具有采用關鍵詞提取的方法標注文本,屬于無監督學習的范疇,無需人工標注數據集的效果。
基于大數據的創新創意標簽自動標注方法,包括:
步驟(1):模型訓練:
使用語料庫對文本深度表示模型Word2vector進行訓練,訓練后得到語料庫中所有詞語和所有詞語對應的向量模型文件,即得到訓練好的Word2vector模型;
使用語料庫對文檔主題生成模型LDA進行訓練得到LDA結果集和訓練好的LDA模型,所述LDA結果集包括若干個主題,每個主題包括屬于所述主題的詞語和詞語屬于所述主題的概率;
步驟(2):使用中科院ICTCLAS分詞系統對用戶當前瀏覽頁面的數據文檔進行分詞操作,然后去除停用詞;得到預處理后的數據文檔;
步驟(3):生成本文標簽和主題標簽;
步驟(4):實現對最終的本文標簽和主題標簽的可視化。
所述步驟(2)的停用詞包括使用頻率查過設定閾值的詞和無實際意義的詞。
所述無實際意義的詞包括語氣助詞、副詞、介詞和連詞。
所述去除停用詞的步驟包括:在分詞處理后,對詞性進行標注,保留名詞、動詞和形容詞,過濾掉其余詞性的詞,同時還需要過濾掉使用頻率超出設定閾值的詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201710173029.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于化學實驗的試管
- 下一篇:一種化學實驗石棉網
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





