[發(fā)明專利]一種搜索網頁的方法和裝置有效
| 申請?zhí)枺?/td> | 201210171234.3 | 申請日: | 2012-05-29 |
| 公開(公告)號: | CN103455492B | 公開(公告)日: | 2018-10-30 |
| 發(fā)明(設計)人: | 袁建發(fā);廖志;葉方正;寧京;王偉;郭宗飛;李潔 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 羅振安 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 搜索 網頁 方法 裝置 | ||
1.一種搜索網頁的方法,其特征在于,所述方法包括:
獲取每次在進行搜索網頁過程中所使用的線程數以及每次搜索網頁過程的搜索速度;
根據獲取到的線程數以及獲取到的搜索速度確定最優(yōu)線程數;
根據符合所述最優(yōu)線程數的多個第一網頁地址,并行訪問所述多個第一網頁地址指示的網頁;
獲取訪問的所述網頁的網頁信息;
遍歷所述網頁的網頁信息,在遍歷過程中提取獲取到的網頁信息中的超文本引用外部鏈接中的網頁地址,將所述超文本引用外部鏈接中的網頁地址作為第二網頁地址;
將提取到的所述第二網頁地址作為所述第一網頁地址再次執(zhí)行搜索網頁過程,并對獲取到的網頁信息進行分析,得到所述獲取到的網頁信息中各個類型信息的數據量,根據訪問需要以及所述各個類型信息的數據量對網頁瀏覽方法進行設置和調整。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
獲取預先配置的搜索配置信息,所述搜索配置信息包括第一網頁地址。
3.根據權利要求2所述的方法,其特征在于,
所述搜索配置信息還包括預設網頁深度;
相應地,從所述網頁信息中提取第二網頁地址,之后包括:
當所述第二網頁地址達到所述預設網頁深度時,結束;
當所述第二網頁地址未達到所述預設網頁深度時,繼續(xù)執(zhí)行搜索網頁過程。
4.根據權利要求2所述的方法,其特征在于,
所述搜索配置信息還包括預設線程數,所述預設線程數用于指示同時訪問的網頁數量;
相應地,所述方法還包括:
根據所述搜索配置信息指示的符合所述預設線程數的多個第一網頁地址,同時訪問所述多個第一網頁地址指示的網頁。
5.根據權利要求2所述的方法,其特征在于,
所述搜索配置信息還包括日志配置信息,所述日志配置信息用于指示待保存的信息類型;
相應地,獲取訪問的所述網頁的網頁信息,包括:
根據所述日志配置信息,獲取訪問的所述網頁的網頁信息中符合所述日志配置信息的信息。
6.根據權利要求2-5任一項所述的方法,其特征在于,所述方法還包括:
檢測所述搜索配置信息是否發(fā)生變化,當所述搜索配置信息中的任一項發(fā)生變化時,根據變化后的搜索配置信息更新所述搜索配置信息。
7.根據權利要求1所述的方法,其特征在于,
所述搜索配置信息還包括預設網頁類型,
相應地,從所述網頁信息中提取第二網頁地址,包括:
遍歷所述網頁信息中的網頁地址;
從所述網頁信息的網頁地址中提取符合所述預設網頁類型的第二網頁地址。
8.根據權利要求1所述的方法,其特征在于,獲取訪問的所述網頁的網頁信息,之后包括:
當獲取到訪問的所述網頁的網頁信息時,判斷是否已保存過所述網頁信息,如果是,則丟棄所述網頁信息,如果否,則保存所述網頁信息。
9.根據權利要求1所述的方法,其特征在于,所述網頁信息為所訪問網頁的源代碼。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201210171234.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:自調勻整裝置的變速機構
- 下一篇:一種杏鮑菇培養(yǎng)基料





