基礎(chǔ)信息
權(quán)利要求
說明書
PDF全文
法律信息
引證文獻(xiàn)
著錄項(xiàng)信息
專利名稱 | 建立域名描述名稱信息表、搜索的方法、裝置及系統(tǒng) |
申請?zhí)?/td> | CN201110060363.0 | 申請日期 | 2011-03-14 |
法律狀態(tài) | 授權(quán) | 申報(bào)國家 | 中國 |
公開/公告日 | 2012-09-19 | 公開/公告號 | CN102682011A |
優(yōu)先權(quán) | 暫無 | 優(yōu)先權(quán)號 | 暫無 |
主分類號 | G06F17/30 | IPC分類號 | G;0;6;F;1;7;/;3;0查看分類表>
|
申請人 | 騰訊科技(深圳)有限公司 | 申請人地址 |
變更
專利地址、主體等相關(guān)變化,請及時(shí)變更,防止失效 |
權(quán)利人 | 深圳市世紀(jì)光速信息技術(shù)有限公司 | 當(dāng)前權(quán)利人 | 深圳市世紀(jì)光速信息技術(shù)有限公司 |
發(fā)明人 | 曲先洋;耿方圓 |
代理機(jī)構(gòu) | 北京三高永信知識產(chǎn)權(quán)代理有限責(zé)任公司 | 代理人 | 關(guān)文魁 |
摘要
本發(fā)明公開了建立域名描述名稱信息表、搜索的方法、裝置及系統(tǒng),屬于互聯(lián)網(wǎng)通信領(lǐng)域。所述方法建立域名描述名稱信息表的包括:爬取網(wǎng)頁頁面中的鏈接,并獲取所述鏈接對應(yīng)的網(wǎng)頁頁面所在的域名;獲取所述域名的域名描述名稱;將所述域名和域名描述名稱的對應(yīng)關(guān)系存儲在域名描述名稱信息表中。所述搜索系統(tǒng)包括:建立域名描述名稱信息表的裝置和搜索的裝置。本發(fā)明為用戶辨別惡意網(wǎng)站提供幫助。
建立域名描述名稱信息表、搜索的方法、裝置及系統(tǒng)\n技術(shù)領(lǐng)域\n[0001] 本發(fā)明涉及互網(wǎng)通信領(lǐng)域,特別涉及一種建立域名描述名稱信息表、搜索的方法、裝置及系統(tǒng)。\n背景技術(shù)\n[0002] 隨著互聯(lián)網(wǎng)逐漸深入人們的生活,使得全球出現(xiàn)大量的網(wǎng)站,截止到2010年2月全球的網(wǎng)站數(shù)量已經(jīng)達(dá)到2.34億個(gè);與此同時(shí),以木馬和釣魚網(wǎng)站為代表的惡意網(wǎng)站也與日俱增,危害人們的生活。\n[0003] 其中,網(wǎng)頁搜索引擎是用戶上網(wǎng)的主要入口之一,用戶常常利用網(wǎng)頁搜索引擎搜索需要的查詢結(jié)果,網(wǎng)頁搜索引擎搜索的查詢結(jié)果中往往包括惡意網(wǎng)站對應(yīng)的查詢結(jié)果,給用戶的信息安全帶來了很大的危害。\n發(fā)明內(nèi)容\n[0004] 為了幫助用戶辨別惡意網(wǎng)站,本發(fā)明提供了建立域名描述名稱信息表、搜索的方法、裝置及系統(tǒng)。所述技術(shù)方案如下:\n[0005] 一種建立域名描述名稱信息表的方法,所述方法包括:\n[0006] 爬取網(wǎng)頁頁面中的鏈接,并獲取所述鏈接對應(yīng)的網(wǎng)頁頁面所在的域名;\n[0007] 獲取所述域名的域名描述名稱;\n[0008] 將所述域名和域名描述名稱的對應(yīng)關(guān)系存儲在域名描述名稱信息表中。\n[0009] 如果所述域名的置信度超過第一閾值,則所述獲取所述域名的域名描述名稱,包括:\n[0010] 獲取所述域名對應(yīng)的主頁面,從所述主頁面的源文件中獲取所述主頁面的標(biāo)題和描述信息;\n[0011] 從所述主頁面的標(biāo)題和描述信息中提取所述域名的域名描述名稱。\n[0012] 從所述主頁面的標(biāo)題和描述信息中提取所述域名的域名描述名稱,包括:\n[0013] 對所述主頁面的標(biāo)題和描述信息進(jìn)行分割得到分詞;\n[0014] 從所述主頁面的標(biāo)題和所述分詞中選擇對所述主頁面最具代表性的詞,將所述選擇的詞確定為所述域名的域名描述名稱。\n[0015] 如果所述域名的置信息度未超過第一閾值,則所述獲取所述域名的域名描述名稱,包括:\n[0016] 根據(jù)已存儲的域名與錨文本的對應(yīng)關(guān)系,獲取所述域名對應(yīng)的錨文本;\n[0017] 從所述獲取的錨文本中提取所述域名的域名描述名稱。\n[0018] 所述根據(jù)已存儲的域名與錨文本的對應(yīng)關(guān)系,獲取所述域名對應(yīng)的錨文本,包括:\n[0019] 從所述已存儲的域名與錨文本的對應(yīng)關(guān)系中查找出所述域名對應(yīng)的錨文本;\n[0020] 從所述錨文本中去除重復(fù)的錨文本、計(jì)算剩下所述錨文本的置信度,選擇置信度超過第二閾值的錨文本,去除所述選擇的錨文本中的噪音。\n[0021] 從所述獲取的錨文本中提取所述域名的域名描述名稱,包括:\n[0022] 對所述獲取的錨文本進(jìn)行分割得到分詞,統(tǒng)計(jì)每個(gè)分詞出現(xiàn)的次數(shù);\n[0023] 將出現(xiàn)次數(shù)最多的分詞確定為所述域名的域名描述名稱。\n[0024] 所述獲取所述域名的域名描述名稱之前,還包括:\n[0025] 根據(jù)已存儲的域名與網(wǎng)站的對應(yīng)關(guān)系,獲取與所述域名具有鏈接關(guān)系的網(wǎng)站,根據(jù)已存儲的網(wǎng)站與信譽(yù)度的對應(yīng)關(guān)系,獲取所述網(wǎng)站的信譽(yù)度,根據(jù)所述信譽(yù)度計(jì)算所述域名的置信度。\n[0026] 一種利用所述建立的域名描述名稱信息表進(jìn)行搜索的方法,所述方法包括:\n[0027] 接收攜帶查詢詞的搜索請求,根據(jù)所述查詢詞獲取對應(yīng)的查詢結(jié)果;\n[0028] 根據(jù)域名描述名稱信息表,獲取所述查詢結(jié)果的域名描述名稱;\n[0029] 顯示所述查詢結(jié)果和所述查詢結(jié)果的域名描述名稱。\n[0030] 所述根據(jù)域名描述名稱信息表,獲取所述查詢結(jié)果的域名描述名稱,包括:\n[0031] 從所述查詢結(jié)果包括的鏈接中提取所述查詢結(jié)果對應(yīng)的網(wǎng)頁頁面所在的域名;\n[0032] 根據(jù)所述域名從所述域名描述名稱信息表中查找到所述查詢結(jié)果的域名描述名稱。\n[0033] 一種建立域名描述名稱信息表的裝置,所述裝置包括:\n[0034] 第一獲取模塊,用于爬取網(wǎng)頁頁面中的鏈接,并獲取所述鏈接對應(yīng)的網(wǎng)頁頁面所在的域名;\n[0035] 第二獲取模塊,用于獲取所述域名的域名描述名稱;\n[0036] 存儲模塊,用于將所述域名和域名描述名稱的對應(yīng)關(guān)系存儲在域名描述名稱信息表中。\n[0037] 如果所述域名的置信度超過第一閾值,則所述第二獲取模塊包括:\n[0038] 第一獲取單元,用于獲取所述域名對應(yīng)的主頁面,從所述主頁面的源文件中獲取所述主頁面的標(biāo)題和描述信息;\n[0039] 第一提取單元,用于從所述主頁面的標(biāo)題和描述信息中提取所述域名的域名描述名稱。\n[0040] 所述第一提取單元包括:\n[0041] 第一分割子單元,用于對所述主頁面的標(biāo)題和描述信息進(jìn)行分割得到分詞;\n[0042] 第一確定子單元,用于從所述主頁面的標(biāo)題和所述分詞中選擇對所述主頁面最具代表性的詞,將所述選擇的詞確定為所述域名的域名描述名稱。\n[0043] 如果所述域名的置信度未超過第一閾值,則所述第二獲取模塊包括:\n[0044] 第二獲取單元,用于根據(jù)已存儲的域名與錨文本的對應(yīng)關(guān)系,獲取所述域名對應(yīng)的錨文本;\n[0045] 第二提取單元,用于從所述獲取的錨文本中提取所述域名的域名描述名稱。\n[0046] 所述第二獲取單元包括:\n[0047] 查找子單元,用于從所述已存儲的域名與錨文本的對應(yīng)關(guān)系中查找出所述域名對應(yīng)的錨文本;\n[0048] 去除子單元,用于從所述錨文本中去除重復(fù)的錨文本、計(jì)算剩下所述錨文本的置信度,選擇置信度超過第二閾值的錨文本,去除所述選擇的錨文本中的噪音。\n[0049] 所述第二提取單元包括:\n[0050] 第二分割子單元,用于對所述獲取的錨文本進(jìn)行分割得到分詞,統(tǒng)計(jì)每個(gè)分詞出現(xiàn)的次數(shù);\n[0051] 第二確定子單元,用于將出現(xiàn)次數(shù)最多的分詞確定為所述域名的域名描述名稱。\n[0052] 所述裝置還包括:\n[0053] 置信度計(jì)算模塊,用于根據(jù)已存儲的域名與網(wǎng)站的對應(yīng)關(guān)系,獲取與所述域名具有鏈接關(guān)系的網(wǎng)站,根據(jù)已存儲的網(wǎng)站與信譽(yù)度的對應(yīng)關(guān)系,獲取所述網(wǎng)站的信譽(yù)度,根據(jù)所述信譽(yù)度計(jì)算所述域名的置信度。\n[0054] 一種利用所述建立的域名描述名稱信息表進(jìn)行搜索的裝置,所述裝置包括:\n[0055] 第三獲取模塊,用于接收攜帶查詢詞的搜索請求,根據(jù)所述查詢詞獲取對應(yīng)的查詢結(jié)果;\n[0056] 第四獲取模塊,用于根據(jù)域名描述名稱信息表,獲取所述查詢結(jié)果的域名描述名稱;\n[0057] 顯示模塊,用于顯示所述查詢結(jié)果和所述查詢結(jié)果的域名描述名稱。\n[0058] 所述第四獲取模塊包括:\n[0059] 第三提取單元,用于從所述查詢結(jié)果的鏈接中提取所述查詢結(jié)果對應(yīng)的網(wǎng)頁頁面所在的域名;\n[0060] 查找單元,用于根據(jù)所述域名從所述域名描述名稱信息表中查找到所述查詢結(jié)果的域名描述名稱。\n[0061] 一種搜索系統(tǒng),所述搜索系統(tǒng)包括建立域名描述名稱信息表的裝置和搜索的裝置;\n[0062] 所述建立域名描述名稱信息表的裝置,用于爬取網(wǎng)頁頁面中的鏈接,并獲取所述鏈接對應(yīng)的網(wǎng)頁頁面所在的域名;獲取所述域名的域名描述名稱;將所述域名和域名描述名稱的對應(yīng)關(guān)系存儲在域名描述名稱信息表中;\n[0063] 所述搜索的裝置,用于接收攜帶查詢詞的搜索請求,根據(jù)所述查詢詞獲取對應(yīng)的查詢結(jié)果;根據(jù)所述域名描述名稱信息表,獲取所述查詢結(jié)果的域名描述名稱;顯示所述查詢結(jié)果和所述查詢結(jié)果的域名描述名稱。\n[0064] 通過爬取網(wǎng)頁頁面中的鏈接,獲取該鏈接的域名,并獲取該域名的域名描述名稱,將該域名和該域名描述名稱的對應(yīng)關(guān)系存儲在域名描述名稱信息表中;當(dāng)接收到搜索請求時(shí),獲取查詢詞對應(yīng)的查詢結(jié)果,根據(jù)建立的域名描述名稱獲取查詢結(jié)果對應(yīng)的域名描述名稱,顯示獲取的查詢結(jié)果和域名描述名稱。如此,用戶可以通過每個(gè)查詢結(jié)果的域名描述名稱確定出每個(gè)查詢結(jié)果的來源,從而能夠協(xié)助用戶辨別惡意網(wǎng)站的查詢結(jié)果,提高了用戶體驗(yàn)并保障了用戶的信息安全。\n附圖說明\n[0065] 圖1是本發(fā)明實(shí)施例1提供的一種建立域名描述名稱信息表的方法流程圖;\n[0066] 圖2是本發(fā)明實(shí)施例2提供的一種建立域名描述名稱信息表的方法流程圖;\n[0067] 圖3是本發(fā)明實(shí)施例3提供的一種搜索的方法流程圖;\n[0068] 圖4是本發(fā)明實(shí)施例4提供的一種搜索的方法流程圖;\n[0069] 圖5是本發(fā)明實(shí)施例5提供的一種建立域名描述名稱信息表的裝置示意圖;\n[0070] 圖6是本發(fā)明實(shí)施例6提供的一種搜索的裝置示意圖;\n[0071] 圖7是本發(fā)明實(shí)施例7提供的一種搜索系統(tǒng)示意圖。\n具體實(shí)施方式\n[0072] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。\n[0073] 實(shí)施例1\n[0074] 如圖1所示,本發(fā)明實(shí)施例提供了一種建立域名描述名稱信息表的方法,包括:\n[0075] 步驟101:爬取網(wǎng)頁頁面中的鏈接,并獲取該鏈接對應(yīng)的網(wǎng)頁頁面所在的域名;\n[0076] 步驟102:獲取該域名的域名描述名稱;\n[0077] 步驟103:將該域名和該域名描述名稱的對應(yīng)關(guān)系存儲在域名描述名稱信息表中。\n[0078] 在本發(fā)明實(shí)施例中,通過爬取網(wǎng)頁頁面中的鏈接,獲取該鏈接的域名,并獲取該域名的域名描述名稱,將該域名和該域名描述名稱的對應(yīng)關(guān)系存儲在域名描述名稱信息表中。如此,網(wǎng)頁搜索引擎搜索到查詢結(jié)果時(shí),可以根據(jù)域名描述名稱信息表獲取每個(gè)查詢結(jié)果的域名描述名稱,并顯示每個(gè)查詢結(jié)果和每個(gè)查詢結(jié)果的域名描述名稱,因此用戶可以通過每個(gè)查詢結(jié)果的域名描述名稱確定出每個(gè)查詢結(jié)果的來源,從而能夠協(xié)助用戶辨別惡意網(wǎng)站的查詢結(jié)果,提高了用戶體驗(yàn)并保障了用戶的信息安全。\n[0079] 實(shí)施例2\n[0080] 如圖2所示,本發(fā)明實(shí)施例提供了一種建立域名描述名稱信息表的方法,包括:\n[0081] 步驟201:通過對當(dāng)前網(wǎng)頁頁面進(jìn)行爬取,獲取當(dāng)前網(wǎng)頁頁面中的鏈接;\n[0082] 具體地,對當(dāng)前網(wǎng)頁頁面中的內(nèi)容進(jìn)行爬取,當(dāng)爬取到當(dāng)前網(wǎng)頁頁面中的鏈接時(shí),從當(dāng)前網(wǎng)頁頁面中提取爬取的鏈接。\n[0083] 其中,在本實(shí)施例中,可以對互聯(lián)網(wǎng)中的各個(gè)網(wǎng)頁頁面進(jìn)行爬取。另外,可以通過網(wǎng)頁爬蟲技術(shù)或網(wǎng)絡(luò)蜘蛛算法來對互聯(lián)網(wǎng)中的各個(gè)網(wǎng)頁頁面進(jìn)行爬取。\n[0084] 例如,對于互聯(lián)網(wǎng)中的某個(gè)網(wǎng)頁頁面進(jìn)行爬取,當(dāng)爬取到該網(wǎng)頁頁面中的一條鏈接“http://news.qq.com/000411.htm”時(shí),提取爬取的該條鏈接。\n[0085] 步驟202:根據(jù)獲取的鏈接,解析出獲取的鏈接對應(yīng)的網(wǎng)頁頁面所在的域名;\n[0086] 其中,互聯(lián)網(wǎng)中的任一個(gè)鏈接都由該鏈接對應(yīng)的網(wǎng)頁頁面所在的域名以及該網(wǎng)頁頁面在該域名上的存儲地址組成。\n[0087] 具體地,對該鏈接進(jìn)行解析,解析出該鏈接中的域名,其中,解析出的域名為該鏈接對應(yīng)的網(wǎng)頁頁面所在的域名。\n[0088] 例如,對于提取的鏈接“http://news.qq.com/000411.htm”由該鏈接對應(yīng)的網(wǎng)頁頁面所在的域名“http://news.qq.com”和該鏈接對應(yīng)的網(wǎng)頁頁面在域名“http://news.qq.com”上的存儲地址“000411.htm”組成。所以在本實(shí)施例中,對該條鏈接“http://news.qq.com/000411.htm”進(jìn)行解析,解析該鏈接中包括的域名為“http://news.qq.com”,其中,解析出的域名“http://news.qq.com”為該鏈接對應(yīng)的網(wǎng)頁頁面所在的域名。\n[0089] 進(jìn)一步地,獲取當(dāng)前網(wǎng)頁頁面所在的網(wǎng)站,將解析出的域名和獲取的網(wǎng)站作為一條記錄并存儲在域名與網(wǎng)站的對應(yīng)關(guān)系中。\n[0090] 進(jìn)一步地,還可以從當(dāng)前網(wǎng)頁頁面的源文件中提取該鏈接的錨文本,將解析出的域名和提取的錨文本作為一條記錄并存儲在域名與錨文本的對應(yīng)關(guān)系中。\n[0091] 進(jìn)一步地,獲取當(dāng)前網(wǎng)頁頁面所在的網(wǎng)站,將獲取的網(wǎng)站和提取的錨文本作為一條記錄存儲在網(wǎng)站與錨文本的對應(yīng)關(guān)系中。\n[0092] 步驟203:判斷域名描述名稱信息表中是否存在解析出的域名對應(yīng)的域名描述名稱,如果是,則結(jié)束操作,如果否,則執(zhí)行步驟204;\n[0093] 其中,域名描述名稱信息表用于存儲域名與域名描述名稱的對應(yīng)關(guān)系,如表1所示的域名描述名稱信息表。\n[0094] 表1\n[0095]\n??域名 ??域名描述名稱\n??http://news.sohu.com ??搜狐新聞\n??http://news.163.com ??網(wǎng)易新聞\n??…… ??……\n[0096] 具體地,根據(jù)解析出的域名查找域名描述名稱信息表,如果從域名描述名稱信息表中查找到對應(yīng)的域名描述名稱,則結(jié)束操作,否則,繼續(xù)執(zhí)行步驟204。\n[0097] 例如,判斷出如表1所示的域名描述名稱信息表中不存在解析出的域名“http://news.qq.com”對應(yīng)的域名描述名稱,然后執(zhí)行步驟204。\n[0098] 步驟204:計(jì)算解析的域名的置信度,如果解析的域名的置信度超過預(yù)設(shè)第一閾值,則執(zhí)行步驟205,否則,執(zhí)行步驟207;\n[0099] 其中,計(jì)算解析的域名的置信度的操作可以具體為:根據(jù)域名與網(wǎng)站的對應(yīng)關(guān)系,獲取與該域名具有鏈接關(guān)系的網(wǎng)站,根據(jù)已存儲的網(wǎng)站與信譽(yù)度的對應(yīng)關(guān)系,獲取與該域名具有鏈接關(guān)系的網(wǎng)站的信譽(yù)度,根據(jù)與該域名具有鏈接關(guān)系的網(wǎng)站的信譽(yù)度計(jì)算該域名的置信度。\n[0100] 其中,在本實(shí)施例中,事先根據(jù)網(wǎng)站的權(quán)威度、流行度和大小等特征,為互聯(lián)網(wǎng)中的網(wǎng)站設(shè)置信譽(yù)度,并存儲該網(wǎng)站與該網(wǎng)站的信譽(yù)度的對應(yīng)關(guān)系。\n[0101] 步驟205:獲取解析的域名對應(yīng)的主頁面,從該主頁面中提取該主頁面的標(biāo)題和描述信息;\n[0102] 其中,每個(gè)網(wǎng)頁頁面都存在一個(gè)源文件,在源文件中包括網(wǎng)頁頁面的標(biāo)題和描述信息等內(nèi)容;在源文件中使用代碼來記錄網(wǎng)頁頁面中的描述信息,使用代碼
來記錄網(wǎng)頁頁面中的標(biāo)題。\n[0103] 具體地,根據(jù)解析的域名鏈接到對應(yīng)的主頁面中,掃描該主頁面的源文件中的代碼,并對掃描的代碼進(jìn)行解析得到該主頁面的標(biāo)題和描述信息。\n[0104] 例如,對于“騰訊新聞”主頁面,“騰訊新聞”主頁面的源文件中包括如下的代碼以及騰訊新聞。\n[0105] 相應(yīng)地,對于域名“http://news.qq.com”對應(yīng)的主頁面為“騰訊新聞”主頁面,對“騰訊新聞”主頁面的源代碼進(jìn)行掃描并對掃描的每條代碼進(jìn)行解析,當(dāng)掃描到源文件中的代碼時(shí),解析出“騰訊新聞”主頁面的描述信息為“騰訊新聞是騰訊公司推出的且最具有傳播性和互動(dòng)性的新聞網(wǎng)站”;當(dāng)掃描到源文件中的代碼騰訊新聞時(shí),解析出“騰訊新聞”主頁面的標(biāo)題為“騰訊新聞”。\n[0106] 其中,每個(gè)域名對應(yīng)的主頁面為每個(gè)域名對應(yīng)網(wǎng)站的首頁,例如,域名“http://news.qq.com”對應(yīng)的“騰訊新聞”主頁面為域名“http://news.qq.com”對應(yīng)的騰訊新聞網(wǎng)站的首頁。\n[0107] 步驟206:從提取的主頁面的標(biāo)題和描述信息中提取解析出的域名的域名描述名稱,并將解析出的域名和提取的域名描述名稱的對應(yīng)關(guān)系存儲在域名描述名稱信息表中,結(jié)束操作;\n[0108] 具體地,對主頁面的標(biāo)題和描述信息進(jìn)行分割得到多個(gè)分詞,從主頁面的標(biāo)題和分割得到的多個(gè)分詞中選擇對主頁面最具代表性的詞,將選擇的詞確定為解析出的域名的域名描述名稱,將解析出的域名和確定出的域名描述名稱的對應(yīng)關(guān)系存儲在域名描述名稱信息表中。\n[0109] 其中,從主頁面的標(biāo)題和分割得到的多個(gè)分詞中選擇對主頁面最具代表性的詞的操作可以有多種,其中一種可以為:分別統(tǒng)計(jì)標(biāo)題和每個(gè)分詞在主頁面包括的各鏈接對應(yīng)網(wǎng)頁頁面中出現(xiàn)的次數(shù),并確定出主頁面所屬網(wǎng)站的類型;獲取屬于確定類型的網(wǎng)站,并從獲取的網(wǎng)站中去除主頁面所屬的網(wǎng)站,分別統(tǒng)計(jì)標(biāo)題和每個(gè)分詞在剩下每個(gè)網(wǎng)站包括的各網(wǎng)頁頁面中出現(xiàn)的次數(shù),根據(jù)標(biāo)題在主頁面包括的各鏈接對應(yīng)網(wǎng)頁頁面中出現(xiàn)的次數(shù)以及在剩下網(wǎng)站包括的網(wǎng)頁頁面中出現(xiàn)的次數(shù),計(jì)算出標(biāo)題的比值,根據(jù)每個(gè)分詞在主頁面包括的鏈接對應(yīng)網(wǎng)頁頁面中出現(xiàn)的次數(shù)以及在剩下每個(gè)網(wǎng)站包括的網(wǎng)頁頁面中出現(xiàn)的次數(shù),分別計(jì)算出每個(gè)分詞的比值,將比值最大的詞確定為對主頁面最具代表性的詞。\n[0110] 例如,對“騰訊新聞”主頁面的標(biāo)題“騰訊新聞”和描述信息“騰訊新聞是騰訊公司推出的且最具有傳播性和互動(dòng)性的新聞網(wǎng)站”進(jìn)行分割得到的分詞包括騰訊、新聞、騰訊公司......,確定出“騰訊新聞”主頁面屬于網(wǎng)站的類型為新聞?lì)愋偷木W(wǎng)站,獲取屬于新聞?lì)愋偷木W(wǎng)站包括騰訊新聞網(wǎng)站、網(wǎng)易新聞網(wǎng)站和搜狐新聞網(wǎng)站,從獲取的網(wǎng)站中去除“騰訊新聞”主頁面所屬的騰訊新聞網(wǎng)站,分別統(tǒng)計(jì)標(biāo)題“騰訊新聞”以及每個(gè)分詞在“騰訊新聞”主頁面包括的各鏈接對應(yīng)的網(wǎng)頁頁面中出現(xiàn)的次數(shù),分別統(tǒng)計(jì)標(biāo)題“騰訊新聞”以及每個(gè)分詞在剩下的網(wǎng)易新聞網(wǎng)站和搜狐新聞網(wǎng)站包括的各網(wǎng)頁頁面中出現(xiàn)的次數(shù),根據(jù)標(biāo)題“騰訊新聞”和每個(gè)分詞分別在“騰訊新聞”主頁面包括的鏈接對應(yīng)網(wǎng)頁頁面中出現(xiàn)的次數(shù)以及在剩下的網(wǎng)站包括的各網(wǎng)頁頁面中出現(xiàn)的次數(shù),分別計(jì)算出標(biāo)題“騰訊新聞”的比值以及每個(gè)分詞的比值,選擇比值最大的詞,假設(shè)為“騰訊新聞”,將選擇的“騰訊新聞”確定為域名“http://news.qq.com”的域名描述名稱;將解析的域名“http://news.qq.com”和確定的域名描述名稱“騰訊新聞”作為一條對應(yīng)關(guān)系存儲在如表1所示的域名描述名稱信息表中,得到的結(jié)果如表2所示。\n[0111] 表2\n[0112]\n??域名 ??域名描述名稱\n??http://news.qq.com ??騰訊新聞\n??http://news.sohu.com ??搜狐新聞\n??http://news.163.com ??網(wǎng)易新聞\n??…… ??……\n[0113] 步驟207:根據(jù)域名與錨文本的對應(yīng)關(guān)系,獲取解析出的域名對應(yīng)的錨文本;\n[0114] 具體地,根據(jù)解析出的域名,從域名與錨文本的對應(yīng)關(guān)系中查找出對應(yīng)的錨文本,從查找的錨文本中去除重復(fù)的錨文本、計(jì)算剩下每個(gè)錨文本的置信度,選擇置信度超過第二閾值的錨文本,去除選擇的錨文本中的噪音。\n[0115] 其中,計(jì)算錨文本的置信度的操作可以具體為:根據(jù)錨文本與網(wǎng)站的對應(yīng)關(guān)系,獲取錨文本所在的網(wǎng)頁頁面位于的網(wǎng)站,根據(jù)網(wǎng)站與信譽(yù)度的對應(yīng)關(guān)系,獲取該網(wǎng)站的信譽(yù)度,再根據(jù)該網(wǎng)站的信譽(yù)度計(jì)算該錨文本的置信度。\n[0116] 步驟208:從獲取的錨文本中提取解析的域名的描述名稱,將解析的域名和獲取的域名描述名稱的對應(yīng)關(guān)系存儲在域名描述名稱信息表中。\n[0117] 具體地,對獲取的每個(gè)錨文本進(jìn)行分割得到多個(gè)分詞,統(tǒng)計(jì)每個(gè)分詞出現(xiàn)的次數(shù),將出現(xiàn)次數(shù)最多的分詞確定為解析出的域名的域名描述名稱,將解析出的域名和確定出的域名描述名稱的對應(yīng)關(guān)系存儲在域名描述名稱信息表中。\n[0118] 在本發(fā)明實(shí)施例中,通過爬取網(wǎng)頁頁面中的鏈接,獲取該鏈接的域名,并獲取該域名的域名描述名稱,將該域名和該域名描述名稱的對應(yīng)關(guān)系存儲在域名描述名稱信息表中。如此,網(wǎng)頁搜索引擎搜索到查詢結(jié)果時(shí),可以根據(jù)域名描述名稱信息表獲取每個(gè)查詢結(jié)果的域名描述名稱,并顯示每個(gè)查詢結(jié)果和每個(gè)查詢結(jié)果的域名描述名稱,因此用戶可以通過每個(gè)查詢結(jié)果的域名描述名稱確定出每個(gè)查詢結(jié)果的來源,從而能夠協(xié)助用戶辨別惡意網(wǎng)站的查詢結(jié)果,提高了用戶體驗(yàn)并保障了用戶的信息安全。\n[0119] 實(shí)施例3\n[0120] 如圖3所示,本發(fā)明實(shí)施例提供了一種利用實(shí)施例1建立的域名描述名稱信息表進(jìn)行搜索的方法,包括:\n[0121] 步驟301:接收攜帶查詢詞的搜索請求,根據(jù)該查詢詞獲取對應(yīng)的查詢結(jié)果;\n[0122] 步驟302:根據(jù)域名描述名稱信息表,獲取該查詢結(jié)果的域名描述名稱;\n[0123] 步驟303:顯示該查詢結(jié)果和該查詢結(jié)果的域名描述名稱。\n[0124] 在本發(fā)明實(shí)施例中,獲取查詢結(jié)果的域名描述名稱,顯示查詢結(jié)果和查詢結(jié)果的域名描述名稱。如此,用戶可以通過查詢結(jié)果的域名描述名稱確定出查詢結(jié)果的來源,從而能夠協(xié)助用戶辨別惡意網(wǎng)站的查詢結(jié)果,提高了用戶體驗(yàn)并保障了用戶的信息安全。\n[0125] 實(shí)施例4\n[0126] 如圖4所示,本發(fā)明實(shí)施例提供了一種利用實(shí)施例2得到的域名信息表搜索網(wǎng)頁頁面的方法,包括:\n[0127] 步驟401:接收搜索請求,且該搜索請求至少攜帶用戶提交的查詢詞;\n[0128] 其中,用戶可以在客戶端打開網(wǎng)頁搜索引擎的首頁,然后用戶向網(wǎng)頁搜索引擎的首頁輸入查詢詞,再通過網(wǎng)頁搜索引擎的首頁向網(wǎng)頁搜索引擎提交輸入的查詢詞。\n[0129] 步驟402:根據(jù)搜索請求攜帶的查詢詞,獲取對應(yīng)的查詢結(jié)果,提取每個(gè)查詢結(jié)果的域名;\n[0130] 其中,網(wǎng)頁搜索引擎搜索的每個(gè)查詢結(jié)果中包括查詢結(jié)果對應(yīng)的網(wǎng)頁頁面的標(biāo)題和鏈接等信息。\n[0131] 具體地,根據(jù)接收的查詢詞,通過現(xiàn)有的搜索方法搜索對應(yīng)的查詢結(jié)果,從每個(gè)查詢結(jié)果包括的鏈接中提取每個(gè)查詢結(jié)果的域名。\n[0132] 例如,假設(shè)用戶提交的查詢詞為“北京奧運(yùn)會(huì)”,網(wǎng)頁搜索引擎根據(jù)查詢詞“北京奧運(yùn)會(huì)”搜索到如表3所示的三個(gè)查詢結(jié)果,從表3中的第一條查詢結(jié)果中的鏈接中提取域名為“http://news.qq.com”,從表3中的第二條查詢結(jié)果中的鏈接中提取的域名為“http://news.sohu.com”,從表3中的第三條查詢結(jié)果中的鏈接中提取的域名為“http://news.163.com”。\n[0133] 表3\n[0134]\n[0135] 步驟403:根據(jù)每個(gè)查詢結(jié)果的域名和域名描述名稱信息表,獲取每個(gè)查詢結(jié)果對應(yīng)的域名描述名稱;\n[0136] 具體地,根據(jù)每個(gè)查詢結(jié)果的域名,從域名描述名稱信息表中查找出每個(gè)查詢結(jié)果對應(yīng)的域名描述名稱。\n[0137] 例如,根據(jù)表3中的第一條查詢結(jié)果的域名“http://news.qq.com”,從如表2所示的域名描述名稱信息表中查找出對應(yīng)的域名描述名稱為“騰訊新聞”;根據(jù)表3中的第二條查詢結(jié)果的域名“http://news.sohu.com”,從如表2所示的域名描述名稱信息表中查找出對應(yīng)的域名描述名稱為“搜狐新聞”;根據(jù)表3中的第三條查詢結(jié)果的域名“http://news.163.com”,從如表2所示的域名描述名稱信息表中查找出對應(yīng)的域名描述名稱為“網(wǎng)易新聞”。\n[0138] 步驟404:將每個(gè)查詢結(jié)果和每個(gè)查詢結(jié)果對應(yīng)的域名描述名稱顯示給用戶。\n[0139] 例如,如表4所示,將表3中的第一條查詢結(jié)果和其對應(yīng)的域名描述名稱“騰訊新聞”顯示給用戶,將表3中的第二條查詢結(jié)果和其對應(yīng)的域名描述名稱“搜狐新聞”顯示給用戶,將表3中的第三條查詢結(jié)果和其對應(yīng)的域名描述名稱顯示給用戶。\n[0140] 表4\n[0141]\n[0142] 在本發(fā)明實(shí)施例中,從每個(gè)查詢結(jié)果中的URL中提取每個(gè)查詢結(jié)果的域名,根據(jù)域名描述名稱信息表和每個(gè)查詢結(jié)果的域名,獲取每個(gè)查詢結(jié)果的域名描述名稱,顯示每個(gè)查詢結(jié)果和每個(gè)查詢結(jié)果的域名描述名稱。用戶可以通過每個(gè)查詢結(jié)果的域名描述名稱確定出每個(gè)查詢結(jié)果的來源,從而能夠協(xié)助用戶辨別惡意網(wǎng)站的查詢結(jié)果,提高了用戶體驗(yàn)并保障了用戶的信息安全。\n[0143] 實(shí)施例5\n[0144] 如圖5所示,本發(fā)明實(shí)施例提供了一種建立域名描述名稱信息表的裝置,包括:\n[0145] 第一獲取模塊501,用于爬取網(wǎng)頁頁面中的鏈接,并獲取爬取的鏈接對應(yīng)的網(wǎng)頁頁面所在的域名;\n[0146] 第二獲取模塊502,用于獲取獲取的域名的域名描述名稱;\n[0147] 存儲模塊503,用于將獲取的域名和域名描述名稱的對應(yīng)關(guān)系存儲在域名描述名稱信息表中。\n[0148] 其中,如果獲取的域名的置信度超過第一閾值,則第二獲取模塊502包括:\n[0149] 第一獲取單元,用于獲取該域名對應(yīng)的主頁面,從該主頁面的源文件中獲取該主頁面的標(biāo)題和描述信息;\n[0150] 第一提取單元,用于從該主頁面的標(biāo)題和描述信息中提取該域名的域名描述名稱。\n[0151] 其中,第一提取單元包括:\n[0152] 第一分割子單元,用于對該主頁面的標(biāo)題和描述信息進(jìn)行分割得到分詞;\n[0153] 第一確定子單元,用于從主頁面的標(biāo)題和分割得到的分詞中選擇對主頁面最具代表性的詞,將選擇的詞確定為該域名的域名描述名稱。\n[0154] 其中,如果該域名的置信度未超過第一閾值,則第二獲取模塊502包括:\n[0155] 第二獲取單元,用于根據(jù)已存儲的域名與錨文本的對應(yīng)關(guān)系,獲取該域名對應(yīng)的錨文本;\n[0156] 第二提取單元,用于從獲取的錨文本中提取該域名的域名描述名稱。\n[0157] 其中,第二獲取單元包括:\n[0158] 查找子單元,用于從已存儲的域名與錨文本的對應(yīng)關(guān)系中查找出該域名對應(yīng)的錨文本;\n[0159] 去除子單元,用于從該錨文本中去除重復(fù)的錨文本、計(jì)算剩下的錨文本的置信度,選擇置信度超過第二閾值的錨文本,去除選擇的錨文本中的噪音。\n[0160] 其中,第二提取單元包括:\n[0161] 第二分割子單元,用于對獲取的錨文本進(jìn)行分割得到分詞,統(tǒng)計(jì)每個(gè)分詞出現(xiàn)的次數(shù);\n[0162] 第二確定子單元,用于將出現(xiàn)次數(shù)最多的分詞確定為該域名的域名描述名稱。\n[0163] 進(jìn)一步地,該裝置還包括:\n[0164] 置信度計(jì)算模塊,用于根據(jù)已存儲的域名與網(wǎng)站的對應(yīng)關(guān)系,獲取與該域名具有鏈接關(guān)系的網(wǎng)站,根據(jù)已存儲的網(wǎng)站與信譽(yù)度的對應(yīng)關(guān)系,獲取該網(wǎng)站的信譽(yù)度,根據(jù)信譽(yù)度計(jì)算該域名的置信度。\n[0165] 在本發(fā)明實(shí)施例中,通過爬取網(wǎng)頁頁面中的鏈接,獲取該鏈接的域名,并獲取該域名的域名描述名稱,將該域名和該域名描述名稱的對應(yīng)關(guān)系存儲在域名描述名稱信息表中。如此,網(wǎng)頁搜索引擎搜索到查詢結(jié)果時(shí),可以根據(jù)域名描述名稱信息表獲取每個(gè)查詢結(jié)果的域名描述名稱,并顯示每個(gè)查詢結(jié)果和每個(gè)查詢結(jié)果的域名描述名稱,因此用戶可以通過每個(gè)查詢結(jié)果的域名描述名稱確定出每個(gè)查詢結(jié)果的來源,從而能夠協(xié)助用戶辨別惡意網(wǎng)站的查詢結(jié)果,提高了用戶體驗(yàn)并保障了用戶的信息安全。\n[0166] 實(shí)施例6\n[0167] 如圖6所示,本發(fā)明實(shí)施例提供了一種利用實(shí)施例5建立的域名描述信息表進(jìn)行搜索的裝置,包括:\n[0168] 第三獲取模塊601,用于接收攜帶查詢詞的搜索請求,根據(jù)該查詢詞獲取對應(yīng)的查詢結(jié)果;\n[0169] 第四獲取模塊602,用于根據(jù)域名描述名稱信息表,獲取該查詢結(jié)果的域名描述名稱;\n[0170] 顯示模塊603,用于顯示該查詢結(jié)果和該查詢結(jié)果的域名描述名稱。\n[0171] 其中,第四獲取模塊602包括:\n[0172] 第三提取單元,用于從該查詢結(jié)果的鏈接中提取該查詢結(jié)果對應(yīng)的網(wǎng)頁頁面所在的域名;\n[0173] 查找單元,用于根據(jù)該域名從域名描述名稱信息表中查找到該查詢結(jié)果的域名描述名稱。\n[0174] 在本發(fā)明實(shí)施例中,獲取查詢結(jié)果的域名描述名稱,顯示查詢結(jié)果和查詢結(jié)果的域名描述名稱。如此,用戶可以通過查詢結(jié)果的域名描述名稱確定出查詢結(jié)果的來源,從而能夠協(xié)助用戶辨別惡意網(wǎng)站的查詢結(jié)果,提高了用戶體驗(yàn)并保障了用戶的信息安全。\n[0175] 實(shí)施例7\n[0176] 如圖7所示,本發(fā)明實(shí)施例提供了一種搜索系統(tǒng),包括建立域名描述名稱信息表的裝置701和搜索的裝置702;\n[0177] 建立域名描述名稱信息表的裝置701,用于爬取網(wǎng)頁頁面中的鏈接,并獲取該鏈接對應(yīng)的網(wǎng)頁頁面所在的域名;獲取該域名的域名描述名稱;將該域名和域名描述名稱的對應(yīng)關(guān)系存儲在域名描述名稱信息表中;\n[0178] 搜索的裝置702,用于接收攜帶查詢詞的搜索請求,根據(jù)該查詢詞獲取對應(yīng)的查詢結(jié)果;根據(jù)域名描述名稱信息表,獲取該查詢結(jié)果的域名描述名稱;顯示該查詢結(jié)果和該查詢結(jié)果的域名描述名稱。\n[0179] 在本發(fā)明實(shí)施例中,通過爬取網(wǎng)頁頁面中的鏈接,獲取該鏈接的域名,并獲取該域名的域名描述名稱,將該域名和該域名描述名稱的對應(yīng)關(guān)系存儲在域名描述名稱信息表中;當(dāng)接收到搜索請求時(shí),獲取查詢詞對應(yīng)的查詢結(jié)果,根據(jù)建立的域名描述名稱獲取查詢結(jié)果對應(yīng)的域名描述名稱,顯示獲取的查詢結(jié)果和域名描述名稱。如此,用戶可以通過每個(gè)查詢結(jié)果的域名描述名稱確定出每個(gè)查詢結(jié)果的來源,從而能夠協(xié)助用戶辨別惡意網(wǎng)站的查詢結(jié)果,提高了用戶體驗(yàn)并保障了用戶的信息安全。\n[0180] 需要說明的是:上述實(shí)施例提供的一種建立域名描述名稱信息表的裝置在建立域名描述名稱信息表時(shí),僅以上述各功能模塊的劃分進(jìn)行舉例說明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實(shí)施例提供建立域名描述名稱信息表的裝置與建立域名描述名稱信息表的方法實(shí)施例屬于同一構(gòu)思,其具體實(shí)現(xiàn)過程詳見方法實(shí)施例,這里不再贅述。\n[0181] 需要說明的是:上述實(shí)施例提供的一種利用建立的域名描述名稱信息表進(jìn)行搜索的裝置在搜索查詢結(jié)果時(shí),僅以上述各功能模塊的劃分進(jìn)行舉例說明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實(shí)施例提供利用建立的域名描述名稱信息表的裝置與利用建立的域名描述名稱信息表的方法實(shí)施例屬于同一構(gòu)思,其具體實(shí)現(xiàn)過程詳見方法實(shí)施例,這里不再贅述。\n[0182] 以上實(shí)施例提供的技術(shù)方案中的全部或部分內(nèi)容可以通過軟件編程實(shí)現(xiàn),其軟件程序存儲在可讀取的存儲介質(zhì)中,存儲介質(zhì)例如:計(jì)算機(jī)中的硬盤、光盤或軟盤。\n[0183] 以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。法律信息
- 2017-04-12
- 2013-12-11
專利申請權(quán)的轉(zhuǎn)移
登記生效日: 2013.11.21
申請人由騰訊科技(深圳)有限公司變更為深圳市世紀(jì)光速信息技術(shù)有限公司
地址由518000 廣東省深圳市福田區(qū)賽格科技園2棟東403室變更為518057 廣東省深圳市南山區(qū)粵海街道科技中一路騰訊大廈16層
- 2013-10-02
實(shí)質(zhì)審查的生效
IPC(主分類): G06F 17/30
專利申請?zhí)? 201110060363.0
申請日: 2011.03.14
- 2012-09-19
引用專利(該專利引用了哪些專利)
序號 | 公開(公告)號 | 公開(公告)日 | 申請日 | 專利名稱 | 申請人 |
1
| |
2008-05-14
|
2007-11-21
| | |
2
| |
2006-10-04
|
2006-02-27
| | |
3
| |
2010-10-06
|
2007-11-08
| | |
被引用專利(該專利被哪些專利引用)
序號 | 公開(公告)號 | 公開(公告)日 | 申請日 | 專利名稱 | 申請人 | 該專利沒有被任何外部專利所引用! |