加載中...
首頁(yè)專利查詢專利詳情

*來(lái)源于國(guó)家知識(shí)產(chǎn)權(quán)局?jǐn)?shù)據(jù),僅供參考,實(shí)際以國(guó)家知識(shí)產(chǎn)權(quán)局展示為準(zhǔn)

基于中文標(biāo)點(diǎn)符號(hào)的三重網(wǎng)頁(yè)文本內(nèi)容識(shí)別及過(guò)濾方法

發(fā)明專利無(wú)效專利
  • 申請(qǐng)?zhí)枺?/span>
    CN200710011057.1
  • IPC分類號(hào):H04L29/06;G06F17/30;G06F17/27
  • 申請(qǐng)日期:
    2007-04-18
  • 申請(qǐng)人:
    大連理工大學(xué)
著錄項(xiàng)信息
專利名稱基于中文標(biāo)點(diǎn)符號(hào)的三重網(wǎng)頁(yè)文本內(nèi)容識(shí)別及過(guò)濾方法
申請(qǐng)?zhí)?/td>CN200710011057.1申請(qǐng)日期2007-04-18
法律狀態(tài)權(quán)利終止申報(bào)國(guó)家中國(guó)
公開(kāi)/公告日2007-09-12公開(kāi)/公告號(hào)CN101035128
優(yōu)先權(quán)暫無(wú)優(yōu)先權(quán)號(hào)暫無(wú)
主分類號(hào)H04L29/06IPC分類號(hào)H;0;4;L;2;9;/;0;6;;;G;0;6;F;1;7;/;3;0;;;G;0;6;F;1;7;/;2;7查看分類表>
申請(qǐng)人大連理工大學(xué)申請(qǐng)人地址
遼寧省大連市甘井子區(qū)凌工路2號(hào) 變更 專利地址、主體等相關(guān)變化,請(qǐng)及時(shí)變更,防止失效
權(quán)利人大連理工大學(xué)當(dāng)前權(quán)利人大連理工大學(xué)
發(fā)明人宋明秋;吳新濤
代理機(jī)構(gòu)大連理工大學(xué)專利中心代理人侯明遠(yuǎn);李寶元
摘要
一種基于中文標(biāo)點(diǎn)符號(hào)的三重網(wǎng)頁(yè)文本內(nèi)容識(shí)別及過(guò)濾方法。該方法針對(duì)現(xiàn)有的基于URL、基于關(guān)鍵字的網(wǎng)頁(yè)信息過(guò)濾方法中存在的濾準(zhǔn)率和濾全率低的問(wèn)題,提出了一種復(fù)合型的基于URL、基于關(guān)鍵字、以及基于文本向量空間知識(shí)表示方法的網(wǎng)頁(yè)文本內(nèi)容過(guò)濾方法。采用基于黑白名單的URL地址過(guò)濾方法;采用中文標(biāo)點(diǎn)符號(hào)的統(tǒng)計(jì)特征來(lái)有效地去除導(dǎo)航信息、相關(guān)鏈接信息、廣告鏈接信息、版權(quán)信息等網(wǎng)頁(yè)內(nèi)容噪聲信息,提取文本內(nèi)容;采用向量空間模型進(jìn)行文本知識(shí)表示,通過(guò)計(jì)算文本向量與不良信息模版中特征向量間的夾角余弦,與設(shè)定的閾值相比較,確定文本所屬類別。該發(fā)明可廣泛地應(yīng)用于網(wǎng)絡(luò)不良信息的過(guò)濾及網(wǎng)頁(yè)個(gè)性化信息服務(wù)領(lǐng)域。

我瀏覽過(guò)的專利

專利服務(wù)由北京酷愛(ài)智慧知識(shí)產(chǎn)權(quán)代理公司提供