搜索
cad2007下载
软件下载
solidworks下载
proe下载
机械标准
机械招聘
机械图纸
机械百科
机械交易网
网站建设
机械设计手册
proe视频教程
cad2013视频教程
solidworks2008视频教程
CAD2004视频教程

浅谈百度的中文分词三点原理

[复制链接]
查看: 144|回复: 0
  • TA的每日心情
    奋斗
    2015-11-15 15:39
  • 签到天数: 16 天

    [LV.4]偶尔看看III

    发表于 2015-11-10 23:13:39 | 显示全部楼层 |阅读模式
        浅谈百度的中文分词三点原理

        百度中文分词算法:指搜索引擎为了更好的辨别用户的需求,并且为了快速提供给用户需求性信息而使用的算法。

        搜索引擎要在单位时间内处理千万亿级的页面数据量,因此搜索引擎拥有一个中文词库。比如百度现在大约有9万个中文词,那么搜索引擎就可以对千亿级的页面进行分析,按照中文词库进行了分类。

        百度分词基本有三种分法

        1、基于理解:傻瓜式匹配,小于等于3个中文字符百度是不进行切词的,比如搜索大学堂。

        2、基于统计:百度把一个词标红的原因:标红的词一般是一个关键词,你搜索学字的时候,百度它自认的把学习也当成了一个关键词,所以出现学习这个词标红,这就是百度分词法:基于统计分词。

        3、基于字符串匹配(百度的分词法:正向最大切词法)

        最大与最小(最大匹配:一直匹配到没词可配;最小匹配:匹配出词了就停止匹配,再从另一个词开始匹配)比如:百度搜索湖南大学堂屋顶,百度的一个分词算法我们把它当成一个黑盒子,我们通过一些输入关键词,根据百度的输出结果来判定百度的分词算法。正向与反向(正向:从前往后配;反向:从后往前配)(湖南大学堂屋顶)正向分法:湖南大学 堂屋 顶 (刘强大地方法)正向分法:刘 强大 地方 法。反向分法:方法 大地 刘 强。而在这个词语当中大地不是一个词。

        另外,切词原理:百度有专有词库(是不可分割的)比如杰出人物(如:毛泽东)明星(如:刘德华)检索量大的词(如:买票难) 。如新中国健康行活动官网,主要介绍如新(nuskin)中国行健康活动和ageloc产品和ageloc官方活动,全球抗衰老领先企业NU SKIN(http://lifefit.cn.nuskin.com/ sunmy)如新“如新健康中国行”官方活动页面,将以“星火燃梦,依如新生”为主题,推广乐观乐活、内外兼修的健康理念,倡导并呼吁公众增强健康意识,保持乐观向上的生活态度 。


    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册会员

    本版积分规则

    Copyright © 2012-2035 厦门鑫时器科技有限公司 版权所有
    闽ICP备2023009579号-1 技术支持:机械网站建设  Powered by Discuz! X3.4
    快速回复 返回顶部 返回列表