首页 技术 正文
技术 2022年11月8日
0 收藏 347 点赞 1,124 浏览 1970 个字
packagesego

import(
    "bytes"
    "fmt"
)

//输出分词结果为字符串
//
//有两种输出模式,以"中华人民共和国"为例
//
//普通模式(searchMode=false)输出一个分词"中华人民共和国/ns"
//搜索模式(searchMode=true)输出普通模式的再细致切分:
//"中华/nz人民/n共和/nz共和国/ns人民共和国/nt中华人民共和国/ns"
//
//搜索模式主要用于给搜索引擎提供尽可能多的关键字,详情请见Token结构体的注释。
funcSegmentsToString(segs[]Segment,searchModebool)(outputstring){
    ifsearchMode{
        for_,seg:=rangesegs{
            output+=tokenToString(seg.token)
        }
    }else{
        for_,seg:=rangesegs{
            output+=fmt.Sprintf(
                "%s/%s",textSliceToString(seg.token.text),seg.token.pos)
        }
    }
    return
}

functokenToString(token*Token)(outputstring){
    for_,s:=rangetoken.segments{
        output+=tokenToString(s.token)
    }
    output+=fmt.Sprintf("%s/%s",textSliceToString(token.text),token.pos)
    return
}

//输出分词结果到一个字符串slice
//
//有两种输出模式,以"中华人民共和国"为例
//
//普通模式(searchMode=false)输出一个分词"[中华人民共和国]"
//搜索模式(searchMode=true)输出普通模式的再细致切分:
//"[中华人民共和共和国人民共和国中华人民共和国]"
//
//搜索模式主要用于给搜索引擎提供尽可能多的关键字,详情请见Token结构体的注释。

funcSegmentsToSlice(segs[]Segment,searchModebool)(output[]string){
    ifsearchMode{
        for_,seg:=rangesegs{
            output=append(output,tokenToSlice(seg.token)...)
        }
    }else{
        for_,seg:=rangesegs{
            output=append(output,seg.token.Text())
        }
    }
    return
}

functokenToSlice(token*Token)(output[]string){
    for_,s:=rangetoken.segments{
        output=append(output,tokenToSlice(s.token)...)
    }
    output=append(output,textSliceToString(token.text))
    returnoutput
}

//将多个字元拼接一个字符串输出
functextSliceToString(text[]Text)string{
    varoutputstring
    for_,word:=rangetext{
        output+=string(word)
    }
    returnoutput
}

//返回多个字元的字节总长度
functextSliceByteLength(text[]Text)(lengthint){
    for_,word:=rangetext{
        length+=len(word)
    }
    return
}

functextSliceToBytes(text[]Text)[]byte{
    varbufbytes.Buffer
    for_,word:=rangetext{
        buf.Write(word)
    }
    returnbuf.Bytes()
}

<wiz_tmp_tag id=”wiz-table-range-border” contenteditable=”false” style=”display: none;”>

    

相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:9,085
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,560
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,409
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,182
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:7,819
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:4,902