iOS中自带超强中文分词器的实现方法

2024年 3月 11日上午8:02 • 激活谷笔记

iOS中自带超强中文分词器的实现方法这篇文章主要给大家介绍了关于iOS中自带超强中文分词器的实现方法，文中介绍的非常详细，对大家具有一定的参考学习价值，需要的朋友们下面来一起看看吧。

说明

在处理文本的时候，第一步往往是将字符串进行分词，得到一个个关键词。苹果从很早就开始支持中文分词了，而且我们几乎人人每天都会用到，回想一下，在使用手机时，长按一段文字，往往会选中按住位置的一个词语，这里就是一个分词的绝佳用例，而iOS自带的分词效果非常棒，大家可以自己平常注意观察一下，基本对中文也有很好的效果。而这个功能也开放了API供开发者调用，我试用了一下，很好用！

效果如下：

实现

其实苹果给出了完整的API，想要全面了解的可以直接看文档：CFStringTokenizer Reference

这里说说简单的一个实现：

 // 要分词的字符串
 NSString *string = @"侠士隐锋，莽夫露刃";

 self.keywords = [[NSMutableArray alloc] init];
 CFStringTokenizerRef ref = CFStringTokenizerCreate(NULL, (__bridge CFStringRef)string, CFRangeMake(0, string.length), kCFStringTokenizerUnitWord, NULL);// 创建分词器
 CFRange range;// 当前分词的位置
 // 获取第一个分词的范围
 CFStringTokenizerAdvanceToNextToken(ref);
 range = CFStringTokenizerGetCurrentTokenRange(ref);

 // 循环遍历获取所有分词并记录到数组中
 NSString *keyWord;
 while (range.length>0) {
  keyWord = [string substringWithRange:NSMakeRange(range.location, range.length)];
  [self.keywords addObject:keyWord];
  CFStringTokenizerAdvanceToNextToken(ref);
  range = CFStringTokenizerGetCurrentTokenRange(ref);
 }

其实逻辑很简单：创建分词器–>一个个地一次获取分词后的每个词的起始位置和长度，从而取出词。

示例里我用列表显示每个分词，比较清楚，列表的实现就不说明了，可以直接看工程代码。

值得一提的是，其分词速度很快，甚至一些网络词汇比如“木有”，一些成语等等都能够识别出，能看出这是分词的什么吗：

示例工程：https://github.com/Cloudox/OXStringTokenizerDemo

本地下载：http://xiazai.jb51.net/201706/yuanma/OXStringTokenizerDemo(jb51.net).rar

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对我们的支持。

java实现网上购物车程序

上一篇 2024年 3月 10日下午5:02

Ubuntu基础教程之apt-get命令

下一篇 2024年 3月 11日下午5:02

激活谷笔记

anaconda创建虚拟环境怎么在C盘_anaconda虚拟环境迁移至别的电脑

anaconda创建虚拟环境怎么在C盘_anaconda虚拟环境迁移至别的电脑windows下将Anaconda从C盘迁移至D盘（其他盘）windows下将Anaconda从C盘迁移至D盘（其他盘）一般在安装anaconda软件时，默认安装的是C盘的usr路径下，我的最开始安装在我自己

2024年 5月 8日
激活谷笔记

larocheposayb5使用方法_mem前级效果器说明书

larocheposayb5使用方法_mem前级效果器说明书

2024年 7月 2日
激活谷笔记

DataSpell激活2024.1.1(Photoshop 2024 for mac(ps 2024最新)v25.3.1中文激活版)

DataSpell激活2024.1.1(Photoshop 2024 for mac(ps 2024最新)v25.3.1中文激活版)

2024年 6月 13日
激活谷笔记

二叉树的复杂度logn_二叉树的复杂度证明

二叉树的复杂度logn_二叉树的复杂度证明二叉树——初识链表 ——> 二叉树 ——> 二叉查找树 ——> 平衡二叉树二叉树时间复杂度：O(logn) ，即2^x(树的深度)=N如：21亿点需要查找几次：2^32 = 21亿，

2024年 5月 24日
激活谷笔记

stm32串口3接收不到数据_stm32串口接收不到数据能发送

stm32串口3接收不到数据_stm32串口接收不到数据能发送STM32—无需中断来实现使用DMA接收串口数据(原创)本节目标: 通过DMA,无需中断,接收不定时长的串口数据描述:当在串口多数据传输下,CPU会产生多次中断来接收串口数据,这样会大大地降低CPU效率,同时又需要CPU去做其它更重要的事情,我们应该如何来优化？

2024年 6月 22日
激活谷笔记

ubuntu20 无法进入桌面_ubuntu安装完成后无法进入系统

ubuntu20 无法进入桌面_ubuntu安装完成后无法进入系统为什么ubuntu登陆后无法进入桌面?如图，题主最近才开始学Linux有关的，前一天ubuntu还可以正常进入桌面，但今天输入帐号密码后就停留在第一张图的界面。题主看了一些教程，也无济于事，所以想问一下怎么解决。谢谢！解决方案：1、安

2024年 5月 9日
激活谷笔记

z字的标志是什么车_z字的标志是什么车子

z字的标志是什么车_z字的标志是什么车子z标志的车是什么牌子？车标是z标志的共有两款汽车，第一款是众泰ZOTYE AUTO，第二款是欧宝OPEL。众泰的车标是由一个矩形和Z字母组成，Z字母非常的立体和标准，欧宝车标是由圆形和字母Z组成的，Z字母是扁平式

2024年 5月 30日
激活谷笔记

DataSpell2024.1激活码(Pycharm激活激活成功教程激活码2024最新教程【永久激活，亲测有效】)

DataSpell2024.1激活码(Pycharm激活激活成功教程激活码2024最新教程【永久激活，亲测有效】)

2024年 7月 1日
激活谷笔记

Goland激活2024.1.2(IntelliJ IDEA 2024最新安装激活教程(附激活工具和激活码))

Goland激活2024.1.2(IntelliJ IDEA 2024最新安装激活教程(附激活工具和激活码))

2024年 6月 14日
激活谷笔记

DataSpell激活2024.1.1(Adobe Acrobat Pro DC v2024.002.20759 免激活完整安装版)

DataSpell激活2024.1.1(Adobe Acrobat Pro DC v2024.002.20759 免激活完整安装版)

2024年 6月 12日
激活谷笔记

Rider2024.1.4激活码(DataSpell2024中文激活版 v2024.1.3 中文绿色版)

Rider2024.1.4激活码(DataSpell2024中文激活版 v2024.1.3 中文绿色版)

2024年 7月 3日
激活谷笔记

iconset.png_png图片怎么转换成ico

iconset.png_png图片怎么转换成ico【Qt】Qt 实现图像格式转图标 ico 格式的程序【Qt】Qt 实现图像格式转图标 ico 格式的程序文章目录【Qt】Qt 实现图像格式转图标 ico 格式的程序核心代码编写应用程序1. 设计界面2. 头文件3. 源文件

2024年 5月 14日

iOS中自带超强中文分词器的实现方法

相关推荐