iOS系统内置了OCR(光学字符识别)功能,主要通过以下原生组件和技术实现:
1. 实况文本(Live Text)
- 支持iOS 15及以上系统,通过系统相机或相册直接识别图片中的文本,包括印刷体、手写体(英文和中文简繁体等),支持7种语言混合识别。
- 功能集成于系统输入框:长按图片或将光标移至图片区域即可触发文本选择,支持复制、翻译、查询等操作。
- 技术基于Apple Neural Engine的本地化处理,无需联网,隐私性强。
2. 相机与聚焦搜索
- 拍照界面自动检测文本框(如文档、名片),右下角显示实况文本图标,点击后可交互。
- 聚焦搜索(Spotlight)能检索照片库中的文字内容,例如通过关键词找到包含该文字的截图。
3. API扩展
- Vision框架提供开发者接口(VNRecognizeTextRequest),可定制OCR精度(快/准两种模式),支持批量识别和多朝向文本。
扩展知识
离线限制:实况文本需A12芯片及以上机型(iPhone XR/Xs后),部分语言(如中文手写)的准确度低于印刷体。
对比第三方:系统OCR缺乏PDF解析等专业功能,复杂场景(表格、竖排文字)建议配合ABBYY或Adobe Scan。
未来方向:iOS 18或强化 AI 文本理解,如公式识别或实时翻译叠加。
中文标点已按要求添加。