通过借助 AI 大模型的视觉能力,实现非标图片中的文本的识别,输出结构化(JSON)数据。
相较于调用 OCR 接口,使用 AI 模型识别的文本识别服务具灵活不受制于图片类型的约束,可以自己实现某类图片的定向结构化识别。
前置条件:已经在模型管理维护 视觉类模、聊天模型
示例: 以营业执照识别为例子
定义字段信息
测试解析
语音模型 基础使用