解决方案介绍

开放搜索教育搜题能力和实践
讲师:阿里云达摩院算法专家-徐光伟(昆卡)
开放搜索(Opensearch)是一站式智能搜索业务开发平台。结合达摩院先进的NLP技术,打造定制化的行业全链路搜索解决方案。本视频将分享如何通过行业搜索能力和算法工程提升高校教育搜索准确率及多路召回技术的应用实践,帮助企业技术提升核心竞争力。

方案优势

高校教育全链路解决方案,提高搜索性能及准确性
满足引擎索引多路召回结果
支持文本索引、图片向量索引、公式索引多路召回结果,降低无结果率
达摩院NLP技术加持,定制教育搜索能力
教育查询分析全套能力,解决准确率较低问题,可定制排序脚本,深度优化召回结果排序效果
向量召回
用户灵活配置的向量+文本召回,快速提升搜索系统效果
排序插件开发-Cava语言
更强的定制能力,更易于维护,轻松实现业务排序需求
弹性扩缩容
按量付费,即时生效,保障高峰期搜索稳定同时,不需要提前购买大量资源,无成本负担
数据秒级更新
支持千亿体量数据搜索的毫秒级响应,实时数据更新秒级可见

方案架构

方案特点
通过多年行业经验及先进的算法工程,为高校教育业务的搜索性能和效果准确性提供双重保障,在市场竞争激烈,产品同质化严重的的情况下,帮助提升企业的核心竞争力。
可以解决的问题
超大题库数据,导致搜索高延时,计算资源消耗大
题库不完整,搜索无结果率高
图文搜索,需要多模态搜索
架构优势
教育搜题智能语义理解能力
关键词召回,向量召回
定制排序算法模型
系统支持秒级平滑扩缩容
相关产品

行业能力

查询语义理解

分词是影响搜索效果的最基础的模块。开放搜索集成了教育搜题行业专属的教育分词器,同时在此基础之上用户还可上传自己的分词词条定制个性化的分词器。

类目预测

搜题应用:
1.结合输⼊的图⽚信息和OCR识别之后的结果预测输⼊题⽬的学科类别、题目类型;
2.预测各⽂本⽚段的字段类型(题干描述、选项等);

排序定制

系统开放了两阶段排序过程:基础排序和业务排序,即粗排和精排;
基础排序即是海选,从检索结果中快速找到质量高的文档,取出TOP N个结果再按照精排进行精细算分,最终返回最优的结果给用户。为了实现更细粒度的排序效果,结合排序表达式(Ranking Formula)可以为应用自定义搜索结果排序方式

多路搜索

开放搜索的多路搜索功能结合了文本搜索和向量搜索,做到了搜索延迟和计算消耗低于OR逻辑情况下更高的准确性,并在搜题场景已经得到有效验证。多路召回架构还可以使用到:图片向量召回、公式召回、个性化召回等场景中。

查询语义理解

分词是影响搜索效果的最基础的模块。开放搜索集成了教育搜题行业专属的教育分词器,同时在此基础之上用户还可上传自己的分词词条定制个性化的分词器。

类目预测

搜题应用:
1.结合输⼊的图⽚信息和OCR识别之后的结果预测输⼊题⽬的学科类别、题目类型;
2.预测各⽂本⽚段的字段类型(题干描述、选项等);

排序定制

系统开放了两阶段排序过程:基础排序和业务排序,即粗排和精排;
基础排序即是海选,从检索结果中快速找到质量高的文档,取出TOP N个结果再按照精排进行精细算分,最终返回最优的结果给用户。为了实现更细粒度的排序效果,结合排序表达式(Ranking Formula)可以为应用自定义搜索结果排序方式

多路搜索

开放搜索的多路搜索功能结合了文本搜索和向量搜索,做到了搜索延迟和计算消耗低于OR逻辑情况下更高的准确性,并在搜题场景已经得到有效验证。多路召回架构还可以使用到:图片向量召回、公式召回、个性化召回等场景中。

典型客户案例

某大学生教育平台
对比自建系统高峰搜索耗时>2s,开放搜索稳定搜索耗时50ms,同比下降40倍;TOP5题目搜索准去率平均提升2.4%;搜索无结果率从高于40%降低至不到1%;秒级平滑扩容,解决高并发搜索需求;
某职业考证教育平台
与自建ES对比,搜题准确率绝对值提升5%;搜索延时从100ms-300ms降到稳定50ms;离线数据同步大于4000TPS;

产品规格

开放搜索教育行业增强版支持独享型应用

干货精选