首页 TG账号购买平台内容详情

Apache Doris 4.0.4:立足实时分析,直面 AI 时代数据新挑战

2026-03-27 3 纸飞机账号购买

摘要:Apache Doris 4.0 正式发布,此为一个重要里程碑,它引入了原生向量检索、AI 函数和全新的混合检索与分析处理(HSAP)架构。此后,社区借由 4.0.1 至 4.0.4 这四个版本进行快速演进,本文对这四个版本里引进的关键新特性予以了总结。

Apache Doris 4.0.4于当下正式发布,在稳定性跟可靠性方面,此版本比其他4.0.x版本更胜一筹。Apache Doris 4.0.4涵盖了4.0.1到4.0.4这四个版本里全部的优化与增强功能。这一版本的发布,意味着它从实时分析领域朝着广阔的数据管理领域迈进,以此来应对因生成式AI以及基于Agent系统驱动的数据管理格局变化而产生的数据新挑战。

1. 面向 AI 工作负载的混合搜索能力

正在成为现代数据平台核心分析负载的是检索,它涵盖日志检索、可观测性、文档检索以及上下文工程等领域。Apache Doris在4.0.X的每个版本里持续增强其原生搜索能力。

更丰富的查询语法

现今,SEARCH()函数存在以下情况,它支持短语查询,支持通配符查询,还支持正则表达式查询,此情况处于版本4.0.1,借助这一情况,用户能够直接在SQL里执行复杂的文本检索。

SELECT * FROM logs
WHERE SEARCH(message, 'timeout* OR "connection error"');

那个函数,在4.0.3版本里,进一步强化了Lucene布尔模式,把Elasticsearch风格的布尔查询语义,也就是必须做的、可以做的、绝对不能做的,引入到基于SQL的搜索当中了。

于4.0.4版本里,引入了BM25分数范围过滤,也就是min_score语义,它能够让用户根据相关性分数来筛选搜索结果,只留下最为匹配的条目,这对于搜索推荐以及智能检索场景而言极其适宜。

灵活的多字段搜索

Apache Doris 4.0.1 中引入了两个新参数:

现在,用户执行多字段搜索能够更加便利化,然而却无须去编写有着复杂性的SQL表达式。

JSON 字段搜索

SEARCH()函数,这会儿呐是支持,借助点表示法,直接去查询,Variant类型的子列,(4.0.1):

SEARCH(event.payload.error:timeout)

在事件数据以及日志分析的这些场景里头,JSON有着广泛的运用,所以这是尤为实用的。

单列支持多个分词器索引

索引如今支持创建多个分词器,单列的情况(4.0.4)。这让不同查询场景能够采用不一样的分词策略,像多语言搜索、n-gram,采用不同的分词策略,进而显著提升文本搜索的灵活性与质量。

倒排索引增强

在 4.0.x 版本中,倒排索引获得一系列基础能力的提升:

ANN 向量索引:仅索引扫描

ANN(近似最近邻)索引如今支持了,仅索引扫描模式(4.0.2),它允许向量搜索能够直接从索引里解析出结果,不要扫描表数据,这在大规模向量检索场景当中显著地降低了 I/O 开销。

2. 扩展 SQL 与分析能力空间函数

在 4.0.4 版本中新增了三个空间函数:

原本在基本地理空间分析用例里具有的那些功能,像基于位置的分析,其路线测量以及地理报告,竟然能够直接以 SQL 来达成,无需依赖外部的 GIS 工具。

增强型时间处理

两项改进简化了 BI 工作负载中常见的时间分析:

4.0.x版本里新添加的时间函数有,TIME_FORMAT(4.0.3),兼容MySQL的UTC_DATE,UTC_TIME,UTC_TIMESTAMP(4.0.1),INTERVAL函数支持(4.0.3),还有add_time/sub_time(4.0.2)。

改进的哈希函数

在 4.0.1 版本中新增了两个哈希函数:

Apache Doris 4.0.4:立足实时分析,直面 AI 时代数据新挑战

相关标签: # ApacheDoris # 实时分析 # AI时代 # 数据挑战 # 混合检索