Merge branch '3.0' of https://github.com/taosdata/TDengine into fix/T…

…D-30837
taosdata · Nov 4, 2024 · de92e45 · de92e45
2 parents 0c30b3c + a71aacb
commit de92e45
Show file tree

Hide file tree

Showing 62 changed files with 5,356 additions and 4,037 deletions.
diff --git a/.github/workflows/taoskeeper-ci.yml b/.github/workflows/taoskeeper-ci.yml
@@ -48,7 +48,7 @@ jobs:
         working-directory: tools/keeper
         run: |
           go mod tidy
-          go test -v -coverpkg=./... -coverprofile=coverage.out ./...
+          sudo go test -v -ldflags="-X 'github.com/taosdata/taoskeeper/version.IsEnterprise=true'" -coverpkg=./... -coverprofile=coverage.out ./...
           go tool cover -func=coverage.out
 
       - name: Clean up

diff --git a/cmake/cmake.define b/cmake/cmake.define
@@ -191,48 +191,11 @@ ELSE()
         SET(COMPILER_SUPPORT_AVX512VL false)
     ELSE()
         CHECK_C_COMPILER_FLAG("-mfma" COMPILER_SUPPORT_FMA)
+        CHECK_C_COMPILER_FLAG("-mavx" COMPILER_SUPPORT_AVX)
+        CHECK_C_COMPILER_FLAG("-mavx2" COMPILER_SUPPORT_AVX2)
         CHECK_C_COMPILER_FLAG("-mavx512f" COMPILER_SUPPORT_AVX512F)
         CHECK_C_COMPILER_FLAG("-mavx512vbmi" COMPILER_SUPPORT_AVX512BMI)
         CHECK_C_COMPILER_FLAG("-mavx512vl" COMPILER_SUPPORT_AVX512VL)
-
-        INCLUDE(CheckCSourceRuns)
-        SET(CMAKE_REQUIRED_FLAGS "-mavx")
-        check_c_source_runs("
-        #include <immintrin.h>
-        int main() {
-          __m256d a, b, c;
-          double buf[4] = {0};
-          a = _mm256_loadu_pd(buf);
-          b = _mm256_loadu_pd(buf);
-          c = _mm256_add_pd(a, b);
-          _mm256_storeu_pd(buf, c);
-          for (int i = 0; i < sizeof(buf) / sizeof(buf[0]); ++i) {
-            IF (buf[i] != 0) {
-              return 1;
-            }
-          }
-          return 0;
-        }
-      " COMPILER_SUPPORT_AVX)
-
-        SET(CMAKE_REQUIRED_FLAGS "-mavx2")
-        check_c_source_runs("
-        #include <immintrin.h>
-        int main() {
-          __m256i a, b, c;
-          int buf[8] = {0};
-          a = _mm256_loadu_si256((__m256i *)buf);
-          b = _mm256_loadu_si256((__m256i *)buf);
-          c = _mm256_and_si256(a, b);
-          _mm256_storeu_si256((__m256i *)buf, c);
-          for (int i = 0; i < sizeof(buf) / sizeof(buf[0]); ++i) {
-            IF (buf[i] != 0) {
-              return 1;
-            }
-          }
-          return 0;
-        }
-      " COMPILER_SUPPORT_AVX2)
     ENDIF()
 
     IF(COMPILER_SUPPORT_SSE42)

diff --git a/docs/examples/node/package.json b/docs/examples/node/package.json
@@ -4,6 +4,6 @@
   "main": "index.js",
   "license": "MIT",
   "dependencies": {
-    "@tdengine/websocket": "^3.1.0"
+    "@tdengine/websocket": "^3.1.1"
   }
 }
diff --git a/docs/examples/node/websocketexample/sql_example.js b/docs/examples/node/websocketexample/sql_example.js
@@ -3,7 +3,6 @@ const taos = require("@tdengine/websocket");
 
 let dsn = 'ws://localhost:6041';
 async function createConnect() {
-
     try {
         let conf = new taos.WSConfig(dsn);
         conf.setUser('root');

diff --git a/docs/examples/node/websocketexample/tmq_seek_example.js b/docs/examples/node/websocketexample/tmq_seek_example.js
@@ -10,7 +10,6 @@ const groupId = "group1";
 const clientId = "client1";
 
 async function createConsumer() {
-
     let groupId = "group1";
     let clientId = "client1";
     let configMap = new Map([

diff --git a/docs/zh/05-basic/03-query.md b/docs/zh/05-basic/03-query.md
@@ -8,7 +8,7 @@ toc_max_heading_level: 4
 
 ## 基本查询
 
-为了更好的介绍 TDengine 数据查询，使用 如下 taosBenchmark 命令，生成本章内容需要的时序数据。
+为了更好的介绍 TDengine 数据查询，使用如下 taosBenchmark 命令，生成本章内容需要的时序数据。
 
 ```shell
 taosBenchmark --start-timestamp=1600000000000 --tables=100 --records=10000000 --time-step=10000
@@ -25,7 +25,7 @@ ORDER BY ts DESC
 LIMIT 5;
 ```
 
-上面的 SQL，从超级表 `meters` 中查询出电压 `voltage` 大于 230 的记录，按时间降序排列，且仅输出前 5 行。查询结果如下：
+上面的 SQL，从超级表 `meters` 中查询出电压 `voltage` 大于 230V 的记录，按时间降序排列，且仅输出前 5 行。查询结果如下：
 
 ```text
           ts            |  current   | voltage |    phase    | groupid |          location        |

diff --git a/docs/zh/06-advanced/06-data-analysis/01-arima.md b/docs/zh/06-advanced/06-data-analysis/01-arima.md
@@ -3,8 +3,52 @@ title: "ARIMA"
 sidebar_label: "ARIMA"
 ---
 
-本节讲述如何 ARIMA 算法的使用方法。
+本节讲述 ARIMA 算法模型的使用方法。
 
 ## 功能概述
 
-……
+ARIMA 即自回归移动平均模型(Autoregressive Integrated Moving Average, ARIMA)，也记作 ARIMA(p,d,q)，是统计模型中最常见的一种用来进行时间序列预测的模型。
+ARIMA模型是一种自回归模型，只需要自变量即可预测后续的值。ARIMA模型要求时序数据是**平稳**，或经过差分处理后平稳，如果是不平稳的数据，**无法**获得正确的结果。
+
+>平稳的时间序列：其性质不随观测时间的变化而变化。具有趋势或季节性的时间序列不是平稳时间序列——趋势和季节性使得时间序列在不同时段呈现不同性质。
+
+以下参数可以动态输入控制预测过程中生成 合适的  ARIMA 的模型。
+
+- p= 自回归模型阶数
+- d= 差分阶数
+- q= 移动平均模型阶数
+
+
+### 参数
+分析平台中使用自动化的 ARIMA 模型进行计算，因此每次计算的时候会根据输入的数据自动拟合最合适的模型，然后根据该模型进行预测输出结果。
+|参数名称|说明|必填项|
+|---|---|---|
+|period|输入时间序列数据每个周期包含的数据点个数。如果不设置该参数或则该参数设置为 0， 将使用非季节性/周期性的 ARIMA 模型预测。|选填|
+|start_p|	自回归模型阶数的 起始值，0 开始的整数，不推荐大于 10	|选填|
+|max_p|	自回归模型阶数的 结束值，0 开始的整数，不推荐大于 10	|选填|
+|start_q|	移动平均模型阶数的起始值， 0 开始的整数，不推荐大于 10	|选填|
+|max_q|	移动平均模型阶数的结束值， 0 开始的整数，不推荐大于 10	|选填|
+|d|	差分阶数|选填|
+
+`start_p`、`max_p` `start_q` `max_q` 四个参数约束了模型在多大的范围内去搜寻合适的最优解。相同输入数据的条件下，参数范围越大，消耗的资源越多，系统响应的时间越长。
+
+### 示例及结果
+针对 i32 列进行数据预测，输入列 i32 每 10 个点是一个周期，start_p 起始是 1， 最大拟合是 5，start_q是1，最大值是5，预测结果中返回 95% 置信区间范围边界。
+```
+FORECAST(i32, "algo=arima,alpha=95,period=10, start_p=1, max_p=5, start_q=1, max_q=5")
+```
+
+```json5
+{
+"rows": fc_rows,  // 预测结果的行数
+"period": period, // 返回结果的周期性，同输入
+"alpha": alpha,   // 返回结果的置信区间，同输入
+"algo": "arima",  // 返回结果使用的算法
+"mse":mse,        // 拟合输入时序数据时候生成模型的最小均方误差(MSE)
+"res": res        // 列模式的结果
+}
+```
+
+### 参考文献
+- https://en.wikipedia.org/wiki/Autoregressive_moving-average_model
+- https://baike.baidu.com/item/%E8%87%AA%E5%9B%9E%E5%BD%92%E6%BB%91%E5%8A%A8%E5%B9%B3%E5%9D%87%E6%A8%A1%E5%9E%8B/5023931?fromtitle=ARMA%E6%A8%A1%E5%9E%8B&fromid=8048415
diff --git a/docs/zh/06-advanced/06-data-analysis/02-holtwinters.md b/docs/zh/06-advanced/06-data-analysis/02-holtwinters.md
@@ -0,0 +1,43 @@
+---
+title: "HoltWinters"
+sidebar_label: "HoltWinters"
+---
+
+本节讲述 HoltWinters 算法模型的使用方法。
+
+## 功能概述
+HoltWinters模型又称为多次指数平滑模型（EMA）。对含有线性趋势和周期波动的非平稳序列适用，利用指数平滑法让模型参数不断适应非平稳序列的变化，并对未来趋势进行**短期**预测。
+HoltWinters有两种不同的季节性组成部分，当季节变化在该时间序列中大致保持不变时，通常选择**加法模型**；而当季节变化与时间序列的水平成比例变化时，通常选择**乘法模型**。
+该模型对于返回数据也不提供计算的置信区间范围结果。在 95% 置信区间的上下界结果与预测结果相同。
+
+
+### 参数
+
+分析平台中使用自动化的 ARIMA 模型进行计算，因此每次计算的时候会根据输入的数据自动拟合最合适的模型，然后根据该模型进行预测输出结果。
+|参数名称|说明|必填项|
+|---|---|---|
+|period|	输入时间序列数据每个周期包含的数据点个数。如果不设置该参数或则该参数设置为 0， 将使用一次（简单）指数平滑方式进行数据拟合，并据此进行未来数据的预测|选填|
+|trend|	趋势模型使用加法模型还是乘法模型|选填|
+|seasonal|	季节性采用加法模型还是乘法模型|选填|
+
+参数 `trend` 和 `seasonal`的均可以选择 `add` （加法模型）或 `mul`（乘法模型）。
+
+### 示例及结果
+针对 i32 列进行数据预测，输入列 i32 每 10 个点是一个周期，趋势采用乘法模型，季节采用乘法模型
+```
+FORECAST(i32, "algo=holtwinters,period=10,trend=mul,seasonal=mul")
+```
+
+```json5
+{
+"rows": rows,  //  结果的行数
+"period": period,  // 返回结果的周期性， 该结果与输入的周期性相同，如果没有周期性，该值为 0
+"algo": 'holtwinters'  // 返回结果使用的计算模型
+"mse":mse,   // 最小均方误差（minmum square error）
+"res": res   // 具体的结果，按照列形式返回的结果。一般意义上包含了 两列[timestamp][fc_results]。
+}
+```
+
+### 参考文献
+- https://en.wikipedia.org/wiki/Exponential_smoothing
+- https://orangematter.solarwinds.com/2019/12/15/holt-winters-forecasting-simplified/
diff --git a/docs/zh/06-advanced/06-data-analysis/03-anomaly-detection.md b/docs/zh/06-advanced/06-data-analysis/03-anomaly-detection.md
@@ -0,0 +1,46 @@
+---
+title: "Anomaly-detection"
+sidebar_label: "Anomaly-detection"
+---
+
+本节讲述 异常检测 算法模型的使用方法。
+
+## 概述
+分析平台提供了 6 种异常检查模型，6 种异常检查模型分为 3 个类别，分别属于基于统计的异常检测模型、基于数据密度的检测模型、基于深度学习的异常检测模型。在不指定异常检测使用的方法的情况下，默认调用 iqr 的方法进行计算。
+
+
+### 统计学异常检测方法
+
+- k-sigma<sup>[1]</sup>: 即 ***68–95–99.7 rule*** 。***k***值默认为3， 即序列均值的 3 倍标准差范围为边界，超过边界的是异常值。KSigma 要求数据整体上服从正态分布，如果一个点偏离均值K倍标准差，则该点被视为异常点.
+
+|参数名称|说明|是否必选|默认值|
+|---|---|---|---|
+|k|标准差倍数|选填|3|
+
+
+- IQR<sup>[2]</sup>：四分位距 (Interquartile range, IQR) 是一种衡量变异性的方法. 四分位数将一个按等级排序的数据集划分为四个相等的部分。即 Q1（第 1 个四分位数）、Q2（第 2 个四分位数）和 Q3（第 3 个四分位数）。IQR 定义为 Q3–Q1，位于 Q3+1.5 。无输入参数。
+
+- Grubbs<sup>[3]</sup>: 又称为 Grubbs' test，即最大标准残差测试。Grubbs 通常用作检验最大值、最小值偏离均值的程度是否为异常，该单变量数据集遵循近似标准正态分布。非正态分布数据集不能使用该方法。无输入参数。
+
+- SHESD<sup>[4]</sup>： 带有季节性的 ESD 检测算法。ESD 可以检测时间序列数据的多异常点。需要指定异常点比例的上界***k***，最差的情况是至多49.9%。数据集的异常比例一般不超过5%
+
+|参数名称|说明|是否必选|默认值|
+|---|---|---|---|
+|k|异常点在输入数据集中占比，范围是$`1\le K \le 49.9`$ |选填|5|
+
+
+### 基于数据密度的检测方法
+LOF<sup>[5]</sup>: 局部离群因子(LOF，又叫局部异常因子)算法是Breunig于2000年提出的一种基于密度的局部离群点检测算法，该方法适用于不同类簇密度分散情况迥异的数据。根据数据点周围的数据密集情况，首先计算每个数据点的一个局部可达密度，然后通过局部可达密度进一步计算得到每个数据点的一个离群因子，该离群因子即标识了一个数据点的离群程度，因子值越大，表示离群程度越高，因子值越小，表示离群程度越低。最后，输出离群程度最大的top(n)个点。
+
+
+### 基于深度学习的检测方法
+使用自动编码器的异常检测模型。可以对具有周期性的数据具有较好的检测结果。但是使用该模型需要针对输入的时序数据进行训练，同时将训练完成的模型部署到服务目录中，才能够运行与使用。
+
+
+### 参考文献
+1. https://en.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7_rule
+2. https://en.wikipedia.org/wiki/Interquartile_range
+3. Adikaram, K. K. L. B.; Hussein, M. A.; Effenberger, M.; Becker, T. (2015-01-14). "Data Transformation Technique to Improve the Outlier Detection Power of Grubbs's Test for Data Expected to Follow Linear Relation". Journal of Applied Mathematics. 2015: 1–9. doi:10.1155/2015/708948.
+4. Hochenbaum, O. S. Vallis, and A. Kejariwal. 2017. Automatic Anomaly Detection in the Cloud Via Statistical Learning. arXiv preprint arXiv:1704.07706 (2017).
+5. Breunig, M. M.; Kriegel, H.-P.; Ng, R. T.; Sander, J. (2000). LOF: Identifying Density-based Local Outliers (PDF). Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. SIGMOD. pp. 93–104. doi:10.1145/335191.335388. ISBN 1-58113-217-4.
+