百科生活 投稿
关于【多维度是什么意思】:tpi管理密码是什么意思(轮胎tpi是什么意思),什么是数据血缘,如何做好数据血缘分析?,今天小编给您分享一下,如果对您有所帮助别忘了关注本站哦。
- 内容导航:
- 1、tpi管理密码是什么意思(轮胎tpi是什么意思)
- 2、什么是数据血缘,如何做好数据血缘分析?
1、tpi管理密码是什么意思(轮胎tpi是什么意思)
作者:仁威
一、车联网市场及趋势浅析(一)什么是车联网
未来智能互联化是一个不可逆转的趋势,生活中常用的物品都在逐渐联网化,例如洗衣机、电视、智能家居等设备,通过联网可以用手机控制,甚至于智能穿戴的设备,衣服、眼镜、鞋都有逐渐联网的趋势。
手机作为第一个智能终端,它已经从简单的通话工具演变成了可以社交,查看新闻,甚至办公的工具。汽车也是一样,现在汽车正在逐渐联网,成为第二个智能终端。汽车作为智能终端接入网络之后,利用车载设备实现智能化交通、移动金融服务、购物、车家互控等场景逐渐成为现实。这些场景下会产生越来越多的数据,比如,现在可以从手机端直接连接汽车4S店的服务。甚至汽车跟手机的终端打通,已经可以互联互通互动。也可以从汽车端直接控制家电,比如在汽车上有些高端车,可以直接车家互动,在车里面控制家里的空调、洗衣机等。
除了这些,未来娱乐内容等方面的数据,以及车上产生的状态轨迹数据都会逐渐向云端存储,而5G的发展无疑加速了进程。
(二)市场趋势
随着5G网络的建设,传统的移动互联网市场已经饱和,一部分企业开始瞄准5G带来的汽车互联网机遇,探索5G所驱动的汽车革命;同时,汽车企业在过去几年时间提升了认识,逐步开始实践数字化转型,部分企业已经初见成效。之所以5G可以给汽车互联网带来发展机遇,主要原因5G支撑了云计算在汽车上的应用,这使得云语音等服务成为可能。
与其他设备的移动互联网应用不同,汽车互联网的应用有一定难度,主要是汽车企业主动性不强,完全外部安装的设备不容易发挥作用,利用5G带来的云平台接入,给汽车企业带来了主动数字化转型的动力,那么汽车互联网的发展会大大加快。
汽车联网可以划分4个阶段:第一阶段:2G/3G/4G联网的时候,主要是解决“通”的问题,能看到汽车的状态,比如现在租车或网约车汽车的状态与位置,用2G/3G/4G数据传就足够了。
第二阶段:带宽逐渐增加之后,就可以拿到更多车上产生的数据,做大联网的数据。但车联网的大数据分析,能够为保险行业或者其他金融行业提供车主驾驶行为的数据判断。
第三阶段:V2X、5G、云端互联,带宽已经越来越高的情况下,可以实现更多车和其他系统的对接,更多更丰富的功能。
第四阶段:可以借助于云端无穷无尽的计算能力,去做一些智能化的计算和判断,实现智能驾驶远程连接系统,对接第三方系统,对接车车的互联,车和路测终端,更紧密的互联等更大场景下的智能化应用。
中国车联网用户规模不断攀升,5G/V2X技术应用有望实现强劲增长,2022年用户总规模将超过5100万。短期,中国车联网市场规模的增长主要依赖软硬件装载量的提升。中长期,随着车联网生态的丰富,广告、CP/SP等以车联云为核心的车内增值服务将带来更广阔的增长空间。
早在2017年,国家就推出了车联网行业的新四化:“网联化”、“智能化”、“共享化”、“电动化”。无论从国家规划还是从科技发展趋势来看,这四化都将成为未来汽车行业的发展方向。未来,所有汽车行业都会从传统的汽车制造企业向出行服务方向进行转型。随着国内汽车保有量和人均收入的快速增长,给客户提供更加可靠、安全、优质的出行服务,将变成车企的主要目标。针对这个目标,阿里云存储产品需要给车企提供可信赖的数据支撑,便于车企对自身进行优化、改进。
图源见水印,侵删
据前瞻产业研究院发布的《车联网行业市场前瞻与投资占率规划分析报告》数据显示,2020年中国汽车保有量约为2.5~3亿辆,按照15%的渗透率,具备联网能力的车辆将达到4000万辆左右。以每辆1000元的硬件产品价格来估算,单是硬件市场就有400亿元规模。而随着产品功能的丰富,单辆车的硬件产值也会翻倍提高,加之互联网服务,车联网市场的空间可以在5~10年内达到千亿甚至万亿规模。
二、车联网海量监控数据怎么存?(一)车联网系统数据存储
汽车企业在生产系统中采用云战略实现上云上平台,一方面可以解决过去难以解决的各个系统互联互通问题,另外一方面,可以通过推进产业互联网平台,为各地域的工厂(不一定是同一家公司)之间共享信息提供基础条件。
上图左右放的是智能互联系统的云端架构图,从左边这个逻辑架构图可以看到,从下面产品通过网络接入云端,首先连接底层的是产品的数据库,云端在资源池化之后,让用户以更贴近业务的方式去定义业务相关的一些应用和产品。
所以说,从第一层把数据对接上来,就要进入云端的数据库集中的存储,有了集中的数据存储层之后,才需要往上去建立应用层应用平台,或者是智能化的规则引擎,数据来驱动平台。根据不同的业务互动场景,去建设相关的应用。
右端是数据架构图,表示数据首先从车企端采集以后,不单纯是车上的各个指标数据,还有它的位置信息以及其他更丰富的数据,比如智能后视镜,采集的视频数据、语音的数据和云端服务交互的数据。这些数据是多样化的,无结构的,半结构的或者结构化的数据都会有。所以需要有一个Delegate池化的大数据云端存储平台,能够支撑多模、异构的数据的存储、查询和解析。
这些数据不光是车产生的,还有可能第三方系统的,比如车跟支付宝平台对接,微信对接,第三方国家银联的平台,或者是内容提供商的平台对接,服务提供商的平台对接,这些数据源也都可以作为我们数据库全景数据的补充。
有了全景数据,未来才能支撑更多更丰富的场景。
大致的部署结构如下所示:
首先车企端在一般情况下使用OBD、OBU把数据导出来。TBox是车集中的计算平台,就像我们的电脑似的,它把数据从OBD、OBU平台拿到之后上传,通过SIM卡跟云端发生交互。云端拿到数据之后,通过数据解析,一致化之后,再融入第三方数据源,实现不同场景下数据的应用,比如,车载应用:IVI新功能规划、新的交互模式、智能座舱体验;TSP服务:加油充电、道路求援、交通信息、停车服务;正常导向:国家标准(国VI、EV)、第三方数据输入、安全体现等,都可以基于云端的数据,去搭建需求应用系统。
(二)车联网典型数据场景–新能源汽车监控
BEV新能源汽车监控场景主要是为了满足GB/T32960国标和地标的需求,以便车厂能够获得平台符合性及车辆符合性认证。整个车厂建设过程中,出于日常运营需求,往往在国标基础上建设额外服务,例如:通知、告警、监控、追迹、调度服务、系统报表、数据转发等功能。
主要建立能力调度服务:可选服务,可用于车辆运营。
报警信息:可选服务,可通知车主、4S店等定制化报警服务。
统计报表:可选服务,基于OEM要求进行定制。
数据存储:实施接受(10S频率),北京区域要求存储1年,上海地区存储3年。
数据查询:各个数据(实时数据/历史数据)的查询显示接口,需求提供报警新展示,单体蓄电池电压数据展示;动力蓄电池包温度数据展示;整车数据展示;极值数据展示。
(三)车联网典型数据场景–Telematics
Telematics是指应用无线通信技术的车载计算机,新一代Telematics将以公有云为核心,实现车辆远程控制、远程读取信息和智能赋能。目前有内置和OBD接头两种实现的方式,其本质都是对于汽车各系统ECU的远程监控,已经实现的功能有远程检测,远程控制,呼叫中心等,比较成熟的有bluelink, 安吉星on-star,美国的snap-on,还有delphi出的Verizon Wireless等。
(四)车联网典型数据场景–智能后视镜监控
为贯彻交警“便捷高效,互联互通,共享共治”的互联+思维理念,充分发挥智能行车记录仪在交警执法中的积极作用,运营商积极配合深圳市交警局打造“车联网生态系统平台”,建立中国智能交通产业联盟上下游企业生态圈,支持车联网生态圈等相关企业发展,实现星级用户车主“一人一车一设备”的愿景,为车主提供多样化的车联网平台管理方案,以提高交警对车辆管理的效率。
(五)车联网典型数据场景–车载娱乐系统
车载信息娱乐系统(IVI)是智能驾驶舱信息交互的重要载体,基于车身总线系统和互联网服务,形成车载综合信息处理系统,可提供导航定位、车体控制、无线通信、车内娱乐和汽车移动等多种服务内容。产业链中,中控厂商凭借对硬件和软件的整合的产品优势和技术累积,占据了座舱电子产业链的制高点,未来,中控系统将成为人机交互的核心驱动,具备广阔的应用前景。目前,IVI能够实现包括三维导航、实时路况、IPTV、辅助驾驶、故障检测、车身控制、移动办公、无线通讯、基于在线的娱乐功能及TSP服务等一系列应用,车辆电子化,网络化和智能化水平强依赖云端能力。
云端和车机端的数据的交互量会大幅的提升,不光是服务能力赋能汽车,同时视频和音频汽车车主驾驶的时候操作的数字路径,都需要从云端去获取,这些数据也需要在云端去集中的存储,就是现在的一个场景和海量数据存储的一个现状。
三、云原生多模数据库Lindorm怎么解?(一)什么是云原生多模数据库Lindorm?
云原生多模数据库Lindorm适用于任何规模、多种规模的云原生数据库服务,支持海量数据的低成本存储处理和弹性按需付费,兼容HBase、Solr、SQL、OpenTSDB等多种开源标准接口,是互联网IoT、车联网、广告、社交、监控、游戏、风控等场景首选数据库。
未来,车联网场景将会是数据量大,数据类型多。不同场景下产生的数据类型多种多样,会有视频、文本、代码链路、用户数字轨迹等方面的数据,以及在车机端点击应用的操作行为。这些都会使得云端数据库建设对应的存储模型,以及查询能力,因此云端多模的存储能力是必选项。
同时,需要考虑对现有系统和第三方平台的对接能力,多模的数据库需要有一个开放的标准和协议支持,支撑更大范围的数据生态。
Lindorm主要有以下四个特点:
1.极致性价比
当遇到数据量激增的场景,如果没有很好的数据压缩存储或者冷热数据自动转存的方案,数据成本也会激增。大部分的监控数据是机架式密度数据,有一些运维数据在不出故障的时候就没有什么价值。只有出了故障,在回溯分析定位的时候,它才会发挥价值。像这种数据,如果用传统的关系数据库或者是自建的数据库存储,运维和数据授权的成本非常高昂,是不经济的存储方式。
因此,未来需要极致性价比的物联网存储,能够提供PB级甚至EB级存储能力的存储平台,才能有效支撑这种场景。
2.云原生弹性
未来,我们需要云端提供随时进行池化资源的使用方式,没有业务的时候可以收缩资源占用量,节约成本。业务并发量大的时候,在保证性能的前提下满足成本控制的需求。
因此,弹性伸缩数据库的存储,是云原生场景下很关键的能力。
3.企业级稳定性
支撑如此庞大数量在线运行车辆的场景,稳定性至关重要。
例如汽车OTA场景,当发生故障或网络中断、数据丢失的情况,汽车升级可能发生中断,导致了车机端的故障或是智能化控制指令丢失,执行失败等。
4.数据生态融合
对接更广泛的生态,无疑可以支撑我们更大场景下的这个数据应用,这个也是非常关键的。
目标行业:工业物联网、 车联网、APM运维、NPM运维……
这些场景都有一个共同的特点,就是产生海量、带持续指标的监控数据,而这些数据的价值密度非常低,它需要一种经济且友好的数据库进行存储。
上方为Lindorm数据库体系图。
目前Lindorm的核心能力除了能够对接广泛的数据生态等,在数据库内部也有多模数据转存的通道,能够在宽表、时序、全文检索、文件检索引擎之间做数据的协同。
上层除了支持SDK等接口之外,还支持其他应用比较广泛的大数据生态接口查询语言。
(二)Lindorm产品策略
上方为产品发展策略,未来演进方向是云原生多模超融合数据库。
首先在金字塔底层的第一阶段,要具备海量多模数据的存储能力,把结构化、半结构化、无结构化的数据以较为经济的方式存储下来,对这些数据做云化的处理,称为数据云。
在此基础上,再建设跨数据库引擎的横向融合能力,如宽表、时序、图、关系等模型数据,实现数据库协同查询能力。
在Lindorm数据库内部,用户可以通过一致的查询语句,透明查询多种数据库,拿到所需要的信息。无论这个信息是从宽表、时序还是从文本检索引擎来的,均对用户透明化处理,从而更友好地支撑未来数据应用的开发。
再往上层的纵向融合指的除了数据库引擎、上层数据交换、ETF流数据处理以及计算引擎,可以在上层搭建数据库内部的运行,例如异常检测、趋势预测、关联性分析、相关性分析等,纵向地将数据库的能力进一步融合,进而达到超融合,实现统一的查询语言、数据视图,数据访问。
在车联网的一些具体场景下,比如新能源汽车当前电池包的健康状态监控,或者是公共场景下带业务特征的计算,都可以做成数据库内计算的算子,或是以函数直接通过标准SQL语句去调用,最后连存到算一体化执行,最终实现顶层推理的效果。
推理的效果指的是我们只需要告诉数据库我们的需求,则可得到相应的信息。建立统一的数据视图之后,可以用SQL语句定义,比如导致生产次品率上升的主要原因,汽车故障发生告警的主要原因等,这些能力都是现有的数据库和查询所不能实现的。
如果要提供以上能力,需要一系列的数据工具,如下所示。
上图为逻辑架构图,图中的最下方是能对接的第三方数据源,提供无缝的对接和支持。数据进来之后到宽表时序等文件引擎,在这里面根据业务场景不同,可以划分不同场景进行存储,有配套的数据转储和数据采集工具。
再上方就是计算引擎,还有数据检索的引擎。如Phoenix SQL引擎,Lindorm监控服务,以及时序数据分析等服务。再上层是人机界面,为了方便基于数据库开发数据应用,最上层是应用系统。
核心优势卖点1)高性价比存储
2)多模超融合检索
创新技术能力1)时序数据压缩
2)工业场景数据建模
3)时序统计及非确定性推理检索
贴近客户场景1)LindormStudioIDE、工具、SDK
2)文档、方案、案例库
3)专业、体系化IT&OT融合服务能力
打通数据生态1)开放生态:开源:CQL、PhoneixSQL、 ES、MachineBeat…
2)商业:OSIsoftPI、Splunk
融合方案生态OSIsoft、Intel、工业大脑、IoT、东软、 飞象互联…
上方为以前和当前存储方案对比,原来的部署方案需要应用开发人员和运营人员具备较高的动手能力,后续数据量增加的话,每个系统要单独做集群,需要耗费大量的人力和专家进行支撑。
当前的Lindorm存储方案是一个数据库帮助客户解决日常问题,用一个接口查询所有多模型的数据库。
(三)Lindorm车联网数据存储解决方案
在部署形态上,未来的车联网与物联网是便载、地域分布广的场景,单独在云端搭建数据库无法满足性能实时性的需求,所以未来数据库形态逻辑和物理部署可能是一对多,称为云边端一体化的数据库部署方案。
边缘端不管是车联网路测端的设备或者车机上的TBox,都可以去嵌入轻量级持续数据采集的数据库或者是多模数据库。在工业场景下,已经实现了在边缘计算节点上部署边缘数据库,它可以无缝对接混合云、私有云数据中心或者是公有云平台数据库,做实时或按策略批量的数据同步。
用户在实际部署和使用过程中,可以把分布部署的数据库作为逻辑一体的数据库来管理和实现。比如边缘端部署,它可以采集存储一段时间周期的数据,然后支撑实时面向边缘端所连接的设备或者车辆数据,实时查询与监控的场景。
一旦需要全景数据或者是需要回溯分析出报表,统计数据的时候,可以借助云端强大的计算能力与存储能力,做全量数据的回溯,做复杂计算以及根源分析,甚至机器学习场景的模型训练,完美实现逻辑一体,实际物理分离。既能支撑实时场景,又能支撑批量分析场景的数据存储解决方案。
物联网行业数据主要以终端设备、传感器实时产生的状态数据、用户操作数字足迹和控制执行结果数据为主;利用监控状态数据可以及时发现设备、异常操作、潜在风险、客户数字体验,从而指导运营运维;物联网实时监控数据经过实时流数据处理平台,或时序数据库聚合对接实时监控大屏,支持设备实时监管、风险态势感知等应用场景;批量存储在近场端、数据云端的全量物联网数据可用来做故障回溯分析、主动探伤检测、异常定位及预测等。BEV新能源汽车监控场景主要是为了满足GB/T32960国标和地标的需求,以便车厂能够获得平台符合性及车辆符合性认证。在整车厂建设过程中,出于日常运营需求,往往会在国标基础上建设额外服务,例如:通知、告警、监控、追迹、调度服务、统计报表、数据转发等功能。
针对这个场景,我们提供了基于阿里云Lindorm数据库的整体解决方案。
首先,这个方案里除了Lindorm,还用到了其他阿里云数据库产品,比如多维数据分析数据库ADB,第三方开源的Spark streaming,还有IoT网关MQTT等。
这个流程从车机端对接云端一般有两套方案,一套方案是车厂对接车联网的服务提供商,他们有自己私有云平台来对接车机端的提供,然后再由他们的平台来对接到阿里云的Lindorm数据库。
另外也可以直接按标准协议去对接车机端现有的TBox,直接用 REST接口来同步数据,或者MQTT协议直接发送到IoTGateway。这些数据到了云端之后,它可以分成两个流,一个实时写入Lindorm,快速上报国家平台,周期10秒,在周期内完成上报国家平台以及存入数据库这些动作。
另外一个为了实现实时报警与数据分析,数据流也同步推送一份到Spark streaming,由它做实时流数据分析生成事件,然后再存入Lindorm数据库。
如果有第三方数据的对接,比如车厂以及其他第三方系统做数据的归集备份,或者是第三方的平台的应用也需要这块数据,就需要推到Kafka里边,然后再由Kafka消息队列发到车场的数据中心。
车场数据中心也可以部署一套Lindorm数据库和云端做实时数据同步,当出现网络链路不稳定,或者车厂做数据分析的时候,在车场本地的数据中心也可以完成数据分析的工作。
国家数据平台最主要是北理工的平台,有标准的接口协议直接在云端开发相应的数据推送服务节点对接国家平台,地方平台有地方标准和相应接口,可以云端直接转发。
这里用到的数据库主要有,Lindorm数据库做全量数据的存储,Lindorm数据库中需要结合其他数据,比如说CRM的数据,车辆信息数据,基于密码查询相关的信息等复杂高维的数据查询,可以同步到ADB,再用ADB同步到数据分析平台QuickBI,来做数据的统计和可视化。
另外一个就是开源的Grafana,如果是需要监控全景或针对特定车辆的信息,可以通过Grafana来实时查看最近时间窗口的状态。
IoTGateway主要负责和车机端对接,或者和车联网的专有云平台对接。
(四)车联网场景下Lindorm商业价值在哪?
快:1)高通量车联网数据并发写入快
2)时序数据聚合、划窗、统计计算快
3)海量监控数据检索查询快
4)数据全生命周期管理流程搭建快
省:1)海量车联网数据存储成本省
2)占用计算、存储资源省
3)数据库搭建、应用对接开发工作量省
4)数据全生命周期运维管理成本省
在车联网场景下Lindorm商业价值可以总结为两点,一个是快,另外一个就是省。
快就是,说在高通量的车联网数据并发写入的场景下,可以在云端进行云原生的模式,随机汲取的模式,去实现车企端、在线车辆产生的实时海量高通量的数据,可以快速地在云端数据库写入以及数据快速向第三方平台转发。
时序数据聚合、划窗、统计时,在有原生的自研时序数据库情况下,很快地在数据库内做大量数据的聚合、划窗、统计分析。海量监控数据检索查询快,因为它是时序数据库引擎来处理的,可以支持海量多维度数据的聚合查询的计算检索。
数据全生命周期的管理流程搭建很快,因为很多能力都是数据库内提供的,就不需要再去人工搭建,或者是维护自建的开源数据库来定制开发能力,或者数据对接的接口,所以说搭建过程也很快。阿里云之上开通Lindorm数据库,几分钟时间就可以完成。
省就是,对海量数据存储成本会有大幅的下降,除了自研的冷数据、热数据备份的策略,在存储层也做了自己的优化。在时序数据库数据压缩方面,在现有的压缩算法上做了一些改进,达到了10倍数据压缩效果。
占用计算存储资源通过云原生的方式,随机汲取,在没有太多的在线车辆的情况下,收缩它的计算能力,按实际的数据的访问使用量来收费,这样就节约很多数据超配的成本。
数据库搭建应用对接开发工作量也会省下很多的人工的成本,一方面是数据库本身支持很多的第三方大数据生态接口的对接,另外云端搭建就不需要关心数据库安装和备份策略等配置的问题。
数据库全生命周期运维管理的成本,也会节省很多,灾备集群的方案,数据库的整个转储等这些都是数据库内自动解决的。
(五)Lindorm关键技术优势
1. 实时无损,高压缩比存储> 10:1
10:1的深度优化,基于ZSTD算法的压缩,可以把原始的采集的时序数据,比如10GB数据存入到数据库内去做无损的压缩,做到10GB数据存到数据库内,1GB数据的存储容量就足够了,压缩效率相比现在业绩通用的SNAPPY压缩提升50%以上的压缩效率。
2. 面向低价值密度监控数据的冷热分离低成本存储
冷热分离的低成本的存储方案,我们是在Lindorm数据库内做的一体化整个分离,数据也是自动做分层,冷热的分离,就不需要人工介入。冷数据存储成本一般比现在的热数据要降低80%以上,热数据为了满足性能的要求,一般用SD等高端的存储来存冷数据,性价比较高的存储来存这些历史数据。这样的话既兼顾了查询的性能,同时又节约了成本。
3. 云边端融合存储,数据自动实时、批量同步
特点:1)边缘版轻量级快速集成部署
2)2HA高可用架构
3)具备与云端版本一样的功能
4)数据自动同步至阿里云TSDB实例集群
云边端一体化的存储的方案,边缘端的数据库、嵌入的数据库,根据策略去做实时的云端数据同步以及批量的数据的导入与导出。
4. 多引擎超融合数据快速迁移同步
在数据库内部是集成了一个ETL工具,做多模数据之间的数据导入导出,甚至对接第三方的HBase或者Cassandra、OpenTSDB等数据的迁移,可以把第三方的数据源数据通过LTS直接迁移到Lindorm数据库,就不用再依赖于第三方工具实现。
5. 多模数据融合检索打通IT&OT数据交互
多模数据融合检索打通IT&OT数据交互,实现跨多引擎引擎查询,提供全维检索能力。
统一API,简单易用1)系统自动维护索引,应用开发不感知索引表
2)索引支持非冗余、冗余部分列、全冗余
3)查询时基于编译优化(RBO)全自动路由到搜索引擎,并智能判断是否需要回查宽表/时序引擎
数据自动同步到搜索引擎1)异步增量索引,基于LTS提供可扩展的同步通道,数据同步可视化
2)实时同步索引,引擎间数据强一致
针对IT数据和OT数据的交互融合,这一点可以实现一致的跨引擎查询,全文全维度的数据检索能力,通过上层一致数据,试图来帮助评比下层的数据存储、数据引擎的异构性,进一步简化使用成本和维护成本。
#阿里云# #数据库#
2、什么是数据血缘,如何做好数据血缘分析?
大数据时代,数据的来源极其广泛,各种类型的数据在快速产生,也在爆发性增长,这导致了数据之间的关系也变得越发复杂。
因此对数据工程师来说,如何管理表之间、代码之间的复杂关系,从而更好地认识和理解业务系统与底层表的关系、底层表的表间关系,理清当前数据(字段、关键指标或者数据标签)从哪里来?到哪里去?搞清楚哪些下游系统在使用这些数据等成为一件很重要的事。
而要解决这个事,我们就不得不提到元数据管理中的数据血缘。数据血缘描述了数据的来源和去向,以及数据在多个ETL处理过程中的转换,因此,数据血缘是组织内使数据发挥价值的重要基础能力。今天小亿就来为大家分享下什么是数据血缘,以及如何做好血缘分析?
一、什么是数据血缘?
数据血缘,又称数据血统、数据起源、数据谱系,是指数据的全生命周期中,数据从产生、处理、加工、融合、流转到最终消亡,数据之间自然形成一种关系。其记录了数据产生的链路关系,这些关系与人类的血缘关系比较相似,所以被成为数据血缘关系。
比如,数据A经过ETL处理生成了数据B,那么我们就说数据A与B有着血缘关系,且数据A是数据B的上游数据,同时数据B是数据A的下游数据。按血缘对象来分,可分为系统级血缘、表级血缘、字段(列)级血缘。不管是结构化数据还是非结构化数据,都必定存在数据血缘关系。
而数据血缘分析是元数据管理的重要应用之一,其梳理系统、表、视图、存储过程、ETL、程序代码、字段等之间的关系,并采用图数据库进行可视化展示。简单地说就是通过可视化展示数据是怎么来的,经过了哪些过程、阶段及计算逻辑。
二、数据血缘关系的4个特征
与人类社会中的血缘关系不同,数据的血缘关系包含4个特有的特征:
(1)归属性:数据是被特定组织或个人拥有所有权的,拥有数据的组织或个人具备数据的使用权,实现营销、风险控制等目的。
(2)多源性:这个特性与人类的血缘关系有本质的差异,同一个数据可以有多个来源。来源包括,数据是由多个数据加工生成的,或者由多种加工方式或加工步骤生成的。
(3)可追溯:数据的血缘关系体现了数据的全生命周期,从数据生成到废弃的整个过程,均可追溯。
(4)层次性:数据的血缘关系是具备层级关系的,就如同传统关系型数据库中,用户是级别最高的,之后依次是数据库、表、字段,他们自上而下,一个用户拥有多个数据库,一个数据库中存储着多张表,而一张表中有多个字段。他们有机结合在一起,形成完整的数据血缘关系。
三、数据血缘分析主要应用在哪方面?
1.数据溯源
溯源,指的是探寻事物的根本、源头。我们分析处理的数据,可能来源很广泛,不同来源的数据,其数据质量参差不齐,对分析处理的结果影响也不尽相同。当数据发生异常,我们需要能追踪到异常发生的原因,把风险控制在适当的水平。
换句话说,依托于数据血缘的可塑性特点,根据血缘中的数据链路关系,可实现指定数据的来源、去向的追溯,可帮助用户理解数据含义、在全流程上定位数据问题、进行数据关联影响分析等,解决多层复杂逻辑处理后的数据难以理解、难以应用、出现问题难以定位的问题。
2.数据价值评估
数据价值是数据管理的核心标准,不管是数据交易中的数据定价还是数据安全的保护等级,数据价值都是一个重要的参考因素。因此,如何准确地评估数据价值成为了企业面临的一大难题。
传统的数据价值评估,往往完全依靠相关法规要求和业务经验,缺少在具体应用场景中的评估依据,数据价值评估脱离了数据的应用场景和真实的业务价值。而数据血缘则提供了一种基于数据实际应用的价值评估方法:使用者越多(需求方)、使用量级越大、更新越频繁的数据往往更有价值。
(1)数据受众:在血缘关系图上,右边的数据流出节点表示受众,亦即数据需求方,数据需求方越多表示数据价值越大;
(2)数据更新量级:数据血缘关系图中,数据流转线路的线条越粗,表示数据更新的量级越大,从一定程度上反映了数据价值的大小;
(3)数据更新频次:数据更新越频繁,表示数据越鲜活,价值越高。在血缘关系图上,数据流转线路的线段越短,更新越频繁。
3.数据质量评估
数据血缘清晰的记录了数据来源以及数据流转过程中的处理方式和处理规则,能实现对各个数据节点的分析和数据质量评估。
4.数据归档参考
数据血缘中记录了数据的去向,可清晰的掌握数据被消费的情况,一旦数据没有消费者,那也就意味着数据已经失去价值。此时,可以对数据进行进一步评估,考虑进行归档或销毁处理。
四、如何做好数据血缘关系分析?
数据血缘分析作为数据血缘的应用方式,不是单纯的一种技术手段或一个工具,而是一个贯穿数据生命周期的过程,涉及流程、技术、产品等多维度的内容。在此,我们将数据血缘分析分为三大模块:数据血缘建设,数据血缘分析,数据血缘可视化。
1.数据血缘建设
数据血缘建设并不是去建设数据血缘关系,因为数据血缘关系是数据流转过程中自动产生的是生而有之的。数据血缘建设的目标是当这些生而有之的数据血缘关系产生时,能被及时、准确的记录和存储下来。因此,数据血缘建设并不是一个指定的动作,而是一种管理流程和数据意识,需要延伸到数据产生之前,从数据存储的设计开始。
数据血缘建设是数据血缘分析的前提条件,准确、完整、及时记录信息才能带来有效的血缘分析效果,考虑到部分数据源本身的数据血缘建设准备较差,在某些业务场景中需要人工介入进行梳理。
2.数据血缘分析
数据血缘分析针对数据流转过程中产生并记录的各种信息进行采集、处理和分析,对数据之间的血缘关系进行系统性梳理、关联、并将梳理完成信息进行存储。考虑到企业的数据庞杂问题,数据血缘分析往往需要借助工具或系统展开,实现血缘信息数据的自动采集、自动分析。
数据血缘分析通常会按数据血缘的层级进行,层级基于业务需求和某些数据特性可能有差别,常见的分析层级为应用(业务系统)级、数据(表/文件)级和字段级。数据血缘分析的目标是实现数据来源的精确追踪、流转过程的准确还原、数据去向的精准定位。
3.数据血缘可视化
血缘分析完成后,需要依靠可视化技术将分析结果清晰、直观地传递给用户,帮助客户进行二次分析和具体应用。数据血缘图谱是血缘分析中最常用可视化方案。
业务需求的差异将决定血缘分析层次和血缘层级的差异,进而体现在数据血缘图谱上,因此数据血缘图谱也许要基于数据血缘层级进行分层展现,直观的从应用层级、数据层级、字段层级呈现数据的血缘关系。
在具体的应用中,首先业务需求差异和可采集分析的血缘信息的影响,数据血缘图谱的呈现方式可能存在差异,但其整体形态基本一致:以某个数据为核心节点,体现该节点的数据来源、数据去向、流转路径以及路径中的处理方式和处理。因此,数据血缘可视化视图中应该当至少包含以下元素:
(1)数据节点
标记数据的具体信息,如所有者、层次信息、终端信息等,根据不同的血缘层次和业务需求,数据节点的信息有所有差异。根据数据类型的不同,数据节点有可以分为:主节点,数据流入节点、数据流出节点。
①主节点:主节点是数据血缘图谱的核心,是我们当前需要观察的数据,它只有一个,整个图谱呈现的就是它的血缘关系;主节点应该是可以且方便切换的。
②数据流入节点:数据流入节点标记主节点的数据来源,是主节点的父节点,它可能有多个甚至多层。
③数据流出节点:数据流出节点标记主节点的数据去向,是主节点的子节点,同样可能有多个或多层;在数据流出节点中有一种特殊的终端节点,数据到达终端节点后,将不再向别处流转。
(2)流转线路
标记数据的流转路径,通常从流入节点汇聚到主节点,再主节点扩散到流出节点。在流转线路中,不仅可标记出数据的流向和流转关系,还可以通过线路的粗细、长短等标记数据量级和更新频次。
(3)处理节点
标记数据流转过程中的处理方式和处理规则,通常用于数据节点之间的流转线路中。通过处理节点,可以直观地了解到数据在两个节点之间流转时,通过什么样的规则进行了怎样的处理。
五、数据血缘分析时的注意事项
数据血缘分析时,需要考虑以下几个方面:
1.全面性
数据处理过程实际上是程序对数据进行传递、运算演绎和归档的过程,数据的流动性和数据间的复杂关系,将导致某一数据的细微变动引起多个系统的数据发生变化。为了确保数据血缘的完整性,必须将整个系统能够作为数据血缘的分析对象,真正做到追源头溯尾。
2.及时性
据和数据之间的关系可能是随时变动的 ,为了保证数据血缘的准确性和可用性,血缘分析必须与数据保持同步更新,确保数据血缘的分析结果面向最新的数据和数据关系。
3.适用性
血缘分析技术和实现有多种,分析的广度、深度、维度也有不同,但所有的技术都是为需求服务的,血缘分析需要在实现需求目标的前提下展开。
六、小结
随着数据的爆发式增长,数据之间的关系也变得越发复杂。在这样的背景下,具备可塑性、归属性等特征的数据血缘将数据治理过程中发挥越来越大的作用。数据的血缘对于分析数据、跟踪数据的动态演化、衡量数据的可信度、保证数据的质量具有重要的意义。
但数据血缘应用需要依赖丰富的可分析数据、强大的数据采集和血缘分析能力、清晰直观的血缘图谱,是一个贯穿数据生命周期的持续性工程。这里亿信华辰元数据管理平台EsPowerMeta就可以帮助你。
△亿信华辰元数据管理平台架构图
亿信华辰元数据管理平台EsPowerMeta是基于B/S架构的软件平台,架构分为5层,数据源层、采集层、数据层、功能层和访问层,其不仅适配各种数据库、各类ETL、各类数据仓库和报表产品,还适配各类结构化或半结构化数据源。
另外,元数据管理模块还提供了丰富的元数据分析功能,包括血缘分析、影响分析、全链分析、关联度分析、属性值差异分析等,分析出元数据的来龙去脉,快速识别元数据的价值,掌握元数据变更可能造成的影响,以便更有效的评估变化带来的风险,从而帮助用户高效准确的对数据资产进行清理、维护与使用!
△全链分析
血缘分析可以满足许多行业(包括医疗、金融、银行和制造业等)对所呈现数据的特殊监管及合规性要求。
△血缘分析
最后,影响度分析,也是较为血缘关系应用的一部分,其用来分析数据的下游流向。当系统进行升级改造时,能动态数据结构变更、删除及时告知下游系统。通过依赖数据的影响性分析,可以快速定位出元数据修改会影响到哪些下游系统,哪些表和哪些字段。从而减少系统升级改造带来的风险。
本文关键词:tp-link管理密码是什么,tp默认管理员密码,tplogincn管理员密码多少,tplink的管理员密码是什么,tp的管理员密码。这就是关于《多维度是什么意思,tpi管理密码是什么意思(tp-link管理密码是什么)》的所有内容,希望对您能有所帮助!
- 最近发表