1. 创业头条
  2. 前沿领域
  3. 企业应用
  4. 正文

Oxylabs 首席执行官:了解静态和动态数据

 2022-12-26 09:28  来源:互联网  我来投稿 撤稿纠错

  【推荐】海外独服/站群服务器/高防

数据收集的操作行为受到越来越多的关注,也变得越来越复杂。网络抓取以及自动获取过程总体来说极大地改变了数据收集的性质,旧的挑战得到解决,而新的问题也随之浮现出来。

其中一个问题就是关于动态性的数据选择。由于现在我们能够在几秒内收集难以想象的巨量信息,进行特定采样不再是问题。此外,在业务上,我们常常会反复搜寻相同来源,以监控友商、品牌以及对于行业相关的其他任何内容。

因此,数据动态性就是一个优化问题。在一些情况下,特定字段可能不会频繁更新,或者对于用例来说这些更改并不重要,因此可能不需要每次刷新数据。

静态与动态数据

静态数据可以通过两个方面来定义。作为信息对象,静态数据是不会(频繁)变化的对象。这种来源的例子可能包括社论文章、国家/地区或城市名称、活动和场所说明,等等。事实新闻报道一经发表,就不大可能在未来发生改动。

另一方面,动态数据是不断变动中的对象,常常是由于外部因素而发生变化。经常遇到的动态数据类型可能是产品定价、库存数量、预订数量,等等。

它们中间存在两大定义的模糊地带,正如企图将一切东西都放入整整齐齐的小盒子那样。产品说明、文章元标题和内容商业片段等信息对象有一定的变化频率。

这些到底属于静态还是动态数据,取决于预期用途。无论数据类型如何,项目或多或少会利用具体的参考来源。例如,SEO 工具可能发现定价数据的价值较低,但会希望更新元标题、描述和其他许多功能。

另一方面,定价模型则很少用到频繁更新的产品描述。它们可能需要抓取该信息一次,以进行产品匹配。如果将来出于 SEO 目的对其进行更新,那么仍然没有理由再次访问描述。

规划数据

每个数据分析和收集项目都有其必要性。回到前面的定价模型例子,这需要两个技术功能:产品比对和定价数据。

产品需要进行比对,因为任何自动定价实施都需要准确性。错配的产品和变化的定价可能会对营收造成巨大损失,尤其是如果这些变化得不到解决的情况下。

大部分比对工作是通过产品标题、描述和规格进行的。前两者会经常变化,尤其是在电商平台中,其中关键词优化是一项重要的排名因素。不过,它们不会影响比对产品编号的能力,因为基础功能不会变化(例如,iPhone 始终是 iPhone)。

因此,描述和标题可以视为静态数据,即使它们有一点动态性质。就项目用途而言,变化的影响力不够大,不值得继续监控。

可能显而易见的是,定价数据不仅自然而然地在不断变化,而且捕捉发生的任何变化对于项目也十分重要。因此,它当然应该视为动态数据。

通过规划降低成本

无论采用的是内部还是外部集成方法,数据收集和存储实践的成本都非常高。此外,大部分公司将使用基于云的存储解决方案,其中可能会将所有写入操作包括到总体成本中,这意味着更新数据将会削减预算。

规划数据类型(即静态还是动态)可以通过多个途径优化数据收集过程。首先,页面可以分为静态数据、动态数据或混合数据。虽然第一个类别可能有点肤浅,但它仍表示不需要频繁再访问这些页面。

利用混合页面可能也更容易降低写入操作和存储成本。降低从一个地方传输到另一个地方的数据量,这本身就是一种优化形式,但这些在考虑到带宽、读写和存储成本时会变得更加有意义。

不过,由于爬虫通常会下载整个 HTML,对 URL 的任何访问都会将整个对象存储在内存中。使用外部提供商时,通常会针对每个请求分配成本,因此更新所有数据字段与仅更新动态字段之间没有区别。

然而,在一些应用场景中,历史数据可能是必要的。每个时间段下载并更新含有相同数据的相同字段会无缘无故地增加写入操作和存储成本。可以实现一个简单的比较函数来检查是否有任何更改,并仅在更改时执行写入操作。

最后,使用内部抓取系统时,上述全部情况仍然适用,但程度要大得多。想要优化成本,可以减少不必要的抓取,限制写入操作数量,并仅解析 HTML 的必要部分。

最后,开发框架是实现真正优化的第一步措施。它们可能一开始过于理论化,就像这个框架那样,但框架让我们能够更好地解读已经实施到位的过程。

作者:Julius Cerniauskas,Oxylabs 首席执行官

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关标签
数据分析

相关文章

  • CRM SaaS增长焦虑笼罩,Salesforce、纷享销客欲破局

    头部CRMSaaS厂商的运营情况往往综合反映行业的景气程度,是整个行业的晴雨表。

  • SW-LIMS条码管理助力钢铁行业可视化、电子化流程管理

    近年来,面对日益激烈的市场竞争,如何实现生产原料和成品的高品质、低成本、高效率逐渐成为大部分公司的目标。条码管理技术的开发和应用可以使企业从传统的生产管理方式中彻底走出来,向数智化转型的方向迈进。北京三维天地科技股份有限公司在实验室数智化领域具有丰富的行业经验,致力于为客户提供信息化整体解决方案及相

  • 信雅达助力人行数字供应链金融服务平台电子保函系统建设

    2024年1月22日,人行数字供应链金融服务平台电子保函模块正式上线运行,全国首批共5家试点行于日前完成验收与上线工作。信雅达以专业、丰富的系统建设经验助力3家试点行(宁波银行、南京银行、徽商银行)电子保函系统建设,并于1月21日前完成系统上线准备工作,1月22日与人行同步正式上线系统运行,其中宁波

  • 打造工业4.0的5G+边缘云服务产业生态,艾灵完成1.5亿元A轮融资

    近日,艾灵完成1.5亿元A轮融资。本轮投资方包括英特尔资本、深圳天使母基金直投基金、TCL中新融创、浦耀信晔、住友商事亚洲资本、新电投资(SingtelInnov8)、华迪创投。据透露,艾灵本轮融资将用于深化工业5G、工业智能等核心产品的研发,加速在更多行业落地推广,推动重要行业市场大规模商用落地,

    标签:
    云服务
    5g技术
  • 企业级软件的2024,在进化中遇见“新机遇”

    十年,是时间的标尺,也是发展的刻度。从2012年的2.5万亿到2022年的10.81万亿,国内软件产业收入增长了近4倍。特别是近两年,得益于数字经济的蓬勃发展,软件产业更是迎来了黄金期。在外部数字化需求的拉动下,产业内生动力强劲,服务商不断地加速产品进化、生态布局,以寻求新一轮增长。然而,一半是火焰

    标签:
    企业管理软件
  • 越来越“贵”的企业支出,该怎么省?

    如今,很多CFO开始关注企业支出数据,希望通过精细化洞察分析,实现有效降本。但由于费用支出零散化、报销流程繁琐化、支出管理割裂化,导致支出数据分析无抓手,数据沉淀不完整导致分析结果无效。暗藏的合规行为如果没有及时发现,还会带来经营风险。分贝通近期发布《一体化支出管理案例集·春季版》,收录了智能制造、

    标签:
    企业管理软件
  • 全面普及后 ,你需要了解这样的数电票

    从推出全电发票、改名数电票,到十多种票面样式落实;从少数城市试点,到试点城市覆盖全国范围......从“以票治税”到“以数治税”,数电票作为“金税四期”工程的重要载体,已进入全面普及时代!全面普及后,数电票的概念、数电票与纸质票的区别、如何开具和收票等......每家企业更要做到心中有数。01数电票

    标签:
    电子发票
  • 国产化攻坚战 企业管理软件的机遇在哪里?

    摘要:在信息技术快速发展和数字化浪潮席卷全球的今天,中国企业正积极迎接数字化转型的挑战和机遇。在这个过程中,国产化替代正成为中国企业提升信息安全性、实现自主创新与可控性、降低采购成本的重要路径。“从企业自身来讲,在推进精益化管理的进程中,实现软件产品的升级迭代,一方面,要汲取国外先进软件的精髓,另一

    标签:
    企业管理软件
  • 赋能“一带一路”高质量发展 | 凌锐蓝信助力新能源行业客户实现全球化布局

    伴随“一带一路”的高质量发展,国内企业“走出去”在海外的布局越来越广,出海产业也不断升级迭代,对信息化、数据化建设也越来越重视,信息技术的不断发展在企业全球化布局起着至关重要的作用。凌锐蓝信为用户的全球业务提供高性能、安全和稳定的数智网络服务,消除用户的关键任务应用程序和全球实时流量的连接和延迟问题

  • 青云科技云研报·金融 |打造数字化新生态,全球业务支撑平台为何是关键?

    随着全球化的加速和数字技术的普及,金融业面临着日益激烈的市场竞争和不断变化的客户需求。为了更好地适应新时代的要求,不少金融企业,特别是银行,正在积极推进数字化改革,打造一个全球业务支撑平台,以提高运营效率、降低成本、提升服务质量。根据德勤《DigitalBankMaturity2022》报告显示,银

    标签:
    数字化技术

编辑推荐