数据收集的操作行为受到越来越多的关注,也变得越来越复杂。网络抓取以及自动获取过程总体来说极大地改变了数据收集的性质,旧的挑战得到解决,而新的问题也随之浮现出来。
其中一个问题就是关于动态性的数据选择。由于现在我们能够在几秒内收集难以想象的巨量信息,进行特定采样不再是问题。此外,在业务上,我们常常会反复搜寻相同来源,以监控友商、品牌以及对于行业相关的其他任何内容。
因此,数据动态性就是一个优化问题。在一些情况下,特定字段可能不会频繁更新,或者对于用例来说这些更改并不重要,因此可能不需要每次刷新数据。
静态与动态数据
静态数据可以通过两个方面来定义。作为信息对象,静态数据是不会(频繁)变化的对象。这种来源的例子可能包括社论文章、国家/地区或城市名称、活动和场所说明,等等。事实新闻报道一经发表,就不大可能在未来发生改动。
另一方面,动态数据是不断变动中的对象,常常是由于外部因素而发生变化。经常遇到的动态数据类型可能是产品定价、库存数量、预订数量,等等。
它们中间存在两大定义的模糊地带,正如企图将一切东西都放入整整齐齐的小盒子那样。产品说明、文章元标题和内容商业片段等信息对象有一定的变化频率。
这些到底属于静态还是动态数据,取决于预期用途。无论数据类型如何,项目或多或少会利用具体的参考来源。例如,SEO 工具可能发现定价数据的价值较低,但会希望更新元标题、描述和其他许多功能。
另一方面,定价模型则很少用到频繁更新的产品描述。它们可能需要抓取该信息一次,以进行产品匹配。如果将来出于 SEO 目的对其进行更新,那么仍然没有理由再次访问描述。
规划数据
每个数据分析和收集项目都有其必要性。回到前面的定价模型例子,这需要两个技术功能:产品比对和定价数据。
产品需要进行比对,因为任何自动定价实施都需要准确性。错配的产品和变化的定价可能会对营收造成巨大损失,尤其是如果这些变化得不到解决的情况下。
大部分比对工作是通过产品标题、描述和规格进行的。前两者会经常变化,尤其是在电商平台中,其中关键词优化是一项重要的排名因素。不过,它们不会影响比对产品编号的能力,因为基础功能不会变化(例如,iPhone 始终是 iPhone)。
因此,描述和标题可以视为静态数据,即使它们有一点动态性质。就项目用途而言,变化的影响力不够大,不值得继续监控。
可能显而易见的是,定价数据不仅自然而然地在不断变化,而且捕捉发生的任何变化对于项目也十分重要。因此,它当然应该视为动态数据。
通过规划降低成本
无论采用的是内部还是外部集成方法,数据收集和存储实践的成本都非常高。此外,大部分公司将使用基于云的存储解决方案,其中可能会将所有写入操作包括到总体成本中,这意味着更新数据将会削减预算。
规划数据类型(即静态还是动态)可以通过多个途径优化数据收集过程。首先,页面可以分为静态数据、动态数据或混合数据。虽然第一个类别可能有点肤浅,但它仍表示不需要频繁再访问这些页面。
利用混合页面可能也更容易降低写入操作和存储成本。降低从一个地方传输到另一个地方的数据量,这本身就是一种优化形式,但这些在考虑到带宽、读写和存储成本时会变得更加有意义。
不过,由于爬虫通常会下载整个 HTML,对 URL 的任何访问都会将整个对象存储在内存中。使用外部提供商时,通常会针对每个请求分配成本,因此更新所有数据字段与仅更新动态字段之间没有区别。
然而,在一些应用场景中,历史数据可能是必要的。每个时间段下载并更新含有相同数据的相同字段会无缘无故地增加写入操作和存储成本。可以实现一个简单的比较函数来检查是否有任何更改,并仅在更改时执行写入操作。
最后,使用内部抓取系统时,上述全部情况仍然适用,但程度要大得多。想要优化成本,可以减少不必要的抓取,限制写入操作数量,并仅解析 HTML 的必要部分。
最后,开发框架是实现真正优化的第一步措施。它们可能一开始过于理论化,就像这个框架那样,但框架让我们能够更好地解读已经实施到位的过程。
作者:Julius Cerniauskas,Oxylabs 首席执行官
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
近日,中国互联网协会副秘书长裴玮,中国互联网协会中互网来总经理宛严,中国互联网协会中互数智总经理李晓昂一行到访极光公司总部,现场参观极光发展历程、极光荣誉墙、极光价值观文化墙等
11月22日,惟客数据主办的「唤醒数据,更懂客户经营」新一代产品发布峰会圆满收官。本次峰会发布了惟客数据全新一代的3款家族产品,包含惟数5.0,惟客5.0,昆仑2.0,为全面拥抱Allinone数字化客户经营解决方案赋能。
SequoiaDB从「多模数据湖」、「实时数据湖」发展到「湖仓一体」架构,为客户提供「数据核心」所需的全量数据存储,实时对客服务,及基于统一数据源的分析能力,充分激活客户的离线数据。
全球领先的以数据为驱动、技术为依托的客户体验管理(CXM)公司美库尔近日宣布,其旗下B2B业务品牌MerkleB2B在全球知名第三方媒体机构B2BMarketing最新发布的《2022年B2B营销美国代理商基准报告》
7月1日下午,SMART2022线上峰会实践分论坛,爱数正式发布全域数据治理白皮书。通过对结构化数据、非结构化数据、机器数据的分而治之、即时治理,提升数据治理ROI,全面提升数据质量和数据可访问性,助力组织从容实现全方位的数据驱动。
巨量认证(OMC)在2022年做了哪些事助力企业人才增效
互联网思维,就是在(移动)互联网+、大数据、云计算等科技不断发展的背景下,对市场、用户、产品、企业价值链乃至对整个商业生态进行重新审视的思考方式。据数据显示,截止到今年9月,我国中小微企业数量高达4800万。这几年的巨大变化,给每个企业带来了危机,同时也带来了沉淀和审视自身的机会。每一次危机其实都在
再获认可!2022T-EDGE全球创新大会暨钛媒体十年致敬盛典上,2022EDGEAWARDS企业榜正式发布,百望云喜获“年度潜在价值企业奖”。在当下这个持续变革、充满机遇和挑战的时代,创新能力强、引领效应好、拥有核心竞争力的新应用和新模式不断涌现,该奖项旨在表彰那些极具创新和潜力的企业,百望云凭借
1月9日,国家税务总局发布了财税2023年1号公告,明确增值税小规模纳税人减免增值税优惠政策,百望云已紧急完成系统升级,可满足小规模纳税人3%减征1%开票新政,帮助用户准确快速开具发票。总体上来讲,小规模纳税人的政策变化还是较大的,核心要点如下:l小规模45万免征降至30万,只有在纳税人开具普票时享
近日,大数据产业创新服务媒体数据猿公布了金猿奖《2022大数据产业年度国产化优秀代表厂商》榜单,数新凭借超强的信创实力荣登榜单,同时上榜的还有恒生、火山引擎、星环科技、Kyligence、袋鼠云等企业。近年来,数新一直投身于信创产业的建设,产品的打磨及技术的创新都围绕着信创开展,目前在国产化适配方面
近日,由清科创业、投资界发起的2022Venture50榜单最终揭晓,江行智能因领先的边缘计算技术及产业赋能能力入选2022投资界数字科技Venture50。Venture50被誉为中国高成长企业投资风向标。自2006年创办以来,已陪伴中国创业者十六年之久,发掘并见证了无数优秀创业企业从“新芽”成长
在党的二十大精神指引下,2022年信息通信行业市场主体积极投身数字经济领域,信息技术服务拓展提档加速。在数字化运营方面,将数字化转型动力注入企业市场经营、生产运营和组织管理各方面,服务产品融合化、产线自动化、办公数字化,助力企业高质量发展;在数字化新基建方面,打造精品网络,网络服务质量进一步提升;在
近期,在中国IT服务全媒体平台主办的ITS智能服务峰会上,阳光雨露IT服务凭借20年丰富的IT运维实践经验、深厚的智能化运维技术能力,荣登“2022智能运维100强”榜单!
近日,由深圳市坪山区财政局、深圳市坪山区工业和信息化局主办的坪山企业优品展顺利落地坪山区政府,该展旨在集中展示近年来坪山制造高质量发展的最新成果,为坪山区优质企业与采购单位创造零距离供需对接渠道。好视通作为齐心集团的重要成员,携全线产品亮相,集中展示了好视通在云视频领域的技术、方案与成果。本次坪山企
近日,2022年度“智造中国”高峰论坛顺利举行,会上发布了“年度商业领袖”获奖名单。青云科技(qingcloud.com,股票代码:688316)总裁林源当选“2022年度智造中国十大商业领袖”,带领团队为青云科技的高速成长提供动力与支撑。