第267章加速数据利用合规化_穿越黑龙江1940

第267章加速数据利用合规化

这种央视的都叫结构化数据。

这类数据很容易以固定的格式存储到数据库里。

而半结构化数据值得是一些XML或者HTML的格式的数据。

对这类数据当根据需要可按结构化数据来处理，也可抽取出纯文本按非结构化数据来处理。

所谓的非结构化的数据：就是不定长、无固定格式的数据。

例如网页，邮件，有时候非常长；有时候非常短，几句话就没了，这类就是典型的非结构化数据。

子啊比如说例如Word文档、语音，视频、图片都是非结构化的数据。

而半结构化数据和非结构化数据，一般合二为一统称为“暗数据”。

这个词语也不是林灰定义的。

相比于标注数据这种结构化数据，暗数据同标注数据此二者的价值是不可同日而语的。

单位标注数据的价值往往几十倍甚至于几百倍于单位暗数据。

两三亿美元就算是换取较为昂贵的跨语种语言类标注数据都能换上几亿条。

更何况说拿几亿美元去换暗数据呢？

可想而知，两三亿美元涉及到的暗数据是一笔相当可观的暗数据。

林灰那有很多前世的信息。

但也绝不可能有满足蘋淉胃口的暗数据。

不要说是林灰前世那点信息了。

就是像國内有的忝居互联网巨头之列外强中干的互联网公司所拥有的暗数据规模也未必能满足蘋淉的胃口。

这种情况下如果林灰对蘋淉的这笔巨额收购感兴趣的话似乎只能去收集暗数据了。

至于如何去收集呢？

暗数据的收集方式多种多样。

因为暗数据包括用户活动日志、客户对话或电子邮件记录、服务器监控日志、视频文件、物联网产生的机器和传感器信息。

暗数据还可能包括由于存储在过时设备上而无法再访问的数据。

这种情况下很多时候清理活动日志或者说收集存储碎片的时候都有可能顺手牵羊搞到一些暗数据。

除此之外还有很多种收集暗数据的方式。

说起来虽然很容易。

但正所谓抛开剂量谈毒性都是耍流氓。

同样的道理抛开数据规模谈咋挖掘数据同样是耍流氓。

像蘋淉所图规模的暗数据肯定不是传统的数据挖掘方式能满足的。

似乎时下也没太好的挖掘暗数据的方式。

传统的公司，在处理暗数据的时候，采用的是笨办法，想办法把非结构化的数据转换成结构化数据。

这种方法费时费力。

不过也仅仅只是对于时下的科技公司来说。

对于林灰来说他还是有很多数据挖掘方式的。

没人比林灰更懂如何挖掘数据了。

对于大规模的数据挖掘，似乎最方便的方式就是借助于人工智能来挖了。

甚至于林灰前世电脑里有一些现成的挖掘暗数据的方式。

虽然效率受限于时下的硬件可能会大打折扣。

但相比于现在传统的挖掘方式也是降维打击般的存在了。

不过新的问题又来了，从哪挖掘暗数据呢？

前面提到了像有些属于私有的，由政府或私人机构控制的深度数据。

这类包括由学者、政府机构和当地社区策划的数据、医疗记录、法律记录、财务信息和组织特定数据库在内的数据。

就算是属于暗数据。

借林灰十个胆子林灰也不敢去挖。

毕竟这玩意另一个名字叫国家机密。

思考了一小会，林灰倒是想到了几个主意。

但认真琢磨之下，无论是哪个主意似乎都很容易担风险，短时间内都不具有可行性。

尽管说做事情完全不担风险几乎不存在。

但为了区区两亿美元去担风险似乎没啥必要。

毕竟以林灰脑海中的信息想赚两亿美元实际上不需要太久的。

总之，完全没行险的必要。

既然没行险的必要，而且林灰一贯求稳。

那么涉及到数据挖掘为什么林灰会想出一堆有风险的方法呢？

莫非是林灰飘了不成？？

再往后几年的话，林灰想到的主意没任何问题。