每一个行业更加数据化

  •   最高等级是会费298元的钻石会员,每个月享受300元8.6折话费充值优惠,三级代理的回扣金额分别是84元、36元和20元,线元。

      我们完全是用创业者的心态来管理这个公司,在内部搭建一个比较完整的体系,而不只是单纯的去判断某一个项目值不值得投资。

      大数据现存问题是什么?第一,行业竞争非常激烈。第二,数据噪音大,有效数据少。第三,数据密集但孤立分布。

      大家好,很高兴第三次站在这个讲台上,这个教室是我以前在清华读书时候经常上自习的教室,我非常喜欢在六教上自习,经常待到11点才走。

      我其实从大二,也就是2004年就开始创业,参与和创办了很多家公司。很多人认为创业要将发展方向、内部框架、营销策略等方面全想好了,然后才能开始创办公司,其实有时候开始才是最重要的第一步。我第一个创业项目是搭建一个校园论坛,起初用自己的现金去支持服务器,做了一年时间,发展没有想象中的顺利,基本上没有收入,没有商业模式,只是给其他的朋友做一做算法,也感受到了一些所谓的创业满足感。

      我要提醒大家,创业一定是不归路,所以大家一定要想好。但是这条路很有意思,我一直非常喜欢,我参与和创立过非常多的公司,细数可能有几十家公司,线个项目,包括我三年前创立至今的星瀚资本等。所以,创业是一条很漫长的路,中间会经历无数的困难,大多数情况下是很难受的。

      传统的互联网,依托于简单的代码和页面,成就了很多公司,比如门户类的新浪、网易、搜狐,社区类的人人、开心、微博。即时通信软件,让我们的沟通变得非常高效便利。移动互联网,让我们从PC端走向手机端。电子商务在过去的十年里面也得到了非常大的发展。

      互联网+,我第一次在这儿授课的时候这个模式还处于激烈竞争的状态中,经过这几年的竞争、迭代、博弈,到今天为止互联网+已经基本进入了尾声。在各个领域基本都走过了10选5,5选2,2选1的过程。

      我们把“互联网+”分成两部分,一部分叫“互联网轻+”,另一部分叫“互联网重+”。“重+”,把线O。运用“互联网+”概念的也有非常多的公司,我们发现“互联网+”只适用于刚性需求的行业,非刚性需求、低频的行业不太适合使用“互联网+”。比如洗车、美容、环保回收、宠物的“互联网+”,都不是非常成功,为什么?低频、小众,推广难度大。

      那“互联网+”适合做什么呢?于是就有了另外一个板块,叫“互联网轻+“。轻加”加的少,把互联网当一种工具加载在产业里,叫做产业升级。利用互联网的特殊特性,把线下的东西改变一下,变成一种新的模式,于是我们给它一个新的名字叫TMT。

      TMT是什么?技术、媒体和通信。第一,通信加大了信息流动的速度和数量,有了信息流动之后,人和人之间的理解迭代速度就快了。第二个是技术,在50年前管理公司,需要拿账本记账,拿花名册记人等等。现在不是了,每个公司都有自动化办公软件,有SaaS,ERP企业资源计划系统,CRM企业客户关系管理系统,OA系统等等去管理你的公司,这时候公司会变的非常自动化。

      第三个就是媒体,在互联网之前我们媒体属于传统媒体。在央视一套播恒源祥广告,“羊羊羊”,13亿人每天看电视都得听着,这是原来的传播方式,而我们今天的媒体传播方式是柔性传播,每一个人关注不同的公众号,我只得到我自己感兴趣的信息。企业也通过微信公众号、知乎、头条等等,精准传播给每一个用户。所以,媒体受到互联网影响,降低了传播成本,提升了传播效率。

      通过人工智能、算法把所有东西都模块化、信息化、数据化,大大提高了效率,降低了成本。前年我听说纽约有两家公司,他们谈生意之前找来两台AI电脑,A公司和B公司把他所有的资源列一堆,所有需求列了一遍,放在电脑里,B公司也是如此,然后让两个电脑对峙,得出了一个计算结果,这个计算结果就是它们最后的博弈结果,这个博弈结果也是实现两个公司共赢的最优解。也就是说双方不用依赖于对话,两个公司可以通过完全数据化的方法进行迭代,进行交易。这只是一个真实的故事,我们身边所有公司都这么交易可能还有很长的距离,但是这是一个未来发展的方向,说明什么?说明数字化之后必定是智能化,这也是互联网给我们带来的便利。

      没有大数据,“巧妇难为无米之炊”,大数据是什么?它从入口端、进入数据端,最后到达商业端,不断收集、定义、整理、分析、挖掘、抽象出来一个结果的过程。大数据就像一个混凝土搅拌机一样,你要各处收集有效数据,在这个搅拌机里搅拌,然后把数据逐渐变成一个可以消化的、标准化的数据集。

      去年6月份JP摩根给出一份报告,我认为写的非常好,他把数据分成三大类:第一类叫做由个人所产生的数据,比如我们每个人发微信,写微博,在网上发图、发视频、做直播,这些都属于数据化过程,我们都产生数据留存在了互联网上。第二类叫做交易类型数据,今天一个用户用“饿了么”,点了一次外卖,菜品是川菜,明天又点了湘菜,通过数据分析行为习惯表面这个人可能喜欢吃中餐,还喜欢吃辣的。另外一个人每天点粤菜,从来不吃辣的,这个人饮食方面的人物画像就出来了。所以,交易类型数据更能直接反映个人喜好。你在网上买什么书,每天上什么课,这些所有的事情都有数据支持,表达了你的意愿。所以,交易类型数据是一个非常重要的数据,特别是从2010年-2015年,大量互联网O2O的机构收集了大量交易类型数据。

      第三类型的数据叫做sensor data,由硬件、传感器、手表每天记录我的身体状态,手机记录我的步数,GPS记录我的定位等等。通过这个人每天活动路径去描述他的特点。所以,第三个类型的数据sensor data从另外一个角度补足对人的画像素描。

      数据化过程就是从各种平台,各种交易,各种设备里面收集我们信息的过程,它是大数据和人工智能非常重要的一个基础,这就是数据化过程。有了数据化过程,数据扔到混凝土搅拌机里面去搅拌,搅拌完之后再进行实体化,看看数据的计算结论到底对不对,是不是当时我所收集的数据,这就是大数据的入口端。大数据的出口端利用数据的相关性,描述出了一些结果,得到一种人物画像。

      那么大数据现存问题是什么?第一,大数据行业竞争非常激烈。第二,数据噪音大,有效数据少。第三,数据密集但孤立分布。密集的意思是我看到过各种各样的大数据公司都在疯狂地收集数据,大家以数据量为荣。我拥有50T的数据,我拥有200T的数据。以量为荣其实是存在偏差的,数据再多、再密集,在数学上叫什么?密集矩阵,或者叫稀疏性矩阵,意思就是说所有的数据堆放在一个角落里面,许多数据是没有意义的。什么样的数据是比较好的?是均匀分布的,是一个满秩的矩阵。事物过于密集不见得是好事,重要的是能够分散分布。现在最大的一个问题是什么?每个公司都收集了大量数据,但是都孤立分布,“饿了么”只有我们吃饭的数据,滴滴只有我们出行的数据,很多公司只有垂直类型数据。

      大数据的发展进程,对应刚才的四步,大数据开采、收集、清洗、标签化、交汇耦合、结构化的过程。你的数据拿来之后不能用怎么办?就要给它清洗、整理,变成标准化数据。大数据发展进程就像买菜、洗菜、拌菜、做菜的过程。你去菜市场买了一个带泥的黄瓜能端上桌吗?不能。这十年以来我看到的大数据公司大部分都是带泥的黄瓜直接上桌,说这是一个大数据公司。拥有了大量的数据有用吗?没用,你必须经历洗菜、拌菜、做菜的过程,最后这个数据才能“吃”。

      模型化过程分三个阶段,赋予智能、学习智能和残差信息。当我明确一件事情的物理意义,知道它是什么,知道算法表达是什么,然后不断地通过经验输出,把经验逻辑写成标准化数据,再让计算机去执行,这个过程就叫做赋予智能,让计算机干一件我很明确的事情。

      现在我们提到的所谓人工智能指的都是第二个阶段,叫学习智能。学习智能的特点是什么?我并不知道这个逻辑是什么,我把这两件事情放在一起,数据放在一起,然后去学习它们的相关性。我先知道一个大概的方向,把数据堆放起来,通过我所熟悉的算法,把数据调整成一个比较好的结构,再让算法去了解之前计算的过程,所以,这个过程其实就是学习的智能。

      最后一部分叫做残差信息,我不可能把所有的运算逻辑都记录下来,只能把一些部分的东西学习出来,训练不出来的一些智能,就放弃了。

      所以,这两年重要的发展就是使用人工智能算法,通过数据挖掘出原来你看不到或者没有办法用逻辑直接表达,没有解析式的这些深层的信息。这句话可能比较长,大家理解一下,就是这么一个意思,学习人工智能的是很有意思的,它能够研究出来我们以前看不到的东西。

      区块链是什么?不可修改,标准化合约,分布式存储,共识机制,这些都是区块链。首先一点,我觉得要认清区块链的定位。区块链的定位是什么?它是互联网下面的一个子集形式的相对较小的浪潮。互联网是一个持续多长时间的浪潮,50年,甚至大于50年,从一九五几年开始互联网就有雏形,一九六几年的时候出现了阿帕网,然后互联网不断发展到今天,半个世纪以来纵横驰骋。区块链是互联网发展到一定程度后的产物。

      区块链有最重要的两个特点,第一个就是所有人知道所有事。由于它是共识合约,所以每一件事情发生,共识合约都会同步信息。第二,就是抗违约能力,一旦这件事情一出来所有人都会知道,你如果不能抹除它,就不能推翻这件事情,所以它是一个天然的抗违约的方法。我在此刻进行了一笔交易,之后你说我没做过这笔交易,这是不可能的,因为历史上每一个节点都有记录,你就算抹除了自己这片区域的节点,外面的节点也都有这条记录。所以,你想违约是不可能的,如果想要违约,代价是你永远被排除在外,因为所有人都知道你违约了。

      有一句话说到,当区块链发展到极致的时候是什么样呢?你无条件信任接入到区块链的所有人,为什么会产生这个效应?因为只要你违约,大家都会知道这件事情,你的违约信息会同步给所有人,再也别想在这个圈里混了,当所有人都不敢违约的时候,最后的结果就是所有人都会无条件地去信任这个事情。

      虚拟货币带来了很大的风口也产生了一些泡沫,我认为虚拟货币更多的属性是一种数字资产,而并不是一种交易代币,在很多国家和地区都不被承认为有效货币,会受到很多的制裁管理,所以希望大家能够谨慎对待。

      虚拟货币还有一个问题,目前虚拟货币和区块链都是基于密码学无法被攻破的共识基础上交易、运行的,因为它的密码学基础非常完善,你很难去攻破这件事情,计算力是跟不上的。但是一旦量子计算成熟之后,很多虚拟货币和区块链底层的东西就会被瓦解掉,因为量子计算的计算力比现在的计算力不只是大几个量级的问题,可能是几十个量级。这个时候很多底层已经实现共识密码保护的合约,可能会迅速被攻破。所以,它从物理意义上也存在着很多风险,这是区块链的一个特点。

      区块链的价值在于它为行业制定了量化的标准,每一个行业更加数据化,进一步模块化,为交易提供了一个量化原则。我和你原来对这件事情没有共识,现在基于技术和数字之后有了共识,我们可以进行交易了,同时也为产能制定了统一的度量。原来你们家种出10个苹果,我们家种出9个苹果,我说我们家苹果比你的苹果好吃,但是好吃在哪体现,而为什么你的9个苹果卖的比我10个苹果贵,价格高低在哪体现,是没有具体衡量标准的。现在有统一的度量后,这件事情非常重要,为权益提供保护、加密,这是区块链目前非常良性的一些作用。

      生命科学的治疗分三类,第一类指物理类手术,第二类指化学类疗法,第三类指精细化治疗。物理类疗法非常原始,化学类疗法会好一点,但是仍然比较原始,生物类精细化治疗是非常前沿的。在精准化治疗里,我们主要关注几个板块:第一、基因工程;第二、细胞治疗,细胞其实是基因的整体体现;第三、脑神经治疗;第四、生物工程。

      在北京亦庄有一个项目叫百奥赛图,这是一个博士从斯坦福毕业回国创立的公司。这家公司做什么呢?改变老鼠的基因。带有各种各样不同基因的老鼠:有先天性心脏病的老鼠,有糖尿病的老鼠,有冠心病的老鼠,有某种癌症的老鼠等等。为什么要做这个事?大家知道,我们所有吃的药都需要做活体试验,原来这些医药公司去动物园买动物,买的是那些老弱病残的动物,来试这个药,而最后却不知道动物的具体死因是试药死亡的,还是自然衰老死亡的。因此,所有的药厂都需要年轻力壮且只有某一个单一病种的动物进行活体实验,药物的试验结果才能准确有效。这家公司面向这个需求去开展业务,然后从一个很小的公司现在发展成十几亿的估值的公司。

      细胞治疗,其实是基因治疗上一层台阶的方法。第一个是自体免疫细胞疗法,CIK。人的身体里有好几套“警察”,这个“警察”就是你的免疫细胞,有B细胞、NK细胞,还有T细胞,这些细胞会把导致癌症的病变的细胞当做罪犯给杀死。但是如果你的身体调节的不好,病变的太多,导致你的“警察”失效了,或者是出现了“流氓团伙”,干不掉它们的时候“警察”就失效了,也就是你的免疫细胞不好使了,这个时候怎么办?就要借助外力来完成。所以,CIK疗法的意思就是把人体的免疫细胞和癌细胞都拿到体外来进行培养,让它们打1000场架,1000个角斗士,存活下来的免疫细胞进行有效的变异,于是就在体外生成了后代的免疫细胞,这种免疫细胞是“特种警察”,然后将这个“特种警察”大量复制,倍增、扩增生殖,就可以把你的癌症细胞清除掉,这叫CIK疗法。

      在继CIK疗法之后又出现了Car-T与TCR-T免疫疗法,打个比方,你的T细胞是一个标准“警察”,他只有一把手枪,但是在CIK疗法的作用下给他的武器换成火箭炮,就变成了一个升级版的“警察”,这个“警察”就可以把你体内原来干不掉的癌细胞清除掉。这些都是细胞治疗。关于端粒的控制和生物工程等,由于时间关系就不详细展开了。

      今天其实已经讲了非常多的模块,每一个模块其实都是一个历史的循环。有人问过我一个问题,你觉得互联网、共享和人工智能有什么区别?共享是一种应用理念,并不算是一个和互联网及人工智能相提并论的大行业。互联网是一个长达半个世纪,甚至一个世纪的行业,人工智能也是一个非常长时间的行业,而共享只是在互联网和人工智能两个大的浪潮中间的一个小浪花。所以,一定要认清整个历史的发展规律,这个规律背后什么东西是有价值的,这个是最重要的。

      判断价值很简单,降低成本、降低能耗,是否更加智能、更加高效,这就是判断科学和产业价值的方法。