视频观后感:“眉山论剑·香港动乱之于学术研究的新机遇”_风闻
陆苍苔-2020-01-08 08:24
@陈平 大佬新一期的眉山论剑出来后,我很快就看了。
哎,怎么说呢,心里是又激动又犯怵。
然后就忍不住,准备来发我在风闻这的第一篇贴子了。
实话说我看到大佬视频里提的构想时真心是心里一沉,因为感觉大佬的目标实操起来真的很难。
这种建立在数据分析上的宏大构想,和自己在很多项目上遇到的甲方爸爸意气风发的构想都是很像的。
分析大佬提出的目标,除了有些思考所得,但其实更多是想借这机会来吐槽些平日工作中的困难。
结论就是大佬提出的各个构想合起来去实现,工程量会非常的大;很多小的领域可能容易有成果,但最终要全面实现大佬的目标则很难,需要很有规划性地开展工作。
个人建议,除非国家牵头起一个系统性的研究工程,否则只能弄个开源社区去推这个事,走集中资源省钱和发动群众的搞法。
========
个人认为视频里大佬主要的目标就是想做大数据+AI支持下的‘量化司法’、‘量化执法’,抢先利用智能化手段的实践积累和理论研究,在国际上占据司法和治安的标准制高点和理论制高点。
依我个人经验大概地判断,感觉要达成这个目标,工作方向至少就有:
动态目标检测 +舆情分析 +GIS +时序数据的数据挖掘 +对各国司法的法条或法例进行数据比对分析;
最后再融合起来,形成一个能相互辅助的综合性的系统,期间还产出无数的理论和技术研究成果。
所以大佬会把香港动乱称之为学术研究的新机遇。
--------
大方向来看,治安就不多说了,国内肯定是世界前列的,而司法上则还有很大的进步空间。
大佬的思想当中有很强烈地追求‘量化’的理念,将其结合在治安和司法上是非常有趣和可为的。
第一反应感觉大佬这种‘量化目标’所考虑的要素和思考的方式,非常像二级市场上那些依靠多因子决策的‘量化交易’的研究。
不过量化交易往往都是好想法很多但是落地挣钱的少,一到实盘就没法上规模使用。
但机构用户仍然非常期待,一直在推,最早AI刚出来的时候就在试图把AI和量化交易结合起来用了。
所以不得不说,量化的思想是非常动人心的。
建议不了解的朋友可以动手查查,那些金融资本为了把投机这事情玩到极致,在这上面有多大的投入,从BI时代到AI时代一直都是最敏感最紧跟技术潮流且资金充沛的尝鲜者,方方面面的尝试,多少精英人才在上面最后都还是折戟沉沙了。
他山之石可以攻玉,虽然量化交易最后能挣钱的少,但很多研究成果却很有价值,是可以现成拿来参考的。
另外除了金融行业的经验,其实AI技术与司法结合国内是有这方面的尝试了,中南财经政法大学还弄了专门的人工智能联合实验室,记得各地法院也都有试过AI进庭审的新闻。
但这些尝试毕竟还只是单纯的庭审辅助系统,依我的个人工作经验新闻里法庭上跑的程序,估计实际起作用的判断机制更多的会是类似于BI的专家规则,而非AI训练出来的模型。
--------
但具体再回到陈平大佬的构想上,要技术实现那就更加复杂了,还不像庭审那样AI只考虑在法条上形成辅助判断即可。
粗粗一看各环节同样都是些在数据分析和AI的大框架下的工作,但细品下来具体方向的跨度都是非常大的。
舆情分析这是要走NLP和爬虫的工作的;目标检测则是走图像类的;后面时序数据则是数据挖掘类的;法例法条则要行业专家的深度介入,判定肯定会高度依赖专家规则,还会涉及到多语种人才的招募;
相对来说GIS的建设反而是比较成熟和传统的软件开发工作了,但绕不开数据收集工作;
另外,我不太了解法律专业,我知道文学上是有‘比较文学’的,那么法律上的‘司法比较’的研究不知道具体会是叫什么呢?不知道会不会是些meta分析。
每个环节单独拎出来都是有一定难度,并且是工作量非常大的事情,更别提整合起来一起做了。
其实难度都是次要的,最关键是工程量大得要命。
这事情打个比方就像说很多山珍海味之所以稀有珍贵难吃到,其实往往不是厨房里加工的技术有多困难,而是食材的准备和采集会非常困难,会要耗费大量人手和精力。
要实现大佬的构想,根本就是一个系统性的工程,就绝对不是个人或工作室这种实验室级别可以完成的工作量了,虽然达不到工业级,但必然也是企业级的工作量了。
要支持一个团队去完成这个工作,涉及的人才资源,还有维持团队展开工作的资金投入就会让人望而却步。
别的不说,AI相关人员的薪酬水平就是不菲的,更别提硬件上GPU、CPU要支持团队使用的采购成本。
--------
接着要开始吐槽工作实践中爬过的各种坑,AI相关的工作中最大的拦路虎其实是数据采集的工作。
首先很多数据根本就不是在公开的网络情况下可以收集得到的,其次采集到的数据要加工成可以使用可以拿来训练模型的程度更是一大堆的坑等着你跳。
很多时候费劲千辛万苦,动用人脉资源打通了关系弄来了数据,然后发现测点压根就是无效的,或者是数据存储的质量是有严重问题用不起来的,数据质量问题是我们这些数据分析工作者生存的天敌。
传统的大数据处理里面,胜任数据治理的工作的真心是像老中医一样的存在,都是靠经验熬出来的。
然后数据采集回来后,数据的标注、加工和分类,一开始都是要靠人工去做的,都是消耗大量人手的。
再然后,数据的分布很多时候还是不均匀的,不均匀到让你根本无法展开工作的程度;
譬如训练模型去做异常识别的时候,往往数据里就是正样本一堆,负样本却一个也没有;
再譬如,你训练模型要识别数据集中某个类别的目标,数据集的数据量看起来很多,但实际上目标类的数据的数据量却根本支撑不起训练;
尝试去生成数据更是不靠谱,GAN来GAN去,别说训练出来的东西会不会过拟合,生成数据训练的模型放在真实环境下能不能有效本身就是个很拷问自己灵魂的哲学问题;
当你摆平了一切数据上的问题,你以为就会万事大吉了么?不可能的。
陈平大佬总是在吐槽,经济学是种炼金术Alchemy,不是科学Science,其实AI也是一样的。
算法和网络结构的选择还可以说有些理论和经验上的讲究,那么调参一类的工作真的就是和炼丹一样,是玄之又玄的了。
这种情况估计在材料学的研究中也会遇到,很多成果你觉得似乎是可以用理论分析出来的,实验中少走弯路的;但实际上很多成果不是理论分析出来,而是不同的配方排列组合,穷举试出来的。
身跨金融和AI两大热点去研究量化交易的那些菁英们,大部分就是被困在各个因子的排列组合这种玄学中,把自己的发量给燃烧殆尽的。
--------
感叹了数据工作上一大堆难处并不是抱怨事情做不了,而是这些都是真真实实在工作上面碰到过的情况,情不自禁地就头疼了,真的因为是太南了啊!!
必须肯定的是大佬有一点说得很对,构想的目标确实是个广阔天地,如果有机投进去认真耕耘确实大有可为。
但要最终整体实现的话,真不能以个人或是小团体为单位能来研究。
个人想法,大佬可以出来牵个头,弄个开源社区或者工作站来汇总大家的成果;
先提纲挚领把总目标分解成一个个有待人们研究和填补的具体问题和具体工作,罗列出来再按方向划分好板块;
这样大家就各自找自己力所能及的板块,互相也能交流避免重复性的研究,最关键是数据和资源可以共享;
然后招募或者遴选出各板块中专业过硬的人去主持该板块的管理工作,大佬这边来统领,定期召集板块负责人来复盘推进总体进度,以及根据实际问题重新调整板块划分等;
当然还要考虑,开源社区最大的问题就是产出的质量和进度难以保障,普通参与者还可以靠兴趣业余参与贡献,但一般会需要管理人员的全职投入,好处就是省钱,可以发挥大家的力量和聪明才智,坏处就是遇到硬核的工作只会吆喝动静大成果进展小。
其实在B站的这期视频底下,我观察到已经有人开始拉Q群,组织大家去‘交作业’的,很快一个群两个群的都满了,很有开源社区的那种气息在里头。
但这不够的,以后肯定还会有大量的数据资源需要被汇集,需要有服务器去同一的管理去存储,需要有门户有论坛给大家分流和交流,Q群只会是辅助的一直存在。
最后关于牵头的问题,最好还是由陈佬出来或者陈佬钦定一下,正儿八经当回事经营为了才好前进的。
如果大佬能号召到国家去开展项目系统性地推动相关研究工作,那就更加是稳了。
--------
以上叨叨絮絮了这么多,算是自己的一点想法吧,希望能对大家有参考价值,有什么不妥不对的地方一定要指出,欢迎并感谢指教批评。