Chp 3.3 学术还是工业 (第三章完结)
上一节说到在 SFMoMA 闲晃碰到的特展 Designed in California 。它的截止日期是2018年5月27日,希望我写完的日期不会超过它,这样在湾区的还来得及去看一眼。
一层层上到 SFMoMA 的六楼,看见一间五十平米左右的屋子,陈列着熟悉的数码产品,们。相对中国动辄好几百年的历史,展品的年代从上世纪六七十年代开始到现在,不过短短五十年。那正是计算机开始蓬勃发展的年代,我从知道 ENIAC 这个名字到亲眼见到它的复刻版本人跨越了十六年。当然这个展厅很小,没有放得下它,而且它也不是加州设计。
什么是加州设计,我觉得是一场 Digital Revolution,一场将科研成果快速运用在工业,然后像消费者推广的 Revolution。以前看过一本书硅谷百年史,介绍了这儿技术的演化、公司的兴衰。做实验缺一个配件,去问 Stanford EE 的一个实验室老师,
He asked: “where do you think is silicon valley ”
“Palo Alto…”, I said
“OMG…please drive to Santa Clara and find out the BNC to SMB connector”
可能因为我是一个苹果的粉丝,但是我不这么认为,因为最近很喜欢 G Suite。可能我去看过 Steve Jobs 的墓地,看见那个手里拿着一只苹果、穿裙子的女孩儿,如果有颜色,那应该是红色,
当我去到 2040 Walsh Ave, Santa Clara, CA 95050 Anchor Electronics ,看见巨大仓库里的种类繁多的电子配件,心想,this is Silicon Valley,不是 Stanford 不是 Apple 也不是 Tesla,就是「硅」晶体和它的伙伴们。
思绪拉回 SFMoMA。电池、投影仪、电脑,这样的「加州设计」对数码爱好者并不陌生,但是在展览的一开始,首先映入我眼帘的是这样一个似乎可以用来折纸的「玩具」,而右边是它组合好的样子,一个纸眼镜:
瞬间,我想起来很久之前在 TED 看到的一个视频:Ted Foldscope ,视频里演讲人说用一美元成本制造出可以折叠的显微镜,目的是帮助非洲人民观察细菌。
Microscopy for All
显微镜是实验室的科学家最顺手的观察工具,看清细菌的结构和种类,研制出抗菌产品等等。但是实验室的东西都是非常昂贵的,比如我们实验室一台 NKT 的超连续谱光源就是 20万人民币起跳,采集相机和采集卡加起来也是好几万人民币。随着材料学科的发展,类似高分子有机硅化合物 PDMS 降低了成本,丰富了应用场景,也催生出一类专业 Low Cost Consumer Devices。Foldscope 就是其中之一。
更有趣的是这个 Foldscope 纸板在我办公室的实验台就有一个,还是 Stanford Bioengineering 教授 Manu Prakash的发明1。于是,我就动手花了半小时不到做出来这样的成品,
- Step 1 沿着虚实线折纸
- Step 2 拼装三个部分
- Step 3 插入廉价透镜和细胞切片
最后,我关掉灯,用手机的闪光灯照亮 Foldscope 的透镜,使它在墙上投影,视场不稳定,但是能看见微小的结构,但至于能不能判断疟疾,我就不太清楚了。对生物组织的成像,难点在分辨率受到光学显微镜的衍射极限的限制。种种光学类超高分辨的方法,都在设法突破或者绕过衍射极限,比如 OCT,就是一种用「光学切片」提高空间分辨率的成像方法,其中的关键则是缩短「相干距离」,这对光源的要求是带宽要宽,尽管普通卤钨灯可以成为候选,但是它的波段主要在可见光 500-600nm 范围,对生物组织的穿透不如近红外光深,但由于材料的局限,带宽宽的近红外光源就非常贵,例如 NKT 的超连续谱光源。依赖高精密仪器的显微系统显然不适合低价市场,Foldscope 为了降低制作成本,使用塑料透镜,这是科研的另外一个方向和领域。一直以来,Foldscope 的发展也并没有停滞,从 2010 年的原型机到今年大范围出售,它已经走过了8年的时间,
最新的 Foldscope 长这样,
增加了刻度线,更精确的定位纸盒的位置。镜头看上去也更像显微物镜。而且 Prof. Manu Prakash 本人也没有停止 Low Cost Devices 的探索,最近还研制了不到两美元的离心机,其构思来自小时候玩过的纸飞盘,中间穿孔由一根绳子折叠穿过,以一定的速度拉细绳,中间的纸飞盘会快速旋转。
童趣无价,科研也无价。
AI for Microscope
近期,Google 在 Cell 上发表了一篇对微分干涉像差显微镜的图像进行数字荧光标定的文章。核心思想是取代对生物组织的荧光染色,利用深度神经网络算法对微分干涉差显微结果进行分析,在图片上用荧光标记出原本生物组织染色的结构。同一时间 Google 还发表一篇叫 AI Microscope 的文章,将 AR (Augmented Reality) 增强现实运用在显微镜中,试图帮医生快速找到癌症迹象。跟上篇文章不同的地方在于,它是在 HE 染色切片的基础上进行的,染色切片的结果是病理科医生就可以识别的,或者说就是他们的任务。Andrew Ng 的 ChexNet 想取代放射科病理医生对肺部的诊断,那么 Google 想取代更多。
针对第一篇文章,我在自己的电脑上尝试复现它的结果。但在最后预测的过程,这台 Early 2015 MacBook Pro 的运行速度太慢,而在 GitHub 上的开源代码中提到:
After 50,000 steps, which takes about a week on a 32-core machine, predictions on the eval data should have substantially improved.
预测的那一步,MacBook Pro 运行六百多步用了 36h:
「等实验室有条件还是买一台 GPU 好点的工作站吧」我想。
其实可以退一步,AI 到底能预测什么。从我的角度看,AI 是想接近一个规律,一个编写算法的程序员也不知道的规律。通常用方法解决问题的时候,最本质的是它的物理意义,比如现在的显微镜观察细胞,获取光源入射组织和反射回来光的分布,再解构,这是它的物理意义。那么 AI 的物理意义是什么呢?它的内核是一条数学法则,比如最小二乘法和收敛,这是最简单的预测;贝叶斯分类器,内核是贝叶斯定理计算出的概率;比如支持向量机,我理解是根据很多数据,预测(计算)一条分割线,将两组数据,比如良性肿瘤或者癌症组织分类。
计算工具是一条数学法则,内核是预测。首先估计或者粗略估计一个结果,根据数学法则计算出的数据跟阈值的差别,差别越小则根据趋势继续靠近,差别越大则反向背离运算。说白了,我觉得是猜,但是不同人对股票的猜测也大相径庭,股票经纪人比你更有经验而已,他们则是被训练好的机器。所以,它没有物理过程,也就没有物理意义。内核是数学家早就整理好的函数,也就不知道它在预测什么。程序员负责的则是搭建预测过程的框架,他们知道的是哪一类机器适合来训练哪一个数据集,也许有一个更包容性的机器,可以来选择机器。这也是AI「有意识」的表现。
无论是 Google Research 本身还是它收购的 DeepMind,在科研领域发表文章的速度和水准已经超过很多在校实验室。Peer-review 这个审稿机制是人对人的筛选,而现在发表的文章只是通过人来发表,训练数据的「科研」过程则是机器来运行的,而且例如它在 Cell 发文章,我认为是不太合适的,比较合适的还是计算机行业的国际会议,他们训练出来的结果,比如给DIC 显微图像进行人工标记,很难评价这项工作,这算是图像处理还是对生物细胞的进一步探索?
我不知道。但是,当我跟高老师描述这篇文章的时候,高老师说,那它只是一种标记。
学术还是工业
上面两个分别是我认为的「从学术走向工业」和「工业创造学术『顶峰』」的例子,是以我比较熟悉的显微镜为故事背景。「从学术走向工业」是将科研成果大范围扩散的过程,基本上高校实验室都是希望走这一步,但同时也害怕被横向项目牵扯太多精力,而对科研的进一步深入有所阻碍。「工业创造学术『顶峰』」,尤其是在大数据时代,工业界的数据获取能力要比实验室广泛得多,因为你的每一次搜索都是 Google 的数据。
真正做得好的实验室,比如 Prof. Manu Prakash 和 Google,都是走出自己的传统擅长,开拓边界。
总结
第三章介绍我在美国感受到的学术和工业界,和一些想法。
- J. S. Cybulski, J. Clements, and M. Prakash, “Foldscope: Origami-Based Paper Microscope,” PLOS ONE 9, e98781 (2014). ↩
Comments
So empty here ... leave a comment!