当前位置:首页 > 百科 > 正文

人工智能 聋哑人(聋哑人工作)

是什么让这位 90 后清华学霸,放弃华为工程师的高薪工作,转而来到高校做老师?

虽然大厂高薪有时不免和 996 挂钩,但在每年动辄上千万毕业生就业压力之下,能进大厂的注定是 “少数派”。可陶璐琪偏不,他渴望的 “少数派” 是做科研,也正是在华为的经历,坚定了他做学术的决心。

人工智能 聋哑人(聋哑人工作)  第1张

图 | 陶璐琪(来源:受访者)

在华为时他主要做麦克风和听筒等手机音频器件,假如一款手机因为听筒收到 2%-3% 的投诉,华为会让供应商送来一批听筒,陶璐琪要做的是,通过 X 射线解剖这些耳机,并用显微镜找出问题。工作并非没有价值,但却让他觉得略显机械化。

当时,重庆大学电气学院新成立了协同创新中心,他师兄是里面的执行主任,并且当时重庆大学也有一个 “百人计划”,最终陶璐琪从深圳转到西南,借此机会申请到重庆大学特聘研究员的岗位。

华为的待遇虽然比目前在高校的待遇更优厚,但他还是更喜欢做探索性研究。自由的科研空间,是重庆大学对他的 “致命” 吸引力。

人工智能 聋哑人(聋哑人工作)  第2张

图 | 正在做实验的陶璐琪(来源:受访者)

“狗说的你能听懂么?”

事实上,做科研的满足感要从陶璐琪在清华读直博说起。

有一次,他给师弟师妹介绍小组代表性工作,提到了他的师兄田禾研发的石墨烯狗耳机,他说这款耳机能把人类指令传递给小狗,小狗听到指令后能做出站起或坐下的动作。

这时,一位师弟问他:“那狗说的你能听懂么?”

这个问题让他陷入了思考,不管谈话对象是动物还是人类,只要 TA 用的语言不是自己的母语,我们就根本听不懂。

同样,聋哑人虽然也能发出“嗯嗯啊啊”的声音,但毕竟不是一种可以被解析的“语言”,那么能否做一个翻译器,去翻译聋哑人发出的声音呢?

而石墨烯人工喉的想法,也正始于这次意外谈话之中,后来人工喉也成为他在清华期间的代表作。

当时在清华大学微电子所教授任天令的带领下,陶璐琪担任一作的论文《具有声音感知能力的智能石墨烯人工喉》(An Intelligent Artificial Throat with Sound-Sensing Ability Based on Laser Induced Graphene)发表在《自然 - 通讯》上,这也是他在清华读书期间发表的 11 篇一作论文中最出色的论文之一。

人工智能 聋哑人(聋哑人工作)  第3张

图 | 相关论文(来源:受访者)

在用激光制备石墨烯的过程中,他们发现石墨烯具备良好的声学性能,给其加上信号后,它就能像扬声器一样发出声音。

比如,把一首歌的信号转成电信号,施加给石墨烯之后它就能播放音乐。后来在调节石墨烯的制备厚度时发现,当厚度特别薄的时候,随便有点风吹草动,石墨烯的电学信号就会受到影响,这看起来这是一种干扰,但通过给石墨烯施加不同的力,会产生有规律的电学信号。

人工智能 聋哑人(聋哑人工作)  第4张

图 | 人工喉示意图(来源:受访者)

当把很薄的石墨烯薄膜放在喉咙上,薄膜就能检测喉咙处微弱的震动,且能把这种震动对应成各种声音。基于这一特性,他们提出了石墨烯人工喉概念,并成功制备出相关实验室产品。

关于其中原理,他最近对媒体表示:“聋哑人士虽然不能说话,但是喉咙可以震动,把这个(石墨烯材质的黑色薄片)放在喉咙外部,我们可以检测喉咙的震动。震动检测出来以后,第二步就是识别不同的震动,再把它转换成一种聋哑人士的‘语言编码’。”

聋哑人的 “嗯啊” 声可转变为规律性声音

制备中,他们选择了一个低成本的便携式激光平台,并采取激光直接书写技术。其中,把 PI(Polyimide Film,聚酰亚胺薄膜)膜位于 450nm 的激光器下,通过激光器的直射转换成激光诱导的石墨烯。

比如,把清华大学的标志和一个 6 厘米 x4 厘米的矩形输入到计算机控制软件中,就可在 PI 膜上产生相同的图案。基于此,陶璐琪用一个简单矩形激光诱导的石墨烯作为人工喉。

人工智能 聋哑人(聋哑人工作)  第5张

图 | 人工喉制备(来源:受访者)

声音收发一体化,是石墨烯人工喉的最大特点,它不仅能接收声音,还能发射声音。人工喉主要包含发声器件和收声器件,收声时利用石墨烯的压阻效应,发声则基于石墨烯的热声效应,如此便实现了单器件的声音收发同体。

具体来说,当利用信号发生器在石墨烯上施加交流电压时,周期性的焦耳热会导致空气膨胀,从而产生声波;当对石墨烯施加低的恒压直流偏置时,喉绳的振动会导致石墨烯电阻发生变化,进而产生电流的波动。因此,人工喉可以同时作为声源和探测器来工作。

此外,人工喉内部拥有对压力非常敏感的多孔结构,因此能感知喉咙发声时的微弱振动,聋哑人发出的特殊声音也因此可被识别。它能发出 100Hz-40kHz 的宽频谱声音,可将聋哑人的声音转换为强度可控的规律性声音,进而让聋哑人 “开口说话”。

具体来讲,当人工喉在检测喉咙震动的时候,它会听到聋哑人喉咙处发出的 “嗯嗯啊啊” 的声音,通过将这些声音和预先录制好的语言库建立一一映射关系,就可以将聋哑人喉咙的无规则振动、转变成预先录制的语言,比如 “今天天气不错” 等等。

人工智能 聋哑人(聋哑人工作)  第6张

图 | 对扬声器对不同声音的响应(来源:受访者)

与传统的声学换能器相比,人工喉的工作机理主要是利用热声效应和压阻效应。当作为声源工作时,人工喉可以产生频率从 100Hz 到 40kHz 的宽带声音;当作为声音检测器工作时,人工喉可对不同类型的声音和喉部振动模式表现出独特的响应,它还能识别咳嗽、哼哼和尖叫等其他动作导致的微弱喉咙振动。

这是因为,咳嗽、哼声或尖叫会引起喉带的振动,这些声音被人工喉检测到以后,也会相应地产生可控的声音。因此,人工喉可实现从无意义的声音、到可控的和预先设计的声音的转换。

大多数哑巴的人天生就是聋人,他们虽然不会说话,但是喉带可以振动,并能以自己的方式发出声音,但这对正常人来说这是毫无意义的。而人工喉可将无意义的噪声,转化为可控和可理解的声音信号。

测试中,志愿者需要首先接受培训,当他们产生特定的咳嗽、哼哼或尖叫时,可以先用手势语言告诉他们相应的意思。然后,志愿者可通过一定时间的重复训练来适应声音强度,这一培训过程和将指纹导入 iPhone 的过程很相似。

可以听声音的人工喉

除了作为声音探测器可以发声之外,人工喉在检测声音时也有良好的响应,研究中陶璐琪将 25mm 的 PI - 激光诱导的石墨烯用两个卡子独立固定,并把扬声器放在位于距离人工喉部 3 厘米的地方,对鞭炮声、牛叫声、钢琴声、直升机声音、鸟叫声和鼓声进行了音频测试。

测试发现,不同单词的波曲线具有明显不同的特征,这有助于区分不同的单词。此外,不同人发音的同一单词的波曲线具有相似、但不相同的特征,因此这可能是通过语音识别进行身份认证的关键因素。

人工智能 聋哑人(聋哑人工作)  第7张

图 | 人工喉相关示意图(来源:受访者)

但即便如此,人工喉距离应用也还需要努力,因为聋哑人并不知道怎么把喉咙振动和特定语言联系起来、才能对应出相应信息,这需要一个漫长的学习过程,反而不如手语这样已经成熟的语言系统。

不过,这也是陶璐琪继续搞学术的动力。当初为了研究人工喉,他一年做了 50 组实验、阅读了 1200 篇文献,即便如此实验进展依然很艰难。

做人工喉要求环境非常安静,而他当时所在的实验楼下面是清华微纳加工平台,里面发出的排风噪声让他根本无法做实验。

他说:“好比身边站着一群大妈在跳广场舞,还放着凤凰传奇的音乐,(对于做实验的)杀伤性比当时流行的勒索病毒厉害多了。”为此,他隔一两天就拉着 60 斤重的设备,跑到十几公里外的北京 798 艺术区的一间消音室做实验,一做就是大半年。

最近,陶璐琪获评为重庆市 “青年拔尖” 人才,这是他进入 30 岁以后的一大殊荣。这位出生于山东威海的 90 后科学家,本科就读于省内,博士北上就读清华。

而当老师做科研,也给了他更多的责任,他会要求学生和他一样健身,每周健身打卡三次坚持满一年的学生,陶璐琪会给其报销健身卡费用。

人工智能 聋哑人(聋哑人工作)  第8张

图 | 陶璐琪(来源:受访者)

谈及未来,他表示将加强与医疗机构的合作,探索传感器在医疗健康中的应用,响应国家 “健康中国 2030” 战略的要求,推动科研成果从基础研究向实践应用的转化。

不少看过他的此前报道的读者,都成了他的“颜粉”,但其已经成家,不过他说欢迎报考重庆大学的硕士或博士。