正面评价:@季逸超 团队的工程能力非常强,少数几个人在一年里可以搭起来可用的demo,水准不输于我见过的任何一个优秀的工程师。有这样高效的团队,相信往后会越来越顺利。配毁源知识图谱的构建和应用也会是文本相关的各种任务上下一个增长点。Google花了很大力气在做,M$也是,学术界对这方面的关注和投入也在持续增长。我相信往后的几年,即使是这块没能出现类似Uber, Airbnb这样的颠覆型产品,起码能把我们日常使用到的各种工具,例如搜索,siri等,的效果提升到一个新的级别。最后,Maji找准了国内这块市场的空白,抓到了很好的切入点,原先团队的积累也让Magi在资本市场上一帆风顺,最后这个问题和36氪的PR(宣传)也做得很好。例如和PR成功案例,watson,的联系,以及各种超出科研基金申请报告中描绘的科幻远景。这些都是每一个有志创业的年轻人需要思考和学习的。总之,我觉得magi能成功,以后如果没有被Baidu抄了去,就会被Baidu买了去。我猜会倾向于买了去,毕竟Baidu自己从头开始做,要花的人力成本也不低了。国内也很难找到对应的人才。同时也有很多怀疑余态:疑惑1:是demo里的那些长query(搜索词条)。长query得理解是非常非常难的问题。更不提理解中文的这种毫无固定格式的问句了。demo中出对几个复杂长query出一些好结果很简单,真正应用做的好么?去试了插件的demo后,我觉得做不好。从demo的效果反推的技术来说,离真的做好demo中提到的那类长query,我个人感觉不是量的差距,是质的差距。为什么?类比的话,Watson无数工程师,不差钱的IBM毫无业绩要求的完全当做一个PR项目来做,目的就是为了Jeopardy。才能对英语这种,有W和H的显示问培态句意图表达的语言,且是Jeopardy固定格式的问题,能够做到比较好的效果。这个过程大概花了5年。除了有很多QA领域的专家以外,还有很多工程师的hard code提效果。而Watson至今离真正商用遥遥无期。我甚至不觉得watson可以真的商用。(我个人对QA的感觉是往后这个东西会真的商用,做到满足大多数日常问答需求。但这个过程可能要5年起步。而且这件事情可能发生在Google,可能在Apple的Siri,也可能是MSR先有paper,但是如果是IBM,我会很吃惊。)如果Magi能够做到demo中显示的长query的分析效果,甚至不需要做其他的任何事情,就可以有大概让两位创始人一起高科技人才引进的Eb1A类绿卡这种级别的论文,然后也可以被Google,IBM或者Baidu二话不说的收购。所以我觉得要么是Magi的团队是不世出的天才,一年时间,没有用户训练数据,几个人,还是中文,可以做到demo里长query的效果,要么这个就是为了PR目的的夸大。疑惑2:Magi所谓的自动从非结构化信息中抽取知识图谱。Magi主页上写的是:Magi 日益增长的结构化数据库中目前拥有950个大类3300个子类的2100万个对象, 囊括从电子游戏到天体物理、从AV女优到美国总统的方方面面信息, 并抽象出了超过1亿6000万条事实的知识网络这个效果非常惊人。非常惊人。非常惊人。(重复表示强调)惊人到什么程度呢?如果这是真的,这950个大类,3399个子类,2100万个对象都是真的可用级别的话,那么:1,创始人把这个写出来可以拿任何一个相关领域顶会的Best Paper,会成为Information Extraction领域的新的明星。类比:Open Information Extraction和我们学校的NELL是比较有名的自动从非结构化信息抽取知识图谱的工作。前者是University of Washington at Seattle的,后者是CMU的。两个组光做这两个系统,都做了超过5年。CMU的直接是机器学习系的系主任领头,抓取和分析程序几年来没有停止过,但是还是做不到Magi的1/10的级别,噪声也特别多,尚未达到可用级别。数量和质量都不如直接用Wikipedia的dump。而Wikipedia的对象大概有多少呢?500万左右。2,Google或者MS会直接愿意买,别的什么都不要,就只是这个系统。类比:Freebase Freebase (需翻墙...) 是知识图谱里最好用的。2010年Google花了大价钱买了下来。花了多少钱没有公布,但是Freebase之前已经拿了$57M的融资,Google花的钱应该是这个的两倍起,那就是一亿美金往上。Google买了下来之后花了很多人力去提升Freebase的质量和数量,还有社区的贡献,自动和非自动的方法都上了。4年之后,Freebase的量级是多少呢?3700万个对象,5亿的事实,77个大类和几百个小类(具体没有数了)。而这3700万个对象里面,可用的部分,即信息全面,有名称,文本描述的有多少呢?还是500万。这是Google和我们组合作发布的网页实体标注里用到的对象集的大小。而且,这些统计都是英语。所以如果Magi主页上宣传的是真的,那么几个人,一年时间,通过在已有的Wiki,百科之类的地方之外,在中文这个比英文更难得语言上,做出了超过Google花了$57M以上收购,并作为下一个核心增长点耕耘了4年的Freebase的效果。同时,甚至可以说Magi凭借几个人的力量,解决了中文分词剩下5%的问题里的一大半,从此中文分词甚至可以说是一个solved problem。众所周知现在分词95%的情况下已经可以做到非常好了,剩下的5%是罕见词的问题。而这里面绝大部分是命名实体,也就是所谓的对象。而2100万的命名实体是什么概念呢?一般中文分词能够切分出来的词的数量,大概在几十万的量级。在这几十万的基础上,一下子加了2100万的命名实体,想必从此之后:任何一家中文信息处理公司都基本不用再为分词担心,所有在线广告可以直接通过这2100万的命名实体效果提升一个量级,所有中文输入法不会再出现需要一个个选单字的问题,不需要再选择download神马行业词库,只靠这2100万,似乎就够了。如果这些都是真的话:跪求公布数据... 跪求深度合作... 跪求不要卖给不开源的黑心大企业。同时真心为我的怀疑道歉,并求Magi给面试机会......为了人类文明的进步,前进!前进!前进!
相关文章
-
林觉民的后代情况怎么样了?
2023-03-09 06:48 阅读(78010) -
黄渤拆弹的电影叫什么
2023-03-04 19:30 阅读(52609) -
微信官方客服电话95188人工服务
2023-03-17 14:30 阅读(30415)
1 和儿子做了不该做的事
28229 阅读
2 《庆余年》txt下载在线阅读全文,求百度网盘云资源
28174 阅读
3 朝鲜面积相当于中国哪一个省?
25669 阅读
4 王冉结过几次婚?
21227 阅读
5 钟汉良承认过的女友有哪些
19784 阅读