数据挖掘研究生论文-专访数据挖掘领头人韩家炜教授:不要迷信权威,做学问要秉承「三个真实」
由中国人工智能协会、深圳市罗湖区人民政府主办的“CCAI 2018中国人工智能大会”于7月28-29日在深圳召开。
作为大会第二天的嘉宾,伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机科学与技术系韩家伟教授分享了“基于海量文本数据提取结构化知识:数据, , and 》 挖矿领域的相关研究。
韩家伟认为,要让现有的非结构化大数据发挥作用,首先要做的就是将数据结构化。他提出了两种形式的结构化数据,一种是异构网络(),另一种是多维文本立方体(-Text Cube)。从这种结构化数据中生成已被证明是非常强大的,但是如何将原始的非结构化数据转化为结构化数据(或 Text Cube)是非常困难的。
在/Text Cube的问题上,韩家伟等人做了大量的研究工作,并获得了很多奖项。他们在从非结构化文本数据到结构化/Text Cube的道路上也做了很多尝试和成果。.
会后,雷锋网人工智能技术评论与韩家伟教授进行了交流,探讨了他的学术理念和数据挖掘。
韩家伟,伊利诺伊大学香槟分校(UIUC)计算机科学教授数据挖掘研究生论文-专访数据挖掘领头人韩家炜教授:不要迷信权威,做学问要秉承「三个真实」,IEEE和ACM,美国ARL资助的信息网络联合研究中心前主任。担任KDD、SDM、ICDM等国际知名会议程序委员会主席,创办ACM TKDD期刊并担任主编。在数据挖掘、数据库、信息网络等领域发表论文600余篇。出版数据挖掘专着《数据:与》,成为国内外数据挖掘的经典教材。曾获得IEEE ICDM 2002杰出贡献奖、ACM 2004最佳创新奖、2009年IEEE 奖(the)。
以下是雷锋网人工智能技术评论与韩家伟教授的访谈汇编。本文已由韩家伟先生亲自更正,在此表示衷心的感谢。同时特别感谢贾伟对本文的贡献。
数据挖掘本身的领域就比较广泛,主要体现在以下几个方面。
首先,数据类型很多。数据中既有结构化的、相对简单的数据,也有非结构化的数据,比如文本数据。不同的数据和不同的应用需要不同的方法来挖掘它,所以有很多方法可用。数据挖掘本身已经发明了很多算法,然后必须应用一些统计方法或机器学习方法。
其次,数据挖掘的相关课题很多,属于一个比较开放的领域,应用的方法也比较广泛。换句话说,我们主要考虑方法的适用性和有效性,即对于大量数据是否能更快的挖掘效率。所以,我们不拘泥于某些固定的方法,只要抓到有效的数据,就是最有效的方法。
在一定程度上,数据挖掘可以帮助我们更好地了解或了解世界。但最大的不同在于,有些研究可能只要做一两个实验就可以找到一些规律;而数据挖掘是基于数据量非常大的假设,规则不是很明显。,然后我们会从中寻找一些对应的规律。
目前,数据挖掘领域有很多方向值得研究,但从我们团队的角度来看数据挖掘研究生论文,我们需要解决一些更大、更普遍的问题。因此,我们最近的方向是挖掘出相应的非结构化文本。结构体。
1979年中美建交时,我赴美攻读研究生。当时,中国基本上没有计算机系的大学。出国留学的中国人基本上是从零开始学电脑的。那时,我正在学习数据库。
从整体环境来看,数据库是当时一个非常热门的研究方向,很多公司都在使用,而在技术上,关系型数据库已经是一个比较成熟和产品化的系统。
从研究的角度来说,我的主要研究方向是扩展数据库,当时被称为(演绎数据库)。应用专家给出了相应的规则并开发了一些方法来寻找一些新知识。如果你想把数据变成知识,或者让数据真正有用,人工智能的作用还是很重要的。所以我博士的研究方向其实是数据库()和AI的结合。
但是后来我发现,因为规则是由专家定义或制定的,所以实际上是有局限性的,不能真正从数据中挖掘出相应的信息。于是,改变“从数据中找规律”的研究方向的想法应运而生。,并在毕业后教学期间,考虑从数据挖掘的角度寻找相应的知识和知识。
当我第一次意识到数据挖掘的重要性时,并没有多少人关注。以前做数据库的人和以前做机器学习的人,还在各自的领域做研究。那个时候,除了我,是一片祥和。这少数人是当时的权力中坚力量。
最早的KDD始于1989年,当时是其附属公司之一。只有20到30人去过那里,一半的工业界和学术界。最后大家都觉得数据挖掘是一个很好很重要的方向。后来我们再开这个,参与的人越来越多,最后我们决定在1995年举办第一届KDD()。
我个人的感受之一是,在 90 年代初期,来自中国乃至亚洲的论文很难被顶级会议接受。有一两篇论文会很棒。但是现在的情况已经很不一样了,即使是来自北美或欧洲,很多都是中国学生写的。仅仅20、30年过去了,情况已经不是以前了。中国人在科学研究中的作用已经成为一支重要的力量。
这种变化主要是由于每年有很多中国学生出国留学。一个国家要发展,就必须与世界其他国家交流,相互学习先进的东西。在美国大学做科研的中国学生也更聪明、更勤奋。他们实际上为美国的科学研究增添了很多力量。同时,在完成学业后,也有不少中国学生在北美和欧洲任教或从事科学研究,时不时返回。国内交流或者讲学,这种交流本身就促进了新一代学生的培养。
不过,中国学生和美国学生的不同之处在于,前者可能有更多的就业和未来规划方面的考虑,而美国学生更可能是基于兴趣攻读博士学位,而且大部分还是有钻研技术的精神。
我在辅导学生的时候,给学生总结了一个“R”(三个真理)。什么是“R”?
第一个是真实数据。很多人只是抓取少量数据并进行操作。我告诉我的学生,如果你想解决真正的问题,你需要找到很多真实的数据来做,这样你做的算法才能产生影响。
第二个是真实的。是找到很多在实践中被认为重要的人或问题,而不是坐在办公桌前拍拍脑袋想出的不切实际的问题。
第三个是真实的。你所做的工作必须是真正的工作。
所以,如果同学们真的能按照“R”找到数据挖掘研究生论文,最终的工作才会被认为是比较成功的,也就是说,他们是真正实用的、真实的数据。别人看的时候,也觉得这些数据和问题很重要,不是凭空捏造的。从。
从研究的角度来看,也是如此。
首先2022-2023,你仍然需要找到真正的、未解决的问题。例如,无法获得的数据挖掘研究或其他真实数据,那么这项工作既不真实也无用。
其次,我最不喜欢的是跟风研究。我跟同学们说,别人能做的,你不需要的你也能做。有的人跟着别人做研究,可能看到这篇论文写得很好,就跟着同一篇论文。让我们举一个例子。相比之下,公司有一批顶尖的博士在做,有数据有人力。你怎么能做得比别人好?
没有真正的数据,没有真正的问题,在学校单独做这样的研究是浪费时间。但还有一些其他问题。公司不能通过解决这个问题来赚钱。也许他们不会去做,但并不一定意味着这个问题不重要,没有研究价值。比如在医学领域,我们之前从(一个医学文献库)中抓取了十年关于“心血管疾病”的数据,大约有50万篇论文。围绕这50万篇论文,6种心脏病,以及医学教授列出的250种蛋白质,我们很快就得到了每种心脏病的相关蛋白质排名,可以为医生提供重要线索,让他们专注于这些的临床试验蛋白质极大地促进了他们的研究。
近年来,我们一直在从非结构化文本中挖掘结构。从真实数据到结构化数据再到有用的知识,还有很长的路要走。确实,这还是一个比较大的问题。当前的机器学习需要大量依赖它,不可能在每个领域都找到相应的专家来标记它。这个问题必须解决。
毕竟,注释数据的是人。不可避免地,它具有主观和偏见的成分。但是人标记的数据真的有意义吗?使用大量人力进行贴标需要多少钱?你可以从这么多文本中总结,你可以知道特朗普是美国总统,而不是被贴上标签。你花钱让人力做这样的数据标注,纯粹是时间。这么多的课文,这么多的科目,尤其是一些偏题,根本就不能被人标注,或者成本极高。因此,不可能用人力来标记所有情况。
仔细想想,我们有这么多文本,数据挖掘也可以推导出当前标签,有时还可以显示不同的百分比和概率,准确率甚至比人工标注还要好。
所以我告诉学生,不要迷信那些注释。如果您可以从数据中注释数据,那么手动注释是无用的。与其使用可能有偏见的人工标注,不如用科学的方法从大量数据中标注这些数据,这样可能更有价值。
深度学习在今天有了它的意义,但我认为我们不应该迷信某种“时髦”的算法。首先,不要拒绝任何新事物。如果人们做得很好,你应该从中学习并使用好的内容。其次,不要迷信某事。如果你想真正解决一个问题,你首先要考虑如果我想解决这个问题,我会用什么方法。想了想,你用什么方法看别人的论文,这样你就可以用更批判的眼光看论文,而不是把别人的论文当成神,也许,你的方法比他的好,所以我可以再发一个(笑)。
文都管联院在预祝2021-2022一路长虹!