哈尔滨工业大学主页
首页
基本情况
研究所基本信息
发展历程
团队建设
管理团队
学术委员会
联系我们
人才培养
学科排名
立德树人
教材出版
学生荣誉奖励
校友发展
科研成果
科研项目
企业合作
科研教学奖励
论文奖励
标志性成果
学术活动
国际合作
自然语言处理研究所简介
ABOUT US
2020年7月17日,跨一校三区自然语言处理研究所获批准成立。研究所团结了一校三区科研与教学力量,通过协商、协同、协作,在教学、科研、人才培养方面形成合力,服务于一校三区的学科发展。研究所跨校区建设,筹建初期包括一校三区相关人员与机构,未来着眼学科长远发展强调交叉。研究所在计算学部指导下工作,旨在凝聚一校三区自然语言处理方向的资源,共同申请大项目,建设大平台,申请科技奖励,建设高水平师资队伍,培养优秀人才。
了解更多+
2020
年
获批成立
1
名
CS Ranking NLP 领域排名
15
名
US News人工智能学科世界排名
8
部
编写教材
资讯中心
Information Center
查看更多+
2025.12.09
2025年哈尔滨工业大学自然语言处理研究所教师学术交流会顺利召开
2025年11月30日,哈尔滨工业大学自然语言处理研究所2025年度研讨会在哈工大活动中心316室举行。来自校本部社会计算与交互机器人研究中心、语言技术研究中心、深圳校区智能计算研究中心以及威海校区的20余位教师参会。研讨会开幕式由研究所副所长车万翔教授主持,研究所所长、哈工大副校长刘挺教授出席会议并致辞。刘挺副校长指出,自然语言处理研究所是整合“一校三区”自然语言处理方向资源的重要平台,承担着打造高水平师资队伍、服务国家重大需求的使命。各校区师生要进一步增强合作与交流意识,提高站位、面向国家战略,主动发现科研协同的契合点与合作机会。每位教师应找准自身定位,凝练优势方向,培养高层次人才和领域领军者。同时,要重视跨学科融合,推动自然语言处理与认知科学、社会科学、人机交互等领域的深度协同,不断提升整体创新能力。各团队还需形成常态化的学术交流机制,强化学术共同体意识。车万翔教授随后汇报了2025年研究所主要工作进展及下一步规划,强调要进一步加强各中心之间的信息沟通与协作,在共同的研究理念下推动哈工大自然语言处理研究持续发展。学术研讨环节由副所长陈清财教授主持。来自各中心的教师围绕科研进展与标志性成果进行分享,彼此加深了对各团队研究工作的了解,为后续合作奠定了良好基础。下午的专题研讨由副所长杨沐昀教授主持。与会教师围绕“大模型时代如何保持技术领先”“跨校区科研合作”“人才梯队建设”三大主题展开深入交流,积极建言献策,讨论气氛热烈。会议最后,刘挺副校长作总结发言。他强调,科研选题不能停留在个人兴趣或简单应用层面,必须面向国家重大需求和国民经济主战场,攻克“卡脖子”共性技术,开展深度创新;科研合作要突出团队协同,发挥平台优势,实现优势互补;个人发展则需具备对科研方向的判断力、对团队战略的理解力与落实工作的执行力,紧跟国家与行业发展的大趋势,找准定位。他对研究所的未来寄予厚望,希望全体成员持续保持在人工智能领域的核心竞争力,通过团结协作实现共同发展。
2025.10.17
哈工大LTP语言技术平台正式上线国家智慧教育公共服务平台
近日,哈尔滨工业大学社会计算与交互机器人研究中心(HIT-SCIR)研发的语言技术平台(LTP)正式上线“国家智慧教育公共服务平台”中国语言文字数字博物馆的语言智能版块,用户现已可在线体验其提供的高效、精准中文自然语言处理服务。LTP是一套面向中文文本的自然语言处理基础平台,支持分词、词性标注、句法分析等多项任务,适用于科研、教学及大规模文本处理等场景。自2003年起,LTP项目开始研制,并于2006年对外共享,2011年实现开源。2013年推出的“语言云”进一步拓展了其服务能力。多年来,LTP持续优化升级,目前已发布4.0版本,已成为具有广泛影响力的中文语言处理平台。LTP 曾获黑龙江省科技进步一等奖(2016年)、中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖(2010年)等荣誉。目前,用户已可通过国家智慧教育公共服务平台体验语言技术平台(LTP)服务:https://szyb.smartedu.cn/application
2025.10.17
惊堂木:哈工大SCIR推出虚假信息检测系统,助力自媒体和AIGC时代下的虚假信息检测
1.简介惊堂木是由哈工大社会计算与交互机器人研究中心DI (智能决策) 组开发的虚假信息检测系统,旨在应对自媒体和AIGC 时代下的虚假信息检测挑战。随着自媒体的广泛流行以及AI技术的发展,现在互联网无代价的谣言快速传播以及AI生成内容真假难辨,造成了识别和控制虚假信息传播的困难局面。为了应对这一挑战,“惊堂木”利用一个包含10多万个虚假信息样本的大规模数据案例库来训练专用的AI模型,从而更准确地识别出虚假信息。系统还引入了“慢思考”策略,在判断信息真假时,它不会草率地下结论,而是逐步分析、查证相关信息,同时配合各种工具进行辅助判断,可以细粒度地针对待检测信息的每个语义片段进行事实核查。该系统不仅能分析文字,还能识别图片、音频等多种信息类型,从而更全面地判断一个信息是否可信。此外,它还能进行事实核查、谣言识别、评估信息来源是否可靠,甚至支持多轮对话中的虚假信息识别。最终目标是防止虚假信息带来的社会风险,保护国家的稳定和安全。2. 功能与意义随着科技进步,信息的传播越来越快。而AI生成的内容虽然看起来高质量,但也让人更难判断它是否真实。虚假信息识别变得更加重要,它不仅包括对事实的核查,还包括对无法直接验证内容(比如谣言)的识别。根据世界经济论坛的报告,未来几年虚假信息会成为全球范围内的重要风险之一,所以开发虚假信息识别技术具有很大的社会意义。随着 AIGC 发展,生成复杂且具欺骗性的虚假信息变得容易,现有虚假信息检测系统难以应对,其主要挑战包括:虚假信息越来越“聪明”,AI生成的内容常常真假混合,让人难以分辨;虚假信息经常以声图文等多种模态形式混合呈现,需要模态间信息互相校验;虚假信息传播速度快,而人工查证耗时耗力,跟不上信息生成及传播速度。针对上述问题,并基于组内的技术积累,我们研发了一个基于大模型的虚假信息检测系统,将其命名为惊堂木。其设计充分考虑了复杂应用场景中的实际需求,并具有以下显著特点:1.实时联网获取信息:系统能调用20多种工具,如 Bing Search搜索,快速查找最新相关信息。2.处理复杂事件:通过慢思考方式,把复杂的事件拆分成一个个简单的问题,再逐一分析、验证真假。3.识别多模态伪造信息:系统内置了多模态伪造检测工具,能分析多模态信息中的细节、物理现象等,判断是否是深度伪造。4.全方位识别假信息:它能处理各种类型的虚假内容,不论是事实错误、难以确认的谣言,还是伪造的图片,都能检测出来。3. 系统设计基本原理 “惊堂木”系统遵循“数据驱动、模型迭代、系统协同”的设计思想,整体架构分为三大核心模块:数据构建、模型训练和系统推理。系统从多个权威渠道广泛采集原始数据,涵盖:事实核查平台(比如FactCheck、PolitiFact和Snopes);社交平台(如Twitter、Reddit)和一些AI生成的虚假信息样本(用于增强对新型伪造内容的识别能力),共收集了超过16万条原始数据;该系统采用有监督微调(SFT)+基于偏好的强化学习(RL)二阶段模型训练范式;通过慢思考策略与外部工具调用相结合的方式,对输入内容进行深入分析和验证,以准确判断信息的真实性。体验入口系统主要以小程序形式构建,欢迎大家关注,试用和提出宝贵意见。 使用方法扫码后,进入小程序,点击立即体验,进行对话主页面并进行登录,输入检测内容即可。示例演示未来工作提升多模态检测能力:未来将增强系统自身多模态融合与理解能力,减少对外部工具的依赖。通过优化模型架构,提高多模态虚假信息检测的稳定性和准确性。增加识别 AI 生成内容的功能:后续研究将开发识别 AI 生成内容的技术。通过分析 AI 生成内容的特征,让系统具备这一关键能力。参与人员:曾屹荣、代居益、游珅指导老师:刘挺、秦兵、丁效
邮箱:qfzhu@ir.hit.edu.cn
友情链接
社会计算与交互机器人研究中心
智能计算研究中心
语言技术研究中心机器智能与翻译研究室
语言技术研究中心智能技术与自然语言处理研究室
语言技术研究中心网络智能研究室
Copyright © 2025 哈尔滨工业大学 黑ICP备05006863号