赖斯的文本类型分类(文本的类型)
本文目录
文本的类型
一、文本分类简介文本挖掘是从非结构化的文本信息中获取用户感兴趣的或者有用的知识、模式的过程,文本分类是文本挖掘其中一个领域。文本分类的目的就是为用户给出的每个文档找到所属的正确类别(或主题)。要想做文本分类,首先需要有带类别标签的文本集合,构成训练集,提取特征后再构建分类模型。自动化的文本分类应用广泛,不限于文本检索、垃圾邮件过滤、题材检测等,是文本挖掘最基础也是应用最广泛的技术。二、文本分类步骤STEP 1 : 数据预处理去除文本噪声,比如网页源代码解析(常用到正则表达式)、编码转换等STEP 2 : 中文分词分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词就是将一段话划分成一个个词。比如,‘我喜欢吃番茄和吃西瓜’可划分为‘我/ 喜欢/ 吃/ 番茄/ 和/ 吃/ 西瓜 ’;‘我很久没吃西瓜了’可划分为‘我/ 很久没/ 吃/ 西瓜/ 了 ’;‘我喜欢吃西瓜,西瓜很甜,很久没吃西瓜了’可划分为‘我/ 喜欢/ 吃/ 西瓜/ ,/ 西瓜/ 很甜/ ,/ 很久没/ 吃/ 西瓜/ 了’STEP 3 : 构建词向量空间统计文本的词频,构建词向量空间,目的是将一个文本转为向量,便于接下来的建模分析。以step1的例子作简要说明,‘我喜欢吃番茄和西瓜’记为文档A,‘我很久没吃西瓜了’记为文档B,‘我喜欢吃西瓜,西瓜很甜,很久没吃西瓜了’记为文档C,转为词向量(忽略标点符号)STEP 4 : 权重计算简单的词频并不能衡量该词在对应文档中的权重,原因有两点,第一,词频会受文档词长的影响;比如,文档C的词长为10,‘吃’的词频为2,文档B的词长为5,‘吃’的词频为1,从绝对意义上的词频来说,文档C中‘吃’的词频是文档B的两倍,但从相对意义上的词频来看,两文档中‘吃’的词频均为0.2,是一样的;第二,词频不能衡量普遍重要性;我们在衡量权重的时候也要考虑到这个词在其他文档中的出现比率,比如‘番茄’,它仅在文档A中出现,说明该词在该文档中重要性较高,‘吃’在三个文档中均出现,说明该词的重要性较低;目前最常用的指标是TF-IDF,该指标综合了以上两点来衡量某词在某文档中的重要性。STEP 5 : 分类器将文本向量化之后就可以进行分类建模,常用的分类算法有朴素贝叶斯、KNN、SVM等;STEP 6 : 评价分类结果常用的分类结果的衡量指标有准确率、召回率、F1值等;基于分类结果继续优化分类器,直到精度满足要求;
【翻译风格】我的翻译作品遵循了什么样的理念
首先想对客户说的是, 您需要什么风格的翻译,我们可以提前说好 ,比如文字活泼通俗,或者严肃正经,您更倾向哪种,我就向哪个方向努力。这也是我的服务理念之一。如果没有任何限制,纯看我自己发挥,那我就来写写最近的翻译理念,说不定你跟我是同道中人呢哈哈哈哈~就拿我发表在此平台的第一篇作品展示作为例子吧,那是一篇某IT公司发布在自己官网的产品介绍,介绍的是微软Teams这款产品,我就来举例说说为什么我决定这样翻译~~~我之前看过一个文学翻译界颇有建树的人写的翻译理念,中国人,可时间长了我已经记不住他的名字了,倒还记得他的观念,因为他的观念曾影响了我一段时间。他认为,翻译很重要的一点是遵循原文语句,他不太赞同意译,能贴合原文就先按原文来,不要加太多个人的想法,不要直接按自己的话来说,毕竟自己是翻译,而不是作家。他这样做是为了最大程度地尊重原文作者的思想和风格。比如原文风格很严肃,而我们翻译出来却用的是很口语化的词,表达的确实是同一个意思,但是风格不一样了,语气不一样了,完全是二度创作了,这就是对原文作者的不忠诚,不尊重。这个观念的确影响过我,自从接受了他的理念,我在翻译的时候就会尽量字字句句遵照原文,尽量不做改变,最大程度尊重作者。 可这样一来,我给自己惹了很多麻烦。 若要仔细说都有什么麻烦,我大概要好好解释一下德语和汉语思路上的不同,这会牵扯到两国的文化背景,两国人民的思想特点什么的。就算我愿意说上三天三夜,估计你也没心思听……哈哈,总之呢,德语很精准,很具体,有时候若字字句句翻译出来,从中文习惯的角度来看, 有时候会觉得啰嗦, 不如做些删减,只去 照顾核心思想 。但这样做不就不再忠实于原作了吗?于是我陷入了矛盾之中……直到偶然读到一篇论文,之后就豁然开朗了。上论文之前,我意识到此时此刻我应该先挑明一个态度,那就是, 翻译,这件事不存在客观,只有各种各样的主观, 就看你倾向哪种理念了。我解释一下。从单词层面上来说,也许是存在客观的。比如die Tasse,杯子。咱先不讨论这个德语词指的是长什么样的杯子,不讨论材质、用途、价格,它就是杯子,很客观。不管这个词放在学术论文里,还是日常口语中,还是网上商店的产品关键词里,只要上下文没什么特殊情景,那它就是个杯子,搁谁那翻译出来也是杯子,甭管大家翻译出什么样的杯子来,实质是个杯子,这就算客观了。上升到句子层面就不一样了。同一个句子,大家翻译出来可能都不一样,大家都想表达同一个意思,但翻译出来就是语序不一样,风格不一样,语气不一样。这就是各种各样的主观, 没有对错,只有喜欢不喜欢,合适不合适 。这件事明确了,我就可以放心地把论文搬上来了。下面这段论文,就是我最近比较倾向的一种理念。“理论基础 20世纪70年代德国著名理论家赖斯和费米尔发现传统翻译理论局限性,大胆摆脱等效理论束缚,提出 以目的为首要准则的“目的论” ,认为翻译行为并不只是语际转换,而是 译者目的的实现 。 赖斯在《翻译批评的可能性与局限》一书中将“文本功能”列作翻译批评的一个标准,出于教学目的,她提出以翻译为导向的文本分析理论。按照其观点, 文本类型 理论可帮助译者 确定特定翻译目的 所需的合适对等程度,形成功能主义理论雏形。 赖斯的学生弗米尔摆脱以原语为中心的“等值论”束缚,提出功能派奠基理论——“目的论”。在弗米尔的理论框架中,决定翻译目的的最重要因素之一是 受众 。译文所意指的接受者,他们有自己的文化背景知识, 对译文的期待 以及交际需求。每种翻译都指向一定受众,因此翻译是在“目标语情景中 为某种目的及目标受众 而生产的语篇”。 在费米尔“目的论”的基础上,贾斯塔·曼塔里提出翻译行为理论,特别强调对行为参与者的分析,在其翻译理论模式中翻译被解释为“为实现某特定目的而设计的复杂行为”,总称为“翻译行为”。功能主义翻译观可以总结为:翻译是一种交际行为,翻译行为所要达到的 目的决定整个翻译行为的过程 ,即“目的决定手段”, 翻译策略必须根据翻译目的来确定 。 目的论提出翻译应遵循的三个法则:目的法则、连贯性法则及忠实性法则。费米尔认为,“目的法则”应该是最高法则, 翻译目的决定翻译的策略和方法 。“翻译绝不是字符之间的简单替换, 翻译是一种有目的的行为 ,是一种文化交流。”对于中西翻译史上一直存在的归化、异化、形式对等与动态对等之争等,“目的论”都给出很好的解释,即取决于翻译目的, 凡是能达到译文目的的一切手段,都可拿来为我所用 ,无论传统的直译、意译,还是今年兴起的译创等方法。”选段摘自《游戏软件本地化翻译研究综述》,论文作者葛婉君。 读完这段文字,我心里好受多了。“为达目的不择手段”的方法,给了我很多启发,的确为我最近的翻译工作带来很多好处。我上面之所以解释客观和主观,就是为了在此时说,即使我引用了一大段论文,也并不意味这此论文中的观点是客观正确的, 这不是法律条文,不需要人人遵守 。只能说是 我个人主观上倾向这个观点 。以后我肯定还会接触到更多的不同的观念,但当下,在客户不设限的情况下,我会以上面这段论文中的观点作为我翻译时的最主要的理念!但话说回来,之前那位崇尚忠实,尊重原作的翻译者的观点,也并非不好,因为我们要 考虑到 文章类型 。他是专门翻译文学的,在文学作品中,人家的观点是值得被重视的。文学作品,除了文字本身,背后的情感也很重要,如果翻译者任性地用自己的语言习惯去翻译,也许意思没变,但原作者的心血就被翻译者的一意孤行给掩埋了。这时候确实要尽量尊重作者的语言风格,尊重作者的感情。而我们现在翻译的文字,比如产品说明、公司简介,并没有文学作品中那些复杂的、深刻的甚至纠葛的感情。埋藏在这样比较中性的文字里的最主要的感情,无非是竭尽所能地 引起消费者的兴趣 ,意味着要 突出产品或公司的优点 , 有时需要带点煽动性 ,有时甚至需要带上 同类型其他品牌产品的缺点 ,总之一切的一切都是为了说服人们:快来联系我们,来买我们的产品吧!想通了这一点,上面论文中提到的“目的论”就更有用了。不管我们在翻译过程中把原文做了些许删减、增添,还是使用了同义词,或将句子意译成了我们的俗语,这一切手段或许没有忠实地逐字逐句翻译,但却 有效地达到了我们的销售推广目的 。而对原文的这些小改变也并非就是不尊重作者,而是对于这样的文字, 达到目的比忠实原作更重要 !若我们只是字字句句翻译原作,以致翻译出来的作品根本无法引起消费者的兴趣,那就南辕北辙啦!其实上面的论文中也提到了, 先确定文本类型,以此得知此文本要达到什么目的,然后确定翻译策略(比如忠实原作或目的之上),最后就按定下的这个基调去翻译,让这个风格贯穿整篇文章的始终。 接下来举几个栗子~~~下面这两段都来自我发布的第一个作品展示~嘿嘿Microsoft Teams ist eine Alternative zu Slack oder Mattermost. Bei allen drei Lösungen handelt es sich um sogenannte Collaboration Tools , die Ihre Mitarbeiter dabei unterstützen, einfacher zu kommunizieren und zeitgleich an Dokumenten zu arbeiten oder diese zu teilen. 微软Teams是Slack或Mattermost的替代工具。 这三款协作工具 皆可帮助您的员工在轻松沟通的同时还可或共享文档。黑体字部分算是删减比较多的地方。遵循原文去翻译那就是:所有这三种解决方案都可以作为所谓的协作工具,它们都可以……我最终为什么没这么翻译呢?因为这句话, 更重要的部分在后面 ,不管这三款工具是不是被称作协作工具,它们的主要功能都写在后面了。名称和功能相比,那肯定功能更重要啊,我看产品介绍肯定更想看看产品功能,只要功能是我想要的,叫什么名字好像不是那么重要吧。既然如此,我又何必浪费口舌去介绍名字,我们就 有话直说,一针见血 !哈哈哈哈~于是长长的半句话被我缩成几个字了^_^并没有改变意思,而且简洁明了,何乐而不为? 当然,我要再次说明,这 纯是我的主观倾向 ,我认为这种方式是有利于介绍产品的。因为我们还要考虑到, 很多时候人们没有时间或者没有耐心读完长篇大论的产品介绍,就想最快了解产品,看到重点,那我们就直达重点,长话短说! 这是我的考虑和建议,但若客户依然要求我不可这样删减,我还是会客户至上,毕竟是金主爸爸嘛,合作愉快更重要~说是这么说,实在是因为有时候固执己见带来的后果,臣妾负不了责啊啊啊啊~~~~Mit einem professionellen Plan erhöhen Sie diese, aber auch ihre Kosten. Ebenso ergeht es Ihnen mit weiteren Tools zur Produktivität, die Sie eventuell in Slack einbinden müssen.专业版可以提高存储量,但同时也增加了花销。您可能需要在Slack中**其他工具以提高工作效率, 但这又增加了成本 。“但这又增加了成本”这句话基本上是我主动加上去了,若非要在德语原文中找到对应部分,那就只能是Ebenso了。这就是我对“目的论”的理解: 第一段话中,长长的半句话被我缩成几个字,而这一段话中,一个德语单词被我扩展成了半句话。 都是为了 达到目的 啊=_=这一段的目的在于突出Slack的缺点,不然大家肯定会问,为什么非要买你的微软Teams呢?为什么我不能用Slack呢?那好,既然要“贬低”人家,那就做得再决绝一点好了(Slack不要打我,大家都是为了混碗饭吃TnT)于是我采取的方式就是, 一共两句话,我写了两次增加成本 。如此 强调 这一点,这回大家都记住了,买Slack不划算哈哈哈哈我太坏了,我估计是要永久呆在Slack的黑名单里了……写得够长了,我自己也算是理清了思路,希望翻译越来越得心应手,嗨森嗨森,撒花撒花,比心心~~~
文本分类方法有哪些
文本分类问题: 给定文档p(可能含有标题t),将文档分类为n个类别中的一个或多个 文本分类应用: 常见的有垃圾邮件识别,情感分析 文本分类方向: 主要有二分类,多分类,多标签分类 文本分类方法: 传统机器学习方法(贝叶斯,svm等),深度学习方法(fastText,TextCNN等) 本文的思路: 本文主要介绍文本分类的处理过程,主要哪些方法。致力让读者明白在处理文本分类问题时应该从什么方向入手,重点关注什么问题,对于不同的场景应该采用什么方法。 文本分类的处理大致分为 文本预处理 、文本 特征提取 、 分类模型构建 等。和英文文本处理分类相比,中文文本的预处理是关键技术。
针对中文文本分类时,很关键的一个技术就是中文分词。特征粒度为词粒度远远好于字粒度,其大部分分类算法不考虑词序信息,基于字粒度的损失了过多的n-gram信息。下面简单总结一下中文分词技术:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法 。
1,基于字符串匹配的分词方法: 过程:这是 一种基于词典的中文分词 ,核心是首先建立统一的词典表,当需要对一个句子进行分词时,首先将句子拆分成多个部分,将每一个部分与字典一一对应,如果该词语在词典中,分词成功,否则继续拆分匹配直到成功。 核心: 字典,切分规则和匹配顺序是核心。 分析:优点是速度快,时间复杂度可以保持在O(n),实现简单,效果尚可;但对歧义和未登录词处理效果不佳。
2, 基于理解的分词方法:基于理解的分词方法是通过让计算机模拟人对句子的理解 ,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统 还处在试验阶段 。
3,基于统计的分词方法: 过程:统计学认为分词是一个 概率最大化问题 ,即拆分句子,基于语料库,统计 相邻的字组成的词语出现的概率 ,相邻的词出现的次数多,就出现的概率大, 按照概率值进行分词 ,所以一个完整的语料库很重要。 主要的统计模型有: N元文法模型(N-gram),隐马尔可夫模型(Hidden Markov Model ,HMM),最大熵模型(ME),条件随机场模型(Conditional Random Fields,CRF)等。
1, 分词 : 中文任务分词必不可少,一般使用jieba分词,工业界的翘楚。 2, 去停用词:建立停用词字典 ,目前停用词字典有2000个左右,停用词主要包括一些副词、形容词及其一些连接词。通过维护一个停用词表,实际上是一个特征提取的过程,本质 上是特征选择的一部分。 3, 词性标注 : 在分词后判断词性(动词、名词、形容词、副词…),在使用jieba分词的时候设置参数就能获取。
文本分类的核心都是如何从文本中抽取出能够体现文本特点的关键特征,抓取特征到类别之间的映射。 所以特征工程很重要,可以由四部分组成:
1,基于词袋模型的特征表示:以词为单位(Unigram)构建的词袋可能就达到几万维,如果考虑二元词组(Bigram)、三元词组(Trigram)的话词袋大小可能会有几十万之多,因此基于词袋模型的特征表示通常是极其稀疏的。
(1)词袋特征的方法有三种:
(2)优缺点:
2,基于embedding的特征表示: 通过词向量计算文本的特征。(主要针对短文本)
4,基于任务本身抽取的特征:主要是针对具体任务而设计的,通过我们对数据的观察和感知,也许能够发现一些可能有用的特征。有时候,这些手工特征对最后的分类效果提升很大。举个例子,比如对于正负面评论分类任务,对于负面评论,包含负面词的数量就是一维很强的特征。
5,特征融合:对于特征维数较高、数据模式复杂的情况,建议用非线性模型(如比较流行的GDBT, XGBoost);对于特征维数较低、数据模式简单的情况,建议用简单的线性模型即可(如LR)。
6,主题特征: LDA(文档的话题): 可以假设文档集有T个话题,一篇文档可能属于一个或多个话题,通过LDA模型可以计算出文档属于某个话题的概率,这样可以计算出一个DxT的矩阵。LDA特征在文档打标签等任务上表现很好。 LSI(文档的潜在语义): 通过分解文档-词频矩阵来计算文档的潜在语义,和LDA有一点相似,都是文档的潜在特征。
这部分不是重点,传统机器学习算法中能用来分类的模型都可以用,常见的有:NB模型,随机森林模型(RF),SVM分类模型,KNN分类模型,神经网络分类模型。 这里重点提一下贝叶斯模型,因为工业用这个模型用来识别垃圾邮件。
1,fastText模型: fastText 是word2vec 作者 Mikolov 转战 Facebook 后16年7月刚发表的一篇论文: Bag of Tricks for Efficient Text Classification 。
模型结构:
改进:注意力(Attention)机制是自然语言处理领域一个常用的建模长时间记忆机制,能够很直观的给出每个词对结果的贡献,基本成了Seq2Seq模型的标配了。实际上文本分类从某种意义上也可以理解为一种特殊的Seq2Seq,所以考虑把Attention机制引入近来。
过程: 利用前向和后向RNN得到每个词的前向和后向上下文的表示:
词的表示变成词向量和前向后向上下文向量连接起来的形式:
模型显然并不是最重要的: 好的模型设计对拿到好结果的至关重要,也更是学术关注热点。但实际使用中,模型的工作量占的时间其实相对比较少。虽然再第二部分介绍了5种CNN/RNN及其变体的模型,实际中文本分类任务单纯用CNN已经足以取得很不错的结果了,我们的实验测试RCNN对准确率提升大约1%,并不是十分的显著。最佳实践是先用TextCNN模型把整体任务效果调试到最好,再尝试改进模型。
理解你的数据: 虽然应用深度学习有一个很大的优势是不再需要繁琐低效的人工特征工程,然而如果你只是把他当做一个黑盒,难免会经常怀疑人生。一定要理解你的数据,记住无论传统方法还是深度学习方法,数据 sense 始终非常重要。要重视 badcase 分析,明白你的数据是否适合,为什么对为什么错。
超参调节: 可以参考 深度学习网络调参技巧 - 知乎专栏
一定要用 dropout: 有两种情况可以不用:数据量特别小,或者你用了更好的正则方法,比如bn。实际中我们尝试了不同参数的dropout,最好的还是0.5,所以如果你的计算资源很有限,默认0.5是一个很好的选择。
未必一定要 softmax loss: 这取决与你的数据,如果你的任务是多个类别间非互斥,可以试试着训练多个二分类器,也就是把问题定义为multi lable 而非 multi class,我们调整后准确率还是增加了》1%。
类目不均衡问题: 基本是一个在很多场景都验证过的结论:如果你的loss被一部分类别dominate,对总体而言大多是负向的。建议可以尝试类似 booststrap 方法调整 loss 中样本权重方式解决。
避免训练震荡: 默认一定要增加随机采样因素尽可能使得数据分布iid,默认shuffle机制能使得训练结果更稳定。如果训练模型仍然很震荡,可以考虑调整学习率或 mini_batch_size。
知乎的文本多标签分类比赛,给出第一第二名的介绍网址: NLP大赛冠军总结:300万知乎多标签文本分类任务(附深度学习源码) 2017知乎看山杯 从入门到第二
文本类型有哪两种,文本分为哪两种
1.文本的几种类型:TXT文件:各种系统通用的标准的文本文件。 2.DOC文件:WORD格式文件。 3.WPS文件:WPS文字处理系统的支持文件。 4.文本,是指书面语言的表现形式,从文学角度说,通常是具有完整、系统含义(Message)的一个句子或多个句子的组合。 5.一个文本可以是一个句子(Sentence)、一个段落(Paragraph)或者一个篇章(Discourse)。 6.广义“文本”:任何由书写所固定下来的任何话语。 7.狭义“文本”:由语言文字组成的文学实体,代指“作品”,相对于作者、世界构成一个独立、自足的系统。 8.计算机的一种文档类型。 9.该类文档主要用于记载和储存文字信息,而不是图像、声音和格式化数据。 10.常见的文本文档的扩展名有。 11.txt、。 12.doc.、。 13.docx、。 14.wps等。
更多文章:

范佩西和苏亚雷斯谁厉害(范佩西法尔考卡瓦尼苏亚雷斯阿奎罗这几个人谁最强)
2024年11月8日 01:02

中超河南嵩山队(河南建业改名为河南嵩山龙门,改名的原因是什么)
2025年2月10日 22:21

热火vs快船第三节(2012NBA中国赛热火VS快船上海站谁胜)
2025年2月2日 07:43

哈兰德女友近况?C罗乔治娜走出丧子阴霾,豪华游艇出海度假,总裁不忘开心秀腹肌
2024年7月14日 18:44

女排队员王媛媛简介(女排王媛媛个人资料简介 王媛媛是甘肃哪里人)
2024年12月17日 10:01

2022年广东卫视为什么变普通话?2022年11月28日广东卫视上午剧场八点三十分播什么
2024年3月8日 19:00

nba影响力排行榜(单从影响力方面来讲,乔丹、科比、詹姆斯、姚明、库里谁的影响力最大)
2024年2月18日 20:00