帮助:繁简处理/转换原理

维基百科,自由的百科全书
< Help:繁简处理
跳转到: 导航、 搜索

本页简单介绍1.4版软件的繁简转换原理,以使大家可以有效处理转换时遇到的错误。

参看m:Automatic conversion between simplified and traditional Chinese

[编辑] 与分词的关系

转换程序使用最简单的“最大匹配”法进行转换。这会导致如下的错误:假设转换词库中有一对应关系为

内存 => 記憶體

现对以下句子转换

人体内存在很多微生物

基于最大匹配,系统会对“内存”进行转换,得到“記憶體”。整个句子将会被错误地转换成

人體記憶體在很多微生物

解决这个问题的根本方法是采用智能的分词匹配,将上述句子先拆分为

人体 内 存在 很多 微生物

然后再对每个词单独转换。

在分词系统实现之前,要修正上述错误,可以有两种方法:

  1. 手工将涉及分词错误的词分开:“人体内-{}-存在很多微生物”
  2. 将涉及分词错误的多个词作为一个整体加到定制转换表里,如“体内存在 => 體內存在”。

[编辑] 不检测原始字体

由于我们允许在同一文章内繁体/简体混合,因而不可能判断一个词其原型是繁体还是简体。这就需要在繁体/简体用字相同时,要同时定义两条转换关系。举例如下:“译名表”(简体)应转成“譯名表”,注意这里需要特殊转换的是“表”字,因其默认转换是“錶”。那么在转换表中,我们要有两条对应:

译名表=>譯名表
譯名表=>譯名表

这是因为繁体用户会直接写“譯名表”,如果没有第二条转换关系的话,在繁体显示下会变成“譯名錶”。

来自“http://zh.wikipedia.org/w/index.php?title=Help:繁简处理/转换原理&oldid=21900566”
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。