本技术涉及一种文本正则表达式处理技术及其应用设备,包括解析待处理文本以提取特定子文本。该技术可用于电子设备和存储介质,以实现文本数据的高效管理和分析。
背景技术
自然语言领域中,存在诸多希望将非标准形式文本转换成目标语种中标准形式文本的应用场景。以语音合成应用场景为例,在语音合成前端处理中,需要把不规则书写的文本如数字,时间日期,货币单位,特殊符号等准确转换成目标语种的单词,从而保证语音合成的过程中有准确的前端信息输入,得到准确的语音合成结果。以目标语种是中文为例,需要将“123”转写成中文“一百二十三”,将“1/10”转写成中文“十分之一”,将“8:00am”转写成“早上八点钟”等等。
对于一般语种的文本正则,一种是利用规则进行文本转写,具体地,预先设定一定转写规则,在文本与转写规则匹配的情况下,则按照转写规则进行文本正则;另一种是利用端到端模型进行文本转写,具体地,将文本输入端到端模型后,端到端模型直接采用机器翻译的方式输出正则后的文本。
然而,涉及性数格语种的语言环境中,同一个语义的文本其不同的性数格会有不同的书写方式和发音,单纯地利用端到端模型或者规则进行文本转写,一方面准确性无法得到保障,另一方面由于性数格语言文字转换的多样性,对训练数据质量以及数量均有更为严苛的要求,因此如何提升性数格语言的文本正则准确性和便捷性成为亟待解决的问题。
实现思路