可变文件节点用来读取ASCII编码格式的数据文件,如txt、csv等格式的文件。在配置界面选择要读取的文本文件或者直接输入数据文件的地址,程序将自动识别文件中的相关内容,并在预览表中进行展示。如果预览表中显示的表结构与实际不匹配或提示错误,可以手动修改相应配置。
如果文件扫描运行时间较长,可以点击"快速扫描"以缩短时间。"快速扫描"将只识别文件的前50行,这时有可能会出现预览表中显示的记录正常,而读取未经过识别的记录时失效的情况。因此建议在选择快速扫描时,请先检查是否配置信息是否正确。
对话框选项
输入数据文件地址
通过"输入"或"浏览"的方式获取数据文件的地址及文件名,已经读取过的文件可以在下拉框中直接选择。
保存新地址
如果勾选此项,将保存当前的配置信息,今后仍可以使用该配置读取数据。
读取行ID
如果勾选此项,数据文件中的第一列将被识别为行id,否则将使用默认行id。
读取列标题
默认勾选此项,表示文件中的第一行将被识别为列标题。如果取消勾选,将使用默认的列标题。
列分隔符
输入或者从列表中选择一个分隔符作为数据文件列的分隔符。
忽略空格与制表符
如果勾选此项,将忽略空格和制表符(引用字符串内的除外)。
忽略Java注释
如果勾选此项,将忽略所有在'/'与'/'之间的内容,以及所有在'//'之后的同一行的内容。
单行注释
输入一个或多个字符,表明注释的开始(由一个新行结束)。
高级
点击进入高级配置界面,在这里可以设置限制行、编码、引用、其它等规则。
限制行:该项用于指定读取输入表中的一部分数据。可以通过略过前n行和指定总行数两种方式做限制。如果启用略过前几行,输出的数据表将从输入文件中跳过指定数量的行。如果启用限制行数,只能读取指定行数的数据。列标题行(如果选定)除外。
编码:可以从选项中选择输入文本文件的编码格式,如果选项中没有,也可以自定义编码。
引用:该项用于指定一个或者多个引用字符,这些符号会在输出表中忽略显示,否则这些符号将作为单元格的值出现在输出表中。引用字符可以由多个字符组成也可以是多个。每次需要在左侧文本框中输入引用字符,然后点击"添加"按钮将其添加右侧列表中,即可生效。也可以将右侧列表中无效的引用字符通过"移除"按钮删除。如果要支持转义字符,请勾选"支持转义字符('\')"按钮。如果文本文件中使用了引号引用的字符包括多行,请勾选"允许引号引用字符串包括多行"。
其它:该选项卡中有五类功能,分别是确保行ID唯一、允许短行、忽略行尾部多余分隔符、定义字符型字段缺失值的显示字符、定义小数和千分位数的分隔符。如果在配置中勾选了"读取行ID按钮"则第一列将会作为行ID读入,但有可能会有重复值,同时勾选"确保行ID唯一"按钮,程序会自动为重复的记录添加后缀来保证行ID的唯一性,否则程序检测到重复值将报错。如果读入的文本文件数据中因为缺失问题导致所有的行并不一样长,请勾选"允许短行"按钮,程序将会为元素较少的行的相应列以缺失值填充,否则执行将报错。如果行的尾部有多余的分隔符,可以通过勾选"忽略行尾部多余分隔符"按钮,忽略这些多余的分隔符,这些要忽略的符号必须是前面已经指定为分隔符的符号,否则勾选此项无效。另外,还可以输入一个字符作为字符型字段缺失值的显示字符,默认显示为'?'。小数和千分位数的分隔符也可以在此处定义。
预览
预览框展示了当前配置信息下,读取数据的格式。单击预览表中列标题,可以打开列属性配置窗口,在该窗口中可以进行"是否输出此列"、"更改列名称和类型"、"定义缺失值"等配置,默认缺失值用?表示。另外,点击名义值按钮可以定义字符型字段的值域。
端口
输出端口
0 |
文本文件 |