Mdict词典DIY工具系列之三:MDX文本内容提取解析工具

文章正文
发布时间:2025-08-01 20:10

本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑 1 m& ]1 f. l  k/ v' a3 u8 @
3 C4 ]5 ?& [/ D) c6 z
Mdict词典DIY工具系列之三:MDX文本内容提取解析工具* L. z0 C' u) s4 S6 k: W

# P. W3 C& w# z) L6 b% @1 B$ l# U3 w7 S% a
$ L+ }$ V: P. O) |% c# i+ x
基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;
9 C* @8 X; e. W, c; o  ?此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。
: e2 b/ m- F! k2 b' S  u( Z3 ]7 h' ^: i

/ w3 Q( G, p) q; H用法:
6 ~! M. _% O, O9 ~$ V( v
* |& J& @. ~: f. a1 L5 a比如下面这个网页标签:; ]; G) r. [: F2 I% c7 O
. u& k) o9 X6 s; j& n& p" @
<div class="explanation_item" id="d1234">7 c! d- T! Y5 L
2 j; o/ I$ ?) _0 F% ~

! K+ t& I% r! i" O; H8 U标签名为  div. ?) K. o8 `0 z; \$ Z' [& d9 v
属性 有 class 和 id (还可能有别的属性)
# ^* j: ]* r1 e5 r4 V9 v4 I其属性对应的值:class的是explanation_item ,  id 的是d1234;
6 j% X# }& E" z5 c
' t$ u  r& |9 T0 z, t1 ^. c4 k5 W% I% q: n: ^2 g& M( [- W  ]
若想提取这个标签的内容:
, }( O: a7 B$ o7 q8 V! W8 c/ ^6 E6 T
! ]9 p& b  ^' w( r) e! w% B6 e需要输入三个值:div,class,explanation_item; W7 }7 n; w/ e$ B: a
          或者:div,id,d1234
+ x% U1 _+ X/ n- Z( }/ N, e4 b! d' h0 x* u
还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可# z& z) ~! V. u- m" B; r% D  s

0 H$ _) v5 h. o0 q( P4 |. r/ i' H6 g3 G
: j% U4 `6 P% P! [
输入方法:: ~; r5 H: ]- d
6 [  ?; D: P6 H
        Input source file name:(你的MDX文本文件名): c$ ]# U4 S2 P5 O
        Input tag-name:div
" Q: A* L# h$ L        Input tag-attribute:class
. x4 ~" C" N( Z% e! T        Input attribute-value:explanation_item
+ I% S& X8 V  j7 W. S) H7 m) t" t
5 x* N, h, P& y或: L4 j2 A3 g- \4 z
        Input source file name:(你的MDX文本文件名)* u; q' j; d7 Q
        Input tag-name:div4 F! Q9 T2 z+ d5 d' z: l
        Input tag-attribute:id
$ ~  M) _7 [, M8 F+ M        Input attribute-value:d1234' {/ N" v: S: y9 x6 Y

1 q. T" D5 Q. h9 c/ V8 N如果没有属性,比如body
, U" D( }( M* \: w' N, F/ s4 ?2 g* `6 [/ L2 g+ `! A
        Input source file name:(你的MDX文本文件名)
5 R  k. N! M; h2 M        Input tag-name:body. l8 }% g" A) a6 L. i9 M
        Input tag-attribute:(不输入,回车跳过)
: |. G' ~( e: l        Input attribute-value:(不输入,回车跳过)
2 [8 D$ |+ m# L+ }, t* ?9 |/ H3 p. p
        OK。。。。0 k' S2 q$ L- ]0 |4 _5 @
( z8 R8 I. M/ D+ a* ]
; x" x& L9 [/ T6 k

# D' D5 ?; A  k# q& z1 w; @7 D4 }4 E
由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。+ @) V( d8 i1 @7 n7 I8 v) C' T

# j4 F' g1 o  D2 ?
 

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

首页
评论
分享
Top