本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑 1 m& ]1 f. l k/ v' a3 u8 @
3 C4 ]5 ?& [/ D) c6 z
Mdict词典DIY工具系列之三:MDX文本内容提取解析工具* L. z0 C' u) s4 S6 k: W
# P. W3 C& w# z) L6 b% @1 B$ l# U3 w7 S% a
$ L+ }$ V: P. O) |% c# i+ x
基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;
9 C* @8 X; e. W, c; o ?此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。
: e2 b/ m- F! k2 b' S u( Z3 ]7 h' ^: i
/ w3 Q( G, p) q; H用法:
6 ~! M. _% O, O9 ~$ V( v
* |& J& @. ~: f. a1 L5 a比如下面这个网页标签:; ]; G) r. [: F2 I% c7 O
. u& k) o9 X6 s; j& n& p" @
<div class="explanation_item" id="d1234">7 c! d- T! Y5 L
2 j; o/ I$ ?) _0 F% ~
! K+ t& I% r! i" O; H8 U标签名为 div. ?) K. o8 `0 z; \$ Z' [& d9 v
属性 有 class 和 id (还可能有别的属性)
# ^* j: ]* r1 e5 r4 V9 v4 I其属性对应的值:class的是explanation_item , id 的是d1234;
6 j% X# }& E" z5 c
' t$ u r& |9 T0 z, t1 ^. c4 k5 W% I% q: n: ^2 g& M( [- W ]
若想提取这个标签的内容:
, }( O: a7 B$ o7 q8 V! W8 c/ ^6 E6 T
! ]9 p& b ^' w( r) e! w% B6 e需要输入三个值:div,class,explanation_item; W7 }7 n; w/ e$ B: a
或者:div,id,d1234
+ x% U1 _+ X/ n- Z( }/ N, e4 b! d' h0 x* u
还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可# z& z) ~! V. u- m" B; r% D s
0 H$ _) v5 h. o0 q( P4 |. r/ i' H6 g3 G
: j% U4 `6 P% P! [
输入方法:: ~; r5 H: ]- d
6 [ ?; D: P6 H
Input source file name:(你的MDX文本文件名): c$ ]# U4 S2 P5 O
Input tag-name:div
" Q: A* L# h$ L Input tag-attribute:class
. x4 ~" C" N( Z% e! T Input attribute-value:explanation_item
+ I% S& X8 V j7 W. S) H7 m) t" t
5 x* N, h, P& y或: L4 j2 A3 g- \4 z
Input source file name:(你的MDX文本文件名)* u; q' j; d7 Q
Input tag-name:div4 F! Q9 T2 z+ d5 d' z: l
Input tag-attribute:id
$ ~ M) _7 [, M8 F+ M Input attribute-value:d1234' {/ N" v: S: y9 x6 Y
1 q. T" D5 Q. h9 c/ V8 N如果没有属性,比如body
, U" D( }( M* \: w' N, F/ s4 ?2 g* `6 [/ L2 g+ `! A
Input source file name:(你的MDX文本文件名)
5 R k. N! M; h2 M Input tag-name:body. l8 }% g" A) a6 L. i9 M
Input tag-attribute:(不输入,回车跳过)
: |. G' ~( e: l Input attribute-value:(不输入,回车跳过)
2 [8 D$ |+ m# L+ }, t* ?9 |/ H3 p. p
OK。。。。0 k' S2 q$ L- ]0 |4 _5 @
( z8 R8 I. M/ D+ a* ]
; x" x& L9 [/ T6 k
# D' D5 ?; A k# q& z1 w; @7 D4 }4 E
由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。+ @) V( d8 i1 @7 n7 I8 v) C' T
# j4 F' g1 o D2 ?
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册