|
|
|
腾讯实习招聘面试题-软件开发
7 j1 _' V9 b- n* K1 Q
8 h7 ? K7 m6 c+ I1 J5 A
8 ]6 T; T$ V9 S% @+ O, Z6 S3 R腾讯实习招聘面试题-软件开发
: e( F# Z; s8 x
+ o/ T$ V+ r1 G. B9 l2 p& }( u% c4 ^. g& ?
zz
, e/ L2 Q3 ?4 T+ x
$ X1 h# S' I" e3 v& ^
1 z9 C5 b) z- K$ ~2 H4 m9 |5 t8 i大部分是说说你自己的思想:
6 S+ k( Y5 H/ z: {2 v, c* T1,一亿个数中取中位数4 w0 c+ O' v# _( p
2,一万个手机号有两个重复的,让你找出来/ @2 q4 w. U8 R8 B
3,求二叉树中两节点的最长路径) T# U; R% T% C/ _ s1 @8 r
/ c C! w' V- Z" a8 E2 D0 v
1.有一亿个随机数,不排序如何找出其中位数6 U9 N/ E9 G3 |3 L) L
题目:在一个文件中有 10G 个整数,乱序排列,要求找出中位数。内存限制为 2G。只写出思路即可(内存限制为 2G的意思就是,可以使用2G的空间来运行程序,而不考虑这台机器上的其他软件的占用内存)。
% O- R, ~+ T% M: p$ P/ P" D& u9 r: M5 \; T" ?7 V5 w
关于中位数:数据排序后,位置在最中间的数值。即将数据分成两部分,一部分大于该数值,一部分小于该数值。中位数的位置:当样本数为奇数时,中位数=(N+1)/2 ; 当样本数为偶数时,中位数为N/2与1+N/2的均值(那么10G个数的中位数,就第5G大的数与第5G+1大的数的均值了)。
# n/ }0 V3 U. Q% }
- O$ a5 ?* j, R6 R" j' v; S" a7 C分析:明显是一道工程性很强的题目,和一般的查找中位数的题目有几点不同。0 O$ j# @ N- \: F/ Q2 O$ {7 w
1. 原数据不能读进内存,不然可以用快速选择,如果数的范围合适的话还可以考虑桶排序或者计数排序,但这里假设是32位整数,仍有4G种取值,需要一个16G大小的数组来计数。 J: t5 ?5 v- r1 l
( ^% W8 a: t) j8 a8 s
2. 若看成从N个数中找出第K大的数,如果K个数可以读进内存,可以利用最小或最大堆,但这里K=N/2,有5G个数,仍然不能读进内存。2 j {7 z: w& S
% K5 Z7 D# O/ b
3. 接上,对于N个数和K个数都不能一次读进内存的情况,《编程之美》里给出一个方案:设k<K,且k个数可以完全读进内存,那么先构建k个数的堆,先找出第0到k大的数,再扫描一遍数组找出第k+1到2k的数,再扫描直到找出第K个数。虽然每次时间大约是nlog(k),但需要扫描ceil(K/k) 次,这里要扫描5次。& ^/ c( o7 p/ N7 _1 f9 `4 Q
8 J- \/ x5 x% q3 w. e. L解法:首先假设是32位无符号整数。1 O8 q9 D# i8 K- |# `
1. 读一遍10G个整数,把整数映射到256M个区段中,用一个64位无符号整数给每个相应区段记数。
% {' A. \' Y1 E1 P- V说明:整数范围是0 - 2^32 - 1,一共有4G种取值,映射到256M个区段,则每个区段有16(4G/256M = 16)种值,每16个值算一段, 0~15是第1段,16~31是第2段,……2^32-16 ~2^32-1是第256M段。一个64位无符号整数最大值是0~8G-1,这里先不考虑溢出的情况。总共占用内存256M×8B=2GB。
8 l% i0 W4 E- }3 t% k$ G( k' ^3 o0 z) A- F6 r9 O6 V) O1 W
2. 从前到后对每一段的计数累加,当累加的和超过5G时停止,找出这个区段(即累加停止时达到的区段,也是中位数所在的区段)的数值范围,设为[a,a+15],同时记录累加到前一个区段的总数,设为m。然后,释放除这个区段占用的内存。
, f; o# q! G2 N. Q7 C1 |- N% z
( b/ T2 E6 I, y @3. 再读一遍10G个整数,把在[a,a+15]内的每个值计数,即有16个计数。: }) `) P5 B- }3 N; k
/ |4 k0 y6 _5 s9 s M4. 对新的计数依次累加,每次的和设为n,当m+n的值超过5G时停止,此时的这个计数所对应的数就是中位数。
7 ~8 \0 y0 W6 Y6 Q7 r; T- j) [4 N9 u0 E N
总结:9 Q/ f$ g" m; P3 W
1.以上方法只要读两遍整数,对每个整数也只是常数时间的操作,总体来说是线性时间。" M7 @, W# Y1 B3 Y: W& a
; Z# h5 n4 B" Q$ ?) k
2. 考虑其他情况。9 b0 c3 P- S0 I
若是有符号的整数,只需改变映射即可。若是64为整数,则增加每个区段的范围,那么在第二次读数时,要考虑更多的计数。若过某个计数溢出,那么可认定所在的区段或代表整数为所求,这里只需做好相应的处理。噢,忘了还要找第5G+1大的数了,相信有了以上的成果,找到这个数也不难了吧。. i c: f% i. m6 d/ ]. A0 s1 ~
$ {0 z, D, I, J$ v/ h
3. 时空权衡。
5 }: P1 P0 {% n0 x( T花费256个区段也许只是恰好配合2GB的内存(其实也不是,呵呵)。可以增大区段范围,减少区段数目,节省一些内存,虽然增加第二部分的对单个数值的计数,但第一部分对每个区段的计数加快了(总体改变??待测)。
/ b& v& @8 v+ u/ e# a* _
& D/ l' _+ o# ^% D4. 映射时尽量用位操作,由于每个区段的起点都是2的整数幂,映射起来也很方便。
7 m$ x! B* R# I3 E# M
: `9 Y. J5 t- F- B2.假设有一个应用程序A,现要设计一个应用程序B来动态 测试A,问如何设计这个软件?
) |. I, d. s- w) u% }* h+ \ k+ E2 t2 }1 v( q2 Q q
http://bbs.aftjob.com/thread-606762-1-1.html1 v8 m. O1 w1 g, v- U" V
% M( D" f0 A7 Z$ Z2 I——
0 ?5 H$ E$ }' T4 i- {* E腾讯(QQ)求职俱乐部* _1 |5 b8 b! q( [
http://bbs.aftjob.com/thread-37083-1-1.html
: a$ i- `. z, B) ^- V——% A! b, h0 i4 [" t2 K& Z/ Q$ T
; @* l4 H5 [3 ]1 T) X) A, Q' e& Y% J: N6 o& c
|
|