in

SDT Community Server

SDT Forums, Blogs, Photos server.

wego

March 2006 - Posts

  • JAVA中用动态代理类实现记忆功能

     

                                ( 很好的模式设计应用, 很好的OO思想,  .Net Java 都适用 -- wego) 

     

     记忆是衍生自Lisp,Python,和Perl等过程性语言的一种设计模式,它可以对前次的计算结果进行记忆。 一个实现了记忆功能的函数, 带有显式的cache, 所以, 已经计算过的结果就能直接从cache中获得, 而不用每次都进行计算.
    记忆能显著的提升大计算量代码的效率. 而且是一种可重用的方案.
    本文阐述了在Java中使用这一模式的方法,并提供了一个可以提供上述功能的"记忆类":
         Foo foo = (Foo) Memoizer.memoize(new FooImpl());
         这里,Foo是一个接口,它含有的方法是需要记忆的.FooImpl是Foo的一个实现.foo是Foo的一个引用.方法与FooImpl基本相同,区别在于Foo返回的值,会被缓存起来.单个记忆类的优点在于为任何类添加记忆功能是很简单的:定义一个包含需要记忆的方法的接口,然后调用memoize来实现一个实例.

        为了理解记忆类是怎么实现的,我们将分几步来解释.首先,我解释一下为何缓存能够在需要它的类中实现.然后,我测试一下如何为一个特定的类添加缓存包装器.最后,我解释一下如何才能使得一个缓存包装器能够通用于任意的类.

    为大计算量的程序添加缓存
        作为一个大计算量程序的例子,我们考虑PiBinaryDigitsCalculator这个例子-计算二进制数据pi.仅有的public方法calculateBinaryDigit带有一个参数:整数n,代表需要精确到的位数.例如,1000000,将会返回小数点后的一百万位,通过byte值返回-每位为0或者1.(算法可以参考: 
    http://www.cecm.sfu.ca/~pborwein/PAPERS/P123.pdf)
    public class PiBinaryDigitsCalculator {
      /**
       * Returns the coefficient of 2^n in the binary
       * expansion of pi.
       * @param n the binary digit of pi to calculate.
       * @throws ValidityCheckFailedException if the validity
       * check fails, this means the implementation is buggy
       * or n is too large for sufficient precision to be
       * retained.
       */
      public byte calculateBinaryDigit(final int n) {
          return runBBPAlgorithm(n);
      }
        
      private byte runBBPAlgorithm(final int n) {
          // Lengthy routine goes here ...
      }

    }

        最简单直接的方法来缓存返回值可以通过修改这个类来实现:添加一个Map来保存之前计算得到的值,如下:
    import java.util.HashMap;

    public class PiBinaryDigitsCalculator {

      private HashMap cache = new HashMap();

      public synchronized byte calculateBinaryDigit(
      final int n) {

          final Integer N = new Integer(n);
          Byte B = (Byte) cache.get(N);
          if (B == null) {
              byte b = runBBPAlgorithm(n);
              cache.put(N, new Byte(b));
              return b;
          } else {
              return B.bytevalue();
          }
      }

      private byte runBBPAlgorithm(final int n) {
          // Lengthy routine goes here ...
      }
    }

     
        calculateBinaryDigit方法首先会检查HashMap里面是否缓存了这个关键字-参数n,如果找到了,就直接返回这个值.否则,就会进行这个冗长的计算,并将结果保存到缓存里面.在添加进HashMap的时候,在原始类型和对象之间还要进行小小的转换.
        尽管这个方法是可行的,但是有几个缺点.首先,进行缓存的代码和正常的算法代码不是显著分开的.一个类,不仅负责进行计算,也要负责进行维护缓存数据.这样,要进行一些测试就会显得很困难.比如,不能写一个测试程序来测试这个算法持续地返回相同的值,因为,从第二次开始,结果都是直接从cache中获得了.
        其次,当缓存代码不再需要,移除它会变得困难,因为它和算法块地代码是紧密结合在一起的.所以,要想知道缓存是否带来了很高的效率提升也是很困难的,因为不能写一个测试程序是和缓存数据分开的.当你改进了你的算法,缓存有可能失效-但是这个时候你并不知道.
        第三,缓存代码不能被重用.尽管代码遵从了一个普通的模式,但是都是在一个类- PiBinaryDigitsCalculator里面.

        前面两个问题都可以通过构造一个缓存包装器来解决.

    缓存包装器
        通过使用Decorator模式,要分开计算代码和缓存代码是很容易的.首先,定义一个接口,里面定义基本的方法.
        
    public interface BinaryDigitsCalculator {

      public byte calculateBinaryDigit(final int n);
    }

        

        然后定义两个实现,分别负责两个任务:
    public class PiBinaryDigitsCalculator
      implements BinaryDigitsCalculator {

      public byte calculateBinaryDigit(final int n) {
          return runBBPAlgorithm(n);
      }

      private byte runBBPAlgorithm(final int n) {
          // Lengthy routine goes here ...
      }

    }

    import java.util.HashMap;

    public class CachingBinaryDigitsCalculator implements
    BinaryDigitsCalculator {

      private BinaryDigitsCalculator binaryDigitsCalculator;
      private HashMap cache = new HashMap();

      public CachingBinaryDigitsCalculator(
      BinaryDigitsCalculator calculator) {
          this.binaryDigitsCalculator = calculator;
      }

      public synchronized byte calculateBinaryDigit(int n) {
          final Integer N = new Integer(n);
          Byte B = (Byte) cache.get(N);
          if (B == null) {
              byte b =
                binaryDigitsCalculator.calculateBinaryDigit(n);
              cache.put(N, new Byte(b));
              return b;
          } else {
              return B.bytevalue();
          }
      }
    }


        
        这是很之前的实现PiBinaryDigitsCalculator的一种简单的refactored版本. CachingBinaryDigitsCalculator包装了BinaryDigitsCalculator句柄,并增加了缓存,供calculateBinaryDigit的方法调用. 这种方法提高了代码的可读性与可维护性. 用户不能直接使用BinaryDigitsCalculator接口来实现算法,所以,如果需要关闭缓存块,将是很容易实现的.
        还有,合适的测试程序很容易写出来.比如,我们写一个假的BinaryDigitsCalculator实现,每次calculateBinaryDigit被调用,赋予相同的参数,返回不同的值. 这样,我们就能测试缓存是否工作了,因为如果每次都返回相同的值,则证明缓存是正常工作了. 这种测试在之前那种简单的实现是不可能的.

    通过动态代理类来创建一个通用的缓存包装器
       上面第二种方法仅有的缺点就是缓存包装器不能重用,每次我们希望添加一个缓存给某个类,我们就要写一个特殊的缓存包装器给目标接口.这是一个很慢,容易出错的过程.
         Jdk1.3开始支持动态代理类: 特别的类能够在运行期决定实现哪个接口-通常的模式都是,在运行期即决定实现哪个接口.通过这个,我们有可能实现一个通用的缓存包装器,我们称它为Memoizer,在运行期决定实现哪个接口.这样, CachingBinaryDigitsCalculator就是不再需要的.它是这样被调用的:

    BinaryDigitsCalculator calculator =
      new CachingBinaryDigitsCalculator(
        new PiBinaryDigitsCalculator()
      );


    可以通过Memoizer来重写如下:
    BinaryDigitsCalculator calculator =
      (BinaryDigitsCalculator) Memoizer.memoize(
        new PiBinaryDigitsCalculator()
      );


    Memoizer的代码如下:
    [code]import java.lang.reflect.InvocationHandler;
    import java.lang.reflect.InvocationTargetException;
    import java.lang.reflect.Method;
    import java.lang.reflect.Proxy;
    import java.util.Arrays;
    import java.util.Collections;
    import java.util.HashMap;
    import java.util.List;
    import java.util.Map;

    public class Memoizer implements InvocationHandler {
      public static Object memoize(Object object) {
          return Proxy.newProxyInstance(
            object.getClass().getClassLoader(),
            object.getClass().getInterfaces(),
            new Memoizer(object)
          );
      }

      private Object object;
      private Map caches = new HashMap();

      private Memoizer(Object object) {
          this.object = object;
      }

      public Object invoke(Object proxy, Method method,
      Object[] args) throws Throwable {

          if (method.getReturnType().equals(Void.TYPE)) {
              // Don't cache void methods
              return invoke(method, args);
          } else {
              Map cache    = getCache(method);
              List key     = Arrays.asList(args);
              Object value = cache.get(key);

              if (value == null && !cache.containsKey(key)) {
                  value = invoke(method, args);
                  cache.put(key, value);
              }
              return value;
          }
      }

      private Object invoke(Method method, Object[] args)
      throws Throwable {
          try {
              return method.invoke(object, args);
          } catch (InvocationTargetException e) {
              throw e.getTargetException();
          }
      }

      private synchronized Map getCache(Method m) {
          Map cache = (Map) caches.get(m);
          if (cache == null) {
              cache = Collections.synchronizedMap(
                new HashMap()
              );
              caches.put(m, cache);
          }
          return cache;
      }
    }[/code]
        当调用静态方法memoize的时候,将会创建一个新的代理实例-也就是一个java.lang.reflect.proxy的实例.实现了一个接口集.这个接口集由object.getClass().getInterfaces()来决定.每个代理实例包含一个java.lang.reflect.InvocationHandler实例来处理这个代理实例调用的相关方法.在我们的例子里,Memoizer就是一个InvocationHandler实例.
        当一个方法在代理实例里被调用,比如, calculateBinaryDigit,那么, Memoizer实例里的invoke方法就会被调用,相关信息会传给invoke方法,以决定proxy实例调用了哪个方法,包含参数信息.在我们的例子里,传入Memoizer的java.lang.Method参数是calculateBinaryDigit,而参数信息则是pi需要精确的位数-整数n.在这个基础上,Memoizer能够进一步进行缓存操作的.
        在例子里(caches是一个Hashmap,cache是一个map)里用到的Key,主要是传入的方法信息:Method对象和参数对象. 为了实现的简单与通用性,Memoizer有一个关于cache的HashMap caches,每个method是一个key,对应的value为一个cache.然后把参数信息转化成一个List对象,作为cache的Key.使用List是很方便的,同时也可以保证equals()方法,所以能够保证当且仅当参数信息完全相同的时候这个List才相等.
        一旦一个cache的Key被创建,那么,计算之前都会先查找这个cache,如果找到,则返回cache里的值.否则,如果带有这些参数的这个方法没有被调用过,那么,则会通过invoke来调用这个method.在我们的例子里, 实例PiBinaryDigitsCalculator 里的calculateBinaryDigit方法将会通过invoke被调用.而且计算结果将会被存在cache里.

    何时使用Memoizer
        作为一条通用的规则,Memoizer能够在任何需要传统的cache的时候使用-比如上面提到的例子. 特别地,接口里每个需要使用记忆功能的method需要满足下面几条条件:
    1. 这个method的返回值最好不要每次调用都会改变
    2. 这个method不要有副效应
    3. 这个method的参数是确定的,非mutable的.

         显然,如果每次调用这个method返回值都不同,那么cache就毫无用处了.同样也是很重要的一点是,因为有副效应的method不会被重复,所以这个method不能有副效应(method自动更新某些状态).当然,void方法除外.

         同样,memorize一个带有未定(mutable)参数的method是很危险的,因为,要把这些参数储存到hashmap里会是很危险的一件事.根据Map的定义,当这个Map里的key发生改变,Map是不知道的.所以,当你执行了一次这个method之后,相关信息添加进了Map,然后参数发生变异(mutate),第二次调用的时候,就会得到错误的结果.

    性能
        使用cache的主要目的就是为了提升你的程序的速度.然而,reflection确是众所周知的低效(在jdk1.4里有所改进,通过reflection调用方法是普通调用速度的1/2,这个比jdk1.3要快40倍).Memoizer主要依靠reflection来调用方法,所以,它看上去并不是一个好的途径.但是,如果使用cache能给程序速度带来的提升远高于reflection对速度的影响,那么,使用Memoizer是值得考虑的.
        在我们对PiBinaryDigitsCalculator的测试中,测试环境为jdk1.4,当n小于10的时候,使不使用cache速度是相当的.但是,当n增大的时候,使用cache的优势就开始显示出来.所以,经常使用PiBinaryDigitsCalculator的用户,可以考虑使用cache.
        不幸的是,唯一测试你的程序是否需要cache的途径是比较你的程序在两种情况下的运行效率.尽管如此,因为为一个程序构造一个cache包装器是很容易的一件事,移除它也是很容易的,下面的建议可以作为一个参考的步骤:
    1. 选择需要记忆操作的类
    2. 运行它
    3. 如果效率是满意的,go to 6
    4. 添加memoizer,使用cache
    5. 如果效率没有显著提升,移初memoizer
    6. 如果需要,重试.

        理论上,你需要分析为一个类添加记忆功能对整个系统的影响.只有你自己清楚是否值得添加.有些方法,即使是计算量很大的,但是在这个系统里很少被调用,所以,没必要为它添加记忆功能.为了保证这个,我开发了一个更有特点的Memoizer,实现了一个叫做CacheStatistics的接口,你能从它得到cache的数量以及无效的cache.你可以使用它作为判断的一个尺度.

    扩展Memoizer

        修改Memoizer类来支持不同的cache策略是很简单的.一个比较普通的类型就是Least-Recently-Used(LRU)cahce,拥有固定数量的入口.这个cache确保入口不大于它的最大数目,如果超过,就摒弃最旧的缓存数据.也就是,能够从cache里得到的是新的数据.一个类可以使用LRU cache来防止一个程序长期保持一个状态.你可以仅仅传递一个参数给CacheFactory里的memoize方法来选择你需要的cache类型.下面的例子,LRU cache最多有1000个入口:
    BinaryDigitsCalculator calculator =
      (BinaryDigitsCalculator) Memoizer.memoize(
          new PiBinaryDigitsCalculator(),
          new LruCacheFactory(1000)
      );

       
    即使是这么简单,Memoizer也应该是java程序员一个有用的工具.

  • sql优化

     sql优化 document.title="sql优化 - "+document.title

     

     

    ( 网文共享, 欢迎交流 -- wego )

     

    Sql优化是一项复杂的工作,以下的一些基本原则是本人看书时所记录下来的,很明确且没什么废话:

     

    1  索引的使用:

    1.当插入的数据为数据表中的记录数量的10%以上,首先需要删除该表的索引来提高数据的插入效率,当数据插入后,再建立索引。

    2.避免在索引列上使用函数或计算,在where子句中,如果索引是函数的一部分,优化器将不再使用索引而使用全表扫描。如:

    低效:select * from dept where sal*12 >2500;

    高效:select * from dept where sal>2500/12;

    (3).避免在索引列上使用not !=”,索引只能告诉什么存在于表中,而不能告诉什么不存在于表中,当数据库遇到not !=”时,就会停止使用索引而去执行全表扫描。

    (4).索引列上>=代替>

     低效:select * from emp where deptno > 3

     高效:select * from emp where deptno >=4

    两者的区别在于,前者dbms将直接跳到第一个deptno等于4的记录,而后者将首先定位到deptno等于3的记录并且向前扫描到第一个deptno大于3的。

    (5).非要对一个使用函数的列启用索引,基于函数的索引是一个较好的方案。

     

    2. 游标的使用:

       当在海量的数据表中进行数据的删除、更新、插入操作时,用游标处理的效率是最慢的,但是游标又是必不可少的,所以正确使用游标十分重要:

       (1). 在数据抽取的源表中使用时间戳,这样每天的维表数据维护只针对更新日期为最新时间的数据来进行,大大减少需要维护的数据记录数。

       (2). insertupdate维表时都加上一个条件来过滤维表中已经存在的记录,例如:

    insert into dim_customer select * from ods_customer where ods_customer.code not exists (dim_customer.code)

     ods_customer为数据源表。dim_customer为维表。

       (3). 使用显式的游标,因为隐式的游标将会执行两次操作,第一次检索记录,第二次检查too many rows这个exception,而显式游标不执行第二次操作。

     

    3  据抽取和上载时的sql优化:

    (1). Where 子句中的连接顺序:

    oracle采用自下而上的顺序解析where子句,根据这个原理,表之间的连接必须写在其他where条件之前,那些可以过滤掉大量记录的条件必须写在where子句的末尾。如:

    低效:select * from emp e where sal>5000 and job = ‘manager’ and 25<(select count (*) from emp where mgr=e.empno);

    高效:select * from emp e where 25<(select count(*) from emp where mgr=e.empno) and sal>5000 and job=’manager’;

       (2). 删除全表时,用truncate 替代 delete,同时注意truncate只能在删除全表时适用,因为truncateddl而不是dml

       (3). 尽量多使用commit

    只要有可能就在程序中对每个delete,insert,update操作尽量多使用commit,这样系统性能会因为commit所释放的资源而大大提高。

       (4). exists替代in ,可以提高查询的效率。

       (5). not exists 替代 not in

       (6). 优化group by

    提高group by语句的效率,可以将不需要的记录在group by之前过滤掉。如:

    低效:select job, avg(sal) from emp group by job having job = ‘president’ or job=’manager’;

    高效: select job, avg(sal) from emp having  job=’president’ or job=’manager’ group by job;

       (7). 有条件的使用union-all 替代 union:这样做排序就不必要了,效率会提高35倍。

       (8). 分离表和索引

           总是将你的表和索引建立在不同的表空间内,决不要将不属于oracle内部系统的对象存放到system表空间内。同时确保数据表空间和索引表空间置于不同的硬盘控制卡控制的硬盘上。



    Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=614157

     

     

  • JavaScript极速狂飙:大容量字符型数组的快速检索

    JavaScript极速狂飙:大容量字符型数组的快速检索

    (好文共享, 欢迎交流 -- wego)


        JavaScript
    在大容量数组的循环方面效率不尽人意,我曾经做过一个比对,与VBS的数组相比较,VBS的数组循环速度大致比JS要快一个数量级(http://community.csdn.net/Expert/TopicView.asp?id=4313487)。JS数组在一般的编程当中我们也不会太去注意它的效率问题:才几十个元素的数组效率即使差点你也看不出来,但节点量一大,比如几千、比如上万个节点量的数组循环,那效率问题就成了首要考虑解决的问题了。大容量数组的检索大致有以下几个应用:selectcombo box时的快速匹配、树的查询、表格table排序或者检索等。

        下面我来做一个测试,首先我先创建一个大容量的数组:

        <SCRIPT LANGUAGE="JavaScript">
        var n = 100000; //
    数组的最大容量

        var a = new Array();
        for(var k=0; k<n; k++)
        {
          a[k] = Math.random() +"";
        }
        </SCRIPT>

        这样我就创建了一个长度为 100000 的字符型数组,然后我再检索字符串以 0.9999 开始的字符串,并存入另一个数组中。

        <SCRIPT LANGUAGE="JavaScript">
        var n = 100000; //
    数组的最大容量

        var a = new Array();
        for(var k=0; k<n; k++)
        {
          a[k] = Math.random() +"";
        }

        var begin = new Date().getTime();
        var b = new Array();
        for(var k=0; k<n; k++)
        {
          if(a[k].indexOf("0.9999")==0)
          {
            b[b.length] = a[k];
          }
        }
        document.write("
    数组长度:
    "+ n);
        document.write("<br>
    传统循环法耗时
    "+ (new Date().getTime() - begin)
        +"
    毫秒!检索的结果:
    <strong title='"+ b.join("&#13;")
        +"'>
    检索到 "+ b.length +" 个记录!
    </strong>");
        </SCRIPT>

        这步操作我这里耗时都在2800毫秒左右,说明一下,这里的循环非常简单,只有一个 if 判断和一个赋值操作,非常简单,若这里的判断稍微复杂一些那它的耗时将是数量级的增大。那么对于这种问题有什么好的优化方案吗?答案当然是有的,否则我开这个贴子说的全是费话了。但是对于这个问题不能再使用我们的传统思维来优化,因为在传统的思维里已经找不出再好的写法了。

        解决的方案就是:先把数组join()成一个大字符串,然后用正则表达式对这个大字符串进行匹配检索。这个方法算是我的个人独创吧,在我写树的过程中想出的歪招,不过效率真的不赖。关于join()的效率我已经开贴讨论过了(http://blog.csdn.net/meizz/archive/2005/12/14/552260.aspx  JavaScript极速狂飙:组合拼接字符串的效率)。这个优化方案需要有一定的正则表达式功底。

    <input id="count" value="50000" size="7" maxlength="6">
    <input type="button" value="
    数组初始华
    " onclick="txt.innerHTML = array_init()"><br>
    <input type="button" value="
    传统循环
    " onclick="txt.innerHTML += method_for()">
    <input type="button" value="
    正则匹配
    " onclick="txt.innerHTML += method_regexp()">
    <div id="txt"></div>

    <SCRIPT LANGUAGE="JavaScript">
    var txt = document.getElementById("txt");
    var a = new Array();

    function array_init()
    {
        var n = parseInt(document.getElementById("count").value);
        a.length = 0;
        for(var k=0; k<n; k++)
        {
          a[k] = Math.random() +"";
        }
        return "
    数组长度:
    "+ n;
    }

    function method_for()
    {
        var n = a.length;
        var begin = new Date().getTime();
        var b = new Array();
        for(var k=0; k<n; k++)
        {
          if(a[k].indexOf("0.9999")==0)
          {
            b[b.length] = a[k];
          }
        }
        return ("<br>
    传统循环法耗时
    "+ (new Date().getTime() - begin)
        +"
    毫秒!检索的结果:
    <strong title='"+ b.join("&#13;")
        +"'>
    检索到 "+ b.length +" 个记录!
    </strong>");
    }

    function method_regexp()
    {
        var begin = new Date().getTime();
        var b = new Array();
        var s = a.join("\x0f");
        var r = new RegExp().compile("0\\.9999\\d+", "g");
        b = s.match(r);   s = "";
        return ("<br>
    正则匹配法耗时
    "+ (new Date().getTime() - begin)
        +"
    毫秒!检索的结果:
    <strong title='"+ b.join("&#13;")
        +"'>
    检索到 "+ b.length +" 个记录!
    </strong>");
    }
    </SCRIPT>

        大家可以测试一下,上面两种方法之间的效率到底相差多少!代码是死的,人是活的,换一种思维换一种模式,效率将大相径庭。

     

Copyright SDT, 2006-2009. All rights reserved.